Lectures On GeneralRelativity - Sean - M - Carroll - SP2

Notas de Conferencias sobre Relatividad General
(Lecture Notes on General Relativity)

Sean M. Carroll
Institute for Theoretical Physics
University of California
arXiv:gr-qc/9712019v1 3 Dec 1997
Santa Barbara, CA 93106 carroll@itp.ucsb.edu
December 1997
Resumen
Estos apuntes representan aproximadamente el valor de un semestre de conferencias sobre
relatividad general introductoria para estudiantes de posgrado principiantes en física. Los
temas incluyen las variedades, la geometría de Riemann, las ecuaciones de Einstein y tres
aplicaciones: radiación gravitacional, agujeros negros y cosmología. Los capítulos
individuales, y las versiones potencialmente actualizadas, pueden encontrarse en
http://itp.ucsb.edu/~carroll/notes/.
NSF-ITP/97-147 gr-qc/9712019
i
*** Nota del traductor ***

Esta es una traducción realizada por mi cuenta (*),
ya que el documento original se encuentra accesible
en la Web en formato pdf.
Agradezco a los lectores me remitan cualquier
sugerencia, corrección, etc. que consideren
oportuno.
Jon A. Gomez – Ingº Industrial EHU/UPV-
Bilbao (Basque Country), Agosto 2022
(*) He intentado contactar con el Prof. Carroll, sin éxito.
ii
Tabla de Contenidos
0. Introducción tabla de contenidos — prefacio — bibliografía
1. Relatividad especial y Espacio Plano — el intervalo espaciotiempo — la métrica

—transformaciones de Lorentz — diagramas espaciotiempo— vectores — el espacio
tangente — vectores duales— tensores — productos tensoriales — el tensor Levi-
Civita — manipulación de índices— electromagnetismo — formas diferenciales —
dualidad de Hodge — líneas del mundo — tiempo propio — vector energía-momento
— tensor energía-momento — fluidos perfectos — conservación de energía-
momento
2. Ejemplos de variedades — no-ejemplos — mapas — continuidad — la regla de la

cadena— open sets — cartas y atlas— variedades — ejemplos de cartas —
diferenciación — vectores como derivadas — bases coordenadas— la ley de
transformación de tensores— las derivadas parciales no son tensores — otra vez la
métrica — forma canónica de la métrica — coordenadas normales de Riemann—
densidades de tensores — formas volumen e integración
3. Derivadas covariantes de la curvatura y conexiones — coeficientes de

conexión— propiedades de transformación — la conexión de Christoffel—
estructuras en variedades — transporte paralelo— el propagador paralelo—
geodésicas — parámetros afines — el mapa exponencial — el tensor de curvatura de
Riemann— simetrías del tensor de Riemann — la identidad de Bianchi — tensores
de Ricci y Einstein — el tensor de Weyl — ejemplos sencillos— desviación geodésica
— tétradas y bases no-coordinadas— las conexiones spin — ecuaciones de la
estructura Maurer-Cartan — haces de fibra (“fiber bundles”) y transformaciones
calibradas (“gauge transformations”)
4. Gravitación — el Principio de Equivalencia— desplazamiento gravitacional

(“gravitacional redshift”) — la gravitación como curvatura del espaciotiempo — el
límite Newtoniano — la física en el espaciotiempo curvo— ecuaciones de Einstein —
la acción de Hilbert — de nuevo el tensor energía-momento — la condición de
Energía Débil (“Weak Energy Condition”) — teorías alternativas — el problema del
valor inicial — invarianza de calibre (“gauge invariance”) y calibración armónica —
dominios de dependencia — causalidad
5. Más Geometría- arrastres y empujes (“pullbacks and pushforwards”) —

difeomorfismos — curvas integrales — derivadas de Lie— el tensor energía-
momento una vez más — isometrías y vectores de Killing
6. Campos débiles y Radiación Gravitacional — el límite del campo débil definido—
gauge transformations — ecuaciones de Einstein linealizadas — ondas planas
gravitacionales— calibre transversal sin trazas — polarizaciones — radiación
gravitacional mediante fuentes — pérdida de energía
7. La solución de Schwarzschild y Agujeros Negros — simetría esférica — la métrica

de Schwarzschild — el teorema de Birkhoff — geodésicas de Schwarzschild —
órbitas Newtonianas vs. Relativísticas— precesión del perihelio — el horizonte de
eventos — agujeros negros— coordenadas de Kruskal — formación de agujeros
iii
negros — diagramas de Penrose — infinitud conformal — sin pelo — agujeros negros

cargados — el censor cósmico — agujeros negros extremos— agujeros negros
rotativos— tensores de Killing — el proceso de Penrose — masa irreducible—
termodinámica de los agujeros negros
8. Homogeneidad e Isotropía Cosmológicas— la métrica de Robertson-Walker —

formas de energía y momento — ecuaciones de Friedmann — parámetros
cosmológicos — evolución del factor de escala— deslazamiento al rojo (“redshift”) —
ley de Hubble
iv
Prefacio
Estas conferencias representan un curso de postgrado de introducción a la relatividad
general, tanto en sus fundamentos como en sus aplicaciones. Son una versión ligeramente
editada de los apuntes que repartí mientras enseñaba Física 8.962, el curso de posgrado en
RG en el MIT, durante la primavera de 1996. Aunque se denominan apropiadamente
"apuntes de clase", el nivel de detalle es bastante alto, incluyendo todos los pasos necesarios
o dejando lagunas que pueden ser fácilmente rellenadas por el lector. No obstante, estos
apuntes difieren de un libro de texto en varios aspectos; el más importante es que no están
organizados en secciones cortas que puedan abordarse en distintos órdenes, sino que están
pensados para ser leídos de principio a fin. Se ha hecho un esfuerzo especial para mantener
un tono conversacional, en un intento de ir un poco más allá de los resultados desnudos en
sí mismos y entrar en el contexto al que pertenecen.
La cuestión principal a la que se enfrenta cualquier tratamiento introductorio de la
relatividad general es el nivel de rigor matemático con el que operar. No hay una solución
única y adecuada, ya que diferentes estudiantes responderán con diferentes niveles de
comprensión y entusiasmo a diferentes enfoques. Reconociendo esto, he tratado de ofrecer
algo para todos. Las clases no huyen del formalismo detallado (como por ejemplo en la
introducción a las variedades), sino que también intentan incluir ejemplos concretos y
discusiones informales sobre los conceptos que se estudian.
Dado que se anuncian como apuntes de clase y no como un texto original, a veces he robado
descaradamente de varios libros existentes sobre el tema (especialmente los de Schutz,
Wald, Weinberg, y Misner, Thorne y Wheeler). Mi filosofía nunca ha sido buscar la
originalidad por sí misma; sin embargo, a veces se ha colado la originalidad sólo porque
pensaba que podía ser más claro que los tratamientos existentes. Ninguna parte del material
de estas notas es nueva; la única razón para leerlas es si un lector individual encuentra las
explicaciones aquí más fáciles de entender que las de otros lugares.
Las limitaciones de tiempo durante el semestre actual me impidieron cubrir algunos temas
con la profundidad que merecían, siendo un ejemplo obvio el tratamiento de la cosmología.
Si el tiempo y la motivación lo permiten, es posible que amplíe y revise los apuntes
existentes; las versiones actualizadas estarán disponibles en
http://itp.ucsb.edu/~carroll/notes/. Por supuesto, agradeceré que se me señale cualquier
error tipográfico o científico, así como sugerencias de mejora de todo tipo.
Numerosas personas han contribuido en gran medida tanto a mi propia comprensión de la
relatividad general como a estas notas en particular, demasiadas para reconocerlas con
alguna esperanza de ser completas. Hay que agradecer especialmente a Ted Pyne, que
aprendió el tema conmigo, me enseñó mucho y colaboró en un curso predecesor de este que
impartimos como seminario en el departamento de astronomía de Harvard. Nick Warner
impartió el curso de posgrado en el MIT que yo tomé antes de impartirlo, y sus apuntes
fueron (como la comparación revelará) una importante influencia en estos. George Field me
dio muchos consejos y me animó mientras aprendía la asignatura y me esforzaba por
enseñarla. Tamás Hauer se esforzó conmigo como ayudante de cátedra en 8.962 y fue una
ayuda inestimable. Todos los alumnos de 8.962 merecen un agradecimiento por tolerar mi
idiosincrasia y por impulsarme a alcanzar niveles de precisión cada vez mayores.
Durante la redacción de estas notas he contado con el apoyo del contrato del Departamento
de Energía de EE.UU. nº. DE-AC02-76ER03069 y las becas PHY/92-06867 y PHY/94-07195
de la National Science Foundation.
v
Bibliografía
El nivel de dificultad típico (sobre todo matemático) de los libros se indica con un número
de asteriscos, uno que significa principalmente introductorio y tres que es avanzado. Los
asteriscos están normalizados con respecto a estos apuntes de clase, que les daríamos [**].
Los cuatro primeros libros fueron consultados con frecuencia en la preparación de estos
apuntes, los siete siguientes son otros textos de relatividad que he encontrado útiles, y los
cuatro últimos son referencias matemáticas de fondo.
• B.F. Schutz, A First Course in General Relativity (Cambridge, 1985) [*]. Este es un texto
introductorio muy agradable. Especialmente útil si, por ejemplo, no tienes muy claro
qué significa realmente el tensor energía-momento.
• S. Weinberg, Gravitation and Cosmology (Wiley, 1972) [**]. Un libro realmente bueno
en lo que hace, especialmente fuerte en astrofísica, cosmología y pruebas
experimentales. Sin embargo, adopta un inusual enfoque no geométrico del material,
y no discute los agujeros negros.
• C. Misner, K. Thorne and J. Wheeler, Gravitation (Freeman, 1973) [**]. Un libro

pesado, en varios sentidos. La mayoría de las cosas que quieres saber están aquí,
aunque puede que tengas que trabajar duro para llegar a ellas (quizás aprendiendo
algo inesperado en el proceso).
• R. Wald, General Relativity (Chicago, 1984) [***]. Discute a fondo una serie de temas
avanzados, como los agujeros negros, la estructura global y los espinores. El enfoque
es más exigente desde el punto de vista matemático que el de los libros anteriores, y
los fundamentos se cubren con bastante rapidez.
• E. Taylor and J. Wheeler, Spacetime Physics (Freeman, 1992) [*]. Una Buena
introducción a la relatividad especial.
• R. D’Inverno, Introducing Einstein’s Relativity (Oxford, 1992) [**]. Un libro que no he

mirado con detenimiento, pero parece que se tratan todos los temas adecuados sin
que se note la distorsión ideológica.
• A.P. Lightman, W.H. Press, R.H. Price, and S.A. Teukolsky, Problem Book in Relativity
and Gravitation (Princeton, 1975) [**]. Una considerable colección de problemas en
todas las áreas de la RG, con soluciones completamente trabajadas, lo que hace aún
más difícil para los instructores inventar problemas para los que los estudiantes no
pueden encontrar fácilmente las respuestas.
• N. Straumann, General Relativity and Relativistic Astrophysics (Springer-Verlag, 1984)

[***]. Un libro de bastante alto nivel, que comienza con una buena cantidad de
geometría abstracta y pasa a discusiones detalladas de la estructura estelar y otros
temas astrofísicos.
vi
• F. de Felice and C. Clarke, Relativity on Curved Manifolds (Cambridge, 1990) [***]. Un

enfoque matemático, pero con un excelente énfasis en las cantidades físicamente
medibles.
• S. Hawking and G. Ellis, The Large-Scale Structure of Space-Time (Cambridge, 1973)

[***]. Un libro avanzado que hace hincapié en las técnicas globales y los teoremas de
singularidad.
• R. Sachs and H. Wu, General Relativity for Mathematicians (Springer-Verlag, 1977)

[***]. Justo lo que dice el título, aunque el estilo de prosa matemática, típicamente
seco, se anima aquí con frecuentes apuntes de opinión sobre la física y las
matemáticas (y el estado del mundo).
• B. Schutz, Geometrical Methods of Mathematical Physics (Cambridge, 1980) [**]. Otro

buen libro de Schutz, este cubre algunos puntos matemáticos que quedan fuera del
libro de RG (pero a un nivel muy accesible). Incluye discusiones sobre las derivadas
de Lie, formas diferenciales y aplicaciones a la física distinta de la RG.
• V. Guillemin and A. Pollack, Differential Topology (Prentice-Hall, 1974) [**]. Un

entretenido estudio de las variedades, la topología, las formas diferenciales y la teoría
de la integración.
• C. Nash and S. Sen, Topology and Geometry for Physicists (Academic Press, 1983) [***].
Incluye homotopía, homología, haces de fibras y teoría de Morse, con aplicaciones a
la física; algo conciso.
• F.W. Warner, Foundations of Differentiable Manifolds and Lie Groups (SpringerVerlag,

1983) [***].El texto estándar en este campo, incluye temas básicos como las
variedades y los campos tensoriales, así como temas más avanzados.
1 RELATIVIDAD ESPECIAL Y ESPACOTIEMPO PLANO 1
1. Relatividad Especial y espacio Plano

Comenzaremos con un viaje relámpago por la relatividad especial (RS) y la vida en el
espaciotiempo plano. El objetivo es recordar en qué consiste la RS e introducir los tensores
y los conceptos relacionados que serán cruciales más adelante, sin las complicaciones
adicionales de la curvatura por encima de todo lo demás. Por lo tanto, en esta sección
trabajaremos siempre en un espaciotiempo plano y, además, sólo utilizaremos coordenadas
ortonormales (de tipo cartesiano). Ni que decir tiene que es posible hacer la RS en cualquier
sistema de coordenadas que se quiera, pero resulta que introducir las herramientas
necesarias para hacerlo nos llevaría de todos modos a la mitad de los espacios curvos, así
que lo dejaremos para más adelante.
Se suele decir que la relatividad especial es una teoría del espaciotiempo de 4 dimensiones:
tres de espacio, una de tiempo. Pero, por supuesto, el mundo anterior a la relatividad de la
mecánica newtoniana presentaba tres dimensiones espaciales y un parámetro temporal. Sin
embargo, no hubo mucha tentación de considerarlas como aspectos diferentes de un único
espaciotiempo de 4 dimensiones. ¿Por qué no?
t
espacio en
x, y, z
un tiempo fijo
Consideremos un plano bidimensional cualquiera. Normalmente es conveniente etiquetar

los puntos de dicho plano introduciendo coordenadas, por ejemplo, definiendo ejes x e y
ortogonales y proyectando cada punto sobre estos ejes de la forma habitual. Sin embargo,
es evidente que la mayoría de los hechos geométricos interesantes del plano son
independientes de nuestra elección de coordenadas. Como ejemplo sencillo, podemos
considerar la distancia entre dos puntos, dada por
s2 = (△ 𝑥) + (△ 𝑦) . (1.1)
En un sistema de coordenadas cartesianas diferente, definido por los ejes x′ e y′ girados

respecto a los originales, la fórmula de la distancia no se altera
s2 = (△ 𝑥 ) + (△ 𝑦 ) . (1.2)
Por lo tanto, decimos que la distancia es invariante bajo tales cambios de coordenadas.
y’ y
∆s
∆y
∆y’
x’
∆x’
x
∆x
Por eso es útil considerar el plano como bidimensional: aunque utilicemos dos números
distintos para etiquetar cada punto, los números no son la esencia de la geometría, ya que
podemos girar los ejes entre sí dejando las distancias y demás sin cambios. En la física
newtoniana no ocurre lo mismo con el espacio y el tiempo; no existe una noción útil de
rotación del espacio y el tiempo entre sí. Más bien, la noción de "todo el espacio en un solo
momento del tiempo" tiene un significado independiente de las coordenadas.
Este no es el caso en la RS. Consideremos las coordenadas (t,x,y,z) en el espaciotiempo,
establecidas de la siguiente manera. Las coordenadas espaciales (x,y,z) constituyen un
sistema cartesiano estándar, construido, por ejemplo, soldando varillas rígidas que se
encuentran en ángulo recto. Las varillas deben moverse libremente, sin acelerar. La
coordenada temporal está definida por un conjunto de relojes que no se mueven con
respecto a las coordenadas espaciales. (Como se trata de un experimento mental,
imaginamos que las varillas son infinitamente largas y que hay un reloj en cada punto del
espacio). Los relojes están sincronizados en el siguiente sentido: si se viaja de un punto del
espacio a otro cualquiera en línea recta y a velocidad constante, la diferencia de tiempo
entre los relojes de los extremos del viaje es la misma que si se hubiera hecho el mismo
viaje, a la misma velocidad, en la otra dirección. El sistema de coordenadas así construido
es un marco inercial.
Un evento o suceso se define como un único momento en el espacio y el tiempo,
caracterizado unívocamente por (t,x,y,z). A continuación, sin motivación alguna por el
momento, introduzcamos el intervalo espaciotiempo entre dos sucesos:
𝑠 = − (𝑐 △ 𝑡) + (△ 𝑥) + (△ 𝑦) + (△ 𝑧) . (1.3)
(Obsérvese que puede ser positivo, negativo o cero incluso para dos puntos no idénticos).
Aquí, c es un factor de conversión fijo entre el espacio y el tiempo; es decir, una velocidad
fija. Lo importante no es que los fotones viajen a esa velocidad, sino que exista una c tal que
el intervalo espacio-tiempo sea invariable bajo cambios de coordenadas. En otras palabras,
si establecemos un nuevo marco inercial (t′,x′,y′,z′) repitiendo nuestro procedimiento
anterior, pero permitiendo un desplazamiento en la posición inicial, el ángulo y la velocidad
entre las nuevas barras y las antiguas, el intervalo no cambia:
𝑠 = − (𝑐 △ 𝑡′) + (△ 𝑥′) + (△ 𝑦′) + (△ 𝑧′) . (1.4)

Por eso tiene sentido pensar en la RS como una teoría del espaciotiempo de 4 dimensiones,
conocido como espacio de Minkowski. (Se trata de un caso especial de una variedad de 4
dimensiones, de la que nos ocuparemos en detalle más adelante). Como veremos, las
transformaciones de coordenadas que hemos definido implícitamente hacen, en cierto
sentido, girar el espacio y el tiempo entre sí. No existe una noción absoluta de "eventos
simultáneos"; que dos cosas ocurran al mismo tiempo depende de las coordenadas
utilizadas. Por tanto, la división del espacio de Minkowski en espacio y tiempo es una
elección que hacemos para nuestros propios fines, no algo intrínseco a la situación.
Casi todas las "paradojas" asociadas a la RS son el resultado de la obstinada persistencia de
las nociones newtonianas de una única coordenada temporal y de la existencia del "espacio
en un único momento del tiempo". Al pensar en términos de espaciotiempo en lugar de
espacio y tiempo juntos, estas paradojas tienden a desaparecer.
Introduzcamos una notación conveniente. Las coordenadas en el espaciotiempo se
denotarán con letras con índices griegos de superíndice que van de 0 a 3, con el 0
generalmente denotando la coordenada de tiempo. Así,
𝑥 = ct
𝑥 = 𝑥
𝑥 : 𝑥 = 𝑦 1.5)
𝑥 = 𝑧
(No empiecen a pensar en los superíndices como exponentes.) Además, en aras de la
simplicidad elegiremos unidades en las que
c = 1; (1.6)
𝑥 = 𝑥
𝑥 : 𝑥 = 𝑦 (1.7)
𝑥 = 𝑧
Por lo tanto, omitiremos los factores de c en todas las fórmulas posteriores. Empíricamente
sabemos que c es la velocidad de la luz, 3×10 metros por segundo; por tanto, trabajamos
en unidades en las que 1 segundo equivale a 3×10 metros. A veces será útil referirse a las
componentes espaciales y temporales de 𝑥 por separado, por lo que utilizaremos
superíndices latinos para representar sólo las componentes espaciales:
𝑥 = 𝑥
𝑥 : 𝑥 = 𝑦 (1.7)
𝑥 = 𝑧
También es conveniente escribir el intervalo de espaciotiempo en una forma más compacta.
Por lo tanto, introducimos una matriz de 4 × 4, la métrica, que escribimos utilizando dos
índices inferiores:
−1 0 0 0
0 1 0 0
𝜂 = . (1.8)
0 0 1 0
0 0 0 1
(Algunas referencias, especialmente los libros de teoría de campos, definen la métrica con
el signo contrario, así que hay que tener cuidado). Entonces tenemos la bella fórmula
s2 = ηµν∆xµ∆xν . (1.9)
Obsérvese que utilizamos la convención de la suma, en la que los índices que aparecen
como superíndices y subíndices se suman. El contenido de (1.9) es, por tanto, el mismo que
el de (1.3).
Ahora podemos considerar las transformaciones de coordenadas en el espaciotiempo a un

nivel algo más abstracto que antes. ¿Qué tipo de transformaciones dejan invariante el
intervalo (1.9)? Una variedad sencilla son las traslaciones, que simplemente desplazan las
coordenadas:
𝑥 →𝑥 =𝑥 +𝑎 , (1.10)
donde 𝑎 es un conjunto de cuatro números fijos. (Obsérvese que ponemos la tilde prima
en el índice, no en la 𝑥.) Las transformaciones dejan las diferencias △ 𝑥 sin cambiar, por lo
que no es destacable que el intervalo no cambie. El único otro tipo de transformación lineal
es multiplicar 𝑥 por una matriz (independiente del espacio-tiempo):
𝑥 =Λ 𝑥 , (1.11)
o, en notación matricial más convención,
𝑥 = Λ𝑥. (1.12)
Estas transformaciones no dejan inalteradas las diferencias ∆xµ, sino que las multiplican
también por la matriz Λ. ¿Qué tipo de matrices dejarán invariante el intervalo? Siguiendo
con la notación matricial, lo que nos gustaría es
s2 = (△ 𝑥) 𝜂(△ 𝑥) = (△ 𝑥′) 𝜂(△ 𝑥′)
= (△ 𝑥) Λ 𝜂(△ 𝑥), (1.13)
y por lo tanto
η = ΛTηΛ , (1.14)
o
𝜂 =Λ Λ 𝜂 . (1.15)
Queremos encontrar las matrices 𝛬 tales que las componentes de la matriz 𝜂 sean las
mismas que las de 𝜂 ; eso es lo que significa que el intervalo sea invariante bajo estas
transformaciones.
Las matrices que satisfacen (1.14) se conocen como las transformaciones de Lorentz; el
conjunto de ellas forma un grupo bajo la multiplicación de matrices, conocido como el
grupo de Lorentz. Existe una estrecha analogía entre este grupo y O(3), el grupo de
rotación en el espacio tridimensional. El grupo de rotación puede considerarse como
matrices R de 3 × 3 que satisfacen
1=𝑅 1R, (1.16)
donde 1 es la matriz de identidad 3 × 3. La similitud con (1.14) debería ser clara; la única
diferencia es el signo menos en el primer término de la métrica η, que significa la dirección
temporal. Por lo tanto, el grupo de Lorentz suele denominarse O(3,1). (La matriz de
identidad 3 × 3 es simplemente la métrica del espacio plano ordinario. Dicha métrica, en la
que todos los valores propios son positivos, se denomina euclidiana, mientras que aquellas
como (1.8) que presentan un único signo negativo se denominan lorentzianas).
Las transformaciones de Lorentz se dividen en varias categorías. En primer lugar están las
rotaciones convencionales, como una rotación en el plano x-y:
1 0 0 0
0 cos𝜃 senθ 0
Λ = . (1.17)
0 −senθ cos𝜃 0
0 0 0 1
El ángulo de rotación θ es una variable periódica con período 2π. También hay
potenciadores (“boosts”) , que pueden considerarse como "rotaciones entre las
direcciones del espacio y del tiempo". Un ejemplo viene dado por
𝑐osh𝜙 0 0 0
−senh𝜙 𝑐osh𝜙 0 0
Λ = . (1.18)
0 0 1 0
0 0 0 1
El parámetro de refuerzo (“boost”) 𝜙, a diferencia del ángulo de rotación, se define de -∞ a

∞. Tambié n hay transformaciones discretas que invierten la direcció n del tiempo o una o
más de las direcciones espaciales. (Cuando se excluyen éstas tenemos el grupo de Lorentz
propio, SO(3,1)). Se puede obtener una transformación general multiplicando las
transformaciones individuales; la expresión explícita de esta matriz de seis parámetros
(tres “boosts”, tres rotaciones) no es lo suficientemente bonita o útil como para molestarse
en escribirla. En general, las transformaciones de Lorentz no conmutan, por lo que el grupo
de Lorentz no es abeliano. El conjunto de traslaciones y transformaciones de Lorentz es un
grupo no abeliano de diez parámetros, el grupo de Poincaré.
No debería sorprendernos saber que los refuerzos (“boosts”) corresponden al cambio de
coordenadas al pasar a un marco que viaja a velocidad constante, pero veámoslo más
explícitamente. Para la transformación dada por (1.18), las coordenadas transformadas t′ y
x′ vendrán dadas por
t′ = tcosh∅ − xsenh∅
x′ = −tsenh∅ + xcosh∅ . (1.19)
De esto vemos que el punto definido por x′ = 0 se mueve; su velocidad es
∅
v= = (1.20)
∅
Para traducirlo a una notación más pedestre, podemos sustituir ∅ = tanh 𝑣 para obtener
t′ = γ (t − vx)
x′ = γ (x − vt) (1.21)
donde 𝛾 = 1/√1 − 𝑣 .
Así que, efectivamente, nuestro enfoque abstracto ha recuperado las expresiones
convencionales para las transformaciones de Lorentz. La aplicación de estas fórmulas
conduce a la dilatación del tiempo, la contracción de la longitud, etc.
Una herramienta extremadamente útil es el diagrama espaciotempo, así que consideremos
el espacio de Minkowski desde este punto de vista. Podemos empezar representando los
ejes iniciales t y x en (lo que así se considera convencionalmente ) ángulos rectos, y
suprimiendo los ejes y y z. Entonces, según (1.19), bajo un impulso (“boost”) en el plano x-t
el eje x′ (t′ = 0) viene dado por t = xtanh∅, mientras que el eje t′ (x′ = 0) viene dado por t =
x/tanh∅. Por lo tanto, vemos que los ejes espacial y temporal están girados entre sí, aunque
se cortan en tijera en lugar de permanecer ortogonales en el sentido euclídeo tradicional.
(Como veremos, los ejes sí permanecen ortogonales en el sentido lorentziano). Esto no
debería sorprender, ya que si el espaciotiempo se comportara como una versión

cuatridimensional del espacio, el mundo sería un lugar muy diferente.
También es esclarecedor considerar las trayectorias correspondientes al viaje a la velocidad
c = 1. Éstas vienen dadas en el sistema de coordenadas original por x = ±t. En el nuevo
sistema, un momento de reflexión revela que las trayectorias definidas por x′ = ±t′ son
precisamente las mismas que las definidas por x = ±t; estas trayectorias quedan invariantes
bajo las transformaciones de Lorentz. Por supuesto, sabemos que la luz viaja a esta
velocidad; por tanto, hemos comprobado que la velocidad de la luz es la misma en cualquier
marco inercial. Un conjunto de puntos que están todos conectados a un mismo evento por
t
t’
x=-t x=t
x’ = - t’ x’ = t’
x’
El conjunto de líneas rectas que se mueven a la velocidad de la luz se llama cono de luz; este
conjunto es invariante bajo las transformaciones de Lorentz. Los conos de luz se dividen
naturalmente en futuros y pasados; el conjunto de todos los puntos dentro de los conos de
luz futuros y pasados de un punto p se denominan separados temporalmente (“timelike
separated”) de p, mientras que los que están fuera de los conos de luz están separados
espacialmente (“spacelike separated”) y los que están en los conos son separados
lumínicamente o nulos (“lightlike or null separated”) de p. Volviendo a (1.3), vemos que
el intervalo entre puntos separados temporalmente es negativo, entre puntos separados
espacialmente es positivo y entre puntos separados nulos es cero. (El intervalo se define
como 𝑠 , no como la raíz cuadrada de esta cantidad.) Nótese la distinción entre esta
situación y la del mundo newtoniano, en el cual es imposible decir (de forma independiente
de las coordenadas) si un punto separado espacialmente de p está en el futuro de p, en el
pasado de p, o "al mismo tiempo".
Para profundizar en la estructura del espacio de Minkowski, es necesario introducir los
conceptos de vectores y tensores. Empezaremos con los vectores, que deberían ser
familiares. Por supuesto, en el espaciotiempo los vectores son cuatridimensionales, y a
menudo se les denomina cuadrivectores (“four-vectors”). Esto supone una gran
diferencia; por ejemplo, no existe cosas como el producto cruzado entre dos cuadrivectores.
Más allá del simple hecho de la dimensionalidad, lo más importante a destacar es que cada
vector se encuentra en un punto determinado del espaciotiempo. Es posible que estéis
acostumbrados a pensar en vectores que se extienden de un punto a otro del espacio, e
incluso en vectores "libres" que puedes deslizar despreocupadamente de un punto a otro.
Estos conceptos no son útiles en la relatividad. Más bien, a cada punto p del espaciotiempo
le asociamos el conjunto de todos los vectores posibles situados en ese punto; este conjunto
se conoce como el espacio tangente en p, o Tp. El nombre se inspira en la idea de que el
conjunto de vectores unidos a un punto en un espacio bidimensional curvo simple

comprende un plano que es tangente al punto. Pero, dejando a un lado la inspiración, es
importante pensar que estos vectores están situados en un único punto, en lugar de
extenderse de un punto a otro. (Aunque esto no nos impedirá dibujarlos como flechas en los
diagramas del espaciotiempo).
Tp
variedad
M
Más adelante relacionaremos el espacio tangente en cada punto con cosas que podemos
construir a partir del propio espaciotiempo. Por ahora, pensemos en Tp como un espacio
vectorial abstracto para cada punto del espaciotiempo. Un espacio vectorial (real) es una
colección de objetos ("vectores") que, a grandes rasgos, pueden sumarse y multiplicarse por
números reales de forma lineal. Así, para dos vectores cualesquiera V y W y números reales
a y b, tenemos
(a + b)(V + W) = aV + bV + aW + bW . (1.22)
Todo espacio vectorial tiene un origen, es decir, un vector cero que funciona como elemento
de identidad en la suma de vectores. En muchos espacios vectoriales existen operaciones
adicionales, como la toma de un producto interno (producto punto o “dot product”), pero se
trata de una estructura adicional al concepto elemental de espacio vectorial.
Un vector es un objeto geométrico perfectamente definido, al igual que un campo vectorial,
definido como un conjunto de vectores con exactamente uno en cada punto del
espaciotiempo. (El conjunto de todos los espacios tangentes de una variedad M se llama haz
tangente (“tangent bundle”), T(M)). Sin embargo, a menudo es útil para fines concretos
descomponer los vectores en componentes con respecto a algún conjunto de vectores base.
Una base es cualquier conjunto de vectores que abarca el espacio vectorial (cualquier
vector es una combinación lineal de vectores base) y es linealmente independiente (ningún
vector de la base es una combinación lineal de otros vectores base). Para cualquier espacio
vectorial, habrá un número infinito de bases legítimas, pero cada base estará formada por
el mismo número de vectores, conocido como la dimensión del espacio. (Para un espacio
tangente asociado a un punto del espacio de Minkowski, la dimensión es, por supuesto,
cuatro).
Imaginemos que en cada espacio tangente establecemos una base de cuatro vectores 𝑒̂( )
con µ ∈ {0,1,2,3} como es habitual. De hecho, digamos que cada base está adaptada a las
coordenadas 𝑥 ; es decir, el vector base 𝑒̂( ) es el que normalmente pensaríamos que apunta
al eje x, etc. No es en absoluto necesario que elijamos una base que se adapte a cualquier
sistema de coordenadas, aunque a menudo es conveniente. (Realmente podríamos ser más
precisos aquí, pero más adelante repetiremos la discusión con un nivel de precisión
insoportable, por lo que ahora se puede perdonar algún descuido). Entonces, cualquier
vector abstracto A puede escribirse como una combinación lineal de vectores base:
A = 𝐴 𝑒̂ ( ) . (1.23)
Los coeficientes 𝐴 son los componentes del vector A. A menudo nos olvidaremos de la
base por completo y nos referiremos a "el vector 𝐴 ", pero tengamos en cuenta que se trata
de una abreviatura. El vector real es una entidad geométrica abstracta, mientras que las
componentes son sólo los coeficientes de los vectores base en alguna base conveniente.
(Dado que normalmente suprimimos los vectores base explícitos, los índices suelen
etiquetar componentes de vectores y tensores. Por eso hay paréntesis alrededor de los
índices de los vectores base, para recordarnos que se trata de una colección de vectores, no
de componentes de un solo vector).
Un ejemplo estándar de vector en el espaciotiempo es el vector tangente a una curva. Una
curva o trayectoria parametrizada a través del espaciotiempo está especificada por las
coordenadas en función del parámetro, por ejemplo, 𝑥 (λ). El vector tangente V(λ) tiene
componentes
𝑉 = . (1.24)
El vector completo es, pues, V = 𝑉 𝑒̂ ( ) . Bajo una transformación de Lorentz las coordenadas
xµ cambian de acuerdo con (1.11), mientras que la parametrización λ permanece inalterada;
por tanto, podemos deducir que las componentes del vector tangente deben cambiar como
𝑉 →𝑉 =Λ 𝑉 . (1.25)
Sin embargo, el vector en sí mismo (a diferencia de sus componentes en algún sistema de
coordenadas) es invariante bajo transformaciones de Lorentz. Podemos utilizar este hecho
para derivar las propiedades de transformación de los vectores base. Llamemos al conjunto
de vectores base en el sistema de coordenadas transformado 𝑒̂ . Como el vector es
invariante, tenemos
V = 𝑉 𝑒̂ ( ) = 𝑉 𝑒̂
=Λ 𝑉 𝑒̂ . (1.26)
Pero esta relación debe mantenerse independientemente de los valores numéricos de los
componentes 𝑉 . Por lo tanto, podemos decir
𝑒̂ ( ) =Λ 𝑒̂ . (1.27)
Para obtener la nueva base 𝑒̂ en términos de la antigua 𝑒̂ ( ) debemos multiplicar por la
inversa de la transformación de Lorentz Λ . Pero la inversa de una transformación de
Lorentz de las coordenadas no primadas a las primadas es también una transformación de
Lorentz, esta vez de los sistemas primados a los no primados. Por tanto, introduciremos una
notación algo sutil, escribiendo con el mismo símbolo para ambas matrices, sólo que con los
índices primados y no primados ajustados. Es decir,
(Λ ) =Λ . (1.28)
o
Λ Λ =𝛿 , Λ Λ =𝛿 , (1.29)
donde 𝛿 es el tradicional símbolo delta de Kronecker en cuatro dimensiones. (Obsérvese
que Schutz usa una convención diferente, siempre disponiendo los dos índices
noroeste/sudeste; lo importante es dónde van las primas). De (1.27) obtenemos entonces
la regla de transformación de los vectores base:
𝑒̂ =Λ 𝑒̂ ( ) . (1.30)
Por tanto, el conjunto de vectores base se transforma mediante la transformación inversa

de Lorentz de las coordenadas o componentes vectoriales.
Merece la pena detenerse un momento para asimilar todo esto. Hemos introducido
coordenadas etiquetadas con índices superiores, que se transforman de una manera
determinada bajo las transformaciones de Lorentz. Luego hemos considerado componentes
vectoriales que también se escribían con índices superiores, lo que tenía sentido ya que se
transformaban de la misma manera que las funciones de coordenadas. (En un sistema de
coordenadas fijo, cada una de las cuatro coordenadas 𝑥 puede considerarse como una
función en el espaciotiempo, al igual que cada una de las cuatro componentes de un campo
vectorial). Los vectores base asociados al sistema de coordenadas se transforman a través
de la matriz inversa, y se etiquetan con un índice inferior. Esta notación aseguraba que el
objeto invariante construido mediante la suma de las componentes y los vectores base
quedaba inalterado por la transformación, tal y como desearíamos. Probablemente no sea
demasiado revelador decir que esto seguirá siendo así para objetos más complicados con
múltiples índices (tensores).
Una vez que hemos establecido un espacio vectorial, hay un espacio vectorial asociado (de
igual dimensión) que podemos definir inmediatamente, conocido como el espacio vectorial
dual. El espacio dual se suele denotar con un asterisco, de modo que el espacio dual al
espacio tangente Tp se llama espacio cotangente y se denota 𝑇 ∗. El espacio dual es el espacio
de todos los mapas lineales desde el espacio vectorial original a los números reales; en la
jerga matemática, si 𝜔 ∈ 𝑇 ∗ es un vector dual, entonces actúa como un mapa tal que:
ω(aV + bW) = aω(V ) + bω(W) ∈ R , (1.31)
donde V , W son vectores y a, b son números reales. Lo bueno de estos mapas es que ellos
mismos forman un espacio vectorial; así, si ω y η son vectores duales, tenemos
(aω + bη)(V ) = aω(V ) + bη(V ) . (1.32)
Para hacer esta construcción algo más concreta, podemos introducir un conjunto de
vectores de base dual 𝜃 ( )exigiendo
𝜃( )
𝑒̂ ( ) =𝛿 . (1.33)
Entonces cada vector dual puede escribirse en términos de sus componentes, que
etiquetamos con índices inferiores:
ω(V ) = 𝜔 𝑉 𝜃( )
𝑒̂ ( )
= 𝜔 𝑉 𝛿
= 𝜔 𝑉 ∈R. (1.35)
Por eso rara vez es necesario escribir los vectores base (y los vectores duales)
explícitamente; los componentes hacen todo el trabajo. La forma de (1.35) también sugiere
que podemos pensar en los vectores como mapas lineales sobre los vectores duales,
definiendo
V (ω) ≡ ω(V ) = ωµV µ . (1.36)
Por tanto, el espacio dual al espacio vectorial dual es el propio espacio vectorial original.
Por supuesto, en el espaciotiempo no nos interesará un único espacio vectorial, sino campos
de vectores y vectores duales. (El conjunto de todos los espacios cotangentes sobre M es el
haz cotangente (“contangent bundle”), T*(M)). En ese caso la acción de un campo vectorial
dual sobre un campo vectorial no es un número único, sino un escalar (o simplemente
"función") sobre el espaciotiempo. Un escalar es una cantidad sin índices, que no cambia
bajo las transformaciones de Lorentz.
Podemos utilizar los mismos argumentos que antes utilizamos para los vectores para
derivar las propiedades de transformación de los vectores duales. Las respuestas son, para
las componentes
𝜔 =Λ 𝜔 , (1.37)
y para los vectores duales de base,
𝜃 =Λ 𝜃( )
. (1.38)
Esto es justo lo que esperaríamos de la colocación de índices; las componentes de un vector
dual se transforman bajo la transformación inversa de las de un vector. Nótese que esto
asegura que el escalar (1.35) es invariante bajo transformaciones de Lorentz, tal y como
debería ser.
Consideremos algunos ejemplos de vectores duales, primero en otros contextos y luego en
el espacio de Minkowski. Imaginemos el espacio de los vectores columna de n componentes,
para algún número entero n. Entonces el espacio dual es el de los vectores fila de n
componentes, y la acción es la matriz ordinaria
𝑉
⎡ ⎤
⎢ 𝑉 ⎥
V = ⎢ . ⎥ , 𝜔 = (ω ω . . . ω ) ,
⎢ .. ⎥
⎣𝑉 ⎦
𝑉
⎡ ⎤
⎢ 𝑉 ⎥
𝜔 (V) = (ω ω . . . ω ) ⎢ . ⎥ =ω 𝑉 . (1.39)
⎢ .. ⎥
⎣𝑉 ⎦
Otro ejemplo familiar ocurre en la mecánica cuántica, donde los vectores en el espacio de
Hilbert se representan por kets, |𝜓⟩. En este caso el espacio dual es el espacio de bras, ⟨𝜙|,
y la acción da el número⟨𝜙|𝜓⟩. (Este es un número complejo en la mecánica cuántica, pero
la idea es precisamente la misma).
En el espaciotiempo el ejemplo más sencillo de vector dual es el gradiente de una función
escalar, el conjunto de derivadas parciales respecto a las coordenadas del espaciotiempo,
que denotamos por "d":
(𝜇)
d𝜙 = 𝜃 . (1.40)
La regla de la cadena convencional utilizada para transformar las derivadas parciales

equivale en este caso a la regla de transformación de componentes de vectores duales:
=Λ , (1.41)
donde hemos utilizado (1.11) y (1.28) para relacionar la transformación de Lorentz con las
coordenadas. El hecho de que el gradiente sea un vector dual conduce a las siguientes
notaciones abreviadas para las derivadas parciales:
= 𝜕 = 𝜙, . (1.42)
(A grandes rasgos, "𝑥 tiene un índice superior, pero cuando está en el denominador de una
derivada implica un índice inferior en el objeto resultante"). No soy un gran fan de la
notación con coma, pero usaremos 𝜕 todo el tiempo. Nótese que el gradiente actúa, de
hecho, de forma natural sobre el ejemplo que pusimos antes de un vector, el vector tangente
a una curva. El resultado es la derivada ordinaria de la función a lo largo de la curva:
𝜕 𝜙 = . (1.43)
Como nota final sobre los vectores duales, hay una forma de representarlos como imágenes
que es coherente con la imagen de los vectores como flechas. Véase la discusión en Schutz,
o en MTW (donde se lleva a extremos vertiginosos).
Una generalización directa de los vectores y los vectores duales es la noción de tensor. Así
como un vector dual es un mapa lineal de vectores a R, un tensor T de tipo (o rango) (k,l) es
un mapa multilineal de una colección de vectores duales y vectores a R:
T : 𝑇∗ × . . . × 𝑇∗ × 𝑇 × . . . 𝑇 → R
(k veces) (l veces) (1.44)
Aquí, "×" denota el producto cartesiano, de modo que, por ejemplo, 𝑇 ×𝑇 es el espacio de
pares ordenados de vectores. La multilinealidad significa que el tensor actúa linealmente en
cada uno de sus argumentos; por ejemplo, para un tensor de tipo (1,1), tenemos
T(aω + bη, cV + dW) = acT (ω,V ) + adT (ω,W) + bcT (η,V ) + bdT (η,W) . (1.45)
Desde este punto de vista, un escalar es un tensor de tipo (0,0), un vector es un tensor de
tipo (1,0) y un vector dual es un tensor de tipo (0,1).
El espacio de todos los tensores de un tipo fijo (k,l) forma un espacio vectorial; se pueden
sumar y multiplicar por números reales. Para construir una base para este espacio,
necesitamos definir una nueva operación conocida como el producto tensorial, denotado
por ⊗. Si T es un tensor (k ,l) y S es un tensor (m, n), definimos un tensor (k + m, l + n) T ⊗
S mediante
T ⊗ S 𝜔 ( ) , . . . , 𝜔 ( ), . . . , 𝜔 ( )
, 𝑉 ( ), . . . , 𝑉 ( ) , . . . , 𝑉 ( )
= T 𝜔 ( ), . . . , 𝜔 ( ), 𝑉 ( ), . . . , 𝑉 ( ) , . . . , 𝑉 ( ) S 𝜔 ( )
, . . . , 𝜔( )
, 𝑉( )
, . . . , 𝑉( )
. (1.46)
(Nótese que 𝜔 ( ) y 𝑉 ( ) son vectores y vectores duales distintos, no componentes de los

mismos). En otras palabras, primero actúa T sobre el conjunto apropiado de vectores duales
y vectores, y luego actúa S sobre el resto, y luego multiplica las respuestas. Nótese que, en
general, T ⊗ S ≠ S ⊗ T.
Ahora es sencillo construir una base para el espacio de todos los tensores (k,l), tomando
productos tensoriales de los vectores base y los vectores duales; esta base consistirá en
todos los tensores de la forma
𝑒̂ ( ) ⊗ . . . ⊗ 𝑒̂ ( ) ⊗ 𝜃( )
⊗ . . . ⊗ 𝜃( )
. (1.47)
En un espaciotiempo de 4 dimensiones habrá 4 tensores base en total. En notación de

componentes escribimos entonces nuestro tensor arbitrario como
…
T=𝑇 …
𝑒̂ ( ) ⊗. . .⊗ 𝑒̂ ( ) ⊗ 𝜃( )
⊗ . . .⊗ 𝜃 ( )
. (1.48)
Alternativamente, podríamos definir los componentes actuando el tensor sobre vectores
base y vectores duales:
…
𝑇 …
= T 𝜃( )
, . . . , 𝜃( )
, 𝑒̂ ( ) , . . . , 𝑒̂ ( ) . (1.49)
Pueden comprobar por sí mismos, utilizando (1.33) y demás, que todas estas ecuaciones
encajan correctamente.
Como en el caso de los vectores, solemos tomar el atajo de denominar el tensor T por sus
…
componentes 𝑇 …
. La acción de los tensores sobre un conjunto de vectores y
vectores duales sigue el patrón establecido en (1.35):
… ( ) ( ) ( )
T 𝜔 ( ) , . . . , 𝜔 ( ) , 𝑉 ( ), . . . , 𝑉 ( ) , . . . , 𝑉 ( ) = 𝑇 …
𝜔 . . .𝜔 𝑉 . . . 𝑉( ) . (1.50)
El orden de los índices es obviamente importante, ya que el tensor no tiene por qué actuar
de la misma manera sobre sus distintos argumentos. Por último, la transformación de los
componentes del tensor bajo las transformaciones de Lorentz puede derivarse aplicando lo
que ya sabemos sobre la transformación de los vectores base y los vectores duales. La
respuesta es justo lo que se espera de la colocación de los índices,
… …
𝑇 …
=Λ . . .Λ Λ . . .Λ 𝑇 …
. (1.51)
Así, cada índice superior se transforma como un vector, y cada índice inferior se transforma
como un vector dual.
Aunque hemos definido los tensores como mapas lineales desde conjuntos de vectores y
vectores tangentes a R, no hay nada que nos obligue a actuar sobre una colección completa
de argumentos. Así, un tensor (1,1) también actúa como un mapa de vectores a vectores:
𝑇 :𝑉 ⟶𝑇 𝑉 . (1.52)
Pueden comprobarlo por sí mismos que 𝑇 𝑉 es un vector (es decir, obedece a la ley de
transformación vectorial). Del mismo modo, un tensor puede actuar sobre (todo o parte de)
otro tensor para obtener un tercer tensor. Por ejemplo,
𝑈 =𝑇 𝑆 (1.53)
es un tensor (1,1) perfectamente válido.
Puede que os preocupe que esta introducción a los tensores haya sido demasiado breve,
dada la naturaleza esotérica del material. De hecho, la noción de tensores no requiere un
gran esfuerzo para dominarla; es sólo cuestión de mantener los índices en orden, y las reglas
para manipularlos son muy naturales. De hecho, en algunos libros se definen los tensores
como colecciones de números que se transforman según (1.51). Aunque esto es útil desde
el punto de vista operativo, tiende a ocultar el significado más profundo de los tensores
como entidades geométricas con una vida independiente de cualquier sistema de
coordenadas elegido. Sin embargo, hay una sutileza que hemos pasado por alto. Las
nociones de vectores duales y tensores y bases y mapas lineales pertenecen al ámbito del
álgebra lineal, y son apropiadas siempre que tengamos a mano un espacio vectorial
abstracto. En el caso que nos interesa, no sólo tenemos un espacio vectorial, sino un espacio
vectorial en cada punto del espaciotiempo. La mayoría de las veces nos interesan los campos
tensoriales, que pueden considerarse como funciones tensoriales sobre el espaciotiempo.
Afortunadamente, ninguna de las manipulaciones que hemos definido antes se preocupa
realmente de si estamos tratando con un único espacio vectorial o con una colección de
espacios vectoriales, uno para cada evento. Podremos salirnos con la nuestra llamando
simplemente a las cosas funciones de 𝑥 cuando sea apropiado. Sin embargo, hay que tener
clara la independencia lógica de las nociones que hemos introducido y su aplicación
específica al espaciotiempo y la relatividad.
Pasemos ahora a algunos ejemplos de tensores. Primero consideramos el ejemplo anterior
de vectores columna y sus duales, vectores fila. En este sistema un tensor (1,1) es
simplemente una matriz, 𝑀 . Su acción sobre un par (ω,V ) viene dada por la multiplicación
matricial habitual:
𝑀 𝑀 ... 𝑀 𝑉
⎛𝑀 𝑀 ... 𝑀 ⎞ 𝑉
⎛ ⎞
𝑀(𝜔, 𝑉) = (𝜔 𝜔 . . . 𝜔 ) ⎜ . . ... . ⎟⎜ . ⎟ = 𝜔 𝑀 𝑉 . (1.54)
⎜ . . ... . ⎟⎜ . ⎟
. . ... . .
⎝𝑀 𝑀 . . . 𝑀 ⎠ ⎝𝑉 ⎠
Si prefieren, pueden pensar en los tensores como "matrices con un número arbitrario de
índices". En el espaciotiempo, ya hemos visto algunos ejemplos de tensores sin llamarlos
así. El ejemplo más familiar de un tensor (0,2) es la métrica, 𝜂 . La acción de la métrica
sobre dos vectores es tan útil que recibe su propio nombre, el producto interior (o
producto punto):
𝜂(𝑉, 𝑊) = 𝜂 𝑉 𝑊 = V · W . (1.55)
Al igual que con el producto punto euclídeo convencional, nos referiremos a dos vectores
cuyo producto punto desaparece como ortogonal. Dado que el producto punto es un
escalar, permanece invariante bajo las transformaciones de Lorentz; por lo tanto, los
vectores base de cualquier marco inercial cartesiano, que se eligen como ortogonales por
definición, siguen siendo ortogonales después de una transformación de Lorentz (a pesar
de las "tijeras" que hemos observado antes). La norma de un vector se define como el
producto interno del vector consigo mismo; a diferencia de lo que ocurre en el espacio
euclídeo, este número no es definido positivamente:
< 0, 𝑉 es temporal ("𝑡𝑖𝑚𝑒𝑙𝑖𝑘𝑒")
si 𝜂 𝑉 𝑊 es = 0, 𝑉 es nulo ("lightlike or null")
> 0, 𝑉 es espacial ("𝑠𝑝𝑎𝑐𝑒𝑙𝑖𝑘𝑒").
(Un vector puede tener norma cero sin ser el vector cero.) Notarán que la terminología es la
misma que la que usamos antes para clasificar la relación entre dos puntos en el
espaciotiempo; no es casualidad, por supuesto, y entraremos en detalles más adelante.
Otro tensor es la delta de Kroneckerδ , del tipo (1,1), cuyos componentes ya conocemos.
Relacionado con éste y con la métrica está el inverso de la métrica 𝜂 , un tensor de tipo
(2,0) definido como el inverso de la métrica:
𝜂 𝜂 =𝜂 𝜂 =𝛿 . (1.56)
De hecho, como se puede comprobar, la métrica inversa tiene exactamente las mismas
componentes que la propia métrica. (Esto sólo es cierto en el espacio plano en coordenadas
cartesianas, y no se cumple en situaciones más generales). También existe el tensor de Levi-
Civita, un tensor (0,4):
+1 si 𝜇𝜈𝜌𝜎 es una permutación par de 0123
𝜖 = -1 si 𝜇𝜈𝜌𝜎 es una permutación impar de 0123
0 en los demás casos (1.57)
Aquí, una "permutación de 0123" es una ordenación de los números 0, 1, 2, 3 que puede
obtenerse partiendo de 0123 e intercambiando dos de los dígitos; una permutación par se
obtiene mediante un número par de dichos intercambios, y una permutación impar se
obtiene mediante un número impar. Así, por ejemplo, 𝜖 = -1.
Una propiedad notable de los tensores anteriores -la métrica, la métrica inversa, la delta de
Kronecker y el tensor de Levi-Civita- es que, aunque todos ellos se transforman de acuerdo
con la ley de transformación de los tensores (1.51), sus componentes permanecen
inalterados en cualquier sistema de coordenadas cartesianas en el espaciotiempo plano. En
cierto sentido, esto los convierte en malos ejemplos de tensores, ya que la mayoría de los
tensores no tienen esta propiedad. De hecho, incluso estos tensores no tienen esta
propiedad una vez que pasamos a sistemas de coordenadas más generales, con la única
excepción de la delta de Kronecker. Este tensor tiene exactamente las mismas componentes
en cualquier sistema de coordenadas en cualquier espaciotiempo. Esto tiene sentido a partir
de la definición de un tensor como mapa lineal; el tensor de Kronecker puede considerarse
como el mapa de identidad de vectores a vectores (o de vectores duales a vectores duales),
que claramente debe tener las mismas componentes independientemente del sistema de
coordenadas. Los demás tensores (la métrica, su inversa y el tensor de Levi-Civita)
caracterizan la estructura del espaciotiempo y dependen de la métrica. Por tanto, tendremos
que tratarlos con más cuidado cuando dejemos de suponer que el espaciotiempo es plano.
Un ejemplo más típico de tensor es el tensor de intensidad de campo electromagnético.
Todos sabemos que los campos electromagnéticos están formados por el vector campo
eléctrico 𝐸 y el vector campo magnético 𝐵 . (Recuérdese que utilizamos índices latinos para
las componentes espaciales 1,2,3.) En realidad estos son sólo "vectores" bajo rotaciones en
el espacio, no bajo el grupo de Lorentz completo. De hecho son componentes de un tensor
(0,2) 𝐹 , definido por
0 −𝐸 −𝐸 −𝐸
𝐸 0 𝐵 −𝐵
𝐹 = = −𝐹 . (1.58)
𝐸 −𝐵 0 𝐵
𝐸 𝐵 −𝐵 0
Desde este punto de vista, es fácil transformar los campos electromagnéticos en un marco
de referencia a los de otro, mediante la aplicación de (1.51). El poder unificador del
formalismo tensorial es evidente: en lugar de una colección de dos vectores cuya relación y
propiedades de transformación son bastante misteriosas, tenemos un único campo
tensorial para describir todo el electromagnetismo. (Por otro lado, no nos dejemos llevar; a
veces es más conveniente trabajar en un único sistema de coordenadas utilizando los
vectores de campo eléctrico y magnético).
Con algunos ejemplos en la mano podemos ahora ser un poco más sistemáticos sobre
algunas propiedades de los tensores. Primero consideremos la operación de contracción,
que convierte un tensor (k, l) en un tensor (k -1, l -1). La contracción se realiza sumando un
índice superior y otro inferior:
𝑆 =𝑇 . (1.59)
Se puede comprobar que el resultado es un tensor bien definido. Por supuesto, sólo es
admisible contraer un índice superior con un índice inferior (a diferencia de dos índices del
mismo tipo). Nótese también que el orden de los índices importa, por lo que se pueden
obtener diferentes tensores contrayendo de diferentes maneras; así,
𝑇 ≠𝑇 (1.60)
en general.
La métrica y la métrica inversa pueden utilizarse para subir y bajar índices en los tensores.
Es decir, dado un tensor𝑇 , podemos utilizar la métrica para definir nuevos tensores
que elegimos denotar con la misma letra T:
𝑇 =𝜂 𝑇 ,
𝑇 =𝜂 𝑇 ,
𝑇 =𝜂 𝜂 𝜂 𝜂 𝑇 , (1.61)
y así sucesivamente. Obsérvese que subir y bajar no cambia la posición de un índice con
respecto a otros índices, y también que los índices "libres" (que no se suman) deben ser los
mismos en ambos lados de una ecuación, mientras que los índices "ficticios" (que se suman)
sólo aparecen en un lado. Como ejemplo, podemos convertir vectores y vectores duales
entre sí subiendo y bajando índices:
𝑉 =𝜂 𝑉
𝜔 =𝜂 𝜔 . (1.62)
Esto explica por qué el gradiente en el espacio plano euclídeo tridimensional se suele
considerar como un vector ordinario, aunque hemos visto que surge como un vector dual;
en el espacio euclídeo (donde la métrica es diagonal con todas las entradas +1) un vector
dual se convierte en un vector con precisamente las mismas componentes cuando subimos
su índice. Se preguntará entonces por qué hemos insistido en la distinción. Una razón
sencilla, por supuesto, es que en un espaciotiempo lorentziano las componentes no son
iguales:
ωµ = (−ω0, ω1, ω2, ω3) . (1.63)
En un espaciotiempo curvo, donde la forma de la métrica es generalmente más complicada,
la diferencia es bastante más dramática. Pero hay una razón más profunda, y es que los
tensores suelen tener una definición "natural" que es independiente de la métrica. Aunque
siempre dispondremos de una métrica, es útil ser conscientes del estatus lógico de cada
objeto matemático que introducimos. El gradiente, y su acción sobre los vectores, está
perfectamente bien definido independientemente de cualquier métrica, mientras que el
"gradiente con índices superiores" no lo está. (Como ejemplo, eventualmente querremos
tomar variaciones de funcionales con respecto a la métrica, y por lo tanto tendremos que
saber exactamente cómo depende el funcional de la métrica, algo que queda fácilmente
oculto por la notación de índices).
Siguiendo con nuestra recopilación de la jerga tensorial, nos referimos a un tensor como
simétrico en cualquiera de sus índices si no cambia bajo el intercambio de esos índices. Así,
si
𝑆 =𝑆 , (1.64)
decimos que 𝑆 es simétrico en sus primeros dos índices , mientras que si
𝑆 =𝑆 =𝑆 =𝑆 =𝑆 =𝑆 , (1.65)
decimos que 𝑆 es simétrico en sus tres índices. Del mismo modo, un tensor es
antisimétrico (o "sesgado-simétrico") en cualquiera de sus índices si cambia de signo
cuando se intercambian esos índices; así,
𝐴 =-𝐴 (1.66)
significa que 𝐴 es antisimétrico en sus índices primero y tercero (o simplemente

"antisimétrico en µ y ρ"). Si un tensor es (anti-) simétrico en todos sus índices, nos referimos
a él como simplemente (anti-)simétrico (a veces con el modificador redundante
"completamente"). Como ejemplos, la métrica 𝜂 y la métrica inversa 𝜂 son simétricas,
mientras que el tensor de Levi-Civita 𝜖 y el tensor de intensidad de campo
electromagnético 𝐹 son antisimétricos. (Compruébese que si se sube o baja un conjunto
de índices que son simétricos o antisimétricos, siguen siéndolo). Fíjese en que no tiene
sentido intercambiar los índices superiores e inferiores entre sí, así que no sucumbamos a
la tentación de pensar que el delta de Kronecker δ es simétrico. Por otra parte, el hecho de
que bajar un índice en δ da un tensor simétrico (de hecho, la métrica) significa que el orden
de los índices no importa realmente, por lo que no llevamos la cuenta de la colocación de los
índices para este único tensor.
Dado cualquier tensor, podemos simetrizar (o antisimetrizar) cualquier número de sus
índices superiores o inferiores. Para simetrizar, tomamos la suma de todas las
permutaciones de los índices relevantes y la dividimos por el número de términos:
𝑇[ … ] = 𝑇 … + suma sobre las permutaciones de índices 𝜇 ··· 𝜇 , 1,67)

!
mientras que la antisimetrización proviene de la suma alternante:
𝑇[ … ] = 𝑇 … + suma alternada sobre las permutaciones de índices ··· 𝜇 .

!
(1.68)
Por "suma alternada" se entiende que las permutaciones que son el resultado de un número
impar de intercambios reciben un signo menos, así:
𝑇[ ] = 𝑇 −𝑇 +𝑇 −𝑇 +𝑇 −𝑇 . (1.69)
Obsérvese que los paréntesis redondos/cuadrados denota simetrización/antisimetrización.

Además, es posible que a veces queramos (anti)simetrizar índices que no están junto a
otros, en cuyo caso utilizamos barras verticales para denotar los índices no incluidos en la
suma:
𝑇( | | ) = 𝑇 +𝑇 . (1.70)
¡Por último, algunas personas utilizan una convención en la que se omite el factor de 1/n!
La utilizada aquí es buena, ya que (por ejemplo) un tensor simétrico satisface
𝑆 …
= 𝑆( … ) , (1.71)
y lo mismo para los tensores antisimétricos.
Hasta ahora hemos tenido mucho cuidado en distinguir claramente entre las cosas que son
siempre verdaderas (en una variedad con métrica arbitraria) y las cosas que sólo son
verdaderas en el espacio de Minkowski en coordenadas cartesianas. Una de las distinciones
más importantes surge con las derivadas parciales. Si trabajamos en un espacio-tiempo
plano con coordenadas cartesianas, la derivada parcial de un tensor (k, l) es un tensor (k, l
+ 1); es decir,
𝑇 =𝜕 𝑅 (1.72)
se transforma adecuadamente bajo las transformaciones de Lorentz. Sin embargo, esto ya
no será cierto en espaciotiempos más generales, y tendremos que definir una "derivada
covariante" que sustituya a la derivada parcial. No obstante, podemos seguir utilizando el

hecho de que las derivadas parciales nos dan el tensor en este caso especial, siempre que
mantengamos el ingenio. (La única excepción a esta advertencia es la derivada parcial de un
escalar, 𝜕 , que es un tensor perfectamente válido [el gradiente] en cualquier
espaciotiempo).
Ahora hemos acumulado suficiente conocimiento de los tensores para ilustrar algunos de
estos conceptos utilizando la física real. En concreto, examinaremos las ecuaciones de
Maxwell de la electrodinámica. En notación del siglo XIX, éstas son
▽ × B − 𝜕 𝐄 = 4𝜋 J
▽ ∙ E = 4𝜋𝜌
▽×E+𝜕 𝐁 = 0
▽∙B = 0. (1.73)
Aquí, E y B son los vectores de campo eléctrico y magnético, J es la corriente, ρ es la densidad
de carga, y ▽× y ▽∙ son el rotacional y la divergencia convencionales. Estas ecuaciones son
invariantes bajo transformaciones de Lorentz, por supuesto; así es como empezó todo el
asunto. Pero no parecen obviamente invariantes; nuestra notación tensorial puede arreglar
eso. Empecemos escribiendo estas ecuaciones en una notación ligeramente
diferente,𝜖 𝜕 𝐵 − 𝜕 𝐸 = 4𝜋𝐽
𝜕 𝐸 = 4𝜋𝐽
𝜖 𝜕 𝐸 +𝜕 𝐵 = 0
𝜕 𝐸 = 0. 1.74)
En estas expresiones, los índices espaciales se han subido y bajado con desenfreno, sin
intentar mantener la coherencia donde aparece la métrica. Esto se debe a que 𝛿 es la
métrica en el espacio 3 plano, y 𝛿 su inversa (son iguales como matrices). Por tanto,
podemos subir y bajar los índices a voluntad, ya que las componentes no cambian. Mientras
tanto, el tensor de Levi-Civita tridimensional 𝜖 se define igual que el cuatridimensional,
aunque con un índice menos. Hemos sustituido la densidad de carga por 𝐽 ; esto es legítimo
porque la densidad y la corriente forman juntas el cuadrivector de corriente, 𝐽 = (ρ, 𝐽 ,
𝐽 , 𝐽 ).
A partir de estas expresiones, y de la definición (1.58) del tensor de intensidad de campo
𝐹 , es fácil obtener una versión completamente tensorial del siglo XX de las ecuaciones de
Maxwell. Comencemos observando que podemos expresar la intensidad de campo con
índices superiores como
𝐹 = 𝐸
𝐹 = 𝜖 𝐵 . (1.75)
(Para comprobarlo, obsérvese por ejemplo que 𝐹 = 𝜂 𝜂 𝐹 y𝐹 =𝜖 𝐵 .) Entonces
las dos primeras ecuaciones de (1.74) se convierten en
𝛿 𝐹 − 𝛿 𝐹 = 4π𝐽
𝛿𝐹 = 4π𝐽 . (1.76)
Utilizando la antisimetría de 𝐹 , vemos que éstas pueden combinarse en la única ecuación
tensorial
𝛿 𝐹 = 4π𝐽 . (1.77)
Un razonamiento similar, que se deja como ejercicio para el lector, revela que las ecuaciones
tercera y cuarta de (1.74) pueden escribirse
𝛿[ 𝐹 ] = 0. (1.78)
Las cuatro ecuaciones tradicionales de Maxwell se sustituyen por dos, demostrando así la
economía de la notación tensorial. Sin embargo, lo más importante es que ambos lados de
las ecuaciones (1.77) y (1.78) se transforman manifiestamente como tensores; por lo tanto,
si son verdaderas en un marco inercial, deben ser verdaderas en cualquier marco
transformado de Lorentz. Esta es la razón por la que los tensores son tan útiles en
relatividad: a menudo queremos expresar relaciones sin recurrir a ningún marco de
referencia, y es necesario que las cantidades de cada lado de una ecuación se transformen
de la misma manera bajo un cambio de coordenadas. Como cuestión de jerga, a veces nos
referiremos a las cantidades que se escriben en términos de tensores como covariantes (lo
que no tiene nada que ver con "covariante" en contraposición a "contravariante"). Así,
decimos que (1.77) y (1.78) sirven conjuntamente como la forma covariante de las
ecuaciones de Maxwell, mientras que (1.73) o (1.74) son no covariantes.
Introduzcamos ahora una clase especial de tensores, conocidos como formas diferenciales
(o simplemente "formas"). Una forma diferencial p es un tensor (0,p) que es completamente
antisimétrico. Así, los escalares son automáticamente 0-formas, y los vectores duales son
automáticamente uno-formas (lo que explica la terminología de hace un rato). También
tenemos la 2- forma 𝐹 y la 4-forma 𝜖 . El espacio de todas las p-formas se denomina
Λ , y el espacio de todos los campos de p-formas sobre una variedad M se denomina Λ (M).
Un ejercicio semi-directo de combinatoria revela que el número de p-formas linealmente
independientes en un espacio vectorial de n dimensiones es n!(p!(n - p)! Así, en un punto de
un espaciotiempo de 4 dimensiones hay una 0-forma linealmente independiente, cuatro 1-
formas , seis 2-formas, cuatro 3-formas y una 4-forma. No hay p-formas para p > n, ya que
todos los componentes serán automáticamente cero por antisimetría.
¿Por qué debemos preocuparnos por las formas diferenciales? Esta es una pregunta difícil
de responder sin algo más de trabajo, pero la idea básica es que las formas pueden ser tanto
diferenciadas como integradas, sin la ayuda de ninguna estructura geométrica adicional.
Dejaremos la teoría de la integración para más adelante, pero en breve veremos cómo
diferenciar formas.
Dada una p-forma A y una q-forma B, podemos formar una forma (p + q) conocida como
producto cuña A ∧ B tomando el producto tensorial antisimétrico:
( )!
(𝐴 ∧ B) … = 𝐴 … 𝐵 … . (1.79)
! !
Así, por ejemplo, el producto cuña de dos 1-forma es
(𝐴 ∧ B) = 2 𝐴[ 𝐵 ] = 𝐴 𝐵 − 𝐴 𝐵 . (1.80)
Nótese que
𝐴 ∧ B = (−1) 𝐵∧A, (1.81)
por lo que se puede alterar el orden de un producto cuña si se tiene cuidado con los
signos.
La derivada exterior "d" nos permite diferenciar campos de p-forma para obtener campos
de (p+1)-forma. Se define como una derivada parcial antisimétrica convenientemente
normalizada:
(d𝐴) … = (p +1)𝜕[ 𝐴 … ] . (1.82)
El ejemplo más sencillo es el gradiente, que es la derivada exterior de un 1-forma:

(d𝜙) = 𝜕 𝜙 . (1.83)
La razón por la que la derivada exterior merece especial atención es que es un tensor, incluso
en espaciotiempo curvos, a diferencia de su prima la derivada parcial. Como aún no hemos
estudiado los espacios curvos, no podemos demostrarlo, pero (1.82) define un tensor
auténtico sin importar la métrica y las coordenadas.
Otro hecho interesante sobre la diferenciación exterior es que, para cualquier forma A,
d(d𝐴) = 0 , (1.84)
que a menudo se escribe d = 0. Esta identidad es una consecuencia de la definición de d y
del hecho de que las derivadas parciales se conmutan, ∂ ∂ = ∂ ∂ (actuando sobre
cualquier cosa). Esto nos lleva al siguiente aparte matemático, sólo por diversión. Definimos
que una p-forma A es cerrada si dA = 0, y exacta si A = dB para una cierta (p-1)-forma B.
Obviamente, todas las formas exactas son cerradas, pero lo contrario no es necesariamente
cierto. En una variedad M, las formas p cerradas constituyen un espacio vectorial Zp(M), y
las formas exactas constituyen un espacio vectorial 𝑍 (𝑀). Definamos un nuevo espacio
vectorial como las formas cerradas en función de las formas exactas:
( )
𝐻 (𝑀) =
( )
. (1.85)
Esto se conoce como el 𝑝é espacio vectorial de cohomología de de Rham, y depende sólo

de la topología de la variedad M. (El espacio de Minkowski es topológicamente equivalente
a 𝐑 , que no es interesante, por lo que todas las 𝐻 (M) desaparecen para p > 0; para p = 0
tenemos 𝐻 (M) = R. Por lo tanto, en el espacio de Minkowski todas las formas cerradas son
exactas excepto las formas cero; las formas cero no pueden ser exactas ya que no hay formas
-1 para que sean la derivada exterior de ellas). Es llamativo que se pueda extraer
información sobre la topología de esta manera, que implica esencialmente las soluciones de
las ecuaciones diferenciales. La dimensión 𝑏 del espacio 𝐻 (M) se llama el 𝑝é número
de Betti de M, y la característica de Euler viene dada por la suma alternada
𝜒(𝑀) = (−1) 𝑏 . (1.86)
La teoría de la cohomología es la base de gran parte de la topología diferencial moderna.

Volviendo a la realidad, la última operación sobre formas diferenciales que introduciremos
es la dualidad de Hodge. Definimos el "operador estrella de Hodge" en una variedad n-
dimensional como un mapa de p-formas a (n - p)-formas,
…
(∗ 𝐴) … = 𝜖 … 𝐴 … , (1.87)
!
mapeando A a "A dual". A diferencia de nuestras otras operaciones sobre formas, el dual de
Hodge sí depende de la métrica de la variedad (lo que debería ser obvio, ya que tuvimos que
elevar algunos índices en el tensor de Levi-Civita para definir (1.87)). Aplicando la estrella
de Hodge dos veces se obtiene más o menos la forma original:
**𝐴 = (−1)s+p(n−p)A , (1.88)

donde s es el número de signos menos en los valores propios de la métrica (para el espacio
de Minkowski, s = 1).
Dos datos sobre el dual de Hodge: En primer lugar, la "dualidad" en el sentido de Hodge es
diferente de la relación entre vectores y vectores duales, aunque ambos pueden
considerarse como el espacio de mapas lineales desde el espacio original a R. Obsérvese que
la dimensionalidad del espacio de (n - p)-formas es igual a la del espacio de p-formas, por lo

que esto tiene al menos una posibilidad de ser cierto. En el caso de las formas, el mapa lineal
definido por una (n - p)-forma que actúa sobre una p-forma viene dado por el dual del
producto cuña de las dos formas. Así, si 𝐴( ) es una (n - p)-forma y 𝐵( ) es una p-forma en
algún punto del espaciotiempo, tenemos
( )
∗ 𝐴 ∧ 𝐵( )
∈R. (1.89)
El segundo hecho se refiere a las formas diferenciales en el espacio euclídeo tridimensional.
El dual de Hodge del producto cuña de dos 1-formas da otra 1-forma:
∗(𝑈 ∧ V) = 𝜖 𝑈𝑉 . (1.90)
(Todos los pre-factores se cancelan.) Como las 1-formas en el espacio euclídeo son como los
vectores, tenemos un mapa de dos vectores a un solo vector. Deberían convencerse de que
esto no es más que el producto cruzado convencional, y que la aparición del tensor de Levi-
Civita explica por qué el producto cruzado cambia de signo bajo paridad (intercambio de
dos coordenadas, o equivalentemente vectores base). Por eso el producto cruzado sólo
existe en tres dimensiones, porque sólo en tres dimensiones tenemos un mapa interesante
de dos vectores duales a un tercer vector dual. Si se quisiera, se podría definir un mapa de
n - 1 uno-formas duales a un único uno-forma, pero no estoy seguro de que fuera útil.
La electrodinámica proporciona un ejemplo especialmente convincente del uso de formas
diferenciales. A partir de la definición de la derivada exterior, está claro que la ecuación
(1.78) puede expresarse de forma concisa como cierre de la dos-forma Fµν:
dF = 0 . (1.91)
¿Significa esto que F también es exacta? Sí; como hemos señalado, el espacio de Minkowski
es topológicamente trivial, por lo que todas las formas cerradas son exactas. Por lo tanto,
debe haber una forma única Aµ tal que
F = dA . (1.92)
Este uno-forma único es el familiar potencial vectorial del electromagnetismo, con la
componente 0 dada por el potencial escalar, A0 = 𝜙. Si se parte de la visión de que Aµ es el
campo fundamental del electromagnetismo, entonces (1.91) se deduce como una identidad
(en oposición a una ley dinámica, una ecuación de movimiento). La invariancia gauge se
expresa mediante la observación de que la teoría es invariante bajo A → A + dλ para un cierto
escalar (cero-forma) λ, y esto también es inmediato a partir de la relación (1.92). La otra
ecuación de Maxwell, (1.77), puede expresarse como una ecuación entre tres formas:
d(∗F) = 4π(∗J) , (1.93)

donde la uno-forma actual J es simplemente el cuadrivector actual con índice rebajado. Los
detalles se los dejamos al lector.
Como curiosidad, la dualidad de Hodge es la base de uno de los temas más candentes de la
física teórica actual. Es difícil no notar que las ecuaciones (1.91) y (1.93) se parecen mucho.
De hecho, si fijamos Aµ = 0, las ecuaciones son invariantes bajo las "transformaciones de
dualidad"
F → ∗F,
∗F → −F . (1.94)
Por lo tanto, decimos que las ecuaciones de Maxwell en el vacío son invariantes de la
dualidad, mientras que la invariancia se estropea en presencia de cargas. Podríamos
imaginar que tanto los monopolos magnéticos como los eléctricos existieran en la
naturaleza; entonces podríamos añadir un término de corriente magnética 4π(∗𝐽 ) al lado

derecho de (1.91), y las ecuaciones serían invariantes bajo transformaciones de dualidad
más el reemplazo adicional J ↔ 𝐽 . (Por supuesto, un lado derecho no nulo de (1.91) es
inconsistente con F = dA, de manera que esta idea sólo funciona si 𝐴 no es una variable
fundamental). Hace mucho tiempo Dirac consideró la idea de los monopolos magnéticos y
demostró que una condición necesaria para su existencia es que la carga del monopolo
fundamental sea inversamente proporcional a la carga eléctrica fundamental. Ahora bien, la
carga eléctrica fundamental es un número pequeño; la electrodinámica está "débilmente
acoplada", razón por la cual la teoría de perturbaciones tiene un éxito tan notable en la
electrodinámica cuántica (QED). Pero la condición de Dirac sobre las cargas magnéticas
implica que una transformación de dualidad lleva una teoría de cargas eléctricas débilmente
acopladas a una teoría de monopolos magnéticos fuertemente acoplados (y viceversa).
Desgraciadamente, los monopolos no existen (por lo que sabemos), así que estas ideas no
son directamente aplicables al electromagnetismo; pero hay algunas teorías (como las
teorías gauge supersimétricas no abelianas) para las que se ha conjeturado durante mucho
tiempo que puede existir algún tipo de simetría de dualidad. Si existiera, tendríamos la
oportunidad de analizar una teoría que parece fuertemente acoplada (y por tanto difícil de
resolver) observando la versión dual débilmente acoplada. Recientemente, los trabajos de
Seiberg y Witten, entre otros, han aportado pruebas muy sólidas de que esto es exactamente
lo que ocurre en ciertas teorías. La esperanza es que estas técnicas nos permitan explorar
varios fenómenos que sabemos que existen en las teorías cuánticas de campo fuertemente
acopladas, como el confinamiento de quarks en hadrones.
Ya hemos repasado prácticamente todo lo que hay que saber sobre el cuidado y la
alimentación de los tensores. En la próxima sección examinaremos con más detenimiento
las definiciones rigurosas de las variedades y los tensores, pero la mecánica básica ha
quedado bastante bien cubierta. Antes de pasar a las matemáticas más abstractas,
repasemos cómo funciona la física en el espaciotiempo de Minkowski.
Empecemos con la línea del mundo de una sola partícula. Ésta se especifica mediante un
mapa R → M, donde M es la variedad que representa el espaciotiempo; normalmente
pensamos en la trayectoria como una curva parametrizada 𝑥 (λ). Como se mencionó
anteriormente, el vector tangente a esta trayectoria es 𝑑𝑥 / 𝑑𝜆 (nótese que depende de la
parametrización). Un objeto de interés primordial es la norma del vector tangente, que sirve
para caracterizar la trayectoria; si el vector tangente es temporal/nulo/espacial
(“timelike/null/spacelike”) en algún valor del parámetro λ, decimos que la trayectoria es
temporal/nulo/espacial en ese punto. Esto explica por qué se utilizan las mismas palabras
para clasificar los vectores en el espacio tangente y los intervalos entre dos puntos, ya que
una línea recta que conecta, por ejemplo, dos puntos separados por el tiempo será a su vez
temporal (“timelike”) en cada punto del camino.
Sin embargo, es importante ser consciente del juego de manos que se hace aquí. La métrica,
como tensor (0,2), es una máquina que actúa sobre dos vectores (o dos copias del mismo
vector) para producir un número. Por tanto, es muy natural clasificar los vectores tangentes
según el signo de su norma. Pero el intervalo entre dos puntos no es algo tan natural;
depende de una elección específica del camino (una "línea recta") que conecta los puntos, y
esta elección depende a su vez del hecho de que el espaciotiempo es plano (lo que permite
una elección única de la línea recta entre los puntos). Un objeto más natural es el elemento
de línea, o intervalo infinitesimal:
𝑑𝑠 =𝜂 𝑑𝑥 𝑑𝑥 (1.95)
A partir de esta definición es tentador tomar la raíz cuadrada e integrar a lo largo de un
camino para obtener un intervalo finito. Pero como 𝑑𝑠 no tiene por qué ser positivo,
definimos diferentes procedimientos
para diferentes casos. Para las trayectorias espaciales definimos la longitud de la

trayectoria
△𝒔 = 𝜂 𝑑𝜆 , (1.96)
Donde la integral es tomada sobre a trayectoria. Para los recorridos nulos el intervalo es
cero, por lo que no se requiere ninguna fórmula adicional. Para las trayectorias temporales
(“timelike”) definimos el tiempo propio
△𝝉 = 𝜂 𝑑𝜆 , (1.97)
que será positivo. Por supuesto, podemos considerar trayectorias que sean temporales en
algunos lugares y espaciales en otros, pero, afortunadamente, rara vez es necesario, ya que
las trayectorias de las partículas físicas nunca cambian de carácter (las partículas masivas
se mueven por trayectorias temporales, las partículas sin masa se mueven por trayectorias
nulas). Además, la expresión "tiempo propio" es especialmente apropiada, ya que τ mide
realmente el tiempo transcurrido en un reloj físico llevado a lo largo de la trayectoria. Este
punto de vista aclara la "paradoja de los gemelos" y otros enigmas similares; dos líneas del
mundo, no necesariamente rectas, que se cruzan en dos eventos diferentes en el
espaciotiempo tendrán tiempos propios medidos por la integral (1.97) a lo largo de las
trayectorias apropiadas, y estos dos números serán en general diferentes incluso si las
personas que viajan a lo largo de ellas han nacido en el mismo momento.
Pasemos de la consideración de las trayectorias en general a las trayectorias de las
partículas masivas (que siempre serán temporales (“timelike”)). Dado que el tiempo propio
se mide con un reloj que viaja por una línea del mundo semejante al tiempo, es conveniente
utilizar τ como parámetro a lo largo de la trayectoria. Es decir, utilizamos (1.97) para
calcular τ(λ), que (si λ es un buen parámetro en primer lugar) podemos invertir para
obtener λ(τ), tras lo cual podemos pensar en la trayectoria como 𝑥 (τ). El vector tangente
en esta parametrización se conoce como la cuadrivelocidad, 𝑈 :
𝑈 = . (1.98)
Dado que dτ2 = −ηµνdxµdxν, el cuadrivelocidad es normalizado automáticamente:

𝜂 𝑈 𝑈 = -1 . (1.99)
(Siempre será negativo, ya que sólo lo definimos para trayectorias temporales. Se podría
definir un vector análogo para trayectorias espaciales también; las trayectorias nulas dan
algunos problemas adicionales ya que la norma es cero). En el marco de reposo de una
partícula, su cuatro-velocidad tiene componentes 𝑈 = (1,0,0,0).
Un vector relacionado es el cuadrivector energía-momento, definido por
𝑝 = 𝑚𝑈 , (1.100)
donde m es la masa de la partícula. La masa es una cantidad fija e independiente del marco
inercial; lo que quizá estén acostumbrados a pensar como la "masa en reposo". Resulta
mucho más conveniente tomar esto como la masa de una vez por todas, en lugar de pensar
en la masa como dependiente de la velocidad. La energía de una partícula es simplemente
𝑝 , la componente temporal de su vector energía-momento. Como es sólo una componente
de un cuadrivector, no es invariante bajo las transformaciones de Lorentz; sin embargo, esto
es de esperar, ya que la energía de una partícula en reposo no es la misma que la de la misma
partícula en movimiento. En el marco de reposo de la partícula tenemos 𝑝 = m; recordando
que hemos fijado c = 1, encontramos que hemos hallado la ecuación que hizo de Einstein
una celebridad, E = 𝑚𝑐 . (Las ecuaciones de campo de la relatividad general son en realidad
mucho más importantes que ésta, pero "𝑅 − 𝑅𝑔 = 8𝜋𝐺𝑇 " no provoca la reacción
visceral que se obtiene con "E = 𝑚𝑐 "). En un marco en movimiento podemos encontrar las
componentes de 𝑝 realizando una transformación de Lorentz; para una partícula que se
mueve con (tres) velocidades v a lo largo del eje x tenemos
𝑝 = (𝛾𝑚, 𝑣𝛾𝑚, 0, 0) , (1.101)
donde 𝛾 = 1/√1 − 𝑣 . Para 𝑣 pequeñas, esto da 𝑝 = 𝑚 + 𝑚𝑣 (lo que solemos considerar
como energía en reposo más energía cinética) y 𝑝 = 𝑚𝑣 (lo que solemos considerar como
momento [newtoniano]). Así que el vector energía-momento hace honor a su nombre.
La pieza central de la física de la prerrelatividad es la 2ª Ley de Newton, o f = ma = dp/dt.
Una ecuación análoga debería ser válida en la RE, y el requisito de que sea tensorial nos
lleva directamente a introducir un cuadrivector de fuerza 𝑓 que satisface
𝑓 =𝑚 𝑥 (𝜏) = 𝑝 (𝜏) . (1.102)
El ejemplo más sencillo de una fuerza en la física newtoniana es la fuerza debida a la

gravedad. Sin embargo, en la relatividad, la gravedad no se describe mediante una fuerza,
sino mediante la curvatura del propio espaciotiempo.
En su lugar, consideremos el electromagnetismo. La fuerza tridimensional de Lorentz viene
dada por f = q(E + v × B), donde q es la carga de la partícula. Queremos una generalización
tensorial de esta ecuación. Resulta que hay una respuesta única:
𝑓 = 𝑞𝑈 𝐹 . (1.103)
Pueden comprobar que esto se reduce a la versión newtoniana en el límite de velocidades
pequeñas. Fíjense en que el requisito de que la ecuación sea tensorial, que es una forma de
garantizar la invariancia de Lorentz, restringe mucho las posibles expresiones que podemos
obtener. Este es un ejemplo de un fenómeno muy general, en el que un pequeño número de
una variedad aparentemente interminable de posibles leyes físicas son seleccionadas por
las exigencias de la simetría.
Aunque 𝑝 proporciona una descripción completa de la energía y el momento de una
partícula, para sistemas extendidos es necesario ir más allá y definir el tensor de energía-
momento (a veces llamado tensor de tensión-energía (“stress-energy tensor”)), 𝑇 . Se trata
de un tensor simétrico (2,0) que nos dice todo lo que necesitamos saber sobre los aspectos
energéticos de un sistema: densidad de energía, presión, tensión, etc. Una definición general
de 𝑇 es "el flujo de cuadrimomentos 𝑝 a través de una superficie de 𝑥 constante". Para

concretar esto, consideremos la categoría muy general de la materia que puede
caracterizarse como un fluido - un continuo de materia descrito por cantidades
macroscópicas tales como la temperatura, la presión, la entropía, la viscosidad, etc. De
hecho, esta definición es tan general que resulta poco útil. En la relatividad general, todos
los tipos de materia interesantes pueden considerarse fluidos perfectos, desde las estrellas
hasta los campos electromagnéticos y el universo entero. Schutz define un fluido perfecto
como uno sin conducción de calor y sin viscosidad, mientras que Weinberg lo define como
un fluido que parece isotrópico en su marco de reposo; estos dos puntos de vista resultan
ser equivalentes. Desde el punto de vista operativo, hay que pensar que un fluido perfecto
es aquel que puede caracterizarse completamente por su presión y densidad.
Para entender los fluidos perfectos, empecemos con el ejemplo aún más sencillo del polvo.
El polvo se define como un conjunto de partículas en reposo unas respecto a otras, o bien
como un fluido perfecto con presión cero. Dado que todas las partículas tienen la misma
velocidad en cualquier marco inercial fijo, podemos imaginar un "campo de
cuadrivelocidades" 𝑈 (𝑥) definido en todo el espaciotiempo. (De hecho, sus componentes
son los mismos en cada punto.) Definamos el cuadrivector número-flujo como
𝑁 = 𝑛𝑈 , (1.104)
donde n es la densidad numérica de las partículas medida en su marco de reposo. Entonces
𝑁 es la densidad numérica de partículas medida en cualquier otro marco, mientras que 𝑁
es el flujo de partículas en la dirección 𝑥 . Imaginemos ahora que cada una de las partículas
tiene la misma masa m. Entonces en el marco de reposo la densidad de energía del polvo
viene dada por
ρ = nm . (1.105)
Por definición, la densidad de energía especifica completamente el polvo. Pero ρ sólo mide
la densidad de energía en el marco de reposo; ¿qué pasa con otros marcos? Observamos que
tanto n como m son componentes-0 de cuadrivectores en su marco de reposo;
concretamente, 𝑁 = (n, 0, 0, 0) y 𝑝 = (m, 0, 0, 0). Por tanto, ρ es la componente µ = 0, ν = 0
del tensor p⊗N medido en su marco de reposo. Por lo tanto, nos lleva a definir el tensor de
energía-momento para el polvo:
𝑇 = 𝑝 𝑁 = 𝑛𝑚𝑈 𝑈 , (1.106)
donde ρ se define como la densidad de energía en el marco de reposo.
Una vez dominado el polvo, los fluidos perfectos más generales no son mucho más
complicados. Recordemos que "perfecto" puede entenderse como "isotrópico en su marco
de reposo". Esto a su vez significa que 𝑇 es diagonal - no hay flujo neto de ninguna
componente del momento en una dirección ortogonal. Además, las componentes espaciales
no nulas deben ser todas iguales, 𝑇 = 𝑇 = 𝑇 . Los dos únicos números independientes
son, por tanto, 𝑇 y uno de los 𝑇 ; podemos elegir llamar al primero de ellos la densidad
de energía ρ, y al segundo la presión p. (Lamentamos que sea la misma letra que el
momento.) El tensor de energía-momento de un fluido perfecto toma, por tanto, la siguiente
forma en su marco de reposo:
𝜌 0 0 0
0 𝑝 0 0
𝑇 = . (1.107)
0 0 𝑝 0
0 0 0 𝑝
Nos gustaría, por supuesto, una fórmula que sea buena en cualquier marco. Para el polvo
teníamos 𝑇 = 𝜌𝑈 𝑈 , así que podríamos empezar adivinando (ρ + p) 𝑈 𝑈 , lo que da
𝜌+𝑝 0 0 0
0 0 0 0
. (1.108)
0 0 0 0
0 0 0 0
Para obtener la respuesta deseada debemos por tanto añadir
−𝑝 0 0 0
0 𝑝 0 0
. (1.109)
0 0 𝑝 0
0 0 0 𝑝
Afortunadamente, esto tiene una generalización covariante obvia, a saber, 𝑝𝜂 . Así, la
forma general del tensor energía-momento para un fluido perfecto es
𝑇 = (𝜌 + 𝑝)𝑈 𝑈 + 𝑝𝜂 . (1.110)
Esta es una fórmula importante para aplicaciones como la estructura estelar y la cosmología.
Como ejemplos adicionales, consideremos los tensores de energía-momento del
electromagnetismo y la teoría de campos escalares. Sin ningún tipo de explicación, éstos
vienen dados por
1
𝑇 = 𝐹 𝐹 − 4𝜂 𝐹 𝐹 . (1.111)
𝑇 = 𝜂 𝜂 𝜕 𝜙𝜕 𝜙 − 𝜂 𝜂 𝜕 𝜙𝜕 𝜙 + 𝑚 𝜙 . (1.112)
Pueden comprobar por sí mismos que, por ejemplo, 𝑇 en cada caso es igual a lo que
esperásemos que fuera la densidad de energía.
Además de ser simétrica, 𝑇 tiene la propiedad aún más importante de conservarse. En
este contexto, la conservación se expresa como la desaparición de la "divergencia":
∂µ𝑇 =0. (1.113)
Se trata de un conjunto de cuatro ecuaciones, una para cada valor de 𝜈. La ecuación 𝜈 = 0
corresponde a la conservación de la energía, mientras que ∂µ𝑇 = 0 expresa la conservación
de la componente k del momento. No vamos a demostrar esto en general; la prueba se sigue
para cualquier fuente individual de materia a partir de las ecuaciones de movimiento que
obedece ese tipo de materia. De hecho, una forma de definir 𝑇 sería "un tensor (2,0) con
unidades de energía por volumen, que se conserva". Se puede demostrar la conservación
del tensor energía-momento para el electromagnetismo, por ejemplo, tomando la
divergencia de (1.111) y utilizando las ecuaciones de Maxwell como se ha comentado
anteriormente.
Un último inciso: ya hemos mencionado que en la relatividad general la gravitación no
cuenta como una "fuerza". Como punto relacionado, el campo gravitatorio tampoco tiene un
tensor de energía-momento. De hecho, es muy difícil dar con una expresión local sensata
para la energía de un campo gravitatorio; se han hecho varias sugerencias, pero todas tienen
sus inconvenientes. Aunque no hay una respuesta "correcta", es una cuestión importante
desde el punto de vista de la formulación de preguntas aparentemente razonables como
"¿Cuál es la energía emitida por segundo por un púlsar binario como resultado de la
radiación gravitatoria?"
2 VARIEDADES 26
2. Variedades
Tras la invención de la relatividad especial, Einstein intentó durante varios años inventar
una teoría de la gravedad invariante de Lorentz, sin éxito. Su avance final consistió en
sustituir el espaciotiempo de Minkowski por un espaciotiempo curvo, en el que la curvatura
era creada por la energía y el momento (y reaccionaba a ellos). Antes de explorar cómo
sucede esto, tenemos que aprender un poco sobre las matemáticas de los espacios curvos.
Primero echaremos un vistazo a las variedades (“manifolds”) en general, y luego en la
siguiente sección estudiaremos la curvatura. En aras de la generalidad, trabajaremos
normalmente en n dimensiones, aunque se puede tomar n = 4 si se quiere.
Una variedad (o a veces "variedad diferenciable") es uno de los conceptos más
fundamentales de las matemáticas y la física. Todos conocemos las propiedades del espacio
euclidiano n-dimensional, 𝐑 , el conjunto de n-tuplas (𝑥 , . . . , 𝑥 ). La noción de variedad
recoge la idea de un espacio que puede ser curvo y tener una topología complicada, pero
que en regiones locales se parece a 𝐑 . (Aquí por "se parece" no queremos decir que la
métrica sea la misma, sino sólo nociones básicas de análisis como conjuntos abiertos,
funciones y coordenadas). La variedad completa se construye cosiendo suavemente estas
regiones locales. Ejemplos de variedades son:
 𝐑 mismo, incluyendo la línea (R), el plano (𝐑 ), y así sucesivamente. Esto debería
ser obvio, ya que 𝐑 se parece a 𝐑 no sólo localmente sino globalmente.
 La n-esfera, 𝑆 . Puede definirse como el lugar de todos los puntos situados a una
distancia fija del origen en 𝐑 . El círculo es, por supuesto, 𝑆 , y la 2-esfera 𝑆 , será
uno de nuestros ejemplos favoritos de variedad.
 El n-toro 𝑇 resulta de tomar un cubo de n dimensiones e identificar los lados

opuestos. Así, 𝑇 es la superficie tradicional de un donut.
 Una superficie de Riemann de género g es esencialmente un dos-toro con g agujeros

en lugar de uno solo. 𝑆 puede considerarse una superficie de Riemann de género
cero. Para los que sepan lo que significan estas palabras, todas las variedades
bidimensionales "compactas orientables sin límites" son superficies de Riemann de
algún género.
género 0 género 1 género 2

2 VARIEDADES 27
 De forma más abstracta, un conjunto de transformaciones continuas, como las

rotaciones en 𝐑 , forma una variedad. Los grupos de Lie son variedades que también
tienen una estructura de grupo.
 El producto directo de dos variedades es una variedad. Es decir, dadas las

variedades M y M′ de dimensión n y n′, podemos construir una variedad M × M′, de
dimensión n + n′, formada por pares ordenados (p, p′) para todo p ∈ M y p′ ∈ M′.
Con todos estos ejemplos, la noción de variedad puede parecer vacía; ¿qué no es una
variedad? Hay muchas cosas que no son variedades, porque en algún lugar no se parecen
localmente a 𝐑 . Ejemplos de ello son una línea unidimensional que discurre en un plano
bidimensional, y dos conos pegados en sus vértices. (Un solo cono está bien; puedes
imaginar que se suaviza el vértice).
A continuación nos enfocaremos en la definición rigurosa de esta sencilla idea, que requiere
una serie de definiciones preliminares. De todos modos, muchas de ellas son bastante claras,
pero es bueno completarlas.
La noción más elemental es la de mapa entre dos conjuntos. (Suponemos que sabes lo que
es un conjunto.) Dados dos conjuntos M y N, un mapa ∅ : M → N es una relación que asigna,
a cada elemento de M, exactamente un elemento de N. Un mapa es, por tanto, una simple
generalización de una función. La imagen canónica de un mapa es la siguiente
M
ϕ
N
Dados dos mapas ∅ : A → B y ψ : B → C, definimos la composición ψ o ∅ : A → ∅ mediante la
operación (ψ o ∅)(𝑎)= ψ ∅(𝑎) . Así que 𝑎 ∈ A, ∅ (𝑎) ∈ B, y por tanto (ψ o ∅)(𝑎) ∈ C. El orden
en que se escriben los mapas tiene sentido, ya que el de la derecha actúa primero. En
imágenes:
2 VARIEDADES 28
ψ ϕ
A C
ϕ ψ
B
Un mapa ∅ se llama uno-a-uno (o "inyectivo") si cada elemento de N tiene como máximo
un elemento de M mapeado en él, y onto (o "sobreyectivo") si cada elemento de N tiene al
menos un elemento de M mapeado en él. (Pensándolo bien, un nombre mejor para "uno a
uno" sería "dos a dos"). Consideremos una función ∅ : R → R. Entonces ∅ (𝑥) = 𝑒 es uno-a-
uno, pero no onto; ∅ (𝑥) = 𝑥 − 𝑥 es onto, pero no uno-a-uno; ∅ (𝑥) = 𝑥 es ambos; y ∅ (𝑥) =
𝑥 no es ninguno.
El conjunto M se conoce como el dominio del mapa ∅, y el conjunto de puntos de N en los
que se mapea M se llama la imagen de ∅. Para algún subconjunto U ⊂ N, el conjunto de
elementos de M que se mapean a U se llama la preimagen de U bajo ∅, o ∅ (U). Un mapa
que es
tanto unívoco (“one-to-one”) como onto se conoce como invertible (o "biyectivo"). En este
caso podemos definir el mapa inverso ∅ : N → M por (∅ o ∅)(𝑎)= 𝑎. (Obsérvese que
se utiliza el mismo símbolo ∅ tanto para la preimagen como para el mapa inverso,
aunque el primero está siempre definido y el segundo sólo en algunos casos especiales).
Así pues:
2 VARIEDADES 29
ϕ
M
N
ϕ-1
La noción de continuidad de un mapa entre espacios topológicos (y por tanto las

variedades) es en realidad muy sutil, cuya formulación precisa no necesitaremos. Sin
embargo, las nociones intuitivas de continuidad y diferenciabilidad de los mapas ∅ : 𝐑 →
𝐑 entre espacios euclidianos son útiles. Un mapa de 𝐑 a 𝐑 lleva una m-tupla (𝑥 , 𝑥 , . . .
, 𝑥 ) a una n-tupla (𝑦 , 𝑦 , . . . , 𝑦 ), y por lo tanto puede ser pensado como una colección de
n funciones ∅ de m variables:
𝑦 = 𝜙 (𝑥 , 𝑥 , . . . , 𝑥 )
𝑦 = 𝜙 (𝑥 , 𝑥 , . . . , 𝑥 )
. (2.1)
.
.
𝑦 = 𝜙 (𝑥 , 𝑥 , . . . , 𝑥 )
Nos referiremos a cualquiera de estas funciones como 𝐶 si es continua y p veces
diferenciable, y nos referiremos al mapa completo ∅ : 𝐑 → 𝐑 como 𝐶 si cada una de sus
funciones componentes son al menos 𝐶 . Así, un mapa 𝐶 es continuo pero no
necesariamente diferenciable, mientras que un mapa 𝐶 es continuo y se puede diferenciar
tantas veces como se quiera. Los mapas 𝐶 se llaman a veces suave (“smooth”).
Llamaremos difeomorfos a dos conjuntos M y N si existe un mapa 𝐶 ∅ : M→ N con un 𝐶
inverso ∅ : N → M; el mapa ∅ se llama entonces difeomorfismo.
Aparte: La noción de que dos espacios son difeomorfos sólo se aplica a las variedades, donde
se hereda una noción de diferenciabilidad por el hecho de que el espacio se parece a 𝐑
localmente. Pero se puede definir la "continuidad" de los mapas entre espacios topológicos
(no necesariamente variedades), y decimos que dos de esos espacios son "homeomorfos",
lo que significa "topológicamente equivalentes a", si existe un mapa continuo entre ellos con
un inverso continuo. Por tanto, es concebible que existan espacios que sean homeomorfos
pero no difeomorfos; topológicamente iguales pero con "estructuras diferenciables"
distintas. En 1964 Milnor demostró que 𝑆 tenía 28 estructuras diferenciables diferentes;
resulta que para n < 7 sólo hay una estructura diferenciable en 𝑆 , mientras que para n > 7
el número crece mucho. 𝐑 tiene infinitas estructuras diferenciables.
Una pieza de cálculo convencional que necesitaremos más adelante es la regla de la cadena.
Imaginemos que tenemos mapas f : 𝐑 → 𝐑 y g : 𝐑 → 𝐑 , y por tanto la composición (g o
f) : 𝐑 → 𝐑 .
2 VARIEDADES 30
gof
𝑹 𝑹
f g
𝑹
Podemos representar cada espacio en términos de coordenadas: 𝑥 en 𝐑 , 𝑦 en 𝐑 , y 𝑧

en 𝐑 , donde los índices abarcan los valores adecuados. La regla de la cadena relaciona las
derivadas parciales de la composición con las derivadas parciales de los mapas
individuales:
𝑏
𝜕𝑓 𝜕𝑔𝑐
(𝑔 o 𝑓) = ∑ 𝑎 , (2.2)
𝜕𝑥 𝜕𝑦𝑏
Que es habitualmente abreviada como

𝜕𝑦𝑏 𝜕
= ∑ 𝑎 . (2.3)
𝜕𝑥 𝜕𝑦𝑏
No hay nada ilegal o inmoral en el uso de esta forma de la regla de la cadena, pero deberían
ser capaces de visualizar los mapas que subyacen a la construcción. Recuerden que cuando
m = n el determinante de la matriz 𝜕𝑦 /𝜕𝑦 se llama el Jacobiano del mapa, y que el mapa
es invertible siempre que el jacobiano sea distinto de cero.
Estas definiciones básicas probablemente os resulten familiares, aunque sólo las recuerden
vagamente. Ahora las pondremos en práctica en la definición rigurosa de las variedades.
Desgraciadamente, es necesario un procedimiento algo barroco para formalizar esta noción
relativamente intuitiva. Primero tendremos que definir la noción de conjunto abierto, en el
que podemos poner sistemas de coordenadas, y luego coser los conjuntos abiertos de forma
adecuada.
Empecemos con la noción de bola abierta (“open ball”), que es el conjunto de todos los
puntos 𝑥 en 𝐑 tales que |𝑥 − 𝑦|< r para un y ∈ 𝐑 fijo y r ∈ R, donde |𝑥 − 𝑦|
/
= ∑ 𝑥 −𝑦 . Nótese que se trata de una desigualdad estricta: la bola abierta es el
interior de una n-esfera de radio r centrada en y.
2 VARIEDADES 31
Un conjunto abierto en 𝐑 es un conjunto construido a partir de una unión arbitraria (quizás

infinita) de bolas abiertas. En otras palabras, V ⊂ 𝐑 es abierto si, para cualquier y ∈ V ,
existe una bola abierta centrada en y que está completamente dentro de V . A grandes rasgos,
un conjunto abierto es el interior de alguna superficie cerrada de (n - 1) dimensiones (o la
unión de varios de estos interiores). Al definir una noción de conjuntos abiertos, hemos
dotado a 𝐑 de una topología -en este caso, la "topología métrica estándar".
Una carta o sistema de coordenadas consiste en un subconjunto U de un conjunto M, junto
con un mapa uno a uno 𝜑 : U → 𝐑 , tal que la imagen 𝜑 (U) es abierta en R. (Cualquier mapa
es “onto” su imagen, por lo que el mapa 𝜑 : U → 𝜑 (U) es invertible). Entonces podemos decir
que U es un conjunto abierto en M. (Hemos inducido así una topología en M, aunque no la
exploraremos).
Un atlas 𝐶 es una colección indexada de cartas {(𝑈 ,𝜑 )} que satisface dos condiciones:
1. La unión de los 𝑈 es igual a M; es decir, los 𝑈 cubren a M.
2. Las cartas se cosen suavemente entre sí. Más precisamente, si dos cartas se superponen,
𝑈 ∩𝑈 ≠ Ø (distinto de cero), entonces el mapa (𝜑 o 𝜑 ) lleva puntos en 𝜑 (𝑈 ∩ 𝑈 )
⊂ 𝐑 a 𝜑 (𝑈 ∩𝑈 ) ⊂ 𝐑 , y todos estos mapas deben ser 𝐶 donde están definidos. Esto se
ve más claro en las imágenes siguientes:
2 VARIEDADES 32
M
Uα
𝜑
Uβ α n
R
𝜑𝛼 (𝑈𝛼 )⬚
𝜑
𝜑 o𝜑
n
R
𝜑𝛽 𝑈𝛽 ⬚ 𝜑 o𝜑 estos mapas están definidos

únicamente en las regiones
sombreadas, y ahí tienen que
que ser suaves.
Así pues, una carta es lo que normalmente consideramos un sistema de coordenadas en un

conjunto abierto, y un atlas es un sistema de cartas que están relacionadas suavemente en
sus solapamientos.
Por fin, entonces: una variedad 𝐶 n-dimensional (o n-variedad para abreviar) es
simplemente un conjunto M junto con un "atlas máximo", uno que contiene todas las cartas
compatibles posibles. (También podemos sustituir 𝐶 por 𝐶 en todas las definiciones
anteriores. Para nuestros propósitos, el grado de diferenciabilidad de una variedad no es
crucial; siempre supondremos que cualquier variedad es tan diferenciable como sea
necesario para la aplicación considerada). El requisito de que el atlas sea máximo es para
que dos espacios equivalentes dotados de atlas diferentes no cuenten como variedades
diferentes. Esta definición captura en términos formales nuestra noción de un conjunto que
se parece localmente a 𝐑 . Por supuesto, rara vez tendremos que hacer uso de toda la
potencia de la definición, pero la precisión es su propia recompensa.
Una cosa buena de nuestra definición es que no depende de una incrustación de las
variedades en algún espacio euclidiano de mayor dimensión. De hecho, cualquier variedad
de n dimensiones puede incrustarse en 𝐑 ("teorema de incrustación de Whitney"), y a
veces haremos uso de este hecho (como en nuestra definición de la esfera anterior). Pero es
importante reconocer que las variedades tienen una existencia individual independiente de
cualquier incrustación. No tenemos ninguna razón para creer, por ejemplo, que el
espaciotiempo de cuatro dimensiones está atrapado en algún espacio mayor. (En realidad,
varias personas, los teóricos de las cuerdas y demás, creen que nuestro mundo
cuatridimensional forma parte de un espaciotiempo de diez u once dimensiones, pero en lo
que respecta a la RG la visión cuatridimensional es perfectamente adecuada).
¿Por qué ha sido necesario ser tan exigente con los gráficos y sus solapamientos, en lugar
de cubrir todas las variedades con un solo gráfico? Porque la mayoría de las variedades no
pueden cubrirse con un solo gráfico. Consideremos el ejemplo más sencillo, 𝑆 . Hay un
sistema de coordenadas convencional, θ : 𝑆 → R, donde θ = 0 en la parte superior del círculo
y se envuelve hasta 2π. Sin embargo, en la definición de gráfico hemos exigido que la imagen
θ(𝑆 ) sea abierta en R. Si incluimos bien θ = 0 o bien θ = 2π, tenemos un intervalo cerrado
en lugar de uno abierto; si excluimos ambos puntos, no hemos cubierto todo el círculo. Así
que necesitamos al menos dos gráficos, como se muestra.
2 VARIEDADES 33
1
S
U1
U2
Un ejemplo algo más complicado es el de 𝑆 , en el que, una vez más, una única carta cubre
la variedad. Una proyección de Mercator, tradicionalmente utilizada para los mapas del
mundo, pasa por alto los polos Norte y Sur (así como la Línea Internacional de la Fecha, lo
que implica el mismo problema con θ que encontramos para 𝑆 ). Tomemos 𝑆 como el
conjunto de puntos en 𝐑 definido por (𝑥 ) + (𝑥 ) + (𝑥 ) = 1. Podemos construir una
carta a partir de un conjunto abierto 𝑈 , definido como la esfera menos el polo norte,
mediante una "proyección estereográfica":
x3
x2
x1 (x 1 , x 2 , x 3)
x 3 = -1
(y 1, y 2)
Así, trazamos una línea recta desde el polo norte hasta el plano definido por 𝑥 = -1, y
asignamos al punto de 𝑆 interceptado por la línea las coordenadas cartesianas (𝑦 , 𝑦 ) del
punto apropiado del plano. Explícitamente, el mapa viene dado por
𝜙 (𝑥 , 𝑥 , 𝑥 ) ≡ (𝑦 , 𝑦 ) = , (2.4)
Los animo a que lo comprueben por sí mismos. Otra carta (𝑈 , 𝜑 ) se obtiene proyectando
desde el polo sur al plano definido por 𝑥 = +1. Las coordenadas resultantes cubren la esfera
menos el polo sur, y vienen dadas por
𝜙 (𝑥 , 𝑥 , 𝑥 ) ≡ (𝑧 , 𝑧 ) = , . (2.5)
Juntas, estos dos cartas cubren la totalidad de la variedad, y se solapan en la región -1 < 𝑥 <
+1. Otra cosa que se puede comprobar es que la composición 𝜑 o 𝜑 viene dada por
𝑧 = , (2.6)
[( ) ( ) ]
y es 𝐶 en la región de solapamiento. Siempre que restrinjamos nuestra atención a esta
región, (2.6) no es más que lo que normalmente consideramos como un cambio de
coordenadas. Vemos, pues, la necesidad de las cartas y los atlas: muchas variedades no
pueden cubrirse con un solo sistema de coordenadas. (Aunque algunas sí pueden, incluso
las que tienen una topología no trivial. ¿Se te ocurre un buen sistema de coordenadas que
cubra el cilindro 𝑆 ×R?) Sin embargo, muy a menudo es más conveniente trabajar con una
sola carta, y sólo llevar la cuenta del conjunto de puntos que no están incluidos.
2 VARIEDADES 34
El hecho de que las variedades se parezcan localmente a 𝐑 , que se manifiesta en la

construcción de gráficos (cartas) de coordenadas, introduce la posibilidad de realizar
análisis sobre las variedades, incluyendo operaciones como la diferenciación y la
integración. Consideremos dos variedades M y N de dimensiones m y n, con cartas de
coordenadas φ en M y ψ en N. Imaginemos que tenemos una función f : M → N,
M f N
ϕ-1 ϕ ψ-1 ψ
m n
R ψ◦ f ◦ ϕ-1
R
Sólo pensando en M y N como conjuntos, no podemos diferenciar despreocupadamente el

mapa f, ya que no sabemos qué significa tal operación. Pero los gráficos (cartas) de
coordenadas nos permiten construir el mapa (ψ o f o 𝜙 ) : 𝐑 → 𝐑 . (Siéntase libre de
insertar las palabras "donde se definen los mapas" donde sea apropiado, aquí y más
adelante). Esto no es más que un mapa entre espacios euclidianos, y aquí aplican todos los
conceptos del cálculo avanzado. Por ejemplo, f, pensada como una función de valor N en M,
puede diferenciarse para obtener ∂f/∂𝑥 , donde las 𝑥 representan 𝐑 . La cuestión es que
esta notación es un atajo, y lo que realmente ocurre es
≡ (𝜓 o 𝑓 o 𝜙 )(𝑥 ) (2.7)
Sería demasiado engorroso (por no decir pedante) escribir explícitamente los mapas de
coordenadas en todos los casos. La notación abreviada del lado izquierdo será suficiente
para la mayoría de los propósitos.
Una vez construidas estas bases, podemos introducir varios tipos de estructuras en las
variedades. Comenzamos con los vectores y los espacios tangentes. En nuestra discusión
sobre la relatividad especial fuimos intencionadamente vagos sobre la definición de los
vectores y su relación con el espaciotiempo. Un punto en el que se hizo hincapié fue en la
noción de espacio tangente: el conjunto de todos los vectores en un punto del
espaciotiempo. La razón de este énfasis era eliminar de sus mentes la idea de que un vector
se extiende desde un punto de las variedades a otro, sino que es sólo un objeto asociado a
un único punto. Lo que se pierde temporalmente al adoptar este punto de vista es una forma
de dar sentido a afirmaciones como "el vector apunta en la dirección x" - si el espacio
tangente es simplemente un espacio vectorial abstracto asociado a cada punto, es difícil
saber qué debería significar esto. Ahora es el momento de solucionar el problema.
Imaginemos que queremos construir el espacio tangente en un punto p en una variedad M,
utilizando sólo cosas que son intrínsecas a M (sin incrustaciones en espacios de mayor
dimensión, etc.). Una primera aproximación podría ser utilizar nuestro conocimiento
intuitivo de que hay objetos llamados "vectores tangentes a curvas" que pertenecen al
2 VARIEDADES 35
espacio tangente. Por lo tanto, podríamos considerar el conjunto de todas las curvas
paramétricas que pasan por p, es decir, el espacio de todos los mapas (no degenerados) γ :
R → M tales que p está en la imagen de γ. La tentación es definir el espacio tangente como
simplemente el espacio de todos los vectores tangentes a estas curvas en el punto p. Pero
esto es obviamente hacer trampa; se supone que el espacio tangente 𝑇 es el espacio de
vectores en p, y antes de haber definido esto no tenemos una noción independiente de lo
que se supone que significa "el vector tangente a una curva". En algún sistema de
coordenadas 𝑥 cualquier curva que pase por p define un elemento de 𝐑 especificado por
los n números reales 𝑑𝑥 /dλ (donde λ es el parámetro a lo largo de la curva), pero este mapa
es claramente dependiente de las coordenadas, que no es lo que queremos.
No obstante, estamos en el buen camino, sólo tenemos que hacer las cosas independientes
de las coordenadas. Para ello definimos ℱ como el espacio de todas las funciones suaves
sobre M (es decir, los mapas 𝐶 f : M → R). Luego tenemos en cuenta que cada curva que
pasa por p define un operador en este espacio, la derivada direccional, que mapea f → df/dλ
(en p). Haremos la siguiente afirmación: el espacio tangente 𝑇 puede identificarse con el
espacio de operadores de derivadas direccionales a lo largo de las curvas que pasan por p. Para
establecer esta idea debemos demostrar dos cosas: primero, que el espacio de derivadas
direccionales es un espacio vectorial, y segundo que es el espacio vectorial que queremos
(tiene la misma dimensionalidad que M, da una idea natural de un vector que apunta a lo
largo de una determinada dirección, etc.).
La primera afirmación, que las derivadas direccionales forman un espacio vectorial, parece
bastante sencilla. Imaginemos dos operadores y que representan derivadas a lo largo
de dos curvas que pasan por p. No hay ningún problema en sumarlos y escalarlos por
números reales, para obtener un nuevo operador a + b . Sin embargo, no es
inmediatamente obvio que el espacio se cierre, es decir, que el operador resultante sea en
sí mismo un operador derivado. Un buen operador de derivación es aquel que actúa
linealmente sobre las funciones, y obedece la regla convencional de Leibniz (producto)
sobre los productos de funciones. Nuestro nuevo operador es manifiestamente lineal, así
que tenemos que comprobar que obedece la regla de Leibniz. Tenemos
𝑎 +𝑏 (𝑓𝑔) = 𝑎𝑓 + ag + bf
= 𝑎 +𝑏 𝑔+ 𝑎 +𝑏 𝑓. (2.8)
Como esperábamos, se cumple la regla del producto, y el conjunto de derivadas

direccionales es, por tanto, un espacio vectorial.
¿Es el espacio vectorial que queremos identificar con el espacio tangente? La forma más fácil
de convencerse es encontrar una base para el espacio. Consideremos de nuevo un gráfico
de coordenadas con coordenadas 𝑥 . Entonces hay un conjunto obvio de n derivadas
direccionales en p, a saber, las derivadas parciales 𝜕 en p.
2 VARIEDADES 36
p 1
x2
x1
Ahora vamos a afirmar que los operadores de derivadas parciales {∂µ} en p forman una base
para el espacio tangente 𝑇 . (Se deduce inmediatamente que 𝑇 es n-dimensional, ya que
ese es el número de vectores base). Para ver esto mostraremos que cualquier derivada
direccional puede descomponerse en una suma de números reales por derivadas parciales.
Esto es, de hecho, sólo la expresión familiar para los componentes de un vector tangente,
pero es agradable verlo desde el enfoque de la gran maquinaria. Consideremos una n-
variedad M, una carta de coordenadas 𝜙 : M → 𝐑 , una curva γ : R → M, y una función f : M
→ R. Esto conduce a la siguiente maraña de mapas:
f γ
R M
γ f R
𝜙 -1 𝜙
𝜙 γ n 𝜙 -1
R
µ
x
Si λ es el parámetro a lo largo de γ, queremos expandir el vector/operador en términos

de los parciales ∂µ. Utilizando la regla de la cadena (2.2), tenemos
𝑓= (𝑓o 𝛾)
= [(𝑓o 𝜙−1 ) o (𝜙 o γ)]

( ) ( )
=
= 𝜕𝜇 𝑓. (2.9)
La primera línea simplemente toma la expresión informal del lado izquierdo y la reescribe
como una derivada honesta de la función (f o γ) : R → R. La segunda línea sólo proviene de
la definición del mapa inverso 𝜙 (y de la asociatividad de la operación de composición).
2 VARIEDADES 37
La tercera línea es la regla formal de la cadena (2.2), y la última línea es una vuelta a la
notación informal del principio. Como la función f era arbitraria, tenemos
= ∂µ (2.10)
Así, las parciales {∂µ} representan efectivamente una buena base para el espacio vectorial
de las derivadas direccionales, que podemos identificar con seguridad con el espacio
tangente.
Por supuesto, el vector representado por es uno que ya conocemos; es el vector tangente
a la curva con parámetro λ. Así, (2.10) puede considerarse como una reformulación de
(1.24), donde afirmamos que las componentes del vector tangente eran simplemente
𝑑𝑥 /dλ. La única diferencia es que estamos trabajando en una variedad arbitraria, y hemos
especificado que nuestros vectores base son 𝑒̂ ( ) = 𝜕 .
Esta base particular (𝑒̂ ( ) = 𝜕 ) se conoce como base de coordenadas para 𝑇 ; es la
formalización de la noción de establecer los vectores base para que apunten a lo largo de
los ejes de coordenadas. No hay ninguna razón por la que estemos limitados a las bases de
coordenadas cuando consideramos vectores tangentes; a veces es más conveniente, por
ejemplo, utilizar bases ortonormales de algún tipo. Sin embargo, la base de coordenadas es
muy sencilla y natural, y la utilizaremos casi exclusivamente a lo largo del curso.
Una de las ventajas del punto de vista más bien abstracto que hemos adoptado respecto a
los vectores es que la ley de transformación es inmediata. Dado que los vectores base son
𝑒̂ ( ) = 𝜕 , los vectores base en un nuevo sistema de coordenadas 𝑥 vienen dados por la
regla de la cadena (2.3) como
𝜕 = 𝜕 (2.11)
Podemos obtener la ley de transformación para las componentes de los vectores por la
misma técnica utilizada en el espacio plano, exigiendo que el vector V = 𝑉 𝜕 no sea
modificado por un cambio de base. Tenemos
𝑉 𝜕 =𝑉 𝜕
𝜇
𝜕𝑥
=𝑉 𝜕𝜇 , (2.12)
𝜇′
𝜕𝑥
y de aquí (como a matriz 𝜕𝑥 /𝜕𝑥 es la inversa de la matriz 𝜕𝑥 /𝜕𝑥 ),
𝑉 = 𝑉 . (2.13)
Como los vectores base no suelen escribirse explícitamente, la regla (2.13) para transformar
componentes es lo que llamamos "ley de transformación vectorial". Observamos que es
compatible con la transformación de componentes vectoriales en la relatividad especial
bajo transformaciones de Lorentz, 𝑉 =Λ 𝑉 , ya que una transformación de Lorentz
es un tipo especial de transformación de coordenadas, con 𝑥 = Λ 𝑉 . Pero (2.13) es
mucho más general, ya que abarca el comportamiento de los vectores bajo cambios
arbitrarios de coordenadas (y, por tanto, de bases), no sólo transformaciones lineales. Como
es habitual, tratamos de enfatizar una distinción ontológica algo sutil: los componentes del
tensor no cambian cuando cambiamos las coordenadas, sino que cambian cuando
cambiamos la base en el espacio tangente, pero hemos decidido utilizar las coordenadas
para definir nuestra base. Por tanto, un cambio de coordenadas induce un cambio de base:
2 VARIEDADES 38
xµ
2 1’
1 x µ’ 2’
Después de haber explorado el mundo de los vectores, seguimos los pasos que dimos en el
espacio plano, y ahora consideramos los vectores duales (uno-formas). Una vez más, el
espacio cotangente 𝑇 ∗ es el conjunto de mapas lineales ω : 𝑇 → R. El ejemplo canónico de
un uno- forma es el gradiente de una función f, denominado df. Su acción sobre un vector
es exactamente la derivada direccional de la función:
df = . (2.14)
Es tentador pensar: "¿por qué no debería considerarse la propia función f como un uno-
forma, y df/dλ como su acción?". La cuestión es que una forma única, al igual que un vector,
sólo existe en el punto en el que está definida, y no depende de la información en otros
puntos de M. Si se conoce una función en alguna vecindad de un punto se puede tomar su
derivada, pero no sólo a partir de conocer su valor en el punto; el gradiente, en cambio,
codifica precisamente la información necesaria para tomar la derivada direccional a lo largo
de cualquier curva que pase por p, cumpliendo su papel de vector dual.
Al igual que las derivadas parciales a lo largo de los ejes de coordenadas proporcionan una
base natural para el espacio tangente, los gradientes de las funciones de coordenadas 𝑥
proporcionan una base natural para el espacio cotangente. Recordemos que en el espacio
plano construimos una base para exigiendo que 𝜃 ( ) 𝑒̂( ) =δ . Siguiendo la misma filosofía
en una variedad arbitraria, encontramos que (2.14) conduce a
d𝑥 (𝜕 ) = =δ . (2.15)
Por lo tanto, los gradientes {d𝑥 } son un conjunto apropiado de uno-formas base; una forma
única arbitraria se expande en componentes como ω = 𝜔 d𝑥 .
Las propiedades de transformación de los vectores duales de base y los componentes se
derivan de lo que ya es el procedimiento habitual. Obtenemos, para las uno-formas base,
d𝑥 = , (2.16)
y para los componentes
𝜔 = 𝜔 . (2.17)
Normalmente escribiremos las componentes ωµ cuando hablemos de una forma única ω.

La ley de transformación para los tensores generales sigue este mismo patrón de sustitución
de la matriz de transformación de Lorentz utilizada en el espacio plano por una matriz que
2 VARIEDADES 39
representa transformaciones de coordenadas más generales. Un tensor T (k,l) puede

expandirse
…
T=𝑇 … 𝜕 ⊗ . . .⊗ 𝜕 ⊗ d𝑥 ⊗. . . ⊗ d𝑥𝜈𝑙 , (2.18)
y bajo una transformación de coordenadas los componentes cambian de acuerdo con
… …
𝑇 …
= ... 𝑇 … . (2.19)
Esta ley de transformación de tensores es fácil de recordar, ya que realmente no hay nada
más que pueda ser, dada la colocación de los índices. Sin embargo, a menudo es más fácil
transformar un tensor tomando la identidad de los vectores base y las uno-formas como
derivadas parciales y gradientes en valor nominal, y simplemente sustituyendo en la
transformación de coordenadas. Como ejemplo, consideremos un tensor S simétrico (0,2)
en una variedad bidimensional, cuyos componentes en un sistema de coordenadas (𝑥 =
𝑥, 𝑥 = 𝑦) vienen dados por
𝑥 0
𝑆 = . (2.20)
0 1
Que puede escribirse de forma equivalente
S=𝑆 (d𝑥 ⊗ d𝑥 )
= x (d𝑥) + (d𝑦) , (2.21)
donde en la última línea se suprimen los símbolos del producto tensorial por brevedad.
Consideremos ahora las nuevas coordenadas
x’ = 𝑥 /
y’ = 𝑒 . (2.22)
Esto nos lleva directamente a
x = (𝑥 )
y = ln (𝑦 ) - (𝑥 )
dx = 3 (𝑥 ) dx’
dy = dy’ - 3 (𝑥 ) dx’ . (2.23)
Basta con introducir estas expresiones directamente en (2.21) para obtener (recordando
que los productos tensoriales no conmutan, por lo que dx′ dy′ ≠ dy′ dx′):
( )
𝑆 = 9(𝑥 ) [1 + (𝑥 ) ](d𝑥 ) − 3 (d𝑥 d𝑦 + d𝑦 d𝑥 ) + (d𝑦 ) (2.24)
( )
o
2
𝑥′
9(𝑥 ) [1 + (𝑥 ) ] −3 ′
⎛ 𝑦 ⎞
𝑆 = ⎜
⎜ 2 ⎟
⎟ (2.25)
𝑥′ 1
−3 ′ 2
𝑦 𝑦′
⎝ ⎠
Obsérvese que sigue siendo simétrica. No hemos utilizado directamente la ley de
transformación (2.19), pero si lo hubiéramos hecho habríamos obtenido el mismo
resultado, como se puede comprobar.
En su mayor parte, las diversas operaciones tensoriales que definimos en el espacio plano
no se alteran en un entorno más general: contracción, simetrización, etc. Hay tres
2 VARIEDADES 40
excepciones importantes: las derivadas parciales, la métrica y el tensor de Levi-Civita.

Veamos primero la derivada parcial.
El hecho desafortunado es que la derivada parcial de un tensor no es, en general, un nuevo
tensor. El gradiente, que es la derivada parcial de un escalar, es un tensor normal (0,1), como
hemos visto. Pero la derivada parcial de los tensores de rango superior no es tensorial, como
podemos ver considerando la derivada parcial de un uno-forma, ∂ 𝑊 , y cambiando a un
nuevo sistema de coordenadas:
∂𝑥 ∂ ∂𝑥
𝑊 = 𝑊
∂𝑥 ∂𝑥 ∂𝑥
∂𝑥 ∂𝑥 ∂ ∂𝑥 ∂ ∂𝑥
= 𝑊 +𝑊 . (2.26)
∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥
El segundo término de la última línea no debería estar ahí si ∂ 𝑊 se transformara como un
tensor (0,2). Como pueden ver, surge porque la derivada de la matriz de transformación no
desaparece, como lo hacía para las transformaciones de Lorentz en el espacio plano.
Por otro lado, el operador de derivada exterior d sí forma un tensor antisimétrico (0, p+1)
cuando se actúa sobre una p-forma. Para p = 1 podemos ver esto a partir de (2.26); el
término no tensorial perjudicial puede escribirse
𝑊 =𝑊 . (2.27)
Esta expresión es simétrica en µ′ y ν′, ya que las derivadas parciales se conmutan. Pero la
derivada exterior se define como la derivada parcial antisimétrica, por lo que este término
desaparece (la parte antisimétrica de una expresión simétrica es cero). Nos queda entonces
la ley de transformación tensorial correcta; la extensión a p arbitrario es sencilla. Así pues,
la derivada exterior es un operador tensorial legítimo; sin embargo, no es un sustituto
adecuado de la derivada parcial, ya que ésta sólo está definida sobre formas. En la siguiente
sección definiremos una derivada covariante, que puede considerarse como la extensión de
la derivada parcial a las variedades arbitrarias.
El tensor métrico es un objeto tan importante en el espacio curvo que se le da un nuevo
símbolo, 𝑔 (mientras que 𝜂 se reserva específicamente para la métrica de Minkowski).
Hay pocas restricciones sobre los componentes de 𝑔 , aparte de que sea un tensor
simétrico (0,2). Normalmente se considera que no es degenerado, lo que significa que el
determinante g = |𝑔 | no desaparece. Esto nos permite definir la métrica inversa 𝑔
mediante
𝑔 𝑔 =δ . (2.28)
La simetría de 𝑔 implica que 𝑔 también es simétrica. Al igual que en la relatividad
especial, la métrica y su inversa pueden utilizarse para subir y bajar los índices de los
tensores.
Nos llevará varias semanas apreciar plenamente el papel de la métrica en todo su esplendor,
pero a efectos de inspiración podemos enumerar los diversos usos que se darán a 𝑔 : (1)
la métrica proporciona una noción de "pasado" y "futuro"; (2) la métrica permite calcular la
longitud de la trayectoria y el tiempo propio; (3) la métrica determina la "distancia más
corta" entre dos puntos (y por tanto el movimiento de las partículas de test); (4) la métrica
sustituye al campo gravitatorio newtoniano φ; (5) la métrica proporciona una noción de
marcos inerciales locales y, por tanto, un sentido de "no rotación"; (6) la métrica determina
la causalidad, definiendo la velocidad de la luz más rápida que la cual no puede viajar
ninguna señal; (7) la métrica sustituye al tradicional producto punto tridimensional
euclidiano de la mecánica newtoniana; y así sucesivamente. Evidentemente, estas ideas no
2 VARIEDADES 41
son completamente independientes, pero podemos hacernos una idea de la importancia de

este tensor.
En nuestra discusión sobre las longitudes de las trayectorias en la relatividad especial,
introdujimos (de forma un tanto torpe) el elemento de línea como 𝑑𝑠 = 𝜂 𝑑𝑥 𝑑𝑥 , que
se utilizó para obtener la longitud de una trayectoria.
Por supuesto, ahora que sabemos que 𝑑𝑥 es realmente un vector dual de base, resulta
natural utilizar los términos "métrica" y "elemento de línea" indistintamente, y escribir
𝑑𝑠 = 𝑔 d𝑥 d𝑥 . (2.29)
(Para ser perfectamente coherentes deberíamos escribirlo como "g", y a veces lo haremos,
pero la mayoría de las veces se utiliza g para el determinante |𝑔 |). Por ejemplo, sabemos
que el elemento de línea euclidiano en un espacio tridimensional con coordenadas
cartesianas es
𝑑𝑠 = (d𝑥) +(d𝑦) + (d𝑧) . (2.30)
Ahora podemos cambiar a cualquier sistema de coordenadas que elijamos. Por ejemplo, en
coordenadas esféricas tenemos
x = r senθ cos𝜙
y = r senθ sen𝜙
z = r cosθ , (2.31)
que conduce directamente a

ds2 = dr2 + r2 dθ2 + r2 sen2 θd𝜙2 . (2.32)
Evidentemente, las componentes de la métrica tienen un aspecto diferente al de las
coordenadas cartesianas, pero todas las propiedades del espacio permanecen inalteradas.
Quizá sea éste un buen momento para señalar que la mayoría de las referencias no son lo
suficientemente exigentes como para distinguir entre "dx", la noción informal de un
desplazamiento infinitesimal, y "dx", la noción rigurosa de una forma de base dada por el
gradiente de una función de coordenadas. De hecho, nuestra notación " ds2 " no se refiere a
la derivada exterior de nada, ni al cuadrado de nada; es sólo una abreviatura convencional
del tensor métrico. Por otro lado, "(d𝑥) " se refiere específicamente al tensor (0,2) dx ⊗ dx.
Un buen ejemplo de un espacio con curvatura es la 2-esfera, que puede considerarse como
el lugar de los puntos en 𝐑 a distancia 1 del origen. La métrica en el sistema de coordenadas
(θ, 𝜙) proviene de establecer r = 1 y dr = 0 en (2.32):
ds2 = dθ2 + sen2 θ d𝜙2 . (2.33)
Esto es completamente consistente con la interpretación de ds como una longitud

infinitesimal, como se ilustra en la figura.
Como veremos, el tensor métrico contiene toda la información que necesitamos para
describir la curvatura de las variedades (al menos en la geometría de Riemann; en realidad,
indicaremos enfoques algo más generales). En el espacio de Minkowski podemos elegir
coordenadas en las que las componentes de la métrica sean constantes; pero debe quedar
claro que la existencia de curvatura
2 VARIEDADES 42
S2
ds
dθ
senθ d𝜙
es más sutil que el hecho de que la métrica dependa de las coordenadas, ya que en el ejemplo
anterior mostramos cómo la métrica en el espacio plano euclidiano en coordenadas
esféricas es una función de r y θ. Más adelante veremos que la constancia de las
componentes de la métrica es suficiente para que un espacio sea plano, y de hecho siempre
existe un sistema de coordenadas en cualquier espacio plano en el que la métrica es
constante. Pero es posible que no queramos trabajar en un sistema de coordenadas de este
tipo, y que ni siquiera sepamos cómo encontrarlo; por lo tanto, necesitaremos una
caracterización más precisa de la curvatura, que se introducirá más adelante.
Una caracterización útil de la métrica se obtiene poniendo 𝑔 en su forma canónica. En esta
forma, las componentes de la métrica se convierten en
𝑔 = diag (−1, −1, . . . , −1, +1, +1, . . . ,+1, 0, 0, . . . ,0) , (2.34)
donde "diag" significa una matriz diagonal con los elementos dados. Si n es la dimensión de
la variedad, s es el número de +1’s en la forma canónica, y t es el número de −1’s, entonces
s − t es la firma de la métrica (la diferencia en el número de signos menos y más), y s + t es
el rango de la métrica (el número de valores propios no nulos). Si una métrica es continua,
el rango y la firma del campo tensorial de la métrica son iguales en todos los puntos, y si la
métrica es no degenerada el rango es igual a la dimensión n. Siempre trataremos con
métricas continuas no degeneradas. Si todos los signos son positivos (t = 0) la métrica se
llama euclídea o riemanniana (o simplemente "definida positiva"), mientras que si hay un
solo signo negativo (t = 1) se llama lorentziana o pseudo-riemanniana, y cualquier
métrica con algunos +1 y algunos -1 se llama "indefinida". (Así que la palabra " euclídeo " a
veces significa que el espacio es plano, y a veces no, pero siempre significa que la forma
canónica es estrictamente positiva; la terminología es desafortunada pero estándar). Los
espaciotiempo de interés en la relatividad general tienen métricas lorentzianas.
Todavía no hemos demostrado que siempre es posible excepto para la métrica en forma
canónica. De hecho, siempre es posible hacerlo en algún punto p ∈ M, pero en general sólo
será posible en ese único punto, no en ninguna vecindad de p. En realidad, podemos hacerlo
un poco mejor que esto; resulta que en cualquier punto p existe un sistema de coordenadas
en el que 𝑔 adopta su forma canónica y las primeras derivadas ∂ 𝑔 desaparecen todas
(mientras que las segundas derivadas ∂ ∂ 𝑔 no pueden hacerse desaparecer todas).
Tales coordenadas se conocen como coordenadas normales de Riemann, y los vectores base
asociados constituyen un marco local de Lorentz. Nótese que en coordenadas normales de
Riemann (o RNC's) la métrica en p se parece a la del espacio plano "a primera vista". Esta es
la noción rigurosa de la idea de que "regiones suficientemente pequeñas del espaciotiempo
se parecen al espacio plano (de Minkowski)". (Además, no hay ninguna dificultad en
construir simultáneamente conjuntos de vectores base en cada punto de M tales que la
métrica adopte su forma canónica; el problema es que en general ésta no será una base de
coordenadas, y no habrá manera de convertirla en una).
2 VARIEDADES 43
No vamos a considerar la prueba detallada de esta afirmación; se puede encontrar en

Schutz, pp. 158-160, donde recibe el nombre de "teorema de la planitud local". (También
llama a los marcos locales de Lorentz "marcos de referencia momentáneos", o MCRF). Sin
embargo, es útil ver un esbozo de la prueba para el caso específico de una métrica
lorentziana en cuatro dimensiones. La idea es considerar la ley de transformación de la
métrica
∂𝑥 ∂𝑥
𝑔 = 𝑔 , (2.35)
∂𝑥 ∂𝑥
y expandir ambos lados en series de Taylor en las coordenadas buscadas xµ′. La expansión
de las antiguas coordenadas xµ tiene el siguiente aspecto
∂x ∂ ∂
𝑥 = ∂𝑥 + 𝑥 𝑥 + 𝑥 𝑥 𝑥 +. . . ,
∂x ∂x ∂x ∂x ∂x ∂x
(2.36)
y las demás expansiones siguen la misma línea. (Para simplificar, hemos fijado 𝑥 (𝑝)=
𝑥 (𝑝) = 0.) Entonces, utilizando una notación muy esquemática, la expansión de (2.35) en
segundo orden es
(𝑔 ) + (∂ 𝑔 ) 𝑥 + (∂ ∂ 𝑔 ) 𝑥 𝑥
2
∂x ∂ 𝑥 ∂x ∂x
= + 𝑔+ ′ ′ ∂ 𝑔 𝑥
∂𝑥′ ∂𝑥′ ∂𝑥′ ∂𝑥 ∂𝑥
3 2 2 2
∂𝑥 ∂ 𝑥 ∂ 𝑥 ∂ 𝑥 ∂x ∂ 𝑥 ∂x ∂x
+ 𝑔+ ′ ′ ′ ′𝑔+ ′ ′ ′∂ 𝑔+ ′ ′ ∂ ∂ 𝑔 𝑥𝑥 (2.37)
∂𝑥′ ∂𝑥′ ∂𝑥′ ∂𝑥′ ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥 ∂𝑥
Podemos establecer términos de igual orden en x′ en cada lado iguales entre sí. Por tanto,
los componentes 𝑔 (𝑝), 10 números en total (para describir un tensor simétrico de dos
índices), están determinados por la matriz (∂𝑥 / ∂𝑥 ) . Esta es una matriz de 4 × 4 sin
restricciones; por lo tanto, 16 números que somos libres de elegir. Es evidente que esto es
suficiente libertad para poner los 10 números de 𝑔 (𝑝) en forma canónica, al menos en
lo que se refiere a tener suficientes grados de libertad.
(De hecho, hay algunas limitaciones: si se repasa el procedimiento con cuidado, se
encuentra, por ejemplo, que no se puede cambiar la firma y el rango). Los seis grados de
libertad restantes pueden interpretarse exactamente como los seis parámetros del grupo
de Lorentz; sabemos que estos dejan la forma canónica sin cambiar. En primer orden
tenemos las derivadas ∂ 𝑔 (𝑝), cuatro derivadas de diez componentes para un total de
40 números. Pero mirando el lado derecho de (2.37) vemos que ahora tenemos la libertad
adicional de elegir ∂ 𝑥 / ∂𝑥 ∂𝑥 . En este conjunto de números hay 10 opciones
independientes de los índices 𝜇 y 𝜇 (es simétrico, ya que las derivadas parciales se
conmutan) y cuatro opciones de µ, para un total de 40 grados de libertad. Esta es
precisamente la cantidad de opciones que necesitamos para determinar todas las derivadas
primeras de la métrica, que por tanto podemos poner a cero. En segundo orden, sin
embargo, nos preocupa ∂ ∂ 𝑔 (𝑝); esto es simétrico en ρ′ y σ′, así como en µ′ y ν′, para
un total de 10× 10 = 100 números. Nuestra capacidad de hacer elecciones adicionales está
contenida en ∂ 𝑥 / ∂𝑥 ∂𝑥 ∂𝑥 .
Esto es simétrico en los tres índices inferiores, lo que da 20 posibilidades, multiplicado por
cuatro para el índice superior nos da 80 grados de libertad - 20 menos de los que requerimos
para poner las segundas derivadas de la métrica a cero. Así que, de hecho, no podemos hacer
desaparecer las segundas derivadas; la desviación de la planitud debe medirse, por tanto,
por los 20 grados de libertad independientes de las coordenadas que representan las
2 VARIEDADES 44
segundas derivadas del campo tensorial de la métrica. Veremos más adelante cómo se
produce esto, cuando caractericemos la curvatura mediante el tensor de Riemann, que
resultará tener 20 componentes independientes.
El último cambio que tenemos que hacer en nuestro conocimiento de los tensores ahora que
hemos abandonado la suposición del espacio plano tiene que ver con el tensor de Levi-
Civita, 𝜖 . . . . Recordemos que la versión en espacio plano de este objeto, que ahora
denotaremos por 𝑒̃ . . . , se definía como
+1 si 𝜇 𝜇 . . . 𝜇 es una permutación par de 01 . . . (𝑛 − 1),

𝑒̃ . . . = −1 si 𝜇 𝜇 . . . 𝜇 es una permutación impar de 01 . . . (𝑛 − 1),
0 en los demás casos .
(2.38)
Ahora definiremos el símbolo de Levi-Civita para que sea exactamente esto 𝑒̃ . . . - es
decir, un objeto con n índices que tiene los componentes especificados anteriormente en
cualquier sistema de coordenadas. Se llama "símbolo", por supuesto, porque no es un
tensor; está definido para no cambiar bajo transformaciones de coordenadas. Podemos
relacionar su comportamiento con el de un tensor ordinario observando en primer lugar
que, dada una matriz 𝑀 n × n , el determinante |M| obedece a
𝑒̃ … |𝑀| = 𝑒̃ . . . 𝑀 𝑀 …𝑀 (2.39)
Esto no es más que un hecho cierto sobre el determinante que se puede encontrar en un
libro de álgebra lineal suficientemente ilustrado. De ello se deduce que, fijando 𝑀 =
∂𝑥 / ∂𝑥 , tenemos
𝑒̃ … = 𝑒̃ . . . … . (2.40)
Esto se aproxima a la ley de transformación tensorial, excepto por el determinante de

delante. Los objetos que se transforman de esta manera se conocen como densidades
tensoriales. Otro ejemplo viene dado por el determinante de la métrica, g = |𝑔 |. Es fácil
comprobar (tomando el determinante de ambos lados de (2.35)) que bajo una
transformación de coordenadas obtenemos
𝑔 𝑥 = 𝑔(𝑥𝜇 ) . (2.41)
Por lo tanto, g tampoco es un tensor; se transforma de forma similar al símbolo de Levi-

Civita, excepto que el jacobiano se eleva a la potencia -2. La potencia a la que se eleva el
jacobiano se conoce como el peso de la densidad tensorial; el símbolo de Levi-Civita es una
densidad de peso 1, mientras que g es una densidad (escalar) de peso -2.
Sin embargo, no nos gustan las densidades tensoriales, sino los tensores. Hay una forma
sencilla de convertir una densidad en un tensor verdadero: multiplicar por |𝑔| / , donde 𝜔
es el peso de la densidad (los signos de valor absoluto están ahí porque g < 0 para la métrica
de Lorentz). El resultado se transformará según la ley de transformación tensorial. Así, por
ejemplo, podemos definir el tensor de Levi-Civita como
𝜖 . . . = |𝑔| 𝜖̃ . . . . (2.42)
Este es el tensor que se utiliza en la definición del dual de Hodge, (1.87), que por lo demás
no cambia cuando se generaliza a las variedades arbitrarias. Como se trata de un tensor real,
2 VARIEDADES 45
podemos elevar los índices, etc. A veces se define una versión del símbolo de Levi-Civita con
índices superiores, 𝑒̃ . . . , cuyas componentes son numéricamente iguales al símbolo
con índices inferiores. Esta resulta ser una densidad de peso -1, y está relacionada con el
tensor con índices superiores por
𝜖 …
= sgn(𝑔) 𝜖̃ …
. (2.43)
| |
Por otra parte, debemos admitir que, incluso con el factor de |𝑔| , el tensor de Levi-Civita
no es en cierto sentido un verdadero tensor, porque en algunas variedades no puede
definirse globalmente. Aquellas en las que puede definirse se denominan orientables, y en
este curso trataremos exclusivamente de las variedades orientables. Un ejemplo de las
variedades no orientables es la banda de Möbius; véase el libro de Schutz Geometrical
Methods in Mathematical Physics (o un texto similar) para una explicación.
Una última aparición de las densidades tensoriales es la integración en las variedades. No
vamos a hacer justicia a este tema, pero es necesario echar al menos un vistazo casual.
Probablemente se ha expuesto el hecho de que en el cálculo ordinario en 𝐑 el elemento de
volumen 𝑑 𝑥 recoge un factor del jacobiano bajo el cambio de coordenadas:
′
∂𝑥𝜇
𝑑 𝑥 = ∂𝑥𝜇 𝑑 𝑥 . (2.44)
En realidad, hay una bonita explicación de esta fórmula desde el punto de vista de las formas
diferenciales, que surge del siguiente hecho: en una variedad de n dimensiones, el integrando
se entiende correctamente como una n-forma. El elemento de volumen ingenuo 𝑑 𝑥 es en sí
mismo una densidad y no una n-forma, pero no hay ninguna dificultad en utilizarlo para
construir una n-forma real. Para ver cómo funciona esto, debemos hacer la identificación
𝑑 𝑥 ↔d𝑥 ⋀ · · ·⋀ d𝑥 . (2.45)
La expresión del lado derecho puede ser engañosa, porque parece un tensor (una n-forma,
en realidad) pero es realmente una densidad. Ciertamente, si tenemos dos funciones f y g
en M, entonces df y dg son formas únicas, y df ∧ dg es una forma doble. Pero nos gustaría
interpretar el lado derecho de (2.45) como un objeto dependiente de las coordenadas que,
en el sistema de coordenadas 𝑥 , actúa como d𝑥 ⋀ · · ·⋀ d𝑥 . Esto parece complicado,
pero en realidad es sólo una ambigüedad de notación, y en la práctica nos limitaremos a
utilizar la notación abreviada "𝑑 𝑥 ".
Para justificar esta canción y baile, veamos cómo (2.45) cambia bajo transformaciones de
coordenadas. En primer lugar, observemos que la definición del producto cuña nos permite
escribir
d𝑥 ⋀ · · ·⋀ d𝑥 = !
𝑒̃ . . . d𝑥 ⋀ · · ·⋀ d𝑥 , (2.46)
ya que tanto el producto cuña como el símbolo de Levi-Civita son completamente

antisimé tricos. Bajo una transformació n de coordenadas ˜ǫµ1---µn permanece igual
mientras que las formas únicas cambian de acuerdo con (2.16), lo que lleva a
′ ′
𝜖̃ … d𝑥 ⋀ . . . ⋀d 𝑥 = 𝜖̃ … … d𝑥 𝜇1 ⋀ . . . ⋀d 𝑥 𝜇𝑛
′ ′
= 𝜖̃ … d𝑥 𝜇1 ⋀ . . . ⋀d 𝑥 𝜇𝑛 . (2.47)
Multiplicando ambos lados por el Jacobiano recuperamos (2.44).

2 VARIEDADES 46
Está claro que el elemento de volumen simple 𝑑 x se transforma como una densidad, no
como un tensor, pero es sencillo construir un elemento de volumen invariante
multiplicando por |𝑔| :
|𝑔 |d𝑥 ⋀ · · · ⋀d𝑥 ( )
= |𝑔| d𝑥 ⋀ . . . ⋀d𝑥 , (2.48)
que, por supuesto, es simplemente (n!)-1𝜖 . . . d𝑥 ⋀ · · ·⋀ d𝑥
. En aras de la
simplicidad, normalmente escribiremos el elemento de volumen como |𝑔|𝑑 x en lugar de
como el producto cuña explícito |𝑔|d𝑥 ⋀ · · ·⋀ d𝑥 ; bastará con tener en cuenta que se
trata de una n-forma.
Como último inciso para terminar esta sección, consideremos uno de los teoremas más
elegantes y poderosos de la geometría diferencial: El teorema de Stokes. Este teorema es la
generalización del teorema fundamental del cálculo, ∫ 𝑑𝑥 = 𝑏 − 𝑎. Imaginemos que
tenemos una n-variedad M con frontera ∂M, y una (n- 1)-forma ω en M. (No hemos hablado
de las variedades con fronteras, pero la idea es obvia; M podría ser, por ejemplo, el interior
de una superficie cerrada ∂M de dimensión-(n - 1)). Entonces dω es una n-forma , que puede
integrarse sobre M, mientras que la propia ω puede integrarse sobre ∂M. El teorema de
Stokes es entonces
∫ d𝜔 = ∫ 𝜔. (2.49)
Pueden comprobar que diferentes casos especiales de este teorema incluyen no sólo el
teorema fundamental del cálculo, sino también los teoremas de Green, Gauss y Stokes,
conocidos por el cálculo vectorial en tres dimensiones.
3 CURVATURA 47
3. CURVATURA
En el capítulo de variedades (“manifolds”) ha quedado claro que había varios conceptos
sobre los que podríamos hablar una vez definida la variedad; podríamos definir funciones ,
tomar derivadas, tratar con trayectorias parametrizadas, establecer tensores, etc. Otros
conceptos, como el volumen de una región o la longitud de un recorrido, requerían la
introducción de una pieza adicional de estructura, a saber, la introducción de una métrica.
Sería natural pensar en el concepto de “curvatura”, que ya lo hemos usado informalmente,
como algo que depende de la métrica. En realidad esto no es totalmente cierto, o al menos
es incompleto. De hecho hay una estructura adicional que tenemos que introducir -una
“conexión”- que está caracterizada por la curvatura. Veremos cómo la existencia de una
métrica implica una cierta conexión, cuya curvatura puede ser considerada como la de la
métrica.
La conexión es necesaria cuando intentamos abordar el problema de que la derivada parcial
no sea un buen operador tensorial. Lo que nos gustaría es una derivada covariante; es decir,
un operador que se reduzca a la derivada en el espacio plano con coordenadas cartesianas,
pero que se transforma como un tensor en una variedad cualquiera. Es convencional dedicar
una cierta cantidad de tiempo para motivar la introducción de una derivada covariante,
pero en realidad la necesidad es obvia; ecuaciones como 𝜕 𝑇 = 0 van a tener que ser
generalizadas a espacio curvo de alguna manera. Así que acordemos que sería bueno tener
una derivada covariante, e ir a establecerla.
En el espacio plano de coordenadas cartesianas, el operador derivada parcial 𝜕 es un mapa
desde campos tensoriales (k, l) a campos tensoriales (k. l+1), que actúa linealmente en sus
argumentos y obedece a la regla de Leibniz del producto tensorial. Todo esto sigue siendo
cierto en la situación más general que queremos considerar ahora, pero el mapa
proporcionado por la derivada parcial depende del sistema de coordenadas usado. Nos
gustaría, por tanto, definir un operador derivada covariante ▽ que realice las funciones
de la derivada parcial, pero de manera que sea independiente de las coordenadas.
Requerimos por tanto que ▽ sea un mapa de campos tensoriales (k,l) a campos tensoriales
(k. l+1), que tiene estas dos propiedades:
1. Linealidad: ▽ (T + S) = ▽T + ▽S;
2. Regla del product de Leibniz: ▽ (T ⊗ S) = (▽T) ⊗ S + T ⊗ (▽S)
Si ▽ va a obedecer la regla de Leibniz, siempre pude ser escrito como la derivada parcial
más una cierta transformación lineal. Es decir, para tomar la derivada covariante tomamos
primero la derivada parcial, y a continuación añadimos un factor de corrección para que el
resultado sea covariante. (No vamos a demostrar esta afirmación que suena razonable, pero
para el que esté interesado Wald entra en detalles).
Vamos a ver lo que significa esto para la derivada covariante de un vector 𝑉 . Significa que,
para cada dirección 𝜇, la derivada covariante ▽ vendrá dada por la derivada parcial 𝜕 más
una corrección especificada por una matriz Γ (una matriz n x n, donde n es la dimensión
de la variedad, para cada 𝜇). De hecho el paréntesis normalmente se omite y escribimos
estas matrices , conocidas como coeficientes de conexión, con la colocación aleatoria de
índices como Γ . Tenemos, pues
▽ 𝑉 =𝜕 𝑉 +Γ 𝑉 . (3.1)
Nótese que en el segundo término el índice que originalmente estaba en V ha sido movido a
la Γ, y el nuevo índice se suma. Si esta es la expresión para la derivada covariante de un
vector en función de la derivada parcial, deberíamos ser capaces de determinar las
propiedades de transformación de Γ requiriendo que la parte izquierda sea un tensor
(1,1). Es decir, queremos que la ley de transformación sea
3 CURVATURA 48
▽ 𝑉 = ▽ 𝑉 . (3.2)
Veamos primero la parte de la izquierda; podemos expandirla usando (3.1) y transformar

la partes que entendemos:
▽ 𝑉 =𝜕 𝑉 +Γ 𝑉
′
𝜕𝑥𝜆
= 𝜕𝜇 𝑉𝜈 + 𝑉𝜈 +Γ 𝑉 . (3.3)
𝜕𝑥𝜆
La parte derecha, a su vez, puede ser expandida como:
▽ 𝑉 = (𝜕 𝑉 + Γ 𝑉 ) = 𝜕 𝑉 + Γ𝜈𝜇𝜆 𝑉𝜆 . (3.4)
Estas dos últimas expresiones deben ser igualadas; el primer término de cada una de ellas
es idéntico y por lo tanto se cancelan, por lo que tenemos
′ 𝜈′
𝜕𝑥𝜆 𝜆 𝜕 𝜕𝑥
Γ 𝑉 + 𝑉 = Γ𝜈𝜇𝜆 𝑉𝜆 , (3.5)
𝜕𝑥𝜆 𝜕𝑥𝜇 𝜕𝑥𝜆
donde hemos cambiado el índice ficticio de 𝜈 a 𝜆. Esta ecuación debe ser cierta para
cualquier vector 𝑉 , por lo que podemos eliminarlo de los dos lados. Y los coeficientes de
conexión en las coordenadas “primadas” pueden ser aislados multiplicando por 𝜕𝑥 / 𝜕𝑥 .
El resultado es
Γ = Γ𝜈𝜇𝜆 - (3.6)
Esta no es, por supuesto, la ley de transformación de tensores; el segundo término de la

derecha lo estropea. Es correcto, porque los coeficientes de conexión no son los componentes
de un tensor. Los hemos construido a propósito para que sean no-tensoriales, pero de tal
manera que la combinación (3.1) se transforma como un tensor – los términos extra en la
transformación de las parciales y las Γ′s se cancelan exactamente. Esto explica por qué no
tenemos tanto cuidado en colocar los índices en los coeficientes de conexión; estos
coeficientes no son un tensor, y por lo tanto no debemos intentar subir y bajar sus índices.
Y con respecto a las derivadas covariantes de las otras clases de tensores? Con el mismo
razonamiento que hemos usado para los vectores, las derivadas covariantes de un uno-
forma pueden ser expresadas como una derivada parcial más una cierta transformación
lineal. Pero no hay ninguna razón para que las matrices que representen esta
transformación estén relacionadas con los coeficientes Γ . En general podríamos escribir
algo como
▽ 𝜔 =𝜕 𝜔 +Γ 𝜔 , (3.7)
donde Γ es un nuevo conjunto de matrices para cada 𝜇. (Fíjense dónde van los diferentes
índices). Es evidente deducir que las propiedades de trasformación de Γ deben ser las
mismas que las de Г, pero por lo demás no se ha establecido ninguna relación. Para ello, es
necesario introducir dos nuevas propiedades para nuestra derivada covariante (además de
las dos anteriores citadas arriba):
3. conmuta con contracciones: ▽ (𝑇 ) = (▽ 𝑇) ,

4. se reduce a la derivada parcial en escalares: ▽ 𝜙 = 𝜕 𝜙.
3 CURVATURA 49
No es cuestión de “deducir” estas propiedades; simplemente requerimos que se cumplan

como parte de la definición de una derivada covariante.
Veamos lo que implican estas nuevas propiedades. Dado un cierto campo uno-forma 𝜔 y
un campo vectorial 𝑉 , podemos tomar la derivada covariante del escalar definido por
𝜔 𝑉 para obtener
▽ (𝜔 𝑉 ) = (▽ 𝜔 ) 𝑉 + 𝜔 (▽ 𝑉 )
= (𝜕 𝜔 )𝑉 + Γ 𝜔 𝑉 + 𝜔 (𝜕 𝑉 ) + 𝜔 Γ 𝑉 . (3.8)
Pero como 𝜔 𝑉 es un escalar, también puede ser dado por la derivada parcial:
▽ (𝜔 𝑉 ) = ∂ (𝜔 𝑉 )
= (∂ 𝜔 )𝑉 + 𝜔 (∂ 𝑉 ). (3.9)
Esto sólo puede ser verdadero si los términos en (3.8) con coeficientes de conexión se
anulan entre sí; es decir, reorganizando os índices ficticios, tendremos
0=Γ 𝜔 𝑉 +𝜔 Γ 𝑉 . (3.10)
Pero tanto 𝜔 como 𝑉 son totalmente arbitrarios, por lo tanto
Γ =-Γ . (3.11)
Por lo tanto las dos condiciones adicionales que hemos impuesto nos permiten expresar la
derivada covariante de un uno-forma usando los mismos coeficientes de conexión que
hemos usado para el vector (contravariante), pero ahora con signo menos (y los índices
ajustados de manera algo diferente):
▽ 𝜔 =∂ 𝜔 -Γ . (3.12)
No debería sorprendernos que los coeficientes de conexión codifiquen (contengan9 toda la
información necesaria para tomar la derivada covariante de un tensor de cualquier rango.
La fórmula es bastante sencilla: por cada superíndice introducimos un término vía +Γ, y por
cada subíndice un término con un – Γ:
… …
▽ 𝑇 … =∂ 𝑇 …
… …
+Γ 𝑇 … +Γ 𝑇 … +…
… …
-Γ 𝑇 … -Γ 𝑇 … - …, (3.13)
Esta es la expresión general para la derivada covariante. Puede comprobarla usted mismo;
proviene del conjunto de axiomas que hemos establecido, los requisitos habituales de que
los tensores de diversos tipos sean entidades independientes de las coordenadas. A veces
se usa una notación alternativa; así como las comas se usan para las derivadas parciales, el
punto y coma se usa para las covariantes:
… …
▽ 𝑇 … ≡▽ 𝑇 … ; . (3.14)
Una vez más, el autor no es muy entusiasta de esta notación.
Entonces, para definir una derivada covariante necesitamos poner una “conexión” en
nuestra variedad, que se especifica en un sistema coordinado por un conjunto de
coeficientes Γ (n3 = 64 componentes independientes en n = 4 dimensiones) que se
transforma de acuerdo con (3.6). (El nombre “conexión” viene del hecho de que es usada
para transportar vectores de un espacio tangente a otro, como enseguida veremos).
Evidentemente hay un gran número de conexiones que podríamos definir en una variedad,
y cada una de ellas implica un concepto distinto de diferenciación covariante. En relatividad
3 CURVATURA 50
general esta libertad no es una gran preocupación, porque sucede que cada métrica define
una conexión única, que la utilizada en RG. Veamos cómo funciona esto.
Lo primero que hay que tener en cuenta es que la diferencia de dos conexiones es un tensor
(1,2). Si tenemos dos conjuntos de coeficientes de conexión, Γ y Γ , su diferencia 𝑆 =
Γ - Γ (nótese la colocación de los índices) se transforma como
𝑆 =Γ -Γ
𝜆
= Γ𝜆𝜇𝜈 - - Γ𝜇𝜈 +
= (Γ𝜆𝜇𝜈 - Γ )
= 𝑆𝜇𝜈 𝜆 . (3.15)
Esta es precisamente la ley de transformación de tensores, por lo tanto 𝑆 es un tensor.

Esto implica que cualquier conjunto de conexiones puede expresarse como una conexión de
referencia (fiable) más una corrección tensorial.
Hay que notar también que, dada una conexión especificada por Γ , podemos formar
inmediatamente otra conexión simplemente permutando los índices inferiores. Es decir, el
conjunto de coeficientes Γ se transforman también de acuerdo con (3.6) (ya que las
derivadas parciales que aparecen en el último término pueden ser conmutadas), por lo que
determinan una conexión distinta. Por lo tanto, hay un tensor que podemos asociar con cada
conexión dada, conocido como tensor de torsión, definido por
𝑇 = Γ - Γ = 2Γ[ ]. (3.16)
Es evidente que la torsión es antisimétrica en sus índices inferiores, y una conexión que es
simétrica en sus índices inferiores es conocida como “libre de torsión”.
Ahora podemos definir una conexión única en una variedad con una métrica 𝑔
introduciendo dos propiedades adicionales:
 libre de torsión (“torsion-free”): Γ = Γ[ ].

 compatibilidad métrica: ▽ 𝑔 = 0.
Una conexión es compatible con la métrica si la derivada covariante de la métrica con

respecto a esa conexión es cero en cualquier parte. Esto implica un par de propiedades
interesantes. Primero, es fácil comprobar que la inversa de la métrica tiene cero como
derivada covariante,
▽ 𝑔 = 0. (3.17)
Segundo, una derivada covariante compatible con la métrica conmuta al subir y bajar
índices. Por lo tanto, para un campo vectorial 𝑉 ,
𝑔 ▽ 𝑉 = ▽ (𝑔 𝑉 ) = ▽ 𝑉 . (3.18)
En el caso de conexiones no-compatibles con la métrica hay que tener mucho cuidado con
la colocación de los índices al tomar la derivada covariante.
3 CURVATURA 51
Nuestra afirmación es, por tanto, que existe exactamente una conexión libre de torsión en
una variedad dada, que es compatible con alguna métrica dada en esa variedad. No
queremos hacer que estos dos requisitos sean parte de la definición de una derivada
covariante; sino que simplemente señalan uno de los muchos posibles.
Podemos demostrar tanto la existencia como la unicidad derivando una expresión
manifiestamente única para los coeficientes de conexión en términos de la métrica. Para
llevarlo a cabo, ampliamos la ecuación de compatibilidad métrica para tres permutaciones
diferentes de los índices:
▽ 𝑔 =∂ 𝑔 -Γ 𝑔 -Γ 𝑔 =0
▽ 𝑔 =∂ 𝑔 -Γ 𝑔 -Γ 𝑔 =0
▽ 𝑔 =∂ 𝑔 -Γ 𝑔 -Γ 𝑔 = 0. (3.19)
Restamos la segunda y la tercera de la primera, y usamos la simetría de la conexión para
obtener
∂ 𝑔 -∂ 𝑔 -∂ 𝑔 +2Γ 𝑔 = 0. (3.20)
Es sencillo resolver esto para la conexión multiplicando por 𝑔 . El resultado es
𝑔 (∂ 𝑔 -∂ 𝑔 -∂ 𝑔 +2Γ 𝑔 ) = 0
Γ 𝑔 𝑔 = 𝑔 ∂ 𝑔 +∂ 𝑔 −∂ 𝑔 .
Pero 𝑔 𝑔 = 𝛿 , por lo tanto (con la delta de Kronecker actuando para renombrar el índice
𝜆 como 𝜎)
𝜕𝑔𝜈𝜌 𝜕𝑔𝜌𝜇 𝜕𝑔𝜇𝜈
Γ = 𝑔 𝜇 + 𝜈 − 𝜌 . (3.21)
𝜕𝑥 𝜕𝑥 𝜕𝑥
Esta es una de las fórmulas más importantes en este tema; y conviene memorizarlo. Por
supuesto, sólo hemos demostrado que si existe una conexión compatible con la métrica y
libre de torsión, debe ser de la forma (3.21); pueden comprobarlo (para aquellos que no
tengan suficiente cálculo en sus vidas) que el lado derecho de (3.21) se transforma como
una conexión.
Esta conexión que hemos derivado de la métrica es aquella en la que se basa la relatividad
general convencional (aunque mantendremos la mente abierta por un tiempo). Se conoce
con diferentes nombres: a veces como la conexión Christoffel, a veces como la conexión
Levi-Civita y a veces conexión de Riemann. Los coeficientes de conexión asociados se
𝜎
llaman a veces símbolos de Christoffel y se escriben como 𝜇𝜈 ; nosotros a veces los
llamaremos símbolos de Christoffel, pero no usaremos esa particular notación. El estudio
de las variedades con métricas y sus conexiones asociadas se llama "geometría
riemanniana". Por lo que tengo conocimiento el estudio de las conexiones más generales se
remonta a Cartan, pero nunca he oído llamarla "geometría cartaniana".
Antes de poner en práctica nuestras derivadas covariantes, debemos mencionar algunas
propiedades. En primer lugar, subrayemos de nuevo que la conexión no tiene por qué ser
construida a partir de la métrica. En el espacio plano ordinario existe una conexión implícita
que utilizamos todo el tiempo - la conexión de Christoffel construida a partir de la métrica
plana. Pero podríamos, si quisiéramos, utilizar una conexión diferente, manteniendo la
métrica plana. Obsérvese también que los coeficientes de la conexión de Christoffel en el
espacio plano desaparecerán en coordenadas cartesianas, pero no en sistemas de
3 CURVATURA 52
coordenadas curvilíneas. Consideremos por ejemplo el plano en coordenadas polares, con

métrica
𝑑𝑠 = d𝑟 + 𝑟 d𝜃 . (3.22)
Los componentes no-cero de la métrica inversa se ve fácilmente que son 𝑔 = 1 y 𝑔 = 𝑟 .

(Nótese que usamos r y 𝜃 como índices en notación obvia). Podemos computar un
coeficiente de conexión típico:
Γ = 𝑔 ∂ 𝑔 +∂ 𝑔 −∂ 𝑔
= 𝑔 (∂ 𝑔 +∂ 𝑔 −∂ 𝑔 )
1
+ 2 𝑔 (∂ 𝑔 +∂ 𝑔 − 𝜃𝑔 )
= (1)(0 + 0 − 0) + (1)(0 + 0 − 0)
=0 (3.23)
Lamentablemente, se desvanece. Pero no todos ellos lo hacen:
Γ = 𝑔 ∂ 𝑔 +∂ 𝑔 −∂ 𝑔
= 𝑔 (∂ 𝑔 +∂ 𝑔 −∂ 𝑔 )
= (1)(0 + 0 – 2𝑟)
= −𝑟. (3.24)
Y siguiendo el recorrido, finalmente encontramos
Γ =Γ =0
Γ =0
Γ =Γ =
Γ = 0. (3.25)
La existencia de coeficientes que no desvanecen en sistemas coordenados curvilíneos es la

causa última de las fórmulas para la divergencia y de ahí que las encontremos en libros de
electricidad y magnetismo.
Por el contrario, incluso en un espacio curvo es posible hacer que los símbolos de Christoffel
desaparezcan en un punto cualquiera. Esto se debe a que, como vimos en la última sección,
siempre podemos hacer desaparecer la primera derivada de la métrica en un punto, por lo
que, según (3.21), los coeficientes de conexión derivados de esta métrica también
desaparecerán. Por supuesto, esto sólo puede establecerse en un punto, no en alguna
vecindad del punto.
Otra propiedad útil es que la fórmula para la divergencia de un vector (con respecto a la
conexión de Christoffel) tiene una forma simplificada. La divergencia covariante de 𝑉 viene
dada por
3 CURVATURA 53
▽ 𝑉 =∂ 𝑉 +Γ 𝑉 . (3.26)
Es fácil comprobar (ver págs. 106-108 de Weinberg) que la conexión de Christoffel
satisface
Γ = ∂ |𝑔|, (3.27)
| |
y por lo tanto obtenemos

▽ 𝑉 = ∂ ( |𝑔|𝑉 ). (3.28)
| |
También existen fórmulas para las divergencias de los tensores de mayor rango, pero
generalmente no son una simplificación tan grande. Como último dato que debemos
mencionar sobre las conexiones, subrayemos (una vez más) que la derivada exterior es un
tensor bien definido en ausencia de cualquier conexión. La razón por la que hay que
subrayar esto es que, si se utiliza una conexión simétrica (sin torsión), la derivada exterior
(definida como la derivada parcial antisimétrica) resulta ser igual a la derivada covariante
antisimétrica:
▽[ 𝜔 ] = ∂[ 𝜔 ]- Γ[ ]𝜔
= ∂[ 𝜔 ]. (3.29)
Esto ha llevado a algunas almas desafortunadas a preocuparse por la “ambigüedad” de la
derivada exterior en espacios con torsión, donde no se produce la simplificación anterior.
No hay ambigüedad: la derivada exterior no implica la conexión, independientemente de la
conexión que se utilice, y por tanto la torsión nunca entra en la fórmula de la derivada
exterior de nada.
Antes de seguir adelante, revisemos el proceso mediante el cual hemos ido añadiendo
estructuras a nuestras construcciones matemáticas. Empezamos con la noción básica de
conjunto, que se supone conocido (de manera informal, si no rigurosa). Hemos introducido
el concepto de subconjuntos abiertos de nuestro conjunto; esto equivale a introducir una
topología, y promovemos el conjunto a un espacio topológico. Entonces, al exigir que cada
conjunto abierto se parezca a una región de Rn (con n igual para cada conjunto) y que los
gráficos de coordenadas estén cosidos suavemente, el espacio topológico se convirtió en
una variedad (“manifold”). Una variedad es una estructura muy flexible y potente a la vez, y
viene equipada naturalmente con un haz tangente, haces tensoriales de varios rangos, la
capacidad de tomar derivadas exteriores, etc. A continuación, procedemos a poner una
métrica en la variedad, dando como resultado una variedad con métrica (o a veces "variedad
riemanniana"). Independientemente de la métrica, descubrimos que podíamos introducir
una conexión, lo que nos permitía tomar derivadas covariantes. Sin embargo, una vez que
tenemos una métrica, existe automáticamente una única conexión compatible con la
métrica sin torsión. (En principio no hay nada que nos impida introducir más de una
conexión, o más de una métrica, en una determinada variedad). La situación es, pues, la que
se representa en el diagrama de la página siguiente.
3 CURVATURA 54
conjunto
(“set”)
introduce una topología
(conjuntos abiertos)
espacio
topológico
localmente como 𝑹𝒏
variedad
introduce una conexión

variedad con
conexión
introduce una métrica
Variedad (automáticamente
Riemanniana tiene una conexón)
Una vez establecida la maquinaria de conexiones, lo primero que haremos es tratar del
transporte paralelo. Recordemos que en el espacio plano no era necesario ser muy
cuidadoso sobre el hecho de que los vectores fuesen elementos de espacios tangentes
definidos en puntos individuales; realmente es muy natural comparar vectores en
diferentes puntos (donde por “comparar” queremos decir sumar, restar, tomar el producto
punto, etc.). La razón por la cual esto es natural es porque tiene sentido, en el espacio plano,
“mover un vector de un punto a otro mientras lo mantenemos constante”. Entonces una vez
hemos llevado el vector de un punto a otro podemos hacer las operaciones habituales
permitidas en el espacio vectorial.
El concepto de mover un vector a lo largo de una trayectoria (“path”), manteniéndolo

constante todo el tiempo, es conocido como transporte paralelo. Como veremos, se define
3 CURVATURA 55
siempre que tenemos una conexión; la manipulación intuitiva de vectores en el espacio

plano hace implícito el uso de la conexión Christoffel en ese espacio. La diferencia crucial
entre espacios plano y curvo es que, en el espacio curvo, el resultado de transportar
paralelamente un vector de un punto a otro dependerá de la trayectoria tomado entre los dos
puntos. Sin haber ensamblado todavía el mecanismo completo del transporte paralelo,
podemos usar nuestra intuición respecto a la dos-esfera para comprobar que este es el caso.
Arrancar con el vector en el ecuador, siguiendo a lo largo de una línea de longitud constante.
Transportarlo paralelamente hasta el polo norte a lo largo de una línea de longitud de
manera obvia. Tomar entonces el vector original, transportarlo paralelamente a lo largo del
ecuador con un ángulo θ, y a continuación moverlo hacia el norte como antes. Es evidente
que el vector, transportado a lo largo de las dos trayectorias, ha llegado al mismo destino
con dos valores diferentes (rotado por el ángulo θ).
Parece por tanto como si no hay una trayectoria natural para mover un vector de un espacio
tangente a otro; siempre podemos transportarlo en paralelo, pero el resultado depende de
la trayectoria, y no existe elección natural sobre el camino a tomar. A diferencia de los
problemas encontrados, no existe solución para este – simplemente debemos aprender a
vivir con el hecho de que dos vectores sólo pueden ser comparados de una manera natural
si son elementos del mismo espacio tangente. Por ejemplo, do partículas pasando una al
lado de la otra tiene una velocidad relativa bien definida (que no puede ser mayor que la
velocidad de la luz). Pero dos partículas en puntos diferentes de una variedad curva no
tienen una noción bien definida de velocidad relativa – el concepto simplemente no tiene
sentido. Por supuesto, en ciertas situaciones especiales puede ser útil hablar como si sí
tuviese sentido, pero es necesario entender que la utilidad ocasional no sustituye a una
definición rigurosa. En cosmología, por ejemplo, la luz de galaxias distantes es desplazada
al rojo con respecto a la frecuencia que observaríamos desde una fuente estacionaria
próxima. Como este fenómeno se parece tanto al efecto Doppler convencional debido al
movimiento relativo, es muy tentador decir que las galaxias "se alejan de nosotros" a una
velocidad definida por su corrimiento al rojo. A nivel riguroso, esto no tiene sentido, lo que
Wittgenstein llamaría un "error gramatical": las galaxias no se alejan, ya que la noción de su
velocidad con respecto a nosotros no está bien definida. Lo que ocurre en realidad es que la
métrica del espacio-tiempo entre nosotros y las galaxias ha cambiado (el universo se ha
expandido) a lo largo de la trayectoria del fotón de aquí a allá, lo que lleva a un aumento de
la longitud de onda de la luz. Como ejemplo de cómo uno se puede equivocar, la aplicación
ingenua de la fórmula de Doppler al desplazamiento al rojo de las galaxias implica que
algunas de ellas retroceden más rápido que la luz, en aparente contradicción con la
relatividad. La resolución de esta aparente paradoja es simplemente que la propia noción
de su recesión no debe tomarse literalmente.
Basta de hablar de lo que no podemos hacer; veamos lo que sí podemos. Se supone que el
transporte paralelo es la generalización en el espacio curvo del concepto de "mantener el
vector constante" mientras lo movemos a lo largo de una trayectoria; de forma similar para
un tensor de rango arbitrario. Dada una curva 𝑥 (𝜆), el requisito de constancia de un tensor
3 CURVATURA 56
T a lo largo de esa curva en el espacio plano es simplemente = = 0. Definimos por

lo tanto la derivada covariante a lo largo de una trayectoria mediante un operador
= ▽ . (3.30)
Y entonces definimos el transporte paralelo de un tensor T a lo largo de la trayectoria

𝑥 (𝜆) que sea el requisito que, a lo largo de la trayectoria,
…
𝐷 …
𝑑𝜆
𝑇 ≡ ▽𝜎 𝑇 … ≡ 0. (3.31)
…
Esta es una ecuación tensorial bien definida, ya que ambos el vector tangente 𝑑𝑥 /𝑑𝜆 y la
derivada covariante ▽ son tensores. Esta ecuación es conocida como la ecuación del
transporte paralelo. Para un vector toma la siguiente forma
𝑑𝑥𝜎
𝑉𝜇 + Γ 𝑑𝜆
𝑉 = 0. (3.32)
Podemos considerar la ecuación de transporte paralelo como una ecuación diferencial de

primer orden que define un problema de valor inicial: dado un tensor en algún punto de la
trayectoria, habrá una única continuación del tensor hacia otros puntos de la trayectoria tal
que la continuación resuelva (3.31). Decimos que tal tensor es transportado en paralelo.
La noción de transporte paralelo depende obviamente de la conexión, y diferentes
conexiones conducen a respuestas diferentes. Si la conexión es compatible con la métrica,
la métrica es siempre transportada en paralelo con respecto a ella:
𝑔 = ▽ 𝑔 = 0. (3.33)
De ello se deduce que el producto interior de dos vectores transportados en paralelo se

conserva. Es decir, si 𝑉 y 𝑊 se transportan paralelamente a lo largo de una curva 𝑥 (λ),
tenemos
𝐷 𝐷 𝐷
(𝑔 𝑉 𝑊 ) = 𝑑𝜆 𝑔 𝑉 𝑊 +𝑔 𝑑𝜆
𝑉 𝑊 +𝑔 𝑉 𝑑𝜆
𝑊 = 0. (3.34)
Esto significa que el transporte paralelo con respecto a una conexión compatible con la
métrica preserva la norma de los vectores, el sentido de ortogonalidad, etc.
Una cosa que no suelen contar en los libros de RG es que se puede escribir una solución
explícita y general de la ecuación de transporte paralelo, aunque sea algo formal. En primer
lugar, nótese que para una trayectoria γ : λ → 𝑥 (λ), resolver la ecuación de transporte
paralelo para un vector 𝑉 equivale a encontrar una matriz P µρ(λ,λ0) que relaciona el vector
en su valor inicial V µ(λ0) con su valor en algún punto posterior de la trayectoria:
V µ(λ) = P µρ(λ,λ0)V ρ(λ0) . (3.35)
Por supuesto la matriz Pµρ(λ,λ0), conocida como el propagador paralelo, depende de la
trayectoria γ (aunque es difícil encontrar una notación que lo indique sin que γ parezca un
índice). Si definimos
𝐴 (𝜆) = −Γ , (3.36)
donde las cantidades del lado derecho se evalúan en xν(λ), entonces la ecuación de
transporte paralelo se convierte en
𝑉 =𝐴 𝑉 . (3.37)
3 CURVATURA 57
Como el propagador paralelo debe funcionar para cualquier vector, al sustituir (3.35) en
(3.37) se observa que P µρ(λ,λ0) también obedece a esta ecuación:
𝑃 (𝜆, 𝜆 ) = 𝐴 (𝜆)𝑃 (𝜆, 𝜆 ) . (3.38)
Para resolver esta ecuación, primero integramos ambos lados:

𝑃 (𝜆, 𝜆 ) = 𝛿 + 𝐴 (𝜂)𝑃 (𝜂, 𝜆 ) . (3.39)
La delta de Kronecker es fácil de ver, proporciona la normalización correcta para λ = λ0.
Podemos resolver (3.39) por iteración, tomando el lado derecho y aplicándolo a sí mismo
repetidamente, dando
𝑃 (𝜆, 𝜆 ) = 𝛿 + 𝐴 (𝜂)𝑑𝜂 + 𝐴 (𝜂)𝐴 (𝜂′) 𝑑𝜂 𝑑𝜂 + ⋯ . (3.40)
El enésimo término de esta serie es una integral sobre un triángulo rectángulo de n

dimensiones, o n-simplex.
𝐴(𝜂 )𝑑𝜂 𝐴(𝜂 )𝐴(𝜂 )𝑑𝜂 𝑑𝜂 𝐴(𝜂 )(𝜂 )𝐴(𝜂 )𝑑 𝜂
Simplificaría las cosas si pudiéramos considerar que dicha integral está sobre un n-cubo en
lugar de un n-simplex; ¿hay alguna forma de hacerlo? Hay n! de tales simplex en cada cubo,
así que tendríamos que multiplicar por 1/n! para compensar este volumen extra. Pero
también queremos que el integrando sea correcto; utilizando la notación matricial, el
integrando de orden 𝑛é es 𝐴( ) 𝐴( ) …𝐴( ) , pero con la propiedad especial de que
𝜂 ≥𝜂 ≥ · · · ≥ 𝜂 . Por tanto, definimos el símbolo de ordenación de trayectorias, P,
para asegurar que esta condición se cumple. En otras palabras, la expresión
P[𝐴( ) 𝐴( ) …𝐴( )] (3.41)
representa el producto de las n matrices 𝐴( ) , ordenadas de tal manera que el valor más
alto de 𝜂 esté a la izquierda, y cada valor subsiguiente de 𝜂 sea menor o igual al anterior.
Podemos pues expresar el término de orden enésimo en (3.40) como
𝐴(𝜂 ) 𝐴(𝜂 ) … 𝐴(𝜂 )𝑑 𝜂
= P[𝐴(𝜂 ) 𝐴(𝜂 ) … 𝐴(𝜂 )]𝑑 𝜂 . (3.42)

!
3 CURVATURA 58
Esta expresión no contiene ninguna declaración sustantiva sobre las matrices 𝐴( ); es sólo
notación. Pero ahora podemos escribir (3.40) en forma de matriz como
𝑃(𝜆, 𝜆 ) = 1 + P[𝐴(𝜂 ) 𝐴(𝜂 ) … 𝐴(𝜂 )]𝑑 𝜂 . (3.43)

!
Esta fórmula no es más que la expresión en serie de una exponencial; por lo tanto, decimos
que el propagador paralelo viene dado por el exponencial ordenado por trayectoria (“path-
ordered”)
𝑃(𝜆, 𝜆 ) = P exp 𝐴(𝜂)𝑑𝜂 , (3.44)
Donde, una vez más, esto no es más que notación; el exponencial ordenado por trayectoria
se define estando en el lado derecho de (3.43). Podemos escribirlo de forma más explícita
como
𝑃 (𝜆, 𝜆 ) = P exp − Γ 𝐴(𝜂)𝑑𝜂 . (3.45)
Es bueno tener una fórmula explícita, aunque sea bastante abstracta. El mismo tipo de
expresión aparece en la teoría cuántica de campos como "Fórmula de Dyson", donde surge
porque la ecuación de Schrödinger para el operador de evolución del tiempo tiene la misma
forma que (3.38).
Como apunte, un ejemplo especialmente interesante del propagador paralelo se produce
cuando la trayectoria es un bucle, que empieza y termina en el mismo punto. Entonces, si la
conexión es compatible con la métrica, la matriz resultante será simplemente una
transformación de Lorentz en el espacio tangente al punto. Esta transformación se conoce
como la "holonomía" del bucle. Si se conoce la holonomía de cada bucle posible, resulta que
es equivalente a conocer la métrica. Este hecho ha permitido a Ashtekar y a sus
colaboradores examinar la relatividad general en la "representación del bucle", donde las
variables fundamentales son holonomías en lugar de la métrica explícita. Han hecho algunos
progresos hacia la cuantificación de la teoría en este enfoque, aunque el jurado aún no sabe
cuánto más se puede avanzar.
Una vez comprendido el transporte paralelo, el siguiente paso lógico es hablar de las
geodésicas. Una geodésica es la generalización en el espacio curvo de la noción de "línea
recta" en el espacio euclídeo. Todos sabemos lo que es una línea recta: es el camino de
menor distancia entre dos puntos. Pero hay una definición igualmente buena: una línea
recta es un camino que transporta paralelamente su propio vector tangente. En una
variedad con una conexión arbitraria (no necesariamente de Christoffel), estos dos
conceptos no coinciden del todo, y debemos discutirlos por separado.
Tomaremos primero la segunda definición, ya que es computacionalmente mucho más
sencilla. El vector tangente a una trayectoria xµ(λ) es dxµ/dλ. La condición de que sea
transportado paralelamente es pues
= 0, (3.4.6)
o alternativamente
+Γ =0 . (3.4.7)
Esta es la ecuación geodésica, otra que deberíamos memorizar. Podemos ver fácilmente que
reproduce la noción habitual de líneas rectas si los coeficientes de conexión son los símbolos
3 CURVATURA 59
de Christoffel en el espacio euclídeo; en ese caso podemos elegir coordenadas cartesianas

en las que Γ = 0, y la ecuación geodésica es simplemente d2xµ/dλ2 = 0, que es la ecuación de
una línea recta.
Eso ha sido realmente sencillo; pasemos al caso no tan trivial de la definición de la distancia
más corta. Como sabemos, hay varias sutilezas en la definición de distancia en un
espaciotiempo lorentziano; para las trayectorias nulas la distancia es cero, para las
trayectorias temporales ("time-like") es más conveniente utilizar el tiempo propio, etc. Así
que, en nombre de la simplicidad, hagamos el cálculo sólo para una trayectoria temporal; la
ecuación resultante servirá para cualquier trayectoria, por lo que no perdemos ninguna
generalidad. Por lo tanto, consideramos el funcional del tiempo propio,
𝜇 𝜈 /
𝑑𝑥 𝑑𝑥
𝜏= −𝑔 𝑑𝜆 𝑑𝜆
𝑑𝜆 (3.48)
donde la integral es sobre el camino. Para buscar los caminos de la distancia más corta,
haremos el tratamiento habitual del cálculo de variaciones para buscar los extremos de este
funcional. (De hecho, resultarán ser curvas de tiempo propio máximo).
Queremos considerar el cambio en el tiempo propio bajo variaciones infinitesimales del
recorrido,
𝑥 → 𝑥 + 𝛿𝑥
𝑔 → 𝑔 + 𝛿𝑥 𝜕 𝑔 . (3.49)
(La segunda línea proviene de la expansión de Taylor en el espaciotiempo curvo, que como
se puede ver utiliza la derivada parcial, no la derivada covariante). Introduciendo esto en
(3.48), obtenemos
𝜇 𝜈 𝜇 𝜈 𝜇 𝜈 /
𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑 𝛿𝑥
τ + δτ = ∫ −𝑔 𝑑𝜆 𝑑𝜆
−𝜕 𝑔 𝑑𝜆 𝑑𝜆
𝛿𝑥 − 2 𝑔 𝑑𝜆 𝑑𝜆
d𝜆
𝜇 𝜈 / 𝜇 𝜈 𝜇 𝜈
𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑𝑥
=∫ −𝑔 𝑑𝜆 𝑑𝜆
1 + −𝑔 𝑑𝜆 𝑑𝜆
× 𝜕 𝑔 𝑑𝜆 𝑑𝜆
𝛿𝑥 −
𝜇 𝜈 /
𝑑𝑥 𝑑 𝛿𝑥
−2 𝑔 𝑑𝜆 𝑑𝜆
d𝜆. (3.50)
Como se supone que 𝛿𝑥 es pequeño, podemos expandir la raíz cuadrada de la expresión

entre corchetes para encontrar
𝜇 𝜈 / 𝜇 𝜈 𝜇 𝜈
𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑𝑥 𝑑 𝛿𝑥
𝛿𝜏 = −𝑔 𝑑𝜆 𝑑𝜆
− 𝛿 𝑔 𝑑𝜆 𝑑𝜆
𝛿𝑥 − 𝑔 𝑑𝜆 𝑑𝜆
𝑑𝜆 . (3.51)
Es útil en este punto cambiar la parametrización de nuestra curva de λ, que era arbitraria,
al tiempo propio τ, utilizando
(3.52)
introducimos esto en (3.51) (nota: lo introducimos para cada aparición de dλ) para obtener
(3.53)
3 CURVATURA 60
donde en la última línea hemos integrado por partes, evitando posibles contribuciones de
frontera al exigir que la variación 𝛿𝑥 desaparezca en los puntos finales de la trayectoria.
Como estamos buscando puntos estacionarios, queremos que δτ desaparezca para
cualquier variación; esto implica
, (3.54)
donde hemos usado dgµσ/dτ = (dxν/dτ)∂νgµσ . Un poco de barajeo de índices ficticios revela
, (3.55)
Y multiplicando por la métrica inversa conduce finalmente a
. (3.56)
Vemos que se trata precisamente de la ecuación geodésica (3.32), pero con la elección
específica de la conexión de Christoffel (3.21). Así, en una variedad con métrica, los
extremos del funcional de longitud son curvas que transportan paralelamente su vector
tangente con respecto a la conexión de Christoffel asociada a esa métrica. No importa si hay
cualquier otra conexión definida en la misma variedad. Por supuesto, en la RG la conexión
de Christoffel es la única que se utiliza, así que los dos conceptos son lo mismo.
La principal utilidad de las geodésicas en relatividad general es que son las trayectorias que
siguen las partículas no aceleradas. De hecho, la ecuación geodésica puede pensarse como
la generalización de la ley de Newton f = ma para el caso f = 0. También es posible introducir
fuerzas añadiendo términos al lado derecho; de hecho, volviendo a la expresión (1.103) para
la fuerza de Lorentz en relatividad especial, es tentador adivinar que la ecuación de
movimiento para una partícula de masa m y carga q en relatividad general debería ser
. (3.57)
Hablaremos de esto más adelante, pero de hecho la suposición sería correcta.
Habiendo derivado audazmente estas expresiones, debemos decir algunas palabras más
cuidadosas sobre la parametrización de una trayectoria geodésica. Cuando presentamos la
ecuación geodésica como el requisito de que el vector tangente sea transportado
paralelamente, (3.47), parametrizamos nuestra trayectoria con algún parámetro λ,
mientras que cuando encontramos la fórmula (3.56) para el extremo del intervalo
espaciotiempo acabamos con una parametrización muy específica, el tiempo propio. Por
supuesto, a partir de la forma de (3.56) está claro que una transformación
τ → λ = aτ + b, (3.58)
para unas constantes a y b, deja invariante la ecuación. Cualquier parámetro relacionado
con el tiempo propio de esta manera se llama parámetro afín, y es tan bueno como el
tiempo propio para parametrizar una geodésica. Lo que estaba oculto en nuestra derivación
de (3.47) era que la exigencia de que el vector tangente sea transportado paralelamente en
realidad restringe la parametrización de la curva, específicamente a una relacionada con el
tiempo propio por (3.58). En otras palabras, si empezamos en un punto y con una cierta
dirección inicial, y luego construimos una curva comenzando a caminar en esa dirección y
manteniendo nuestro vector tangente transportado paralelamente, no sólo definiremos un
camino en la variedad sino que también (hasta transformaciones lineales) definiremos el
parámetro a lo largo de la trayectoria.
3 CURVATURA 61
Por supuesto, nada nos impide utilizar cualquier otra parametrización que deseemos, pero
entonces no se satisfará (3.47). De forma más general, se satisfará una ecuación de la forma
, (3.59)
para un parámetro α y una función f(α). A la inversa, si (3.59) se satisface a lo largo de una
curva siempre se puede encontrar un parámetro afín λ(α) para el que se cumpla la ecuación
geodésica (3.47).
Una propiedad importante de las geodésicas en un espaciotiempo con métrica lorentziana
es que el carácter (temporal/nulo/espacial) de la geodésica (respecto a una conexión
compatible con la métrica) nunca cambia. Esto es simplemente porque el transporte
paralelo preserva los productos internos, y el carácter está determinado por el producto
interno del vector tangente consigo mismo. Por eso fuimos coherentes al considerar
trayectorias puramente temporales cuando derivamos (3.56); para trayectorias espaciales
habríamos derivado la misma ecuación, ya que la única diferencia es un signo negativo
global en la respuesta final. También hay geodésicas nulas, que satisfacen la misma
ecuación, salvo que el tiempo propio no puede utilizarse como parámetro (existirá algún
conjunto de parámetros permitidos, relacionados entre sí por transformaciones lineales).
Se puede derivar este hecho bien del simple requisito de que el vector tangente sea paralelo-
transportado, o bien extendiendo la variación de (3.48) para incluir todas las trayectorias
no espaciales.
Expliquemos ahora la observación anterior de que las geodésicas temporales son máximas
del tiempo propio. La razón por la que sabemos que esto es cierto es que, dada cualquier
curva temporal (geodésica o no), podemos aproximarla con una precisión arbitraria
mediante una curva nula. Para ello, basta con considerar las curvas nulas "dentadas" que
siguen a la de tiempo propio:
A medida que aumentamos el número de curvas agudas, la curva nula se acerca cada vez
más a la curva temporal , sin dejar de tener una longitud de trayectoria nula. Por lo tanto,
las geodésicas temporales (“time-like”) no pueden ser curvas de tiempo propio mínimo, ya
que siempre están infinitesimalmente cerca de las curvas de tiempo propio cero; de hecho,
maximizan el tiempo propio. (Así es como se puede recordar qué gemelo en la paradoja de
los gemelos envejece más: el que se queda en casa está básicamente en una geodésica, y por
tanto experimenta más tiempo propio). Por supuesto, incluso esto es ser un poco cauteloso;
en realidad, cada vez que decimos "maximizar" o "minimizar" deberíamos añadir el
3 CURVATURA 62
modificador "localmente". A menudo ocurre que entre dos puntos de una variedad hay más
de una geodésica. Por ejemplo, en S2 podemos dibujar una gran circunferencia a través de
dos puntos cualesquiera, e imaginar que viajamos entre ellos por el camino corto o por el
camino largo. Uno de ellos es obviamente más largo que el otro, aunque ambos son puntos
estacionarios de la función de longitud.
El último hecho sobre las geodésicas antes de pasar a la curvatura propiamente dicha es su
uso en el mapeo (“mapping”) del espacio tangente en un punto p a una vecindad local de p.
Para ello, observamos que cualquier geodésica 𝑥 (λ) que pase por p puede especificarse
por su comportamiento en p; elijamos que el valor del parámetro sea λ (p) = 0, y que el
vector tangente en p sea
(𝜆 = 0) = 𝑘 , (3.60)
para un vector 𝑘 en p (algún elemento de Tp). Entonces, habrá un único punto en la

variedad M que se encuentra en esta geodésica donde el parámetro tiene el valor λ = 1.
Definimos el mapa exponencial en p, expp : Tp → M, mediante
expp(𝑘 ) = 𝑥 (λ = 1) , (3.61)
donde 𝑥 (λ) resuelve la ecuación geodésica correspondiente a (3.60). Para un conjunto de
vectores tangentes 𝑘 cerca del vector cero, este mapa estará bien definido, y de hecho será
invertible. Así, en el vecindario de p dado por el rango del mapa en este conjunto de vectores
tangente, los propios
Tp
kµ
p
λ=1
M
xν (λ)
vectores tangentes definen un sistema coordenado en la variedad. En este sistema

coordenado, cualquier geodésica a través de p es expresada trivialmente como
𝑥 (𝜆) = 𝜆𝑘 , (3.62)
para cierto valor apropiado de 𝑘 .
No vamos a entrar en detalles sobre las propiedades del mapa exponencial, ya que de hecho
no lo vamos a utilizar mucho, pero es importante destacar que el rango del mapa no es
necesariamente toda la variedad, y el dominio no es necesariamente todo el espacio
tangente. El rango puede no ser todo M simplemente porque puede haber dos puntos que
no estén conectados por ninguna geodésica. (En una métrica de firma euclidiana esto es
imposible, pero no en un espaciotiempo lorentziano). El dominio puede no ser todo Tp
porque una geodésica puede toparse con una singularidad, que consideramos como "el
borde de la variedad". Las variedades que tienen tales singularidades se conocen como
geodésicamente incompletas. Esto no es sólo un problema para los matemáticos
cuidadosos; de hecho, los "teoremas de la singularidad" de Hawking y Penrose afirman que,
para un contenido razonable de materia (sin energías negativas), los espaciotiempos en
relatividad general tienen casi garantizado ser geodésicamente incompletos. Como
ejemplos, los dos espaciotiempos más útiles de la RG -la solución de Schwarzschild que
describe agujeros negros y las soluciones de Friedmann-Robertson-Walker que describen
cosmologías homogéneas e isotrópicas- presentan importantes singularidades.
3 CURVATURA 63
Una vez establecida la maquinaria del transporte paralelo y las derivadas covariantes,
estamos por fin preparados para discutir la curvatura propiamente dicha. La curvatura se
cuantifica mediante el tensor de Riemann, que se deriva de la conexión. La idea que subyace
a esta medida de la curvatura es que sabemos lo que entendemos por "planitud" de una
conexión -la conexión de Christoffel convencional (y normalmente implícita) asociada a una
métrica euclidiana o minkowskiana tiene una serie de propiedades que pueden
considerarse como diferentes manifestaciones de la planitud. Entre ellas se encuentra el
hecho de que el transporte paralelo alrededor de un bucle cerrado deja un vector sin
cambios, que las derivadas covariantes de los tensores se conmutan y que las geodésicas
inicialmente paralelas siguen siendo paralelas. Como veremos, el tensor de Riemann surge
cuando estudiamos cómo se altera alguna de estas propiedades en contextos más generales.
Ya hemos argumentado, utilizando la dos-esfera como ejemplo, que el transporte paralelo
de un vector alrededor de un lazo cerrado en un espacio curvo conducirá a una
transformación del vector. La transformación resultante depende de la curvatura total
encerrada en el bucle; sería más útil tener una descripción local de la curvatura en cada
punto, que es lo que se supone que proporciona el tensor de Riemann. Una forma
convencional de introducir el tensor de Riemann, por tanto, es considerar el transporte
paralelo alrededor de una espira infinitesimal. No lo vamos a hacer aquí, sino que
tomaremos una ruta más directa. (La mayoría de las presentaciones en la literatura son o
bien descuidadas, o bien correctas pero muy difíciles de seguir). Sin embargo, incluso sin
trabajar en los detalles, es posible ver la forma que debe tomar la respuesta. Imaginemos
que transportamos en paralelo un vector 𝑉 alrededor de un bucle cerrado definido por dos
vectores 𝐴 y 𝐵 :
Las longitudes (infinitesimales) de los lados del lazo son δa y δb, respectivamente. Ahora
bien, sabemos que la acción del transporte paralelo es independiente de las coordenadas,
por lo que debe haber algún tensor que nos diga cómo cambia el vector cuando vuelve a su
punto de partida; será una transformación lineal sobre un vector, y por tanto implicará un
índice superior y otro inferior. Pero también dependerá de los dos vectores A y B que
definen el bucle; por tanto, deberá haber dos índices inferiores adicionales que se
contraigan con 𝐴 y 𝐵 . Además, el tensor debe ser antisimétrico en estos dos índices, ya
que intercambiar los vectores corresponde a atravesar el bucle en sentido contrario, y
debería dar la inversa de la respuesta original. (Esto es coherente con el hecho de que la
transformación debería desaparecer si A y B son el mismo vector). Por lo tanto, esperamos
que la expresión para el cambio δ𝑉 experimentado por este vector cuando se transporta
en paralelo alrededor del bucle debe ser de la forma
𝛿𝑉 = (𝛿𝑎) (𝛿𝑏)𝐴 𝐵 𝑅 𝑉 , (3.63)
where Rρσµν is a (1,3) tensor known as the Riemann tensor (or simply “curvature tensor”).
It is antisymmetric in the last two indices:
𝑅 = −𝑅 . (3.64)
3 CURVATURA 64
(Por supuesto, si (3.63) se toma como definición del tensor de Riemann, hay que elegir una
convención para el ordenamiento de los índices. No hay ningún acuerdo sobre cuál debe ser
esta convención, así que hay que tener cuidado).
Sabiendo lo que sabemos sobre el transporte paralelo, podríamos realizar con mucho
cuidado las manipulaciones necesarias para ver lo que ocurre con el vector bajo esta
operación, y el resultado sería una fórmula para el tensor de curvatura en términos de los
coeficientes de conexión. Sin embargo, es mucho más rápido considerar una operación
relacionada, el conmutador de dos derivadas covariantes. La relación entre esto y el
transporte paralelo alrededor de un lazo cerrado debería ser evidente; la derivada
covariante de un tensor en una determinada dirección mide cuánto cambia el tensor en
relación con lo que habría sido si hubiera sido transportado en paralelo (ya que la derivada
covariante de un tensor en una dirección a lo largo de la cual es transportado en paralelo es
cero). El conmutador de dos derivadas covariantes, por tanto, mide la diferencia entre
transportar paralelamente el tensor primero en una dirección y luego en la otra, frente al
orden inverso.
µ
ν
ν
µ
El cálculo real es muy sencillo. Considerando un campo vectorial 𝑉 , tomamos
[∇µ,∇ν]V ρ = ∇µ∇ν V ρ − ∇ν∇µ V ρ
= ∂µ(∇νV ρ) − Γλµν∇λV ρ + Γ ∇νV σ − (µ ↔ ν)
= ∂µ∂νVρ + (∂µΓ )V σ + Γ 𝜕 𝑉 −Γ 𝜕 𝑉 −Γ Γ 𝑉
+ Γ ∂ν𝑉 + Γ Γ 𝑉 – (µ ↔ ν)
= (∂µΓ −𝜕 Γ +Γ Γ - Γ Γ ) 𝑉 – 2Γ[ ] ▽ 𝑉 . (3.65)

En el último paso hemos reetiquetado algunos índices ficticios y eliminado algunos
términos que se cancelan cuando se hacen antisimétricos. Reconocemos que el último
término es simplemente el tensor de torsión, y que el lado izquierdo es manifiestamente un
tensor; por tanto, la expresión entre paréntesis debe ser un tensor en sí misma. Escribimos
[∇µ,∇ν]V ρ = 𝑅 𝑉 –𝑇 ▽ 𝑉 , (3.66)
donde el tensor de Riemann se identifica como
. (3.67)
Hay una serie de cosas que hay que tener en cuenta sobre la derivación de esta expresión:
 Por supuesto, no hemos demostrado que (3.67) sea realmente el mismo tensor que
aparecía en (3.63), pero de hecho es cierto (véase Wald para una demostración
creíble aunque tortuosa).
 Quizá sea sorprendente que el conmutador [▽ , ▽ ], que parece ser un operador

diferencial, tenga una acción sobre campos vectoriales que (en ausencia de torsión,
3 CURVATURA 65
en todo caso) es una simple transformación multiplicativa. El tensor de Riemann

mide la parte del conmutador de derivadas covariantes que es proporcional al
campo vectorial, mientras que el tensor de torsión mide la parte que es proporcional
a la derivada covariante del campo vectorial; la segunda derivada no entra en
absoluto.
 Obsérvese que la expresión (3.67) se construye a partir de elementos no tensoriales;

puede comprobarse que las leyes de transformación funcionan todas para que esta
combinación particular sea un tensor legítimo.
 La antisimetría de 𝑅 en sus dos últimos índices es inmediata a partir de esta

fórmula y su derivación.
 Construimos el tensor de curvatura completamente a partir de la conexión (no se
mencionó la métrica). Fuimos lo suficientemente cuidadosos como para que la
expresión anterior sea cierta para cualquier conexión, sea o no compatible con la
métrica o libre de torsión.
 Utilizando lo que ya son nuestros métodos habituales, se puede calcular la acción de

[▽ , ▽ ], sobre un tensor de rango arbitrario. La respuesta es
(3.68)
Una noción útil es la del conmutador de dos campos vectoriales X e Y , que es un tercer
campo vectorial con componentes
[X,Y ]µ = Xλ∂λ𝑌 − Y λ∂λ𝑋 . (3.69)
Tanto el tensor de torsión como el tensor de Riemann, pensados como mapas multilineales,
tienen expresiones elegantes en términos del conmutador. Pensando en la torsión como un
mapa de dos campos vectoriales a un tercer campo vectorial, tenemos
T(X,Y ) = ∇XY − ∇Y X − [X,Y ] , (3.70)

y pensando en el tensor de Riemann como un mapa de tres campos vectoriales a un cuarto,
tenemos
R(X,Y )Z = ∇X∇Y Z − ∇Y ∇XZ − ∇[X,Y ]Z . (3.71)
En estas expresiones, la notación ∇X se refiere a la derivada covariante a lo largo del campo

vectorial X; en componentes, ∇X = 𝑋 µ ∇µ. Nótese que los dos vectores X e Y en (3.71)
corresponden a los dos índices antisimétricos en la forma de componentes del tensor de
Riemann. El último término en (3.71), que implica el conmutador [X,Y ], desaparece cuando
se toma a X e Y como los campos vectoriales de base de coordenadas (ya que [∂µ,∂ν] = 0),
razón por la cual este término no surgió cuando originalmente tomamos el conmutador de
dos derivadas covariantes. No utilizaremos esta notación de forma extensiva, pero es
posible que se vea en la literatura, así que deberíamos ser capaces de descifrarla.
Habiendo definido el tensor de curvatura como algo que caracteriza la conexión, admitamos
ahora que en la RG lo que más nos preocupa es la conexión de Christoffel. En este caso la
conexión se deriva de la métrica, y la curvatura asociada puede pensarse como la de la
propia métrica. Esta identificación nos permite finalmente dar sentido a nuestra noción
informal de que los espacios para los que la métrica parece euclidiana o minkowskiana son
3 CURVATURA 66
planos. De hecho, funciona en ambos sentidos: si las componentes de la métrica son

constantes en algún sistema de coordenadas, el tensor de Riemann desaparecerá, mientras
que si el tensor de Riemann desaparece siempre podemos construir un sistema de
coordenadas en el que las componentes de la métrica sean constantes.
Lo primero es fácil de demostrar. Si estamos en algún sistema de coordenadas tal que ∂σgµν
= 0 (en todas partes, no sólo en un punto), entonces Γ = 0 y ∂σΓ = 0; por tanto, 𝑅 = 0
según (3.67). Pero ésta es una ecuación tensorial, y si es cierta en un sistema de coordenadas
debe serlo en cualquier sistema de coordenadas. Por tanto, la afirmación de que el tensor de
Riemann desaparece es una condición necesaria para que sea posible encontrar
coordenadas en las que las componentes de gµν sean constantes en todas partes.
También es una condición suficiente, aunque tenemos que trabajar más para demostrarlo.
Comencemos eligiendo las coordenadas normales de Riemann en algún punto p, de modo
que gµν = ηµν en p. (Aquí utilizamos ηµν en un sentido generalizado, como una matriz con +1
o -1 para cada elemento diagonal y ceros en el resto. La disposición real de los +1 y -1
depende de la forma canónica de la métrica, pero es irrelevante para el presente
argumento). Denotemos los vectores base en p por 𝑒̂( ) , con componentes 𝑒̂( ) . Entonces,
por construcción, tenemos
, (3.72)
Ahora transportemos en paralelo todo el conjunto de vectores base desde p hasta otro punto
q; la desaparición del tensor de Riemann garantiza que el resultado será independiente del
camino recorrido entre p y q. Dado que el transporte en paralelo con respecto a una
conexión compatible con la métrica preserva los productos internos, debemos tener
. (3.73)
Por lo tanto, hemos especificado un conjunto de campos vectoriales que en todas partes
definen una base en la que las componentes métricas son constantes. Esto no tiene nada de
impresionante; se puede hacer en cualquier variedad, independientemente de cuál sea la
curvatura. Lo que queremos demostrar es que se trata de una base de coordenadas (lo que
sólo puede ser cierto si la curvatura desaparece). Sabemos que si las 𝑒̂ ( ) son una base de
coordenadas, su conmutador desaparecerá:
[𝑒̂ ( ) , 𝑒̂( ) ] = 0. (3.74)
Lo que realmente nos gustaría es lo contrario: que si el conmutador desaparece podamos
encontrar coordenadas yµ tales que 𝑒̂ ( ) = . De hecho, este es un resultado verdadero,
conocido como Teorema de Frobenius. Es algo complicado de demostrar, ya que implica
mucho más aparato matemático del que nos hemos molestado en establecer. Vamos a darlo
por supuesto (los escépticos pueden consultar el libro de Schutz Métodos Geométricos). Así
pues, queremos demostrar (3.74) para los campos vectoriales que hemos establecido.
Utilicemos la expresión (3.70) para la torsión:
[𝑒̂ ( ) , 𝑒̂( ) ] = ▽ ̂( ) 𝑒̂( ) −▽ ̂( ) 𝑒̂ ( ) – T(𝑒̂ ( ) , 𝑒̂( ) ). (3.75)
La torsión desaparece por hipótesis. Las derivadas covariantes también desaparecerán,
dado el método con el que construimos nuestros campos vectoriales; se hicieron
transportando en paralelo a lo largo de trayectorias arbitrarias. Si los campos se
transportan en paralelo a lo largo de trayectorias arbitrarias, ciertamente se transportan en
paralelo a lo largo de los vectores 𝑒̂ ( ) , y por lo tanto sus derivadas covariantes en la
dirección de estos vectores desaparecerán. Así (3.70) implica que el conmutador
desaparece, y por tanto que podemos encontrar un sistema de coordenadas yµ para el cual
estos campos vectoriales son las derivadas parciales. En este sistema de coordenadas la
métrica tendrá componentes ηµν, como se desea.
3 CURVATURA 67
El tensor de Riemann, con cuatro índices, tiene ingenuamente n4 componentes

independientes en un espacio n-dimensional. De hecho, la propiedad de antisimetría (3.64)
significa que sólo hay n(n−1)/2 valores independientes que pueden tomar estos dos últimos
índices, lo que nos deja con n3(n-1)/2 componentes independientes. Sin embargo, cuando
consideramos la conexión de Christoffel, hay una serie de otras simetrías que reducen aún
más las componentes independientes. Considerémoslas ahora.
La forma más sencilla de derivar estas simetrías adicionales es examinar el tensor de
Riemann con todos los índices inferiores,
𝑅 µ =𝑔 𝑅 . (3.76)
Consideremos además las componentes de este tensor en coordenadas normales de
Riemann establecidas en un punto p. Entonces los propios símbolos de Christoffel
desaparecerán, aunque sus derivadas no. Por tanto, tenemos
𝑅 µ =𝑔 𝜕 Γ −𝜕 Γ
= 𝑔𝜌𝜆 𝑔 𝜕 𝜕 𝑔 +𝜕 𝜕 𝑔 −𝜕 𝜕 𝑔 −𝜕 𝜕 𝑔 −𝜕 𝜕 𝑔 +𝜕 𝜕 𝑔
= (𝜕 𝜕 𝑔 −𝜕 𝜕 𝑔 − 𝜕 𝜕 𝑔 + 𝜕 𝜕 𝑔 ). (3.77)
En la segunda línea hemos utilizado 𝜕 𝑔 = 0 en RNC's, y en la tercera línea el hecho de

que las parciales conmutan. A partir de esta expresión podemos constatar inmediatamente
dos propiedades de 𝑅 µ ; es antisimétrica en sus dos primeros índices,
𝑅 µ = −𝑅 µ , (3.78)
y es invariante bajo el intercambio del primer par de índices con el segundo:
𝑅 µ = 𝑅µ . (3.79)
Con un poco más de trabajo, que dejamos a vuestra imaginación, podemos ver que la suma
de permutaciones cíclicas de los tres últimos índices desaparece:
𝑅 µ +𝑅 µ +𝑅 =0. (3.80)
Esta última propiedad equivale a la desaparición de la parte antisimétrica de los tres últimos
índices:
𝑅 [ µ ]= 0. (3.81)
Todas estas propiedades se han deducido en un sistema de coordenadas especial, pero todas
son ecuaciones tensoriales; por tanto, serán ciertas en cualquier sistema de coordenadas.
No todas son independientes; con un poco de esfuerzo, se puede demostrar que (3.64),
(3.78) y (3.81) conjuntamente implican (3.79). La interdependencia lógica de las ecuaciones
suele ser menos importante que el simple hecho de que sean ciertas.
Dadas estas relaciones entre los distintos componentes del tensor de Riemann, ¿cuántas
magnitudes independientes quedan? Empecemos por el hecho de que Rρσµν es antisimétrico
en los dos primeros índices, antisimétrico en los dos últimos y simétrico bajo el intercambio
de estos dos pares. Esto significa que podemos pensar que es una matriz simétrica R[ρσ][µν] ,
donde los pares ρσ y µν se consideran índices individuales. Una matriz simétrica m x m tiene
m(m + 1)/2 componentes independientes, mientras que una matriz antisimétrica n × n tiene
n(n - 1)/2 componentes independientes. Por lo tanto, tenemos
) (3.82)
3 CURVATURA 68
componentes independientes. Todavía tenemos que lidiar con la simetría adicional (3.81).
Una consecuencia inmediata de (3.81) es que la parte totalmente antisimétrica del tensor
de Riemann desaparece,
𝑅[ µ ] =0. (3.83)
De hecho, esta ecuación más las otras simetrías (3.64), (3.78) y (3.79) son suficientes para
implicar (3.81), como puede demostrarse fácilmente expandiendo (3.83) y jugando con los
términos resultantes. Por tanto, imponer la restricción adicional de (3.83) equivale a
imponer (3.81), una vez que se han tenido en cuenta las demás simetrías. ¿Cuántas
restricciones independientes representa esto? Imaginemos que descomponemos
𝑅 =𝑋 + 𝑅[ µ ] . (3.84)
Es fácil ver que cualquier tensor de 4 índices totalmente antisimétrico es automáticamente
antisimétrico en sus primeros y últimos índices, y simétrico bajo intercambio de los dos
pares. Por tanto, estas propiedades son restricciones independientes sobre Xρσµν, no
relacionadas con el requisito (3.83). Ahora bien, un tensor totalmente antisimétrico de 4
índices tiene n(n-1)(n-2)(n-3)/4! términos, y por tanto (3.83) reduce el número de
componentes independientes en esta cantidad. Nos queda
1) (3.85)
componentes independientes del tensor de Riemann.

En cuatro dimensiones, por tanto, el tensor de Riemann tiene 20 componentes
independientes (en una dimensión no tiene ninguna). (En una dimensión no tiene ninguna.)
Estas veinte funciones son precisamente los 20 grados de libertad en las segundas derivadas
de la métrica que no podríamos poner a cero mediante una inteligente elección de
coordenadas. Esto debería reforzar nuestra confianza en que el tensor de Riemann es una
medida apropiada de la curvatura.
Además de las simetrías algebraicas del tensor de Riemann (que limitan el número de
componentes independientes en cualquier punto), hay una identidad diferencial a la que
obedece (que limita sus valores relativos en diferentes puntos). Consideremos la derivada
covariante del tensor de Riemann, evaluada en coordenadas normales de Riemann:
▽ 𝑅 =𝜕 𝑅
= 𝜕 𝜕 𝜕 𝑔 −𝜕 𝜕 𝑔 −𝜕 𝜕 𝑔 + 𝜕 𝜕 𝑔 . (3.86)
Queremos considerar la suma de permutaciones cíclicas de los tres primeros índices:
▽ 𝑅 +▽ 𝑅 +▽ 𝑅
= (𝜕 𝜕 𝜕 𝑔 −𝜕 𝜕 𝜕 𝑔 −𝜕 𝜕 𝜕 𝑔 +𝜕 𝜕 𝜕 𝑔
+𝜕 𝜕 𝜕 𝑔 −𝜕 𝜕 𝜕 𝑔 −𝜕 𝜕 𝜕 𝑔 +𝜕 𝜕 𝜕 𝑔
+𝜕 𝜕 𝜕 𝑔 − 𝜕 𝜕 𝜕𝑔 −𝜕 𝜕 𝜕 𝑔 +𝜕 𝜕 𝜕 𝑔 )
= 0. (3.87)
Una vez más, al tratarse de una ecuación entre tensores, es cierta en cualquier sistema de
coordenadas, aunque la hayamos derivado en uno particular. A estas alturas reconocemos
que la antisimetría 𝑅 µ = −𝑅 µ nos permite escribir este resultado como
▽[ Rρσ]µν = 0. (3.88)
3 CURVATURA 69
Esto se conoce como la identidad de Bianchi. (Nótese que para una conexión general habría
términos adicionales que implican el tensor de torsión). Está estrechamente relacionada
con la identidad de Jacobi, ya que (como se puede ver) básicamente expresa
[[▽ , ▽ ], ▽ ] + [[▽ , ▽ ], ▽ ] + [[▽ , ▽ ], ▽ ] = 0. (3.89)
A menudo resulta útil considerar las contracciones del tensor de Riemann. Incluso sin la
métrica, podemos formar una contracción conocida como el tensor de Ricci:
𝑅 =𝑅 . (3.90)
Obsérvese que, para el tensor de curvatura formado a partir de una conexión arbitraria (no
necesariamente de Christoffel), hay una serie de contracciones independientes que hay que
realizar. Nuestra principal preocupación es la conexión de Christoffel, para la cual (3.90) es
la única contracción independiente (con las convenciones del signo, que por supuesto
cambian de un lugar a otro). El tensor de Ricci asociado a la conexión de Christoffel es
simétrico,
𝑅 =𝑅 , (3.91)
como consecuencia de las distintas simetrías del tensor de Riemann. Utilizando la métrica,
podemos hacer una contracción más para formar el escalar de Ricci:
R=𝑅 =𝑔 𝑅 . (3.92)
Una forma especialmente útil de la identidad de Bianchi proviene de contraerse dos veces
en (3.87):
0 = 𝑔 𝑔 (▽ 𝑅 +▽ 𝑅 +▽ 𝑅 )
= ▽ 𝑅 -▽ R+▽ 𝑅 , (3.93)
o
▽ 𝑅 = ▽ 𝑅. (3.94)
(Nótese que, a diferencia de la derivada parcial, tiene sentido elevar un índice en la derivada
covariante, debido a la compatibilidad métrica). Si definimos el tensor de Einstein como
𝐺 =𝑅 − 𝑅 , (3.95)
entonces vemos que la doblemente contraída identidad de Bianchi (3.94) es equivalente a

▽ 𝐺 =0. (3.96)
El tensor de Einstein, que es simétrico debido a la simetría del tensor de Ricci y la métrica,
será de gran importancia en la relatividad general.
El tensor de Ricci y el escalar de Ricci contienen información sobre las "trazas" del tensor
de Riemann. A veces es útil considerar por separado aquellos trozos del tensor de Riemann
de los que no nos habla el tensor de Ricci. Por tanto, inventamos el tensor de Weyl, que es
básicamente el tensor de Riemann con todas sus contracciones eliminadas. Viene dado en n
dimensiones por
. (3.97)
Esta fórmula desordenada está diseñada para que todas las posibles contracciones de 𝐶
desaparezcan, mientras que retiene las simetrías del tensor de Riemann:
𝐶 = 𝐶[ ][ ],
3 CURVATURA 70
𝐶 =𝐶 ,
𝐶 [ ] =0. (3.98)
El tensor de Weyl sólo está definido en tres o más dimensiones, y en tres dimensiones
desaparece por completo. Para n ≥ 4 satisface una versión de la identidad de Bianchi,
. (3.99)
Una de las propiedades más importantes del tensor de Weyl es que es invariante bajo
transformaciones conformacionales. Esto significa que si se calcula 𝐶 para alguna
métrica 𝑔 , y luego se vuelve a calcular para una métrica dada por Ω (𝑥)𝑔 , donde Ω( ) es
una función arbitraria no evanescente del espaciotiempo, se obtiene la misma respuesta.
Por esta razón se suele conocer como el "tensor conforme".
Después de esta gran cantidad de formalismos, puede ser el momento de dar un paso atrás
y pensar en lo que significa la curvatura para algunos ejemplos sencillos. En primer lugar,
obsérvese que, según (3.85), en 1, 2, 3 y 4 dimensiones hay 0, 1, 6 y 20 componentes del
tensor de curvatura, respectivamente. (Todo lo que decimos sobre la curvatura en estos
ejemplos se refiere a la curvatura asociada a la conexión de Christoffel, y por tanto a la
métrica). Esto significa que las variedades unidimensionales (como 𝑆 ) nunca son curvas;
la intuición que tenemos de que un círculo es curvo proviene de pensar en él incrustado en
un determinado plano bidimensional. (Existe algo llamado "curvatura extrínseca", que
caracteriza la forma en que algo está incrustado en un espacio de mayor dimensión. Nuestra
noción de curvatura es "intrínseca" y no tiene nada que ver con esas incrustaciones).
La distinción entre curvatura intrínseca y extrínseca también es importante en dos
dimensiones, donde la curvatura tiene una componente independiente. (De hecho, toda la
información ser la curvatura está contenida en e único componente del escalar de Ricci).
Consideremos un cilindro,
R x 𝑆 . Aunque ese parezca curvo desde nuestro punto de vista, debemos tener claro que
podemos poner una métrica en dicho cilindro cuyos componentes son constantes en un
sistema coordenado apropiado – simplemente desenrollándolo y usando la métrica
inducida desde el plano. En esta métrica, el cilindro es plano. (Tampoco hay nada que nos
impida establecer una métrica diferente en la cual el cilindro no es plano, pero el punto que
estamos tratando de enfatizar es que puede hacerse plano en determinada métrica). La
misma historia vale para el toro:
3 CURVATURA 71
Podemos imaginar el toro como una región cuadrada del plano con los lados opuestos
identificados (en otras palabras, 𝑆 x 𝑆 ), a partir del cual es claro que puede tener una
métrica plana aunque parezca curvo desde el punto de vista de embebido.
El cono es un ejemplo de una variedad bidimensional con curvatura no-cero en exactamente
un punto. Podemos visualizar también eso desenrollándolo; el cono es equivalente al plano
con un “ángulo deficitario” removido y lados opuestos identificados:
En la métrica heredada de esta descripción como parte del plano liso, el cono es plano en
todo excepto en su vértice. Esto puede ser visto considerando el transporte paralelo de un
vector a lo largo de varios lazos cerrados; si el lazo cerrado no encierra el vértice, no habrá
transformación general, mientras que el lazo que encierre el vértice (digamos, justo una vez)
conducirá a una rotación por un ángulo que es justamente el ángulo deficitario.
Nuestro ejemplo favorito es sin duda la dos-esfera, con la métrica

ds2 = a2(dθ2 + sin2 θ dφ2) , (3.100)
donde a es el radio de la esfera (pensada como incrustada en R3). Sin entrar en detalles, los
coeficientes de conexión no nulos son
(3.101)
Calculemos una componente prometedora del tensor de Riemann:
(3.102)
3 CURVATURA 72
(La notación es obviamente imperfecta, ya que la letra griega λ es un índice ficticio que se
suma, mientras que las letras griegas θ y φ representan coordenadas específicas). Bajando
un índice, tenemos
𝑅 ∅ ∅ = 𝑔 𝑅
= 𝑔 𝑅
= a2 sin2 θ . (3.103)
Es fácil comprobar que todas las componentes del tensor de Riemann desaparecen o están
relacionadas con éste por simetría. Podemos pasar a calcular el tensor de Ricci mediante
𝑅 =𝑔 𝑅 . Obtenemos
𝑅 = 𝑔 𝑅 =1
𝑅 =𝑅 𝜙=0
𝑅 = 𝑔 𝑅 = sen 𝜃 . (3.104)
El escalar de Ricci es igualmente sencillo:
R=𝑔 𝑅 +𝑔 𝑅 = . (3.105)
Por lo tanto, el escalar de Ricci, que para una variedad bidimensional caracteriza
completamente la curvatura, es una constante sobre esta dos-esfera. Esto refleja el hecho de
que la variedad es "máximamente simétrica", un concepto que definiremos con más
precisión más adelante (aunque significa lo que creemos que debería significar). En
cualquier número de dimensiones, la curvatura de un espacio máximamente simétrico
satisface (para cierta constante a)
𝑅 =𝑎 𝑔 𝑔 − 𝑔 𝑔 , (3.106)
que pueden comprobar que se cumple en este ejemplo.
Obsérvese que el escalar de Ricci no sólo es constante para la dos-esfera, sino que es
manifiestamente positivo. Decimos que la esfera está "positivamente curvada" (por
supuesto, entraron en juego una o dos convenciones, pero afortunadamente nuestras
convenciones sirvieron para que los espacios que todo el mundo está de acuerdo en llamar
positivamente curvados tengan realmente un escalar de Ricci positivo). Desde el punto de
vista de alguien que vive en una variedad incrustada en un espacio euclídeo de mayor
dimensión, si está sentado en un punto de curvatura positiva, el espacio se aleja de él de la
misma manera en cualquier dirección, mientras que en un espacio de curvatura negativa se
aleja en direcciones opuestas. Los espacios de curvatura negativa son, por tanto, de tipo silla
de montar.
Ya está bien de ejemplos. Hay un tema más que debemos tratar antes de introducir la
relatividad general propiamente dicha: la desviación geodésica. Sin duda habrán oído que
la propiedad
3 CURVATURA 73
curvatura positiva curvatura negativa
definitoria de la geometría euclidiana (plana) es el postulado de las paralelas: las líneas

inicialmente paralelas permanecen paralelas para siempre. Por supuesto, en un espacio
curvo esto no es cierto; en una esfera, ciertamente, las geodésicas inicialmente paralelas
acabarán cruzándose. Nos gustaría cuantificar este comportamiento para un espacio curvo
arbitrario.
El problema es que la noción de "paralelo" no se extiende de forma natural de los espacios
planos a los curvos. En su lugar, lo que haremos es construir una familia de geodésicas de
un parámetro, 𝛾 (𝑡). Es decir, para cada s ∈ R, 𝛾 es una geodésica parametrizada por el
parámetro afín t. La colección de estas curvas define una superficie bidimensional lisa
(incrustada en una variedad M de dimensionalidad arbitraria). Las coordenadas de esta
superficie pueden elegirse como s y t, siempre que hayamos elegido una familia de
geodésicas que no se crucen. La superficie completa es el conjunto de puntos 𝑥 (𝑠, 𝑡) ∈ M.
Tenemos dos campos vectoriales naturales: los vectores tangentes a las geodésicas,
𝑇 = , (3.107)
y los “vectores de desviación”
𝑆 = , (3.108)
Este nombre proviene de la noción informal de que 𝑆 apunta desde una geodésica hacia las
vecinas.
La idea de que 𝑆 apunta de una geodésica a la siguiente nos inspira a definir la "velocidad
relativa de las geodésicas",
𝑉 = (▽ 𝑆) = 𝑇 ▽ 𝑆 , (3.109)
y la “aceleración relativa de las geodésicas”,
𝑎 = (▽ 𝑉) = 𝑇 ▽ 𝑉 . (3.110)
Hay que tomarse los nombres con pinzas, pero estos vectores están ciertamente bien
definidos.
3 CURVATURA 74
µ γs ( t )
T
t µ
S
s
Como S y T son vectores base adaptados a un sistema de coordenadas, su conmutador
desaparece:
[S,T] = 0 .
Vamos a considerar el caso convencional en el que la torsión desaparece, por lo que a partir
de (3.70) tenemos lo siguiente
𝑆 ▽ 𝑇 = 𝑇 ▽ 𝑆 . (3.111)
Con esto in mente, vamos a calcular la aceleración:
𝑎 = 𝑇 ▽ (𝑇 ▽ 𝑆 )
= 𝑇 ▽ (𝑆 ▽ 𝑇 )
= (𝑇 ▽ 𝑆 )(▽ 𝑇 ) + 𝑇 𝑆 ▽ ▽ 𝑇
= (𝑆 ▽ 𝑇 )(▽ 𝑇 ) + 𝑇 𝑆 (▽ ▽ 𝑇 + 𝑅 𝑇 )
= (𝑆 ▽ 𝑇 )(▽ 𝑇 ) + 𝑆 ▽ (𝑇 ▽ 𝑇 ) - (𝑆 ▽ 𝑇 ) ▽ 𝑇 + 𝑅 𝑇 𝑇 𝑆
= 𝑅 𝑇 𝑇 𝑆 . (3.112)
Examinemos esto línea por línea. La primera línea es la definición de 𝑎 , y la segunda línea
viene directamente de (3.111). La tercera línea es simplemente la regla de Leibniz. La cuarta
línea sustituye una derivada covariante doble por las derivadas en el orden opuesto más el
tensor de Riemann. En la quinta línea volvemos a utilizar la regla de Leibniz (en el orden
opuesto al habitual), y entonces cancelamos dos términos idénticos y observamos que el
término que implica 𝑇 ▽ 𝑇 desaparece porque 𝑇 es el vector tangente a una geodésica.
El resultado,
𝑎 = 𝑆 =𝑅 𝑇 𝑇 𝑆 , (3.113)
se conoce como la ecuación de desviación geodésica. Expresa algo que podíamos esperar: la
aceleración relativa entre dos geodésicas vecinas es proporcional a la curvatura.
Físicamente, por supuesto, la aceleración de las geodésicas vecinas se interpreta como una
manifestación de las fuerzas de marea gravitatorias. Esto nos recuerda que ya estamos muy
cerca de hacer física.
Hay una última pieza de formalismo que sería bueno cubrir antes de pasar a la gravitación
propiamente dicha. Lo que haremos es considerar de nuevo (aunque de forma mucho más
concisa) el formalismo de conexiones y curvatura, pero esta vez utilizaremos conjuntos de
3 CURVATURA 75
vectores base en el espacio tangente que no se derivan de ningún sistema de coordenadas.

Resultará que este ligero cambio de énfasis revela un punto de vista diferente sobre la
conexión y la curvatura, uno en el que la relación con las teorías gauge en la física de
partículas es mucho más transparente. De hecho, los conceptos que se van a introducir son
muy sencillos, pero el tema es una pesadilla en la notación, por lo que parece más difícil de
lo que realmente es.
Hasta ahora hemos aprovechado el hecho de que una base natural para el espacio tangente
𝑇 en un punto p viene dada por las derivadas parciales respecto a las coordenadas en ese
punto, 𝑒̂ ( ) = 𝜕 . Del mismo modo, una base para el espacio cotangente 𝑇 ∗ viene dada por los
gradientes de las funciones de coordenadas, 𝜃 ( ) = d𝑥 . Sin embargo, nada nos impide
establecer las bases que queramos. Imaginemos, pues, que en cada punto de la variedad
introducimos un conjunto de vectores base 𝑒̂ ( ) (indexados con una letra latina en lugar de
griega, para recordarnos que no están relacionados con ningún sistema de coordenadas).
Elegiremos estos vectores base para que sean "ortonormales", en un sentido que sea
apropiado para la firma de la variedad en la que estamos trabajando. Es decir, si la forma
canónica de la métrica se escribe 𝜂 , exigimos que el producto interior de nuestros vectores
base sea
𝑔 𝑒̂ ( ) , 𝑒̂ ( ) =𝜂 , (3.114)
donde 𝑔( , ) es el tensor métrico habitual. Así, en un espaciotiempo lorentziano 𝜂
representa la métrica de Minkowski, mientras que en un espacio con métrica definida
positiva representaría la métrica euclidiana. El conjunto de vectores que componen una
base ortonormal se conoce a veces como tétrada (del griego tetras, "un grupo de cuatro") o
“vielbein” (del alemán "muchas patas"). En diferentes números de dimensiones, a veces se
convierte en vierbein (cuatro), dreibein (tres), zweibein (dos), etc. (Al igual que no podemos
encontrar, en general, cartas (“charts”) de coordenadas que cubran toda la variedad, a
menudo no podremos encontrar un único conjunto de campos vectoriales de base suave que
estén definido en todas partes. Como siempre, podemos superar este problema trabajando
con diferentes parches y asegurándonos de que las cosas se comportan bien en los
solapamientos).
El punto de tener una base es que cualquier vector pueda ser expresado como una
combinación lineal de vectores base. En concreto, podemos expresar nuestros antiguos
vectores base 𝑒̂ ( ) = 𝜕 en términos de los nuevos:
𝑒̂ ( ) = 𝑒 𝑒̂ ( ) . (3.115)
Los componentes 𝑒 forman una matriz n × n invertible. (De acuerdo con nuestra práctica
habitual de difuminar la distinción entre los objetos y sus componentes, nos referiremos a
𝑒 como la tétrada o vielbein, y a menudo en plural como "vielbeins"). Denotamos su inversa
cambiando los índices para obtener 𝑒 , que satisface
𝑒 𝑒 =𝛿 ,𝑒 𝑒 =𝛿 . (3.116)
Estos sirven como los componentes de los vectores 𝑒̂ ( ) en la base coordenada:
𝑒̂ ( ) = 𝑒 𝑒̂ ( ) . (3.117)
En función de los vielbeins inversos, (3.114) se convierte en
𝑔 𝑒 𝑒 =𝜂 , (3.118)
o de manera equivalente
𝑔 =𝑒 𝑒 𝜂 . (3.119)
3 CURVATURA 76
Esta última ecuación lleva a veces a decir que los vielbeins son la "raíz cuadrada" de la
métrica.
Del mismo modo, podemos establecer una base ortonormal de uno-formas en 𝑇 ∗, que
denotamos 𝜃 ( ) . Se pueden elegir para que sean compatibles con los vectores base, en el
sentido de que
𝜃( )
𝑒̂ ( ) =𝛿 . (3.120)
Una consecuencia inmediata de esto es que las formas únicas ortonormales están
relacionadas con sus primos basados en coordenadas 𝜃 ( ) = d𝑥 por
𝜃( )
= 𝑒 𝜃( )
(3.121)
y
𝜃( )
= 𝑒 𝜃 ( ). (3.122)
Así, los vielbeins cumplen una doble función como componentes de los vectores de la base
de coordenadas en términos de los vectores de la base ortonormal, y como componentes de
los uno-formas de la base ortonormal en términos de los uno-formas de la base de
coordenadas; mientras que los vielbeins inversos sirven como componentes de los vectores
de la base ortonormal en términos de la base de coordenadas, y como componentes de los
uno-formas de la base de coordenadas en términos de la base ortonormal.
Cualquier otro vector puede expresarse en términos de sus componentes en la base
ortonormal. Si un vector V se escribe en la base de coordenadas como 𝑉 𝑒̂ ( ) y en la base
ortonormal como 𝑉 𝑒̂ ( ), los conjuntos de componentes estarán relacionados por
𝑉 = 𝑒 𝑉 ( ). (3.123)
Así pues, los vielbeins nos permiten "pasar de los índices latinos a los griegos y viceversa".
La buena propiedad de los tensores, que normalmente sólo hay una cosa sensata que hacer
basada en la colocación de los índices, es de gran ayuda aquí. Podemos seguir refiriéndonos
a los tensores multi-índice en cualquier base, o incluso en función de componentes mixtos:
𝑉 =𝑒 𝑉 =𝑒 𝑉 =𝑒 𝑒 𝑉 . (3.124)
Volviendo a (3.118), vemos que los componentes del tensor métrico en la base ortonormal
son sólo los de la métrica plana, 𝜂 . (Por esta razón los índices griegos se denominan a
veces "curvos" y los latinos "planos"). De hecho podemos llegar a subir y bajar los índices
latinos utilizando la métrica plana y su inversa 𝜂 . Pueden comprobar por si mismos que
todo funciona bien (por ejemplo, que la bajada de un índice con la métrica conmuta con el
cambio de bases ortonormales a coordenadas).
Al introducir un nuevo conjunto de vectores base y uno- formas, necesitamos volver a
nuestro tema favorito de las propiedades de transformación. En todo momento hemos
tenido cuidado de subrayar que la ley de transformación tensorial era sólo un resultado
indirecto de una transformación de coordenadas; la cuestión real era un cambio de base.
Ahora que tenemos bases no coordenadas, estas bases pueden cambiarse
independientemente de las coordenadas. La única restricción es que se mantenga la
propiedad de ortonormalidad (3.114). Pero sabemos qué tipo de transformaciones
preservan la métrica plana: en una métrica de firma euclidiana son transformaciones
ortogonales, mientras que en una métrica de firma lorentziana son transformaciones de
Lorentz. Por lo tanto, consideramos transformaciones de base de la forma
𝑒̂ ( ) ⟶ 𝑒̂ =Λ (𝑥)𝑒̂ ( ) , (3.125)
donde las matrices Λ (𝑥) representan transformaciones dependientes de la posición que
(en cada punto) dejan inalterada la forma canónica de la métrica:
3 CURVATURA 77
Λ Δ 𝜂 =𝜂 . (3.126)
De hecho, estas matrices corresponden a lo que en el espacio plano llamamos las
transformaciones inversas de Lorentz (que operan sobre los vectores base); como antes
tenemos también las transformaciones ordinarias de Lorentz Λ , que transforman las bases
uno-forma base. En cuanto a los componentes, como antes transformamos los índices
superiores con Λ y los inferiores con Λ .
Así que ahora tenemos la libertad de realizar una transformación de Lorentz (o una rotación
euclidiana ordinaria, dependiendo de la firma) en cada punto del espacio. Estas
transformaciones se llaman, por tanto, transformaciones locales de Lorentz, o LLT’s.
Seguimos teniendo la libertad habitual para realizar cambios en las coordenadas, que se
denominan transformaciones generales de coordenadas, o TGC’s. Ambas pueden ocurrir al
mismo tiempo, lo que da lugar a una ley de transformación tensorial mixta:
𝜇′ 𝜈
𝜕𝑥 𝜕𝑥
𝑇 =Λ 𝜇 Λ 𝜈′
𝑇 . (3.127)
𝜕𝑥 𝜕𝑥
Trasladar lo que sabemos de los tensores a bases no coordenadas es, en su mayor parte, una
mera cuestión de pegar vielbeins en los lugares adecuados. La excepción crucial viene
cuando empezamos a diferenciar cosas. En nuestro formalismo ordinario, la derivada
covariante de un tensor viene dada por su derivada parcial más los términos de corrección,
uno por cada índice, que implican el tensor y los coeficientes de conexión. El mismo
procedimiento seguirá siendo válido para la base no coordenada, pero sustituimos los
coeficientes de conexión ordinarios Γ por la conexión de espín, denotada 𝜔 . Cada
índice latino obtiene un factor de la conexión de espín de la forma habitual:
, (3.128)
(El nombre de "conexión de espín" proviene del hecho de que ésta puede utilizarse para
tomar derivadas covariantes de los espinores, lo que en realidad es imposible utilizando los
coeficientes de conexión convencionales). En presencia de índices mixtos latinos y griegos
obtenemos términos de ambos tipos.
La exigencia habitual de que un tensor sea independiente de la forma en que se escribe nos
permite derivar una relación entre la conexión de espín, los vielbeins y los Γ ′𝑠.
Consideremos la derivada covariante de un vector X, primero en una base puramente de
coordenadas:
▽X = ▽ 𝑋 d𝑥 ⊗ ∂
= ∂ 𝑋 +Γ 𝑋 d𝑥 ⊗ ∂ . (3.129)
Ahora encontramos el mismo objeto en una base mixta, y lo convertimos a la base de
coordenadas:
▽X = ▽ 𝑋 d𝑥 ⊗ 𝑒̂( )
= ∂ 𝑋 +𝜔 𝑋 d𝑥 ⊗ 𝑒̂( )
= ∂ (𝑒 𝑋 ) + 𝜔 𝑋 d𝑥 ⊗ (𝑒 ∂ )
=𝑒 𝑒 ∂ 𝑋 + 𝑋 ∂ 𝑒 +𝜔 𝑒 𝑋 d𝑥 ⊗ ∂
= ∂ 𝑋 +𝑒 ∂ 𝑒 𝑋 +𝑒 𝑒 𝜔 𝑒 𝑋 d𝑥 ⊗ ∂ . (3.130)
La comparación con (3.129) revela
(3.131)
o, de forma equivalente
3 CURVATURA 78
(3.132)
Un poco de manipulación nos permite escribir esta relación como la desaparición de la
derivada covariante del vielbein,
(3.133)
que a veces se conoce como el "postulado de la tétrada". Obsérvese que esto es siempre
cierto; no necesitamos suponer nada sobre la conexión para deducirlo. En concreto, no
necesitamos suponer que la conexión sea compatible con la métrica o que esté libre de
torsión.
Dado que la conexión puede considerarse como algo que necesitamos para fijar la ley de
transformación de la derivada covariante, no debería sorprendernos que la conexión de
espín no obedezca por sí misma la ley de transformación tensorial. En realidad, bajo GCT's
el índice griego inferior sí se transforma de manera correcta, como una forma única. Pero
bajo la LLT la conexión de espín se transforma de manera no homogénea, como
(3.134)
Os animamos a que comprobéis por vosotros mismos que esto da lugar a la transformación
adecuada de la derivada covariante.
Hasta ahora no hemos hecho más que un formalismo vacío, traduciendo cosas que ya
sabíamos a una nueva notación. Pero el trabajo que estamos haciendo nos aporta dos cosas.
La primera, a la que ya hemos aludido, es la capacidad de describir campos espinores en el
espaciotiempo y tomar sus derivadas covariantes; no exploraremos esto más a fondo ahora.
La segunda es un cambio de punto de vista, en el que podemos pensar en varios tensores
como formas diferenciales tensoriales. Por ejemplo, un objeto como 𝑋 , en el que
pensamos como un tensor (1,1) escrito con índices mixtos, también puede pensarse como
una "forma única vectorial". Tiene un índice griego inferior, por lo que pensamos en él como
una forma única, pero para cada valor del índice inferior es un vector. Del mismo modo, un
tensor 𝐴 , antisimétrico en µ y ν, puede considerarse un "dos-forma (1,1) con valor de
tensor". Así, cualquier tensor con cierto número de índices griegos inferiores antisimétricos
y cierto número de índices latinos puede considerarse como una forma diferencial, pero
tomando valores en el haz tensorial. (Las formas diferenciales ordinarias son simplemente
formas con valor escalar). La utilidad de este punto de vista surge cuando consideramos las
derivadas exteriores. Si queremos pensar en una forma única de valor vectorial, nos vemos
tentados a tomar su derivada exterior:
(3.135)
Es fácil comprobar que este objeto se transforma como una dos-forma (es decir, según la ley
de transformación para los tensores (0,2)) bajo GCT's, pero no como un vector bajo LLT's
(las transformaciones de Lorentz dependen de la posición, lo que introduce un término no
homogéneo en la ley de transformación). Pero podemos arreglar esto mediante el uso
juicioso de la conexión de espín, que puede considerarse como una forma única. (No un uno-
forma con valor tensorial, debido a la ley de transformación no tensorial (3.134)). Así, el
objeto
(𝑑𝑋) + (𝜔 ∧ 𝑋) =𝜕 𝑋 −𝜕 𝑋 +𝜔 𝑋 −𝜔 𝑋 , (3.136)
tal como pueden comprobar en casa, se transforma como un tensor propio.
Una aplicación inmediata de este formalismo es en las expresiones de la torsión y la
curvatura, los dos tensores que caracterizan cualquier conexión dada. La torsión, con dos
índices inferiores antisimétricos, puede considerarse como un dos-forma de valor vectorial
𝑇 . La curvatura, que siempre es antisimétrica en sus dos últimos índices, es un dos-forma
(1,1) con valor de tensor,𝑅 . Utilizando nuestra libertad para suprimir los índices en las
3 CURVATURA 79
formas diferenciales, podemos escribir las relaciones de definición de estos dos tensores
como
T a = dea + ωab ∧ eb (3.137)
y
Rab = dωab + ωac ∧ ωcb . (3.138)
Son las llamadas ecuaciones estructurales de Maurer-Cartan. Son equivalentes a las
definiciones habituales; vamos a hacer el ejercicio de mostrar esto para la torsión, y pueden
comprobar la curvatura por sí mismos. Tenemos
𝑇 = 𝑒 𝑇
= 𝑒 𝜕 𝑒 −𝜕 𝑒 +𝜔 𝑒 −𝜔 𝑒
= Γ − Γ , (3.139)
que es justo la definición original que dimos. Aquí hemos utilizado (3.131), la expresión para
los Γ en términos de los vielbeins y la conexión de espín. También podemos expresar las
identidades que obedecen estos tensores como
dT a + ωab ∧ T b = Rab ∧ eb (3.140)
y
dRab + ωac ∧ Rcb − Rac ∧ ωcb = 0 . (3.141)
La primera de esas identidades es la generalización de 𝑅 [ ] = 0, mientras que la segunda
es la identidad de Bianchi ▽[ ] 𝑅 [ ] = 0. (A veces ambas ecuaciones se llaman identidades
de Bianchi).
La forma de estas expresiones conduce a una tentación casi irresistible de definir una
"derivada covariante-exterior", que actúa sobre una forma valorada por el tensor tomando
la derivada exterior ordinaria y añadiendo después los términos apropiados con la conexión
de espín, uno por cada índice latino. Aunque no lo haremos aquí, está bien ceder a esta
tentación y, de hecho, el lado derecho de (3.137) y los lados izquierdos de (3.140) y (3.141)
pueden considerarse como tales derivadas covariantes-exteriores. Pero tengamos cuidado,
ya que (3.138) no puede; no se puede tomar ningún tipo de derivada covariante de la
conexión de espín, ya que no es un tensor.
Hasta ahora nuestras ecuaciones han sido ciertas para conexiones generales; veamos qué
obtenemos para la conexión de Christoffel. El requisito de ausencia de torsión es sólo que
(3.137) desaparezca; esto no conduce inmediatamente a ninguna afirmación sencilla sobre
los coeficientes de la conexión de espín. La compatibilidad métrica se expresa como la
desaparición de la derivada covariante de la métrica: ▽ = 0. Podemos ver a qué conduce
esto cuando expresamos la métrica en la base ortonormal, donde sus componentes son
simplemente 𝜂 :
▽ 𝜂 =𝜕 𝜂 −𝜔 𝜂 − 𝜔 𝜂
= −𝜔 − 𝜔 . (3.142)
Y haciendo esto igual a cero implica
𝜔 = −𝜔 . (3.143)
Así, la compatibilidad métrica es equivalente a la antisimetría de la conexión de espín en sus
índices latinos. (Como antes, tal afirmación sólo es sensata si ambos índices están arriba o
abajo). Estas dos condiciones juntas nos permiten expresar la conexión de espín en términos
3 CURVATURA 80
de los vielbeins. Existe una fórmula explícita que expresa esta solución, pero en la práctica
es más fácil resolver simplemente la condición libre de torsión
ωab ∧ eb = −dea , (3.144)
utilizando la asimetría de la conexión de espín, para encontrar los componentes
individuales.
Ahora tenemos los medios para comparar el formalismo de las conexiones y la curvatura en
la geometría riemanniana con el de las teorías gauge en la física de partículas. (Esto es un
inciso, que esperamos sea comprensible para todos, pero no es un ingrediente esencial del
curso). En ambas situaciones, los campos de interés viven en espacios vectoriales que se
asignan a cada punto del espaciotiempo. En la geometría riemanniana los espacios
vectoriales incluyen el espacio tangente, el espacio cotangente y los espacios tensoriales
superiores construidos a partir de ellos. En las teorías gauge, en cambio, se trata de espacios
vectoriales "internos". La distinción es que el espacio tangente y sus parientes están
íntimamente asociados con la propia variedad, y se definieron de forma natural una vez que
se estableció la variedad; un espacio vectorial interno puede ser de cualquier dimensión que
queramos, y tiene que definirse como una adición independiente a la variedad. En la jerga
matemática, la unión de la variedad base con los espacios vectoriales internos (definidos en
cada punto) es un haz de fibras, y cada copia del espacio vectorial se llama "fibra" (en
perfecta consonancia con nuestra definición del haz tangente).
Además de la variedad base (para nosotros, el espaciotiempo) y las fibras, el otro
ingrediente importante en la definición de un haz de fibras es el "grupo estructural", un
grupo de Lie que actúa sobre las fibras para describir cómo se cosen entre sí en parches de
coordenadas superpuestas. Sin entrar en detalles, el grupo de estructura para el haz
tangente en un espaciotiempo de cuatro dimensiones es generalmente GL(4,R), el grupo de
matrices reales invertibles de 4 × 4; si tenemos una métrica lorentziana, esto puede
reducirse al grupo de Lorentz SO(3,1). Ahora imaginemos que introducimos un espacio
vectorial tridimensional interno, y cosemos las fibras con rotaciones ordinarias; el grupo
estructural de este nuevo haz es entonces SO(3). Un campo que vive en este haz podría
denotarse 𝜙 (𝑥 ) donde A va de uno a tres; es un tri-vector (uno interno, no relacionado
con el espaciotiempo) para cada punto de la variedad. Tenemos libertad para elegir la base
en las fibras de la forma que queramos; esto significa que las "cantidades físicas" deben
quedar invariantes bajo transformaciones locales de SO(3) como
, (3.145)
donde 𝑂 (𝑥 ) es una matriz en SO(3) que depende del espaciotiempo. Tales
transformaciones se conocen como transformaciones gauge1, y las teorías invariantes bajo
ellas se llaman "teorías gauge".
En la mayoría de los casos no es difícil organizar las cosas de forma que las magnitudes
físicas sean invariantes bajo las transformaciones gauge. La única dificultad surge cuando
consideramos las derivadas parciales, ∂ 𝜙 . Como la matriz 𝑂 (𝑥 ) depende del
espaciotiempo, contribuirá con un término no deseado a la transformación de la derivada
parcial. A estas alturas deberían ser capaces de adivinar la solución: introducir una conexión
para corregir el término no homogéneo en la ley de transformación. Por lo tanto, definimos
una conexión en el haz de fibras como un objeto𝐴 , con dos "índices de grupo" y un índice
de espaciotiempo. Bajo GCT's se transforma como un uno-forma, mientras que bajo
transformaciones gauge se transforma como
. (3.146)
1 Dejamos el término “transformaciones gauge”, que a veces suele traducirse como “transformaciones de calibre”.
3 CURVATURA 81
(Cuidado: nuestras convenciones son tan drásticamente diferentes de las de la literatura de

física de partículas que ni siquiera intentaré aclararlas). Con esta ley de transformación, la
"derivada covariante gauge"
(3.147)
se transforma "tensorialmente" bajo transformaciones gauge, como se puede comprobar.
(En el electromagnetismo ordinario la conexión es sólo el potencial vectorial convencional.
No son necesarios índices , porque el grupo estructural U(1) es unidimensional).
Está claro que esta noción de conexión en un haz de fibras interno está muy relacionada con
la conexión en el haz tangente, especialmente en la imagen del marco ortonormal que hemos
estado discutiendo. La ley de transformación (3.146), por ejemplo, es exactamente la misma
que la ley de transformación (3.134) para la conexión de espín. También podemos definir
un tensor de curvatura o de "intensidad de campo" que es un dos-forma,
F AB = dAAB + AAC ∧ ACB , (3.148)
en correspondencia exacta con (3.138). Podemos transportar cosas en paralelo a lo largo de
trayectorias, y existe una construcción análoga a la del propagador paralelo; la traza de la
matriz obtenida al transportar en paralelo un vector alrededor de una curva cerrada se
llama "bucle de Wilson".
Podríamos seguir desarrollando la relación entre el haz tangente y los haces vectoriales
internos, pero el tiempo es corto y tenemos otros peces que freír. Terminemos, en cambio,
destacando la importante diferencia entre ambas construcciones. La diferencia proviene del
hecho de que el haz tangente está estrechamente relacionado con la variedad base, mientras
que otros haces de fibras se añaden a posteriori. Tiene sentido decir que un vector en el
espacio tangente en p "apunta a lo largo de un camino" a través de p; pero esto no tiene
sentido para un haz vectorial interno. Por tanto, no existe un análogo de la base de
coordenadas para un espacio interno: las derivadas parciales a lo largo de las curvas no
tienen nada que ver con los vectores internos. Se deduce a su vez que no hay nada parecido
a los vielbeins, que relacionan las bases ortonormales con las bases de coordenadas. El
tensor de torsión, en particular, sólo se define para una conexión en el haz tangente, no para
ninguna conexión de la teoría gauge; puede considerarse como la derivada exterior
covariante del “vielbein”, y no se dispone de una construcción semejante en un haz interno.
Hay que apreciar la relación entre los diferentes usos de la noción de conexión, sin dejarse
llevar.
4 GRAVITACIÓN 82
4. GRAVITACIÓN
Una vez pagada nuestra cuota matemática, estamos preparados para examinar la física de
la gravitación descrita por la relatividad general. Este tema se divide naturalmente en dos
partes: cómo la curvatura del espaciotiempo actúa sobre la materia para manifestarse como
"gravedad", y cómo la energía y el momento influyen en el espaciotiempo para crear la
curvatura. En cualquiera de los dos casos, sería legítimo empezar por el principio,
enunciando sin rodeos las leyes que rigen la física en el espaciotiempo curvo y elaborando
sus consecuencias. En lugar de ello, intentaremos ser un poco más motivadores,
comenzando con principios físicos básicos e intentando argumentar que éstos conducen de
forma natural a una teoría física casi única.
El más básico de estos principios físicos es el Principio de Equivalencia, que se presenta en
diversas formas. La forma más antigua data de Galileo y Newton, y se conoce como el
Principio de Equivalencia Débil, o PED (“WEP”). El PED establece que la "masa inercial" y
la "masa gravitatoria" de cualquier objeto son iguales. Para ver qué significa esto, pensemos
en la Segunda Ley de Newton. Ésta relaciona la fuerza ejercida sobre un objeto con la
aceleración que experimenta, haciéndolas proporcionales entre sí, siendo la constante de
proporcionalidad la masa inercial 𝑚 :
f=𝑚 a. (4.1)
La masa inercial tiene claramente un carácter universal, relacionado con la resistencia que
se siente al intentar empujar el objeto; es la misma constante sin importar el tipo de fuerza
que se ejerza. También tenemos la ley de la gravitación, que establece que la fuerza
gravitatoria ejercida sobre un objeto es proporcional al gradiente de un campo escalar Φ,
conocido como potencial gravitatorio. La constante de proporcionalidad en este caso se
denomina masa gravitatoria 𝑚 :
𝐟 = −𝑚 ▽Φ . (4.2)
A primera vista, 𝑚 tiene un carácter muy diferente de 𝑚 ; es una cantidad específica de la
fuerza gravitatoria. Si se quiere, es la "carga gravitatoria" del cuerpo. Sin embargo, Galileo
demostró hace tiempo (apócrifamente, dejando caer pesos desde la Torre de Pisa, en
realidad haciendo rodar bolas por planos inclinados) que la respuesta de la materia a la
gravitación era universal: todo objeto cae a la misma velocidad en un campo gravitatorio,
independientemente de la composición del objeto. En la mecánica newtoniana esto se
traduce en el PME, que es simplemente
𝑚 =𝑚 (4.3)
para cualquier objeto. Una consecuencia inmediata es que el comportamiento de las
partículas de prueba que caen libremente es universal, independientemente de su masa (o
de cualquier otra cualidad que puedan tener); de hecho tenemos
a = − ▽Φ . (4.4)
La universalidad de la gravitación, tal y como la implica el PED, puede enunciarse de otra
forma más popular. Imaginemos que consideramos a un físico en una caja hermética,
incapaz de observar el mundo exterior, que está haciendo experimentos que implican el
movimiento de partículas de prueba, por ejemplo para medir el campo gravitatorio local.
Por supuesto, obtendría respuestas diferentes si la caja estuviera en la Luna o en Júpiter que
si estuviera en la Tierra. Pero las respuestas también serían diferentes si la caja se acelerara
a una velocidad constante; esto cambiaría la aceleración de las partículas en caída libre con
respecto a la caja. El PED implica que no hay forma de separar los efectos de un campo
gravitatorio de los de estar en un marco de aceleración uniforme, simplemente observando
el comportamiento de las partículas en caída libre. Esto se deduce de la universalidad de la
gravitación; sería posible distinguir entre una aceleración uniforme y un campo
4 GRAVITACIÓN 83
electromagnético, observando el comportamiento de partículas con cargas diferentes. Pero

con la gravedad es imposible, ya que la "carga" es necesariamente proporcional a la masa
(inercial).
Para ser cuidadosos, deberíamos limitar nuestras afirmaciones sobre la imposibilidad de
distinguir la gravedad de la aceleración uniforme restringiendo nuestra atención a
"regiones suficientemente pequeñas del espaciotiempo". Si la caja sellada fuera lo
suficientemente grande, el campo gravitatorio cambiaría de un lugar a otro de forma
observable, mientras que el efecto de la aceleración es siempre en la misma dirección. En
un cohete o un ascensor, las partículas siempre caen en línea recta:
Sin embargo, en una caja muy grande en un campo gravitatorio, las partículas se moverán
hacia el centro de la Tierra (por ejemplo), lo que podría ser una dirección diferente en
distintas regiones:
Tierra
Por lo tanto, el PED (Principio de Equivalencia Débil) puede enunciarse como "las leyes de
las partículas en caída libre son las mismas en un campo gravitatorio y en un marco
uniformemente acelerado, en regiones suficientemente pequeñas del espaciotiempo". En
regiones más grandes del espaciotiempo habrá heterogeneidades en el campo gravitatorio,
que darán lugar a fuerzas de marea que pueden ser detectadas.
Tras la llegada de la relatividad especial, el concepto de masa perdió parte de su
singularidad, ya que quedó claro que la masa era simplemente una manifestación de la
4 GRAVITACIÓN 84
energía y el momento (E = m𝑐 y todo eso). Por lo tanto, era natural que Einstein pensara en
generalizar el PED a algo más inclusivo. Su idea era simplemente que no debería haber
forma alguna de que el físico en la caja distinguiera entre una aceleración uniforme y un
campo gravitatorio externo, sin importar los experimentos que hiciera (no sólo dejando caer
partículas de prueba). Esta razonable extrapolación se convirtió en lo que ahora se conoce
como el Principio de Equivalencia de Einstein, o PEE: "En regiones suficientemente
pequeñas del espaciotiempo, las leyes de la física se reducen a las de la relatividad especial;
es imposible detectar la existencia de un campo gravitatorio".
De hecho, es difícil imaginar teorías que respeten el PME pero violen el PEE. Consideremos
un átomo de hidrógeno, un estado enlazado a un protón y un electrón. Su masa es, en
realidad, menor que la suma de las masas del protón y del electrón consideradas
individualmente, porque hay una energía de enlace negativa: hay que poner energía en el
átomo para separar el protón y el electrón. Según el PED, la masa gravitatoria del átomo de
hidrógeno es, por tanto, menor que la suma de las masas de sus constituyentes; el campo
gravitatorio se acopla al electromagnetismo (que mantiene unido el átomo) exactamente de
la manera correcta para que la masa gravitatoria salga bien. Esto significa que no sólo la
gravedad debe acoplarse a la masa en reposo de forma universal, sino también a todas las
formas de energía y de momento, lo que es prácticamente la pretensión de la EEP. Sin
embargo, es posible presentar contraejemplos; por ejemplo, podríamos imaginar una teoría
de la gravedad en la que las partículas que caen libremente comenzaran a girar mientras se
mueven a través de un campo gravitatorio. Entonces podrían caer por las mismas
trayectorias que lo harían en un marco acelerado (satisfaciendo así el PED), pero se podría
detectar sin embargo la existencia del campo gravitatorio (violando el PED). Estas teorías
parecen artificiosas, pero no hay ninguna ley de la naturaleza que las prohíba.
A veces se distingue entre "leyes físicas gravitacionales" y "leyes físicas no gravitacionales",
y se define que la PEE sólo se aplica a estas últimas. Entonces se define el "Principio de
Equivalencia Fuerte" (PEF) para incluir todas las leyes de la física, gravitacionales y de otro
tipo. No considero que esta distinción sea especialmente útil y no voy a insistir en ella. Para
nuestro propósito, el PEF (o simplemente "el principio de equivalencia") incluye todas las
leyes de la física.
Es el PEE la que implica (o al menos sugiere) que debemos atribuir la acción de la gravedad
a la curvatura del espaciotiempo. Recordemos que en la relatividad especial los marcos de
referencia inerciales desempeñan un papel destacado: si bien no era posible identificar
algún marco de referencia como exclusivamente "en reposo", sí era posible identificar una
familia de marcos de referencia "no acelerados" (inerciales). La aceleración de una partícula
cargada en un campo electromagnético se definía, por tanto, de forma única con respecto a
estos marcos. El PEE, en cambio, implica que la gravedad es ineludible: no existe un "objeto
gravitatoriamente neutro" con respecto al cual podamos medir la aceleración debida a la
gravedad. De ello se deduce que "la aceleración debida a la gravedad" no es algo que pueda
definirse de forma fiable y, por lo tanto, es poco útil.
En su lugar, tiene más sentido definir "no acelerado" como "caída libre", y eso es lo que
haremos. Este punto de vista es el origen de la idea de que la gravedad no es una "fuerza" -
una fuerza es algo que conduce a la aceleración, y nuestra definición de aceleración cero es
"moverse libremente en presencia de cualquier campo gravitatorio que se encuentre
alrededor".
Este paso aparentemente inocuo tiene profundas implicaciones para la naturaleza del
espaciotiempo. En la RE (“Relatividad Especial”) (“RS: Special Relativity”), teníamos un
procedimiento para empezar en algún punto y construir un marco de inercia que se extendía
a lo largo del espaciotiempo, uniendo varillas rígidas y fijando relojes en ellas. Pero, de
nuevo, debido a la heterogeneidad del campo gravitatorio, esto ya no es posible. Si
empezamos en un estado de caída libre y construimos una gran estructura de varillas
4 GRAVITACIÓN 85
rígidas, a cierta distancia los objetos en caída libre parecerán "acelerados" con respecto a
este marco de referencia, como se muestra en la figura a continuación.
La solución es mantener la noción de marcos de inercia, pero descartar la esperanza de que

puedan extenderse de forma única por todo el espacio y el tiempo. En su lugar, podemos
definir los marcos de inercia locales, aquellos que siguen el movimiento de las partículas
que caen libremente en regiones suficientemente pequeñas del espaciotiempo. (Cada vez
que decimos "regiones suficientemente pequeñas", los puristas deben imaginar un
procedimiento de limitación en el que llevamos el volumen del espaciotiempo apropiado a
cero). Esto es lo mejor que podemos hacer, pero nos obliga a renunciar a muchas cosas. Por
ejemplo, ya no podemos hablar con seguridad de la velocidad relativa de los objetos lejanos,
ya que los marcos de referencia inerciales apropiados para esos objetos son independientes
de los apropiados para nosotros.
Hasta ahora hemos hablado estrictamente de física, sin llegar a la conclusión de que el
espaciotiempo debe describirse como una variedad curva. Sin embargo, debería estar claro
por qué es apropiada tal conclusión. La idea de que las leyes de la relatividad especial deben
cumplirse en regiones suficientemente pequeñas del espaciotiempo y, además, que en
dichas regiones pueden establecerse marcos de inercia locales, corresponde a nuestra
capacidad de construir coordenadas normales de Riemann en un punto cualquiera de las
variedades, coordenadas en las que la métrica adopta su forma canónica y los símbolos de
Christoffel desaparecen. La imposibilidad de comparar velocidades (vectores) en regiones
muy separadas corresponde a la dependencia de la trayectoria del transporte paralelo en
las variedades curvas. Estas consideraciones fueron suficientes para que Einstein pensara
que la gravedad era una manifestación de la curvatura del espaciotiempo. Pero, de hecho,
podemos ser aún más persuasivos. (Es imposible "demostrar" que la gravedad debe ser
considerada como una curvatura del espacio-tiempo, ya que las hipótesis científicas sólo
pueden ser falsificadas, nunca verificadas [y ni siquiera realmente falsificadas, como ha
argumentado famosamente Thomas Kuhn]. Pero no hay nada que objetar a los argumentos
de verosimilitud convincentes, si conducen a teorías empíricamente exitosas).
Consideremos una de las célebres predicciones del PEE, el corrimiento al rojo
(desplazamiento al rojo: “redshift”) gravitacional. Consideremos dos cajas, separadas por
una distancia z, que se mueven (lejos de cualquier materia, por lo que suponemos que en
ausencia de cualquier campo gravitatorio) con una cierta aceleración constante a. En el
momento 𝑡 la caja que va detrás emite un fotón de longitud de onda 𝜆 .
4 GRAVITACIÓN 86
z λ0
t = t0 t = t0+ z / c
Las cajas permanecen a una distancia constante, por lo que el fotón llega a la caja principal
después de un tiempo ∆t = z/c en el marco de referencia de las cajas. En este tiempo las cajas
habrán adquirido una velocidad adicional △v = a△t = az/c. Por lo tanto, el fotón que llega a
la caja principal estará desplazado al rojo por el efecto Doppler convencional en una
cantidad
. (4.5)
(Suponemos que △v /c es pequeño, por lo que sólo trabajamos en el primer orden). Según
la EEP, lo mismo debería ocurrir en un campo gravitatorio uniforme. Así que imaginamos
una torre de altura z sentada en la superficie de un planeta, con 𝑎 la fuerza del campo
gravitatorio (lo que Newton habría llamado la "aceleración debida a la gravedad").
λ0
Se supone que esta situación es indistinguible de la anterior, desde el punto de vista de un

observador en una caja en la parte superior de la torre (capaz de detectar el fotón emitido,
pero sin poder mirar fuera de la caja). Por lo tanto, un fotón emitido desde el suelo con
longitud de onda Se supone que esta situación es indistinguible de la anterior, desde el
punto de vista de un observador en una caja en la parte superior de la torre (capaz de
detectar el fotón emitido, pero sin poder mirar fuera de la caja). Por lo tanto, un fotón
emitido desde el suelo con longitud de onda λ0 debería estar desplazado al rojo en una
cantidad debería estar desplazado al rojo en una cantidad
△
= . (4.6)
4 GRAVITACIÓN 87
Este es el famoso corrimiento gravitacional. Nótese que es una consecuencia directa del EEP,
no de los detalles de la relatividad general. Se ha verificado experimentalmente, primero
por Pound y Rebka en 1960. Utilizaron el efecto Mössbauer para medir el cambio de
frecuencia en los rayos γ a medida que viajaban desde el suelo hasta la parte superior de los
laboratorios Jefferson en Harvard.
La fórmula del corrimiento al rojo se expresa más a menudo en términos del potencial
newtoniano Φ, donde 𝑎 = ▽Φ. (El signo está cambiado con respecto a la convención
habitual, ya que estamos pensando en 𝑎 como la aceleración del sistema de referencia, no
de una partícula con respecto a este sistema de referencia). Un gradiente no constante de Φ
es como una aceleración variable en el tiempo, y la velocidad neta equivalente viene dada
por la integración sobre el tiempo entre la emisión y la absorción del fotón. Entonces
tenemos
△
= ∫▽ Φdt
= ∫ 𝜕 Φ𝑑𝑧
=△Φ, (4-7)
donde ∆Φ es el cambio total del potencial gravitatorio, y una vez más hemos fijado c = 1.
Esta sencilla fórmula para el desplazamiento gravitatorio al rojo sigue siendo cierta en
circunstancias más generales. Por supuesto, al utilizar el potencial newtoniano, estamos
restringiendo nuestro dominio de validez a los campos gravitatorios débiles, pero eso suele
estar completamente justificado para los efectos observables.
El redshift gravitacional nos lleva a otro argumento para considerar el espaciotiempo como
curvo. Consideremos el mismo montaje experimental que teníamos antes, ahora
representado en el diagrama del espaciotiempo de la figura siguiente.
El físico en el suelo emite un haz de luz con longitud de onda 𝜆 desde una altura 𝑧 , que
viaja hasta la cima de la torre a la altura 𝑧 . El tiempo que transcurre entre el inicio de
cualquier longitud de onda de la luz y el final de esa misma longitud de onda es △𝑡 = 𝜆 /c,
y el mismo intervalo de tiempo para la absorción es △𝑡 = 𝜆 /c. Como imaginamos que el
campo gravitatorio no varía con el tiempo, las trayectorias a través del espaciotiempo
seguidas por el borde de entrada y de salida de la onda simple deben ser precisamente
congruentes. (Se representan mediante algunas trayectorias curvas genéricas, ya que no
pretendemos saber cuáles serán las trayectorias). La geometría simple nos dice que los
tiempos △𝑡 y △𝑡 deben ser iguales. Pero, por supuesto, no lo son; el corrimiento
gravitatorio implica que △𝑡 > △𝑡 . (Lo que podemos interpretar como que "el reloj de la
torre parece ir más rápido"). El fallo es de
t
∆t 1
∆t 0
z
z0 z1
4 GRAVITACIÓN 88
"geometría simple"; una mejor descripción de lo que ocurre es imaginar que el

espaciotiempo es curvo.
Todo esto debería constituir una motivación más que suficiente para nuestra afirmación de
que, en presencia de la gravedad, el espaciotiempo debe considerarse como una variedad
curva. Tomemos esto como cierto y comencemos a establecer cómo funciona la física en un
espaciotiempo curvo. El principio de equivalencia nos dice que las leyes de la física, en
regiones suficientemente pequeñas del espaciotiempo, se parecen a las de la relatividad
especial. Interpretamos esto en el lenguaje de las variedades como la afirmación de que
estas leyes, cuando se escriben en coordenadas normales riemannianas 𝑥 basadas en algún
punto p, se describen mediante ecuaciones que adoptan la misma forma que tendrían en el
espacio plano. El ejemplo más sencillo es el de las partículas en caída libre (no acelerada).
En el espacio plano dichas partículas se mueven en línea recta; en las ecuaciones, esto se
expresa como la desaparición de la segunda derivada de la trayectoria parametrizada 𝑥
(λ):
=0. (4.8)
Según el EEP, exactamente esta ecuación debería cumplirse en el espacio curvo, siempre
que las coordenadas 𝑥 sean RNC’s. ¿Qué pasa con algún otro sistema de coordenadas? Tal
como está, (4.8) no es una ecuación entre tensores. Sin embargo, existe una única ecuación
tensorial que se reduce a (4.8) cuando los símbolos de Christoffel desaparecen; es
. (4.9)
Por supuesto, esta es simplemente la ecuación geodésica. En la relatividad general, por
tanto, las partículas libres se mueven a lo largo de las geodésicas; ya lo hemos mencionado
antes, pero ahora sabemos por qué es cierto.
En cuanto a las partículas libres, hemos argumentado que la curvatura del espaciotiempo es
necesaria para describir la gravedad; aún no hemos demostrado que sea suficiente. Para
ello, podemos mostrar cómo encajan los resultados habituales de la gravedad newtoniana.
Definimos el "límite newtoniano" mediante tres requisitos: las partículas se mueven
lentamente (con respecto a la velocidad de la luz), el campo gravitatorio es débil (puede
considerarse una perturbación del espacio plano), y el campo es también estático (no
cambia con el tiempo). Veamos lo que estos supuestos hacen a la ecuación geodésica,
tomando el tiempo propio τ como parámetro afín. "Moverse lentamente" significa que
≪ , (4.10)
Con lo que la ecuación geodésica se convierte en

Γ = 𝑔 (𝜕 𝑔 +𝜕 𝑔 −𝜕 𝑔 )
=- 𝑔 𝜕 𝑔 . (4.12)
Finalmente, la debilidad del campo gravitatorio nos permite descomponer la métrica en la
forma de Minkowski más una pequeña perturbación:
gµν = ηµν + hµν , |hµν| << 1 . (4.13)
(Estamos trabajando en coordenadas cartesianas, por lo que 𝜂 es la forma canónica de la
métrica. La "condición de pequeñez" de la perturbación métrica ℎ no tiene realmente
sentido en otras coordenadas). A partir de la definición de la métrica inversa, 𝑔µ 𝑔 = 𝛿 ,
encontramos que a primer orden en h
𝑔 =𝜂 - 𝑔 −ℎ , (4.14)
4 GRAVITACIÓN 89
donde ℎ = 𝜂 µ 𝜂 ℎ . De hecho, podemos utilizar la métrica de Minkowski para subir y

bajar índices en un objeto de cualquier orden definido en h, ya que las correcciones sólo
contribuirían en órdenes superiores.
Poniendo todo junto, nos da
Γ = 𝜂µ 𝜕 ℎ . (4.15)
La ecuación geodésica (4.11) es por tanto
. (4.16)
Utilizando 𝜕 ℎ = 0, el componente 𝜇 = 0 de esto es justamente
=0. (4.17)
Es decir, es constante. Para examinar las componentes espaciales de (4.16), recordemos

que las componentes espaciales de 𝜂 µ son simplemente las de una matriz de identidad 3 ×
3. Por tanto, tenemos
. (4.18)
Dividiendo ambos lados por es el mismo efecto que convertir la derivada del lado
izquierdo de τ a t, lo que nos deja con
. (4.19)
Esto empieza a parecerse mucho a la teoría de la gravitación de Newton. De hecho, si
comparamos esta ecuación con (4.4), encontramos que son iguales una vez que
identificamos
ℎ = -2Φ , (4.20)
o en otras palabras
𝑔 = −(1 + 2Φ) . (4.21)
Por lo tanto, hemos demostrado que la curvatura del espaciotiempo es efectivamente
suficiente para describir la gravedad en el límite newtoniano, siempre que la métrica adopte
la forma (4.21). Queda, por supuesto, encontrar ecuaciones de campo para la métrica que
impliquen que ésta es la forma adoptada, y que para un solo cuerpo gravitatorio
recuperemos la fórmula newtoniana
Φ=− , (4.22)
pero eso llegará pronto.

Nuestra siguiente tarea es mostrar cómo las restantes leyes de la física, más allá de las que
rigen las partículas en caída libre, se adaptan a la curvatura del espaciotiempo. El
procedimiento sigue esencialmente el paradigma establecido al argumentar que las
partículas libres se mueven a lo largo de geodésicas. Tomemos una ley de la física en el
espacio plano, tradicionalmente escrita en términos de derivadas parciales y de la métrica
plana. Según el principio de equivalencia, esta ley se mantendrá en presencia de gravedad,
siempre que estemos en coordenadas normales de Riemann. Traduzcamos la ley en una
4 GRAVITACIÓN 90
relación entre tensores; por ejemplo, cambiemos las derivadas parciales por las covariantes.
En RNC esta versión de la ley se reducirá a la del espacio plano, pero los tensores son objetos
independientes de las coordenadas, por lo que la versión tensorial debe mantenerse en
cualquier sistema de coordenadas.
Este procedimiento recibe a veces un nombre, el Principio de Covarianza. No estoy seguro
de que merezca su propio nombre, ya que en realidad es una consecuencia del EEP más el
requisito de que las leyes de la física sean independientes de las coordenadas. (El requisito
de que las leyes de la física sean independientes de las coordenadas es esencialmente
imposible de imaginar que no sea cierto. Dado algún experimento, si una persona utiliza un
sistema de coordenadas para predecir un resultado y otra utiliza un sistema de coordenadas
diferente, más vale que estén de acuerdo). Otro nombre es la "regla de la coma y el punto y
coma", ya que a nivel tipográfico lo que hay que hacer es sustituir las derivadas parciales
(comas) por las covariantes (punto y coma).
Ya hemos utilizado implícitamente el principio de covarianza (o como queramos llamarlo)
al derivar la afirmación de que las partículas libres se mueven a lo largo de la geodésica. En
su mayor parte, es muy sencillo aplicarlo a casos interesantes. Consideremos, por ejemplo,
la fórmula de conservación de la energía en el espaciotiempo plano, ∂ 𝑇 = 0. La adaptación
al espaciotiempo curvo es inmediata:
▽ 𝑇 =0. (4.23)
Esta ecuación expresa la conservación de la energía en presencia de un campo gravitatorio.
Por desgracia, la vida no siempre es tan fácil. Consideremos las ecuaciones de Maxwell en
relatividad especial, en las que parece que el principio de covarianza puede aplicarse de
forma sencilla. La ecuación de heterogeneidad ∂ 𝐹 = 4𝜋𝐽 se convierte en
▽ 𝐹 = 4𝜋𝐽 , (4.24)
y la homogénea ∂[ 𝐹 ] = 0 se convierte en
▽[ 𝐹 ] =0. (4.25)
Por otro lado, también podríamos escribir las ecuaciones de Maxwell en el espacio plano en
términos de formas diferenciales como
d(∗F) = 4π(∗J) , (4.26)

y
dF = 0 . (4.27)
Estas ya están en perfecta forma tensorial, ya que hemos mostrado que la derivada exterior
es un operador tensorial bien definido independientemente de cuál sea la conexión. Por eso
ya empezamos a preocuparnos un poco; ¿qué garantía hay de que el proceso de escribir una
ley de la física en forma tensorial dé una única respuesta? De hecho, como ya hemos
mencionado anteriormente, las versiones de forma diferencial de las ecuaciones de Maxwell
deberían ser tomadas como fundamentales. Sin embargo, en ese caso no hay diferencia, ya
que la ausencia de torsión (4.26) es idéntica a (4.24), y (4.27) es idéntica a (4.25); la parte
simétrica de la conexión no contribuye. De forma similar, la definición del tensor de fuerza
de campo en función del potencial A puede escribirse como
𝐹 =▽ 𝐴 − ▽ 𝐴 , (4.28)
o también como
F = dA . (4.29)
4 GRAVITACIÓN 91
Sin embargo, la preocupación por la unicidad es real. Imaginemos que dos campos
vectoriales 𝑋 e 𝑌 obedecen una ley en el espacio plano dada por
𝑌 𝜕 𝜕 𝑋 =0. (4.30)
El problema de escribir esto como una ecuación tensorial debería estar claro: las derivadas
parciales pueden conmutarse, pero las derivadas covariantes no. Si simplemente
sustituimos las parciales en (4.30) por derivadas covariantes, obtenemos una respuesta
diferente a la que obtendríamos si primero hubiéramos intercambiado el orden de las
derivadas (dejando invariante la ecuación en el espacio plano) y luego las hubiéramos
sustituido. La diferencia viene dada por
𝑌 ▽ ▽ 𝑋 − 𝑌 ▽ ▽ 𝑋 = −𝑅 𝑌 𝑋 . (4.31)
La prescripción para generalizar las leyes de los espaciotiempos planos a los curvos no nos
guía en la elección del orden de las derivadas y, por lo tanto, es ambigua sobre si un término
como el de (4.31) debe aparecer en presencia de la gravedad. (El problema del orden de las
derivadas covariantes es similar al problema de las ambigüedades en el orden de los
operadores en la mecánica cuántica).
En la literatura se pueden encontrar varias prescripciones para tratar con ambigüedades
como ésta, la mayoría de las cuales son consejos sensatos como recordar preservar la
invariancia gauge para el electromagnetismo. Pero en el fondo la respuesta real es que no
hay manera de resolver estos problemas sólo con el pensamiento; el hecho es que puede
haber más de una manera de adaptar una ley de la física al espacio curvo, y en última
instancia sólo el experimento puede decidir entre las alternativas.
De hecho, seamos sinceros sobre el principio de equivalencia: sirve como una guía útil, pero
no merece ser tratado como un principio fundamental de la naturaleza. Desde el punto de
vista moderno, no esperamos que el PEE sea rigurosamente cierto. Consideremos la
siguiente versión alternativa de (4.24):
▽ [(1 + 𝛼𝑅)𝐹 ] = 4𝜋𝐽 , (4.32)
donde R es el escalar de Ricci y α es alguna constante de acoplamiento. Si esta ecuación
describiera correctamente la electrodinámica en el espaciotiempo curvo, sería posible
medir R incluso en una región arbitrariamente pequeña, haciendo experimentos con
partículas cargadas. El principio de equivalencia exige, por tanto, que α = 0. Pero, por lo
demás, se trata de una ecuación perfectamente respetable, coherente con la conservación
de la carga y otras características deseables del electromagnetismo, que se reduce a la
ecuación habitual en el espacio plano. De hecho, en un mundo gobernado por la mecánica
cuántica esperamos que todos los posibles acoplamientos entre campos diferentes (como la
gravedad y el electromagnetismo) sean consistentes con las simetrías de la teoría (en este
caso, la invariancia gauge). Entonces, ¿por qué es razonable fijar α = 0? La verdadera razón
es una cuestión de escalas. Obsérvese que el tensor de Ricci implica segundas derivadas de
la métrica, que es adimensional, por lo que R tiene dimensiones de (longitud) (con c = 1).
Por lo tanto, α debe tener dimensiones de (longitud) . Pero como el acoplamiento
representado por α es de origen gravitatorio, la única expectativa razonable para la escala
de longitud relevante es
α~𝑙 , (4.33)
donde 𝑙 es la longitud de Planck
ℏ /
𝑙 = = 1,6 x 10 cm , (4.34)
donde ℏ es, por supuesto, la constante de Planck. Así, la escala de longitud correspondiente
a este acoplamiento es extremadamente pequeña, y para cualquier experimento concebible
4 GRAVITACIÓN 92
esperamos que la escala típica de variación del campo gravitatorio sea mucho mayor. Por lo
tanto, la razón por la que este término que viola el principio de equivalencia puede ser
ignorado con seguridad es simplemente porque αR es probablemente un número
fantásticamente pequeño, muy fuera del alcance de cualquier experimento. Por otra parte,
es mejor mantener la mente abierta, ya que nuestras expectativas no siempre se ven
confirmadas por la observación.
Una vez establecido cómo las leyes físicas rigen el comportamiento de los campos y objetos
en un espaciotiempo curvo, podemos completar el establecimiento de la relatividad general
propiamente dicha introduciendo las ecuaciones de campo de Einstein, que rigen cómo la
métrica responde a la energía y al momento. Lo haremos de dos maneras: primero mediante
un argumento informal cercano a lo que pensaba el propio Einstein, y luego partiendo de
una acción y derivando las correspondientes ecuaciones de movimiento.
El argumento informal comienza con la constatación de que nos gustaría encontrar una
ecuación que sustituya a la ecuación de Poisson para el potencial newtoniano:
▽2Φ = 4πGρ , (4.35)
donde ▽2= δ 𝜕 𝜕 es el laplaciano en el espacio y ρ es la densidad de masa. (La forma
explícita de Φ dada en (4.22) es una solución de (4.35), para el caso de una distribución de
masa puntual). ¿Qué características debe poseer la ecuación que buscamos? En el lado
izquierdo de (4.35) tenemos un operador diferencial de segundo orden que actúa sobre el
potencial gravitatorio, y en el lado derecho una medida de la distribución de masas. Una
generalización relativista debería tomar la forma de una ecuación entre tensores. Sabemos
cuál es la generalización tensorial de la densidad de masa; es el tensor de energía-momento
𝑇 . El potencial gravitatorio, por su parte, debería ser sustituido por el tensor métrico. Por
tanto, podríamos suponer que nuestra nueva ecuación tendrá 𝑇 proporcional a algún
tensor que sea de segundo orden en las derivadas de la métrica. De hecho, utilizando (4.21)
para la métrica en el límite newtoniano y 𝑇 = ρ, vemos que en este límite estamos buscando
una ecuación que predice
▽2 ℎ = − 8πG𝑇 , (4.36)
pero por supuesto queremos que sea completamente tensorial.
El lado izquierdo de (4.36) no se generaliza obviamente a un tensor. La primera opción
podría ser actuar como el D'Alembertiana □= ▽ ▽ sobre la métrica 𝑔 , pero ésta es
automáticamente cero por compatibilidad métrica. Afortunadamente, hay una cantidad
obvia que no es cero y que se construye a partir de segundas derivadas (y primeras
derivadas) de la métrica: el tensor de Riemann 𝑅 µ . No tiene el número correcto de
índices, pero podemos contraerlo para formar el tensor de Ricci 𝑅 , que sí lo tiene (y
además para empezar es simétrico). Por tanto, es razonable suponer que las ecuaciones del
campo gravitatorio son
𝑅 = 𝜅𝑇 , (4.7)
para alguna constante κ. De hecho, Einstein sugirió esta ecuación en un momento dado.
Desgraciadamente, hay un problema con la conservación de la energía. Según el Principio
de Equivalencia, el enunciado de la conservación de la energía-momento en el
espaciotiempo curvo debería ser
▽ 𝑇 =0, (4.38)
lo que entonces implica
▽ 𝑅 =0, (4.38)
4 GRAVITACIÓN 93
Esto no es cierto en una geometría arbitraria; hemos visto a partir de la identidad de Bianchi
(3.94) que
▽ 𝑅 = ▽ 𝑅. (4.40)
Pero la ecuación de campo que proponemos implica que R = κ𝑔 𝑇 = κT, por lo que
tomando esto en conjunto tenemos
▽ 𝑇= 0 . (4.41)
La derivada covariante de un escalar es sólo la derivada parcial, por lo que (4.41) nos está
diciendo que T es constante en todo el espaciotiempo. Esto es altamente inverosímil, ya que
T = 0 en el vacío mientras que T > 0 en la materia. Tenemos que esforzarnos más.
(En realidad estamos haciendo un poco de trampa, al tomar la ecuación ▽ 𝑇 = 0 tan en
serio. Si, como dijimos, el principio de equivalencia es sólo una guía aproximada, podríamos
imaginar que hay términos no nulos en el lado derecho que implican al tensor de curvatura.
Más adelante seremos más precisos y argumentaremos que son estrictamente nulos).
Por supuesto, no tenemos que esforzarnos mucho más, pues ya conocemos un tensor
simétrico (0,2), construido a partir del tensor de Ricci, que se conserva automáticamente:
el tensor de Einstein
𝐺 =𝑅 − 𝑅𝑔 , (4.42)
la cual obedece a ▽ 𝐺 = 0. Por lo tanto, nos vemos obligados a proponer
𝐺 = 𝜅𝑇 (4.43)
como una ecuación de campo para la métrica. Esta ecuación satisface todos los requisitos
obvios; el lado derecho es una expresión covariante de la densidad de energía y momento
en forma de un tensor simétrico y conservado (0,2), mientras que el lado izquierdo es un
tensor simétrico y conservado (0,2) construido a partir de la métrica y sus primeras y
segundas derivadas. Sólo queda por ver si realmente reproduce la gravedad tal y como la
conocemos.
Para responder a esto, observemos que al contraer ambos lados de (4.43) se obtiene (en
cuatro dimensiones)
R = -κT , (4.44)
y usando esta igualdad podemos reescribir (4.43) como
𝑅 =κ 𝑇 − 𝑇𝑔 . (4.45)
Se trata de la misma ecuación, sólo que escrita de forma ligeramente diferente. Nos gustaría
ver si predice la gravedad newtoniana en el límite de campo débil, independiente del tiempo
y con partículas en movimiento lento. En este límite, la energía en reposo ρ = 𝑇 será mucho
mayor que los demás términos de 𝑇 , de modo que queremos centrarnos en el componente
µ = 0, ν = 0 de (4.45). En el límite de campo débil, escribimos (de acuerdo con (4.13) y (4.14))
𝑔 = −1+ ℎ ,
𝑔 = -1 - ℎ , (4.46)
The trace of the energy-momentum tensor, to lowest nontrivial order, is
T= 𝑔 𝑇 =-𝑇 . (4.47)
Insertando esto en (4.45), obtenemos
𝑅 = κ𝑇 . (4.48)
4 GRAVITACIÓN 94
Se trata de una ecuación que relaciona las derivadas de la métrica con la densidad de
energía. Para encontrar la expresión explícita en términos de la métrica, necesitamos
evaluar 𝑅 = 𝑅 . En realidad sólo necesitamos 𝑅 , ya que 𝑅 = 0. Tenemos
. (4.49)
El segundo término es una derivada temporal que desaparece para los campos estáticos.
Los términos tercero y cuarto son de la forma (Γ) , y como Γ es de primer orden en la
perturbación métrica, sólo contribuyen en segundo orden y pueden despreciarse. Nos
quedamos con 𝑅 = 𝜕 Γ . A partir de esto obtenemos
𝑅 =𝑅
=𝜕 𝑔 (𝜕 𝑔 +𝜕 𝑔 −𝜕 𝑔 )
= − 𝜂𝑖𝑗 𝜕𝑖 𝜕𝑗 ℎ00
=− ▽ ℎ . (4.50)
Comparando con (4.48), vemos que la componente 00 de (4.43) en el límite newtoniano

predice
▽ ℎ = − κ𝑇 . (4.51)
Pero esto es exactamente (4.36), si fijamos κ = 8πG.
Así que nuestra suposición parece haber funcionado. Con la normalización fijada por
comparación con el límite newtoniano, podemos presentar las ecuaciones de Einstein
para la relatividad general:
𝑅 − 𝑅𝑔 = 8𝜋𝐺𝑇 . (4.52)
Estas ecuaciones nos dicen cómo reacciona la curvatura del espaciotiempo a la presencia de
energía-momento. Einstein, como habrás oído, pensaba que el lado izquierdo era bonito y
geométrico, mientras que el lado derecho era algo menos convincente.
Las ecuaciones de Einstein pueden considerarse como ecuaciones diferenciales de segundo
orden para el campo tensorial métrico 𝑔 . Hay diez ecuaciones independientes (ya que
ambos lados son tensores simétricos de dos índices), lo que parece ser exactamente
correcto para las diez funciones desconocidas de las componentes métricas. Sin embargo, la
identidad de Bianchi ▽ 𝐺 = 0 representa cuatro restricciones sobre las funciones 𝑅 , de
modo que sólo hay seis ecuaciones verdaderamente independientes en (4.52). De hecho,
esto es apropiado, ya que si una métrica es una solución de la ecuación de Einstein en un
sistema de coordenadas 𝑥 , también debería ser una solución en cualquier otro sistema de
coordenadas 𝑥 . Esto significa que hay cuatro grados de libertad no físicos en 𝑔
(representados por las cuatro funciones 𝑥 (𝑥 )), y deberíamos esperar que las ecuaciones
de Einstein sólo limiten los seis grados de libertad independientes de las coordenadas.
Como ecuaciones diferenciales, son extremadamente complicadas; el escalar y el tensor de
Ricci son contracciones del tensor de Riemann, lo que implica derivadas y productos de los
símbolos de Christoffel, que a su vez implican la métrica inversa y derivadas de la métrica.
Además, el tensor de energía-momento 𝑇 generalmente implicará también a la métrica.
Las ecuaciones además son no lineales, por lo que no se pueden superponer dos soluciones
conocidas para encontrar una tercera. Por lo tanto, es muy difícil resolver las ecuaciones de
Einstein en cualquier tipo de generalidad, y suele ser necesario hacer algunas suposiciones
4 GRAVITACIÓN 95
simplificadoras. Incluso en el vacío, donde fijamos el tensor energía-momento a cero, las

ecuaciones resultantes (de (4.45)).
𝑅 =0 (4.53)
puede ser muy difícil de resolver. El tipo de suposición simplificadora más popular es que
la métrica tiene un grado significativo de simetría, y más adelante hablaremos de cómo las
simetrías de la métrica facilitan la vida.
Merece la pena destacar la no linealidad de la relatividad general. En la gravedad
newtoniana el potencial debido a dos masas puntuales es simplemente la suma de los
potenciales para cada masa, pero claramente esto no se traslada a la relatividad general
(fuera del límite de campo débil). Hay una razón física para ello, a saber, que en la RG el
campo gravitatorio se acopla a sí mismo. Si la gravitación no se acoplara a sí misma, un
"átomo gravitatorio" (dos partículas unidas por su atracción gravitatoria mutua) tendría
una masa inercial diferente (debido a la energía de enlace negativa) de la masa gravitatoria.
Desde el punto de vista de la física de partículas, esto puede expresarse en términos de
diagramas de Feynman. La interacción electromagnética entre dos electrones puede
considerarse como debida al intercambio de un fotón virtual:
e-
fotón
e-
Pero no hay ningún diagrama en el que dos fotones intercambien otro fotón entre sí; el
electromagnetismo es lineal. La interacción gravitatoria, por su parte, puede considerarse
como debida al intercambio de un gravitón virtual (una perturbación cuantizada de la
métrica). La no linealidad se manifiesta en el hecho de que tanto los electrones como los
gravitones (y cualquier otra cosa) pueden intercambiar gravitones virtuales y, por tanto,
ejercer una fuerza gravitatoria:
e-
gravitón gravitones
e-
Esta característica de la gravedad no tiene nada de profundo; la comparten la mayoría de

las teorías gauge, como la cromodinámica cuántica, la teoría de las interacciones fuertes.
(En realidad, el electromagnetismo es la excepción; la linealidad se debe a que el grupo
gauge correspondiente, U(1), es abeliano). Pero representa una desviación de la teoría
newtoniana. (Por supuesto, este lenguaje mecánico cuántico de los diagramas de Feynman
es algo inapropiado para la RG, que no ha sido cuantificada [todavía] con éxito, pero los
4 GRAVITACIÓN 96
diagramas son sólo un atajo conveniente para recordar qué interacciones existen en la
teoría).
Para aumentar tu confianza en que las ecuaciones de Einstein, tal como las hemos deducido,
son realmente las ecuaciones de campo correctas para la métrica, veamos cómo pueden
derivarse desde un punto de vista más moderno, partiendo de un principio de acción. (De
hecho, las ecuaciones fueron derivadas por primera vez por Hilbert, no por Einstein, y
Hilbert lo hizo utilizando el principio de acción. Pero se había inspirado en los trabajos
anteriores de Einstein sobre el tema, y el propio Einstein derivó las ecuaciones de forma
independiente, por lo que llevan el nombre de Einstein. La acción, sin embargo, se llama
correctamente la acción de Hilbert). La acción debería ser la integral sobre el espaciotiempo
de una densidad de Lagrange ("Lagrangiana" para abreviar, aunque estrictamente hablando
el Lagrangiano es la integral sobre el espacio de la densidad de Lagrange):
𝑆 = ∫ 𝑑 𝑥ℒ . (4.54)
La densidad de Lagrange es una densidad tensorial, que puede escribirse como −𝑔 por un
escalar. ¿Qué escalares podemos obtener de la métrica? Dado que sabemos que la métrica
puede ser igual a su forma canónica y sus primeras derivadas son cero en cualquier punto,
cualquier escalar no trivial debe implicar al menos segundas derivadas de la métrica. El
tensor de Riemann está hecho, por supuesto, a partir de segundas derivadas de la métrica,
y antes argumentamos que el único escalar independiente que podíamos construir a partir
del tensor de Riemann era el escalar de Ricci R. Lo que no demostramos, pero que sin
embargo es cierto, es que cualquier tensor no trivial hecho a partir de la métrica y sus
primeras y segundas derivadas puede expresarse en términos de la métrica y del tensor de
Riemann. Por lo tanto, el único escalar independiente construido a partir de la métrica, que
no es mayor que el segundo orden en sus derivadas, es el escalar de Ricci. Hilbert pensó que
ésta era, por tanto, la elección más sencilla posible para un lagrangiano, y propuso
ℒ = −𝑔R. (4.55)
Las ecuaciones de movimiento deben provenir de la variación de la acción con respecto a la
métrica. De hecho, consideremos las variaciones con respecto a la métrica inversa 𝑔 , que
son ligeramente más fáciles pero dan un conjunto de ecuaciones equivalente. Utilizando R
= 𝑔 𝑅 , en general tendremos
(4.56)
El segundo término (𝛿𝑆) ya se encuentra en la forma de alguna expresión multiplicada por
δ𝑔 ; examinemos los demás con más detenimiento.
Recordemos que el tensor de Ricci es la contracción del tensor de Riemann, que viene dado
por
(4.57)
La variación de ésta con respecto a la métrica puede encontrarse primero variando la
conexión con respecto a la métrica, y luego sustituyendo en esta expresión. Sin embargo,
consideremos variaciones arbitrarias de la conexión, sustituyendo
Γ →Γ + 𝛿Γ . (4.58)
La variación 𝛿Γ es la diferencia de dos conexiones, y por tanto es en sí misma un tensor.
Por tanto, podemos tomar su derivada covariante,
. (4.59)
Dada esta expresión (y un poco de trabajo) es fácil demostrar que
4 GRAVITACIÓN 97
. (4.60)
Pueden comprobarlo ustedes mismo. Por tanto, la contribución del primer término de
(4.56) a δS puede escribirse
(𝛿𝑆) = ∫ 𝑑 𝑥 −𝑔 𝑔 ▽ 𝛿Γ −▽ 𝛿Γ
= ∫ 𝑑 𝑥 −𝑔 ▽ 𝑔 𝛿Γ −𝑔 𝛿Γ , (4.61)
donde hemos utilizado la compatibilidad métrica y hemos reetiquetado algunos índices

ficticios. Pero ahora tenemos la integral con respecto al elemento de volumen natural de la
divergencia covariante de un vector; por el teorema de Stokes, esto es igual a una
contribución de frontera en el infinito que podemos poner a cero haciendo que la variación
desaparezca en el infinito. (En realidad, no hemos demostrado que el teorema de Stokes,
mencionado antes en términos de formas diferenciales, pueda pensarse así, pero pueden
convencerse fácilmente de que es cierto). Por lo tanto, este término no contribuye en nada
a la variación total.
Para dar sentido al término (𝛿𝑆) necesitamos utilizar el siguiente hecho, verdadero para
cualquier matriz M:
Tr(ln M) = ln(det M). (4.62)
Aquí, lnM se define por exp(ln M) = M. (Para los números esto es obvio, para las matrices es
un poco menos sencillo). La variación de esta identidad da como resultado
Tr(𝑀 𝛿𝑀) = 𝛿(det 𝑀). (4.63)
Aquí hemos utilizado la propiedad cíclica de la traza para permitirnos ignorar el hecho de
que 𝑀 y δM pueden no conmutar. Ahora queremos aplicar esto a la métrica inversa, M =
𝑔 . Entonces det M = 𝑔 (donde g = det 𝑔µ ), y
δ(𝑔 ) = 𝑔µ 𝛿𝑔 . (4.64)
Ahora simplemente lo insertamos:

𝛿 −𝑔 = 𝛿 (−𝑔 ) /
1
= − 2 (−𝑔 ) /
𝛿(−𝑔 )
1
= − 2 −𝑔 𝑔µ 𝛿𝑔 . (4.65)
Volviendo a (4.56), y recordando que (𝛿𝑆) no contribuye, encontramos
. (4.66)
Esto debería desaparecer para variaciones arbitrarias, por lo que nos lleva a las ecuaciones
de Einstein en el vacío:
. (4.67)
El hecho de que esta simple acción conduzca a las mismas ecuaciones del campo de vacío a
las que habíamos llegado anteriormente mediante argumentos más informales nos
tranquiliza, sin duda, de que estamos haciendo algo bien. Sin embargo, lo que realmente nos
4 GRAVITACIÓN 98
gustaría es obtener también las ecuaciones de campo del no vacío. Esto significa que
consideramos una acción de la forma
, (4.68)
donde SM es la acción para la materia, y hemos normalizado proféticamente la acción
gravitatoria (aunque la normalización adecuada depende en cierta manera de la
convención). Siguiendo el mismo procedimiento anterior se llega a
, (4.69)
y recuperamos las ecuaciones de Einstein si ponemos
𝑇µ =− . (4.70)
√
¿Qué nos hace pensar que podemos hacer tal identificación? De hecho (4.70) resulta ser la
mejor manera de definir un tensor de energía-momento simétrico. La parte difícil es
demostrar que se conserva, lo que de hecho es automáticamente cierto, pero que no
justificaremos hasta la siguiente sección.
Decimos que (4.70) proporciona la "mejor" definición del tensor energía-momento porque
no es la única que se puede encontrar. En el espacio plano de Minkowski, existe una
definición alternativa que a veces se da en los libros de electromagnetismo o de teoría de
campos. En este contexto la conservación de la energía-momento surge como consecuencia
de la simetría del Lagrangiano bajo traslaciones del espaciotiempo. El teorema de Noether
afirma que toda simetría de un lagrangiano implica la existencia de una ley de conservación;
la invariancia bajo las cuatro traslaciones del espaciotiempo conduce a un tensor 𝑆 que
obedece a ∂ 𝑆 = 0 (cuatro relaciones, una para cada valor de ν). Los detalles se pueden
encontrar en Wald o en cualquier libro de teoría de campos. Aplicando el procedimiento de
Noether a un lagrangiano que depende de algunos campos 𝜓 y sus primeras derivadas
∂ 𝜓 , obtenemos
(4.71)
donde está implícita una suma sobre i. Se puede comprobar que este tensor se conserva en
virtud de las ecuaciones de movimiento de los campos de materia. 𝑆 recibe a menudo el
nombre de "tensor de energía-momento canónico"; sin embargo, hay una serie de razones
por las que nos resulta más conveniente utilizar (4.70). En primer lugar, (4.70) es, de hecho,
lo que aparece en el lado derecho de las ecuaciones de Einstein cuando se derivan de una
acción, y no siempre es posible generalizar (4.71) al espaciotiempo curvo. Pero incluso en
el espacio plano (4.70) tiene sus ventajas; es manifiestamente simétrica, y también se
garantiza que es invariante gauge, ninguna de las cuales es cierta para (4.71). Por tanto, nos
quedaremos con (4.70) como definición del tensor energía-momento.
A veces resulta útil pensar en las ecuaciones de Einstein sin especificar la teoría de la
materia de la que se deriva 𝑇 . Esto nos deja una gran arbitrariedad; consideremos, por
ejemplo, la pregunta "¿Qué métrica obedece a las ecuaciones de Einstein?" En ausencia de
algunas restricciones sobre 𝑇 , la respuesta es "cualquier métrica"; simplemente tomemos
la métrica de nuestra elección, calculemos el tensor de Einstein 𝐺 para esta métrica, y
luego exija que 𝑇 sea igual a 𝐺 . (Nuestra verdadera preocupación es la existencia de
soluciones a las ecuaciones de Einstein en presencia de fuentes "realistas" de energía y
momento, sea lo que sea que eso signifique. La propiedad más común que se exige a 𝑇 es
4 GRAVITACIÓN 99
que represente densidades de energía positivas - no se permiten masas negativas. En un

marco de inercia local, este requisito puede establecerse como ρ = 𝑇 ≥ 0. Para convertir
esto en una afirmación independiente de las coordenadas, requerimos que
𝑇 𝑉 𝑉 ≥ 0, para todos los vectores temporales 𝑉 . (4.72)
Esto se conoce como la Condición de la Energía Débil, o WEC (“Weak Energy Condition”).
Parece un requisito bastante razonable, y muchos de los teoremas importantes sobre las
soluciones de la relatividad general (como los teoremas de la singularidad de Hawking y
Penrose) se basan en esta condición o en algo muy parecido. Desgraciadamente, no está
grabada en piedra; de hecho, es sencillo inventar teorías de campo clásicas, por lo demás
respetables, que violen la WEC , y casi imposible inventar una respetable teoría de campo
cuántica que la obedezca. Sin embargo, es legítimo suponer que la WEC se mantiene en todas
las condiciones, excepto en las más extremas. (También hay condiciones de energía más
fuertes, pero son aún menos ciertas que la WEC, y no nos detendremos en ellas).
Ahora hemos justificado las ecuaciones de Einstein de dos maneras diferentes: como la
generalización covariante natural de la ecuación de Poisson para el potencial gravitatorio
newtoniano, y como el resultado de la variación de la acción más simple posible que
pudiéramos inventar para la métrica. El resto del curso consistirá en una exploración de las
consecuencias de estas ecuaciones, pero antes de iniciar ese camino vamos a explorar
brevemente las formas en que las ecuaciones podrían modificarse. Hay un número
incontable de formas, pero consideraremos cuatro posibilidades diferentes: la introducción
de una constante cosmológica, términos de orden superior en la acción, campos escalares
gravitacionales y un tensor de torsión no evanescente.
La primera posibilidad es la constante cosmológica; George Gamow ha citado a Einstein
diciendo que este fue el mayor error de su vida. Recordemos que en nuestra búsqueda de la
acción más simple posible para la gravedad observamos que cualquier escalar no trivial
tenía que ser de al menos segundo orden en las derivadas de la métrica; en un orden inferior
todo lo que podemos crear es una constante. Aunque una constante no conduce por sí
misma a una dinámica muy interesante, tiene un efecto importante si la añadimos a la acción
convencional de Hilbert. Por lo tanto, consideramos una acción dada por
, (4.73)
donde Λ es una constante. Las ecuaciones de campo resultantes son
, (4.74)
y, por supuesto, habría un tensor de energía-momento en el lado derecho si hubiéramos
incluido una acción para la materia. Λ es la constante cosmológica; fue introducida
originalmente por Einstein después de que quedara claro que no había soluciones a sus
ecuaciones que representaban una cosmología estática (un universo que no cambia con el
tiempo a grandes escalas) con un contenido de materia distinto de cero. Si la constante
cosmológica está bien ajustada, es posible encontrar una solución estática, pero es inestable
ante pequeñas perturbaciones. Además, una vez que Hubble demostró que el universo se
está expandiendo, dejó de ser importante encontrar soluciones estáticas, y Einstein rechazó
su sugerencia. Sin embargo, al igual que Rasputín, la constante cosmológica ha resultado
difícil de eliminar. Si queremos, podemos trasladar el término adicional de (4.74) al lado
derecho, y pensar en él como una especie de tensor de energía-momento, con 𝑇 = -Λ𝑔
(se conserva automáticamente por compatibilidad métrica). Entonces Λ puede
interpretarse como la "densidad de energía del vacío", una fuente de energía y momento
que está presente incluso en ausencia de campos de materia. Esta interpretación es
importante porque la teoría cuántica de campos predice que el vacío debe tener algún tipo
de energía y momento. En la mecánica cuántica ordinaria, un oscilador armónico con
4 GRAVITACIÓN 100
frecuencia ω y energía clásica mínima 𝐸 = 0 al cuantificarse tiene un estado básico con

energía 𝐸 = ℏ . Un campo cuantificado puede considerarse como una colección de un
número infinito de osciladores armónicos, y cada modo contribuye a la energía del estado
base. El resultado es, por supuesto, infinito, y debe regularizarse adecuadamente, por
ejemplo, introduciendo un corte a altas frecuencias. La energía final del vacío, que es la suma
regularizada de las energías de las oscilaciones del estado básico de todos los campos de la
teoría, no tiene ninguna buena razón para ser cero y, de hecho, se espera que tenga una
escala natural
Λ~𝑚 , (4.75)
donde la masa de Planck 𝑚 es aproximadamente 10 GeV, o 10 gramos. Las
observaciones del universo a gran escala nos permiten restringir el valor real de Λ, que
resulta ser menor que (4,75) en al menos un factor de 10 . Esta es la mayor discrepancia
conocida entre la estimación teórica y la restricción observacional en física, y convence a
mucha gente de que el "problema de la constante cosmológica" es uno de los problemas más
importantes sin resolver en la actualidad. Por otro lado, las observaciones no nos dicen que
Λ sea estrictamente cero, y de hecho permiten valores que pueden tener importantes
consecuencias para la evolución del universo. Por lo tanto, este error de Einstein sigue
siendo un problema tanto para los físicos, que quieren entender por qué es tan pequeño,
como para los astrónomos, que quieren determinar si es realmente tan pequeño como para
ignorarlo.
Una generalización algo menos intrigante de la acción de Hilbert sería incluir escalares de
más de segundo orden en las derivadas de la métrica. Podríamos imaginar una acción de la
forma
, (4.76)
donde las α son constantes de acoplamiento y los puntos representan cualquier otro escalar
que podamos hacer a partir del tensor de curvatura, sus contracciones y sus derivadas.
Tradicionalmente, estos términos se han descuidado con el argumento razonable de que
sólo complican una teoría que ya es estéticamente agradable y empíricamente exitosa. Sin
embargo, hay al menos tres razones más sustanciales para este descuido. En primer lugar,
como veremos a continuación, las ecuaciones de Einstein conducen a un problema de valor
inicial bien planteado para la métrica, en el que las "coordenadas" y los "momentos"
especificados en un momento inicial pueden utilizarse para predecir la evolución futura.
Con los términos de las derivadas superiores, necesitaríamos no sólo esos datos, sino
también un cierto número de derivadas de los momentos. En segundo lugar, la principal
fuente de insatisfacción con la relatividad general por parte de los físicos de partículas es
que no se puede renormalizar (por lo que sabemos), y los lagrangianos con derivadas
superiores tienden generalmente a hacer que las teorías sean menos renormalizables en
lugar de más. En tercer lugar, por los mismos argumentos que utilizamos con anterioridad
al hablar de las limitaciones del principio de equivalencia, los términos extra en (4.76)
deberían estar suprimidos (por potencias de la masa de Planck a alguna potencia) en
relación con el término habitual de Hilbert, y por lo tanto no se esperaría que tuvieran
ninguna importancia práctica para el mundo de las bajas energías. Ninguna de estas razones
es completamente persuasiva, y de hecho la gente sigue considerando tales teorías, pero en
su mayor parte estos modelos no atraen mucha atención.
Un conjunto de modelos que sí atraen la atención se conocen como teorías escalares-
tensoriales de la gravedad, ya que implican tanto el tensor métrico 𝑔 como un campo
escalar fundamental, λ. La acción se puede escribir
, (4.77)
4 GRAVITACIÓN 101
donde f (λ) y V (λ) son funciones que definen la teoría. Recordemos de (4.68) que el
coeficiente del escalar de Ricci en la RG convencional es proporcional a la inversa de la
constante de Newton G. En las teorías escalares-tensoriales, entonces, donde este
coeficiente se sustituye por alguna función de un campo que puede variar a lo largo del
espaciotiempo, la "fuerza" de la gravedad (medida por el valor local de la constante de
Newton) será diferente de un lugar a otro y de un momento a otro. De hecho, la teoría del
escalar-tensor más famosa, inventada por Brans y Dicke y que ahora lleva su nombre, se
inspiró en una sugerencia de Dirac de que la constante gravitatoria varía con el tiempo.
Dirac se había dado cuenta de que había algunas coincidencias numéricas interesantes que
se podían descubrir tomando combinaciones de números cosmológicos como la constante
de Hubble 𝐻 (una medida de la tasa de expansión del universo) y parámetros típicos de la
física de partículas como la masa del pión, 𝑚 . Por ejemplo,
~ . (4.78)
ℏ
Si asumimos por el momento que esta relación no es un simple accidente, nos encontramos
con el problema de que la "constante" de Hubble cambia realmente con el tiempo (en la
mayoría de los modelos cosmológicos), mientras que las otras cantidades
convencionalmente no lo hacen. Por lo tanto, Dirac propuso que, de hecho, G variase con el
tiempo, de manera que se mantuviera (4.78); la satisfacción de esta propuesta fue la
motivación de Brans y Dicke. Hoy en día, las pruebas experimentales de la relatividad
general son lo suficientemente precisas como para poder afirmar con confianza que, si la
teoría de Brans-Dicke es correcta, el cambio predicho de G a lo largo del espacio y del tiempo
debe ser muy pequeño, mucho más lento que el necesario para satisfacer la hipótesis de
Dirac. (Véase Weinberg para más detalles sobre la teoría de Brans-Dicke y las pruebas
experimentales.) Sin embargo, todavía se está trabajando mucho en otros tipos de teorías
escalares-tensoriales, que resultan ser vitales en la teoría de supercuerdas y pueden tener
importantes consecuencias en el universo muy temprano.
Como última alternativa a la relatividad general, debemos mencionar la posibilidad de que
la conexión realmente no se derive de la métrica, sino que de hecho tenga una existencia
independiente como campo fundamental. Dejaremos como ejercicio el mostrar que es
posible considerar la acción convencional para la relatividad general pero tratarla como una
función tanto de la métrica 𝑔 como de una conexión libre de torsión Γ , y las ecuaciones
de movimiento derivadas de la variación de dicha acción con respecto a la conexión implican
que Γ es en realidad la conexión de Christoffel asociada a 𝑔 . Podríamos eliminar la
exigencia de que la conexión esté libre de torsión, en cuyo caso el tensor de torsión podría
dar lugar a grados de libertad de propagación adicionales. Sin entrar en detalles, la razón
básica por la que tales teorías no reciben mucha atención es simplemente porque la torsión
es en sí misma un tensor; no hay nada que la distinga de otros campos tensoriales "no
gravitatorios". Así, no perdemos realmente ninguna generalidad al considerar teorías de
conexiones sin torsión (que conducen a la RG) más cualquier número de campos tensoriales,
que podemos nombrar como queramos.
Con la posibilidad en mente de que una de estas alternativas (o, más probablemente, algo
en lo que aún no hemos pensado) se realice realmente en la naturaleza, durante el resto del
curso trabajaremos bajo el supuesto de que la relatividad general, tal como se basa en las
ecuaciones de Einstein o en la acción de Hilbert, es la teoría correcta, y elaboraremos sus
consecuencias. Estas consecuencias, por supuesto, están constituidas por las soluciones de
las ecuaciones de Einstein para varias fuentes de energía y momento, y el comportamiento
de las partículas de prueba en estas soluciones. Antes de considerar en detalle las soluciones
específicas, veamos de forma más abstracta el problema del valor inicial en la relatividad
general.
4 GRAVITACIÓN 102
En la mecánica clásica newtoniana, el comportamiento de una partícula se rige, por

supuesto, por f = ma. Si la partícula se mueve bajo la influencia de algún campo de energía
potencial Φ(x), entonces la fuerza es f = -▽Φ, y la partícula obedece
m =−𝜕 Φ. (4.79)
Esta es una ecuación diferencial de segundo orden para 𝑥 (𝑡), que podemos refundir como
un sistema de dos ecuaciones de primer orden acopladas introduciendo el momento p:
. (4.80)
El problema de valor inicial es simplemente el procedimiento de especificar un "estado" (𝑥 ,
𝑝 ) que sirve como condición de contorno con el que (4.80) puede resolverse de forma única.
Se puede pensar que (4.80) permite, una vez dadas las coordenadas y los momentos en
algún momento t, evolucionarlos hacia adelante una cantidad infinitesimal hasta un
momento t + δt, e iterar este procedimiento para obtener la solución completa.
Nos gustaría formular el problema análogo en relatividad general. Las ecuaciones de
Einstein 𝐺 = 8πG𝑇 son, por supuesto, covariantes; no señalan una noción preferida de
"tiempo" a través de la cual puede evolucionar un estado. Sin embargo, podemos elegir a
mano una hipersuperficie (o "rodaja") espacial Σ, especificar datos iniciales en esa
hipersuperficie y ver si podemos evolucionar de forma única desde ella a una
hipersuperficie en el futuro. ("Hipersuperficie" porque un corte de tiempo constante en
cuatro dimensiones será tridimensional, mientras que las "superficies" son
convencionalmente bidimensionales). Este proceso violenta la covarianza manifiesta de la
teoría, pero si somos cuidadosos deberíamos terminar con una formulación que es
equivalente a resolver las ecuaciones de Einstein de una sola vez en todo el espaciotiempo.
Dado que la métrica es la variable fundamental, nuestra primera suposición es que
deberíamos considerar los valores 𝑔 |Σ de la métrica en nuestra hipersuperficie como las
"coordenadas" y las derivadas temporales 𝜕 𝑔 |Σ (con respecto a una coordenada
temporal
Σ Datos iniciales
especificada) para ser los "momentos", que juntos especifican el estado. (También habrá
coordenadas y momentos para los campos de materia, que no consideraremos
explícitamente). De hecho, las ecuaciones 𝐺 = 8πG𝑇 implican segundas derivadas de la
métrica con respecto al tiempo (ya que la conexión implica primeras derivadas de la métrica
y el tensor de Einstein implica primeras derivadas de la conexión), por lo que parece que
4 GRAVITACIÓN 103
vamos por buen camino. Sin embargo, la identidad de Bianchi nos dice que ▽ 𝐺 = 0.
Podemos reescribir esta ecuación como
. (4.81)
Una mirada atenta al lado derecho revela que no hay derivadas temporales de tercer orden;
por tanto, no puede haber ninguna en el lado izquierdo. Así, aunque 𝐺 en su conjunto
implica derivadas temporales de segundo orden de la métrica, los componentes específicos
𝐺 no lo hacen. De las diez componentes independientes en las ecuaciones de Einstein, las
cuatro representadas por
𝐺 = 8𝜋𝐺𝑇 (4.82)
no pueden utilizarse para hacer evolucionar los datos iniciales (𝑔 , ∂ 𝑔 )Σ. Más bien,
sirven como restricciones sobre estos datos iniciales; no somos libres de especificar
cualquier combinación de la métrica y sus derivadas temporales en la hipersuperficie Σ, ya
que deben obedecer las relaciones (4.82). Las ecuaciones restantes
𝐺 = 8𝜋𝐺𝑇 (4.83)
son las ecuaciones de evolución dinámica de la métrica. Por supuesto, son sólo seis
ecuaciones para las diez funciones desconocidas 𝑔 (𝑥 ) de modo que la solución implicará
inevitablemente una ambigüedad cuádruple. Se trata simplemente de la libertad que ya
hemos mencionado, de elegir las cuatro funciones de coordenadas en todo el espaciotiempo.
Es un ejercicio sencillo, aunque poco esclarecedor, escudriñar (4.83) para encontrar que no
aparecen todas las segundas derivadas temporales de la métrica. De hecho, encontramos
que ∂ 𝑔 aparece en (4.83), pero no ∂ 𝑔 . Por tanto, un "estado" en relatividad general
consistirá en una especificación de las componentes espaciales de la métrica 𝑔 |Σ y sus
primeras derivadas temporales ∂ 𝑔 |Σ sobre la hipersuperficie Σ, a partir de las cuales
podemos determinar la evolución futura utilizando (4.83), hasta una inevitable ambigüedad
en la fijación de las restantes componentes 𝑔 . La situación es precisamente análoga a la
del electromagnetismo, donde sabemos que ninguna cantidad de datos iniciales puede
bastar para determinar la evolución de manera única, ya que siempre existirá la libertad de
realizar una transformación gauge 𝐴 → 𝐴 + ∂ λ. En la relatividad general, pues, las
transformaciones de coordenadas desempeñan un papel que recuerda a las
transformaciones gauge en el electromagnetismo, en el sentido de que introducen
ambigüedad en la evolución temporal.
Una forma de hacer frente a este problema es simplemente "elegir una galga". En
electromagnetismo esto significa poner una condición en el potencial vectorial 𝐴 , que
restringirá nuestra libertad para realizar transformaciones gauge. Por ejemplo, podemos
elegir el calibre de Lorentz, en el que ▽ 𝐴 = 0, o el calibre temporal, en el que 𝐴 = 0.
Podemos hacer algo similar en relatividad general, fijando nuestro sistema de coordenadas.
Una opción popular es el calibre armónico (también conocido como calibre de Lorentz y una
serie de otros nombres), en el que
□𝑥 = 0. (4.84)
Aquí □ = ▽ ▽ es la covariante D'Alembertiana, y es crucial darse cuenta cuando tomamos
la derivada covariante que las cuatro funciones 𝑥 son sólo funciones, no componentes de
un vector. Por tanto, esta condición es simplemente
0 = □𝑥
= 𝑔 ∂ ∂ 𝑥 −𝑔 Γ ∂ 𝑥
= −𝑔 Γ . (4.85)
4 GRAVITACIÓN 104
En el espacio plano, por supuesto, las coordenadas cartesianas (en las que Γ = 0) son
coordenadas armónicas. (Como principio general, cualquier función f que satisfaga □f = 0
se llama "función armónica").
Para ver que esta elección de coordenadas fija con éxito nuestra libertad gauge,
reescribamos la condición (4.84) en una forma algo más simple. Tenemos
, (4.86)
a partir de la definición de los símbolos de Christoffel. Mientras tanto, de ∂ (𝑔 𝑔 ) =∂ 𝛿
= 0 tenemos
𝑔 ∂ 𝑔 = −𝑔 ∂ 𝑔 . (4.87)
Also, from our previous exploration of the variation of the determinant of the metric (4.65),
we have
. (4.88)
Poniendo todo junto, encontramos que (en general),
. (4.89)
Por lo tanto, la condición de calibre armónico (4.85) es equivalente a
∂ −𝑔 𝑔 = 0. (4.90)
Tomando la derivada parcial de esto con respecto a t = 𝑥 nos da
. (4.91)
Esta condición representa una ecuación diferencial de segundo orden para las componentes
de la métrica 𝑔 , anteriormente sin restricciones, en términos de los datos iniciales dados.
Por lo tanto, hemos conseguido fijar nuestra libertad gauge, en el sentido de que ahora
podemos resolver la evolución de toda la métrica en coordenadas armónicas. (Al menos
localmente; hemos pasado por alto el hecho de que nuestra elección gauge puede no estar
bien definida globalmente, y tendríamos que recurrir a trabajar en parches como de
costumbre. El mismo problema aparece en las teorías gauge de la física de partículas).
Nótese que aún nos queda algo de libertad; nuestra condición gauge (4.84) restringe cómo
se extienden las coordenadas desde nuestra hipersuperficie inicial Σ a lo largo del
espaciotiempo, pero aún podemos elegir las coordenadas 𝑥 en Σ como queramos. Esto
corresponde al hecho de que hacer una transformación de coordenadas 𝑥 → 𝑥 +𝛿 , con
□𝛿 = 0, no viola la condición gauge armónica.
Por lo tanto, tenemos un problema de valor inicial bien definido para la relatividad general;
un estado se especifica mediante las componentes espaciales de la métrica y sus derivadas
temporales en una hipersuperficie espacial Σ; dadas éstas, las componentes espaciales
(4.83) de las ecuaciones de Einstein nos permiten evolucionar la métrica hacia adelante en
el tiempo, hasta una ambigüedad en la elección de coordenadas que puede resolverse
mediante la elección del gauge. Debemos tener en cuenta que los datos iniciales no son
arbitrarios, sino que deben obedecer las restricciones (4.82). (Una vez que imponemos las
restricciones en una hipersuperficie espacial, las ecuaciones de movimiento garantizan que
se siguen cumpliendo, como se puede comprobar). Las restricciones tienen un propósito
útil, el de garantizar que el resultado sigue siendo covariante en el espaciotiempo después
4 GRAVITACIÓN 105
de que hayamos dividido nuestras variedades en "espacio" y "tiempo". En concreto, la

restricción 𝐺 = 8πG𝑇 implica que la evolución es independiente de nuestra elección de
coordenadas en Σ, mientras que 𝐺 = 8πG𝑇 refuerza la invariancia bajo diferentes formas
de dividir el espaciotiempo en hipersuperficies espaciales.
Una vez que hemos visto cómo plantear las ecuaciones de Einstein como un problema de
valor inicial, una cuestión de importancia crucial es la existencia de soluciones al problema.
Es decir, una vez que hemos especificado una hipersuperficie espacial con datos iniciales,
¿hasta qué punto podemos garantizar que se determinará un espaciotiempo único? Aunque
se puede hacer un gran trabajo
para responder a esta pregunta con cierta precisión, es bastante sencillo comprender las
formas en que puede no existir una solución bien definida, que ahora consideramos.
Lo más sencillo es considerar primero el problema de la evolución de los campos de materia
en un espaciotiempo de fondo fijo, en lugar de la evolución de la propia métrica. Por lo tanto,
consideramos una hipersuperficie espacial Σ en alguna variedad M con una métrica fija 𝑔 ,
y además consideramos algún subconjunto conectado S en Σ. Nuestro principio rector será
que ninguna señal puede viajar más rápido que la velocidad de la luz; por tanto, la
"información" sólo fluirá a lo largo de trayectorias temporales (“timelike”) o nulas (no
necesariamente geodésicas). Definimos el dominio futuro de dependencia de S,
denominado 𝐷 (𝑆) como el conjunto de todos los puntos p tales que toda curva
inextensible, pasada, temporal o nula, que pase por p debe cotar a S. ("Inextensible" justo
significa que la curva continúa para siempre, que no termina en algún punto finito).
Interpretamos esta definición de tal manera que el propio S es un subconjunto de 𝐷 (𝑆).
(Por supuesto, una formulación rigurosa no requiere una interpretación adicional más allá
de las definiciones, pero no estamos siendo todo lo rigurosos que podríamos ser ahora). Del
mismo modo, definimos el dominio de dependencia pasado 𝐷 (𝑆) de la misma manera, pero
sustituyendo " pasado en movimiento" por " futuro en movimiento". En general, algunos
puntos de M estarán en uno de los dominios de dependencia, y otros estarán fuera;
definimos la frontera de 𝐷 (𝑆) como el horizonte futuro de Cauchy 𝐻 (𝑆), y de la misma
manera la frontera de 𝐷 (𝑆) como el horizonte pasado de Cauchy 𝐻 (𝑆). Pueden
convencerse de que ambas son superficies nulas.
4 GRAVITACIÓN 106
+
H (S) +
D (S)
Σ
S
H - (S) D- (S)
La utilidad de estas definiciones debería ser evidente; si nada se mueve más rápido que la
luz, entonces las señales no pueden propagarse fuera del cono de luz de ningún punto p. Por
lo tanto, si toda curva que permanece dentro de este cono de luz debe cortar a S, entonces
la información especificada en S debería ser suficiente para predecir cuál es la situación en
p. (Es decir, los datos iniciales de los campos de materia dados en S pueden utilizarse para
resolver el valor de los campos en p). El conjunto de todos los puntos para los que podemos
predecir lo que ocurre conociendo lo que ocurre en S es simplemente la unión 𝐷 (𝑆) ∪
𝐷 (𝑆).
Podemos extender fácilmente estas ideas desde el subconjunto S a toda la hipersuperficie Σ.
El punto importante es que 𝐷 (Σ) ∪ 𝐷 (Σ) podría no ser todo M, incluso si la propia Σ
parece una hipersuperficie perfectamente respetable que se extiende por todo el espacio.
Hay un número de maneras en que esto puede suceder. Una posibilidad es que acabemos de
elegir una hipersuperficie "mala" (aunque es difícil dar una receta general para cuando una
hipersuperficie es mala en este sentido). Consideremos el espacio de Minkowski, y una
hipersuperficie similar al espacio Σ que queda al pasado del cono de luz de algún punto.
D+ ( Σ )
En este caso, Σ es una bonita superficie espacial, pero está claro que 𝐷 (Σ) termina en el
cono de luz, y no podemos utilizar la información sobre Σ para predecir lo que ocurre en
todo el espacio de Minkowski. Por supuesto, hay otras superficies que podríamos haber
elegido para las cuales el dominio de dependencia habría sido la totalidad de las variedades,
así que esto no nos preocupa demasiado.
4 GRAVITACIÓN 107
Un ejemplo algo más no trivial es el conocido como espacio de Misner. Se trata de un

espaciotiempo bidimensional con la topología de 𝐑 × 𝑆 , y una métrica para la cual los
conos de luz se inclinan progresivamente a medida que se avanza en el tiempo. A partir de
un determinado punto, es posible viajar en una trayectoria semejante al tiempo que
envuelve el 𝑆 y vuelve a sí mismo; esto se conoce como una curva temporal cerrada. Si
hubiéramos especificado una superficie Σ a este pasado de este punto, entonces ninguno de
los puntos de la región que contiene curvas cerradas de tipo temporal está en el dominio de
dependencia de Σ, ya que las propias curvas cerradas de tipo temporal no se cortan con Σ.
Este es obviamente un problema peor que el anterior, ya que un problema de valor inicial
bien definido no parece existir en este espaciotiempo. (En realdad problemas como este son
identificar
curva
temporal
cerrada
espacio
Misner
Σ
objeto de un interés de investigación actual, por lo que no afirmaré que la cuestión esté
resuelta).
Un último ejemplo es la existencia de singularidades, es decir, puntos que no están en las
variedades aunque se pueda llegar a ellos recorriendo una geodésica durante una distancia
finita. Normalmente se producen cuando la curvatura se vuelve infinita en algún punto; si
esto ocurre, ya no se puede decir que el punto forme parte del espaciotiempo. Una
ocurrencia de este tipo puede conducir a la emergencia e un horizonte de Cauchy - un punto
p que está en el futuro de una singularidad no puede estar en el dominio de dependencia de
una hipersuperficie hacia el pasado de la singularidad, porque habrá curvas desde p que
simplemente terminen en la singularidad.
+
H ( Σ)
+
D ( Σ)
Σ
4 GRAVITACIÓN 108
Todos estos obstáculos pueden surgir también en el problema de valor inicial de la RG,
cuando intentamos hacer evolucionar la propia métrica a partir de los datos iniciales. Sin
embargo, son de diferente grado de dificultad. La posibilidad de elegir una hipersuperficie
inicial "mala" no se presenta muy a menudo, especialmente porque la mayoría de las
soluciones se encuentran globalmente (resolviendo las ecuaciones de Einstein en todo el
espaciotiempo). La única situación en la que hay que tener cuidado es en la solución
numérica de las ecuaciones de Einstein, donde una mala elección de la hipersuperficie
puede llevar a dificultades numéricas aunque en principio exista una solución completa. Las
curvas temporales cerradas parecen ser algo que la RG se esfuerza por evitar - ciertamente
hay soluciones que las contienen, pero la evolución a partir de datos iniciales genéricos no
suele producirlas. Las singularidades, en cambio, son prácticamente inevitables. El simple
hecho de que la fuerza gravitatoria sea siempre atrayente tiende a juntar la materia,
aumentando la curvatura, y conduciendo generalmente a algún tipo de singularidad. Esto es
algo con lo que aparentemente debemos aprender a vivir, aunque existe la esperanza de que
una teoría bien definida de la gravedad cuántica elimine las singularidades de la RG clásica.
5 MÀS GEOMETRÍA 109
5. MÁS GEOMETRÍA
Una vez entendido cómo se adaptan las leyes de la física al espaciotiempo curvo, es
innegable la tentación de empezar con las aplicaciones. Sin embargo, unas cuantas técnicas
matemáticas adicionales simplificarán mucho nuestra tarea, así que haremos una breve
pausa para explorar un poco más la geometría de las variedades.
Cuando hablamos de las variedades en la sección 2, introdujimos los mapas entre dos
variedades diferentes y cómo se pueden componer los mapas. Ahora nos ocuparemos del
uso de dichos mapas para transportar campos tensoriales de una variedad a otra.
Consideramos, pues, dos variedades M y N, posiblemente de distinta dimensión, con
sistemas de coordenadas xµ e yα, respectivamente. Imaginamos que tenemos un mapa 𝜙 :
M → N y una función f : N → R.
𝜙* f = f 𝜙
R
M
f
𝜙
µ
𝑥⬚ yα
𝐑 𝐑𝒏
Es obvio que podemos componer 𝜙 con f para construir un mapa (f o 𝜙) : M → R, que es

simplemente una función sobre M. Tal construcción es lo suficientemente útil como para
obtener su propio nombre; definimos el retroceso o arrastre (“pullback”) de f por 𝜙,
denotado 𝜙∗f, por
𝜙∗f = (𝑓 o 𝜙) . (5.1)
El nombre tiene sentido, ya que pensamos en 𝜙∗ como "tirar hacia atrás" la función f de N a
M.
Podemos tirar de funciones hacia atrás, pero no podemos empujarlas hacia adelante. Si
tenemos una función g : M → R, no hay forma de componer g con 𝜙 para crear una función
sobre N; las flechas no encajan correctamente. Pero recordemos que un vector puede
pensarse como un operador de derivada que mapea funciones suaves a números reales. Esto
nos permite definir el empuje o avance (“pushforward “) de un vector; si V (p) es un vector
en un punto p de M, definimos el vector pushforward 𝜙 ∗V en el punto 𝜙(p) en N ejerciendo
su acción sobre funciones en N:
(𝜙 ∗ 𝑉 )(𝑓)= V (𝜙∗ 𝑓). (5.2)
Así que para impulsar un campo vectorial decimos que "la acción de 𝜙 𝑉 sobre cualquier
∗
función es simplemente la acción de V sobre el pullback de esa función".

Esto es un poco abstracto, y sería bueno tener una descripción más concreta. Sabemos que
una base para vectores en M viene dada por el conjunto de derivadas parciales 𝜕 = ,
5 MÁS GEOMETRÍA 110
y una base en N viene dada por el conjunto de derivadas parciales 𝜕 = . Por tanto, nos
gustaría relacionar las componentes de V = 𝑉 𝜕 con las de 𝑉) =
(𝜙 ∗ 𝑉) 𝜕 . Podemos
(𝜙 ∗
encontrar la relación buscada aplicando el vector empujado a una función de prueba y
utilizando la regla de la cadena (2.3):
(𝜙 ∗ 𝑉) 𝜕 f = 𝑉 𝜕 (𝜙∗ 𝑓)
= 𝑉 𝜕 (𝑓 o 𝜙)
=𝑉 𝜕 𝑓. (5.3)
Esta sencilla fórmula hace irresistible pensar en la operación arrastre (“pushforward”) 𝜙 ∗

como un operador matricial, (𝜙 ∗ 𝑉) = (𝜙 ∗ ) 𝑉 , siendo la matriz dada por
(𝜙 ∗ ) = (5.4)
El comportamiento de un vector bajo un pushforward tiene, pues, un inconfundible parecido

con la ley de transformación de vectores bajo cambio de coordenadas. De hecho es una
generalización, ya que cuando M y N son las mismas variedades las construcciones son
(como ya veremos) idénticas; pero no te engañes, ya que en general µ y α tienen diferentes
valores permitidos, y no hay ninguna razón para que la matriz sea invertible.
Es un ejercicio gratificante convencerse de que, aunque se pueden adelantar vectores de M

a N (dado un mapa 𝜙 : M → N), en general no se pueden arrastrar (“pullback”) -sólo hay que
seguir tratando de inventar una construcción apropiada hasta que quede clara la inutilidad
del intento. Dado que los uno-formas son duales a los vectores, no debería sorprendernos
escuchar que ls uno-formas pueden ser arrastradas (pero no en general empujadas hacia
adelante (“pushforward”). Para ello, recordemos que las formas únicas son mapas lineales
de los vectores a los números reales. El pullback 𝜙∗ ω de un uno-forma ω en N puede, por
tanto, definirse por su acción sobre un vector V en M, equiparándolo con la acción del propio
ω sobre el avance (“pushforward”) de V :
(𝜙∗ ω)(𝑉) = ω(𝜙 ∗ 𝑉) . (5.5)
Una vez más, existe una descripción matricial simple del operador de retroceso en las
formas, (𝜙∗ 𝜔) = (𝜙∗ ) 𝜔 , que podemos derivar utilizando la regla de la cadena. Viene
dada por
(𝜙∗ ) = . (5.6)
Es decir, se trata de la misma matriz que el pushforward (5.4), pero, por supuesto, se contrae
un índice diferente cuando la matriz actúa para arrastrar los uno-formas.
Hay una manera de pensar por qué los pullbacks y los pushforwards funcionan en algunos
objetos pero no en otros, que puede o no ser útil. Si denotamos el conjunto de funciones
suaves en M por ℱ(M), entonces un vector V(𝑝) en un punto p de M (es decir, un elemento
del espacio tangente 𝑇 M) puede pensarse como un operador desde ℱ(𝑀) a R. Pero ya
sabemos que el operador pullback sobre funciones mapea ℱ(N) a ℱ(M), (al igual que el
propio 𝜙 mapea M a N, pero en sentido contrario). Por tanto, podemos definir el
pushforward 𝜙 ∗ que actúa sobre los vectores simplemente componiendo mapas, tal y como
definimos primero el pullback de funciones:
𝜙*( V (p)) =V (p) 𝜙

*
V (p)
𝜙
*
ℱ (M ) ℱ (N )
Del mismo modo, si 𝑇 𝑁 es el espacio tangente en un punto q de N, entonces una forma única
ω en q (es decir, un elemento del espacio cotangente 𝑇 ∗ 𝑁) puede considerarse como un
operador de 𝑇 𝑁 a R. Dado que el pushforward 𝜙 ∗ mapea 𝑇 M a 𝑇 ( ) 𝑁, el pullback 𝜙∗ de
un uno-forma única también puede considerarse como una mera composición de mapas:
R
∅*(ω) =ω 𝜙*
ω
𝜙*
Tp M 𝑇 ( )𝑁
M
Si esto no es útil, no nos preocupemos. Pero sí debemos tener claro lo que existe y lo que
no; los conceptos reales son sencillos, lo que lleva a la confusión es recordar qué mapa va
en cada dirección.
Recordemos además que un tensor (0, l) -uno con índices inferiores l y ninguno superior-
es un mapa lineal del producto directo de vectores l a R. Por lo tanto, podemos arrastrar no
sólo uno-formas, sino también tensores con un número arbitrario de índices inferiores. La
definición es simplemente la acción del tensor original sobre los vectores empujados:
(𝜙∗ 𝑇) 𝑉 ( ) , 𝑉 ( ) , . . . , 𝑉 ( ) = 𝑇 𝜙 ∗ 𝑉 ( ) , 𝜙 ∗ 𝑉 ( ) , . . . , 𝜙 ∗ 𝑉 ( ) , (5.7)
donde 𝑇 … es un tensor (0, l) en N. De forma similar, podemos adelantar (“pushforward”)
cualquier tensor (k, 0) 𝑆 … actuando sobre los uno-formas retraídos:
(𝜙 ∗ 𝑆) 𝜔 ( ) , 𝜔 ( ) , . . . , 𝜔 ( )
= 𝑆 𝜙∗ 𝜔 ( ) , 𝜙∗ 𝜔 ( ) , . . . , 𝜙∗ 𝜔 ( )
. (5.8)
Afortunadamente, las representaciones matriciales del pushforward (5.4) y del pullback
(5.6) se extienden a los tensores de rango superior simplemente asignando una matriz a
cada índice; así, para el pullback de un tensor (0, l), tenemos
(𝜙∗ 𝑇) ... = ... 𝑇 ... , (5.9)
mientras que para el avance de un tensor (k, 0) tenemos
(𝜙 ∗ 𝑆) ...
= ... 𝑆 ...
. (5.10)
Por lo tanto, nuestra imagen completa es:

𝜙*
k k
( )
0 ( 0)
𝜙
M N
𝜙∗
0 0
1 1
Obsérvese que los tensores con índices superiores e inferiores no pueden, por lo general, ni
avanzar ni retroceder.
Esta maquinaria se vuelve algo menos imponente una vez que la vemos en funcionamiento
en un ejemplo sencillo. Un caso común de un mapa entre dos variedades es cuando M es en
realidad una subvariedad de N; entonces hay un mapa obvio de M a N que simplemente lleva
un elemento de M al "mismo" elemento de N. Consideremos nuestro ejemplo habitual, la 2-
esfera incrustada en 𝐑 , como el lugar de los puntos a una distancia unitaria del origen. Si
ponemos coordenadas 𝑥 = (θ, 𝜙) en M = 𝑆 e 𝑦 = (x,y,z) en N = 𝐑 , el mapa 𝜙 : M → N viene
dado por
𝜙(𝜃, 𝜙) = (sen𝜃cos𝜙, sen𝜃sen𝜙, cos𝜙) . (5.11)
En el pasado hemos considerado la métrica 𝑑𝑠 = d𝑥 + d𝑦 + d𝑧 en 𝐑 , y hemos dicho que
induce una métrica d𝜃 + sen θ d𝜙 en 𝑆 , simplemente sustituyendo (5.11) en esta métrica
plana en 𝐑 . En su momento no justificamos tal afirmación, pero ahora podemos hacerlo.
(Por supuesto que sería más fácil si trabajáramos en coordenadas esféricas sobre 𝐑 , pero
hacerlo de la manera difícil es más ilustrativo). La matriz de derivadas parciales viene dada
por
cos𝜃cos𝜙 cos𝜃sen𝜙 −sen𝜃
= . (5.12)
−sen𝜃senϕ sen𝜃cosϕ 0
La métrica en S2 se obtiene simplemente arrastrando (“pulling back “) la métrica de 𝐑 ,
(𝜙 ∗ 𝑔) = 𝑔
1 0
= , (5.13)
0 sen 𝜃
como se puede comprobar fácilmente. Una vez más, la respuesta es la misma que se
obtendría por sustitución ingenua, pero ahora sabemos por qué.
Hemos sido cuidadosos en enfatizar que un mapa 𝜙 : M → N puede ser usado para “empujar”
ciertas cosas hacia adelante y “tirar” otras hacia atrás. La razón por la que generalmente no
funciona en ambos sentidos se debe a que 𝜙 puede no ser invertible. Si 𝜙 es invertible (y
tanto 𝜙 como 𝜙 son suaves, lo que siempre asumimos implícitamente), entonces define
un difeomorfismo entre M y N. En este caso M y N son la misma variedad abstracta. La
belleza de los difeomorfismos es que podemos usar tanto 𝜙 como 𝜙 para mover tensores
de M a N; esto nos permitirá definir el “pushforward” y el “pullback” de tensores arbitrarios.
...
En concreto, para un campo tensorial (k, l) 𝑇 ... en M, definimos el pushforward
mediante
(𝜙 ∗ 𝑇) 𝜔 ( ) , . . . , 𝜔 ( ) , 𝑉 ( ) , . . . , 𝑉 ( ) = T 𝜙∗ 𝜔 ( ) , . . . , 𝜙∗ 𝜔 ( ) , [𝜙 ]∗ 𝑉 ( ) , . . . , [𝜙 ]∗ 𝑉 ( ) ,
(5.14)
donde las 𝜔 ( ) son uno-formas en N y las 𝑉 ( ) son vectores en N. En componentes esto se
convierte en
... ...
(𝜙 ∗ 𝑇) ... = . .. ... 𝑇 ... , (5.15)
La aparición de la matriz inversa 𝜕𝑥 /𝜕𝑦 es legítima porque 𝜙 es invertible. Nótese que

también podríamos definir el pullback de la forma obvia, pero no es necesario escribir
ecuaciones separadas porque el pullback 𝜙∗ es el mismo que el pushforward a través del
mapa inverso, [𝜙 ]∗.
Ahora estamos en condiciones de explicar la relación entre los difeomorfismos y las
transformaciones de coordenadas. La relación es que son dos formas diferentes de hacer
precisamente lo mismo. Si se quiere, los difeomorfismos son "transformaciones de
coordenadas activas", mientras que las transformaciones de coordenadas tradicionales son
"pasivas". Consideremos una variedad M n-dimensional con funciones de coordenadas 𝑥 :
M → 𝐑 . Para cambiar las coordenadas podemos simplemente introducir nuevas funciones
𝑦 : M → 𝐑 ("mantener la variedad fija, cambiar los mapas de coordenadas"), o podríamos
igualmente introducir un difeomorfismo 𝜙 : M → M, tras lo cual las coordenadas serían
simplemente los pullbacks (arrastres) (𝜙∗ 𝑥) : M → 𝐑 ("mover los puntos de la variedad,
y luego evaluar las coordenadas de los nuevos puntos"). En este sentido, (5.15) es realmente
la ley de transformación tensorial, sólo que pensada desde un punto de vista diferente.
𝜙
xµ
𝐑
yµ
(𝜙∗ 𝑥)
Dado que un difeomorfismo nos permite retroceder y adelantar tensores arbitrarios,

proporciona otra forma de comparar tensores en diferentes puntos de una variedad. Dado
un difeomorfismo 𝜙 : M → M y un campo tensorial Tµ1···µkν1·· νl (𝑥)podemos formar la
...
diferencia entre el valor del tensor en algún punto p y 𝜙∗ 𝑇 … 𝜙(𝑝) , su valor en
𝜙(𝑝) retrocedido a p. Esto sugiere que podríamos definir otro tipo de operador de derivada
sobre campos tensoriales, uno que categorice la tasa de cambio del tensor a medida que
cambia bajo el difeomorfismo. Para ello, sin embargo, un único difeomorfismo discreto es
insuficiente; necesitamos una familia de difeomorfismos de un parámetro, 𝜙 . Esta familia
puede pensarse como un mapa suave R × 𝑀 → 𝑀, tal que para cada t ∈ R 𝜙 es un
difeomorfismo y 𝜙 o 𝜙 = 𝜙 . Nótese que esta última condición implica que 𝜙 es el mapa
identidad.
Las familias de difeomorfismos de un parámetro pueden pensarse como surgidas de campos
vectoriales (y viceversa). Si consideramos lo que ocurre con el punto p bajo la familia
completa 𝜙 , está claro que describe una curva en M; como lo mismo ocurrirá con cada
punto de M, estas curvas llenan la variedad (aunque puede haber degeneraciones en las que
los difeomorfismos tengan puntos fijos). Podemos definir un campo vectorial 𝑉 (𝑥) como
el conjunto de vectores tangentes a cada una de estas curvas en cada punto, evaluados en t
= 0. Un ejemplo en 𝑆 lo proporciona el difeomorfismo 𝜙 (𝜃, 𝜙 ) = (𝜃, 𝜙 + 𝑡).
Podemos invertir la construcción para definir una familia de difeomorfismos de un solo
parámetro a partir de cualquier campo vectorial. Dado un campo vectorial 𝑉 (𝑥), definimos
las curvas integrales del campo vectorial como aquellas curvas 𝑥 (𝑡) que resuelven
=𝑉 . (5.16)
Obsérvese que esta ecuación de aspecto familiar debe interpretarse ahora en sentido
contrario al habitual: se nos dan los vectores, a partir de los cuales definimos las curvas. Las
soluciones de (5.16) están garantizadas mientras no hagamos ninguna tontería como correr
hacia el borde de nuestra variedad; cualquier texto de geometría diferencial estándar tendrá
la prueba, que equivale a encontrar un sistema de coordenadas inteligente en el que el
problema se reduce al teorema fundamental de las ecuaciones diferenciales ordinarias.
Nuestros difeomorfismos 𝜙 representan el "flujo por las curvas integrales", y el campo
vectorial asociado se denomina generador del difeomorfismo. (Las curvas integrales se
utilizan todo el tiempo en la física elemental, sólo que no se les da el nombre. Las "líneas de
flujo magnético" trazadas por limaduras de hierro en presencia de un imán son
simplemente las curvas integrales del vector campo magnético B).
Dado un campo vectorial 𝑉 (𝑥), entonces, tenemos una familia de difeomorfismos
parametrizados por t, y podemos preguntar a qué velocidad cambia un tensor a medida que
recorremos las curvas integrales. Para cada t podemos definir este cambio como
... ... ...
△ 𝑇 … (𝑝) = 𝜙 ∗ 𝑇 … 𝜙 (𝑝) −𝑇 … (𝑝) . (5.17)
Obsérvese que los dos términos del lado derecho son tensores en p.
M
T [ 𝜙 (p)]
𝑥 (t)
𝜙 ∗ [𝑇𝜙 (p)]
𝜙
𝜙 (p)
T(p)
p
Definimos entonces la derivada de Lie del tensor a lo largo del campo vectorial como
𝜇1 ...𝜇𝑘
... △𝑡 𝑇 𝜈1 …𝜈𝑙
ℒ 𝑇 … = 𝑡
(5.18)
La derivada de Lie es un mapa de campos tensoriales (k, l) a campos tensoriales (k, l), que
es manifiestamente independiente de las coordenadas. Dado que la definición equivale
esencialmente a la definición convencional de una derivada ordinaria aplicada a las
funciones componentes del tensor, debe quedar claro que es lineal,
ℒ (𝑎𝑇 + 𝑏𝑆) = aℒ T+𝑏ℒ 𝑆 , (5.19)

y obedece a la regla de Leibniz,
ℒ (𝑇 ⊗ 𝑆) = (ℒ 𝑇) ⊗ 𝑆 + T⊗ (ℒ𝑉 𝑆) , (5.20)
donde S y T son tensores y a y b son constantes. La derivada de Lie es, de hecho, una noción
más primitiva que la derivada covariante, ya que no requiere la especificación de una
conexión (aunque sí requiere un campo vectorial, por supuesto). Un momento de reflexión
muestra que se reduce a la derivada ordinaria sobre funciones,
ℒ 𝑓 = 𝑉(𝑓) = 𝑉 𝜕 𝑓 . (5.21)
Para discutir la acción de la derivada de Lie sobre los tensores en términos de otras
operaciones que conocemos, es conveniente elegir un sistema de coordenadas adaptado a
nuestro problema. En concreto, trabajaremos en coordenadas 𝑥 para las que 𝑥 es el
parámetro a lo largo de las curvas integrales (y las demás coordenadas se eligen como
queramos). Entonces el campo vectorial toma la forma V = ∂/∂𝑥 ; es decir, tiene
componentes 𝑉 = (1, 0, 0, . . . , 0). La magia de este sistema de coordenadas es que un
difeomorfismo por t equivale a una transformación de coordenadas de 𝑥 a 𝑦 = (𝑥 + t, 𝑥 ,
. . . , 𝑥 ). Así, a partir de (5.6) la matriz de retroceso es simplemente
(𝜙 ∗ ) =𝛿 , (5.22)
y las componentes del tensor que se arrastra (“pullback”) de 𝜙 (𝑝) a p son simplemente
... ...
𝜙 ∗ 𝑇 … 𝜙 (𝑝) =𝑇 … (𝑥 + 𝑡, 𝑥 , . . . , 𝑥 ) . (5.23)
Entonces, en este sistema de coordenadas, la derivada de Lie se convierte en
... 𝜇1 ...𝜇𝑘
ℒ 𝑇 … = 𝑇 𝜈1 …𝜈𝑙 , (5.24)
y concretamente la derivada de un campo vectorial 𝑈 (𝑥) es
ℒ 𝑈 = . (5.25)
Aunque esta expresión es claramente no covariante, sabemos que el conmutador [V,U] es

un tensor bien definido, y en este sistema de coordenadas
[𝑉, 𝑈] = 𝑉 ∂ 𝑈 + 𝑈 ∂ 𝑉
= . (5.26)
Por tanto, la derivada de Lie de U respecto a V tiene las mismas componentes en este sistema
de coordenadas que el conmutador de V y U; pero como ambos son vectores, deben ser
iguales en cualquier sistema de coordenadas:
ℒ 𝑈 = [𝑉, 𝑈] . (5.27)
Como consecuencia inmediata, tenemos que ℒ S = −ℒ 𝑉. Esto es debido a (5.27), que el
conmutador se denomina a veces el "corchete de Lie".
Para derivar la acción de ℒ sobre un uno-forma única 𝜔 , comencemos por considerar la

acción sobre el escalar 𝜔 𝑈 para un campo vectorial arbitrario 𝑈 . Utilizaremos primero
el hecho de que la derivada de Lie con respecto a un campo vectorial se reduce a la acción
del propio vector cuando se aplica a un escalar:
ℒ 𝜔 𝑈 = V 𝜔 𝑈
= 𝑉 ∂ 𝜔 𝑈
= 𝑉 ∂ 𝜔 𝑈 + 𝑉 𝜔 (∂ 𝑈 ) . (5.28)
Y ahora utilizamos la regla de Leibniz en el escalar original:
ℒ 𝜔 𝑈 = (ℒ 𝜔) 𝑈 + 𝜔 (ℒ 𝑈)
= (ℒ 𝜔) 𝑈 + 𝜔 𝑉 ∂ 𝑈 − 𝜔 𝑈 ∂ 𝑉 . (5.29)
Poniendo estas expresiones iguales entre sí e imponiendo que la igualdad se mantenga para
𝑈 arbitraria, vemos que
ℒ 𝜔 = 𝑉 ∂ 𝜔 + (∂ 𝑉 )𝜔 , (5.30)
que (al igual que la definición del conmutador) es completamente covariante, aunque no de
forma manifiesta.
Por un procedimiento similar podemos definir la derivada de Lie de un campo tensorial
arbitrario. La respuesta se puede escribir
... ...
ℒ 𝑇 … = 𝑉 ∂ 𝑇 …
... ...
−(∂ 𝑉 )𝑇 … − (∂ 𝑉 )𝑇 … − ...
... ...
+ ∂ 𝑉 𝑇 … + ∂ 𝑉 𝑇 … +... (5.31)
Una vez más, esta expresión es covariante, a pesar de las apariencias. Sin embargo, sería sin
duda reconfortante tener una expresión equivalente que pareciera manifiestamente
tensorial. De hecho, resulta que podemos escribir
... ...
ℒ 𝑇 … = 𝑉 ▽ 𝑇 …
... ...
− (▽ 𝑉 )𝑇 … − (▽ 𝑉 )𝑇 … − ...
... ...
+ ▽ 𝑉 𝑇 … + ▽ 𝑉 𝑇 … +. . . (5.32)
donde ▽ representa cualquier derivada covariante simétrica (sin torsión) (incluyendo, por
supuesto, una derivada de una métrica). Puede comprobarse que todos los términos que
implicarían coeficientes de conexión si expandiéramos (5.32) se cancelarían, dejando sólo
(5.31). Ambas versiones de la fórmula de la derivada de Lie son útiles en distintos
momentos. Una fórmula especialmente útil es la de la derivada de Lie de la métrica:
ℒ 𝑔 =𝑉 ▽ 𝑔 + ▽ 𝑉 𝑔 + ▽ 𝑉 𝑔
= ▽ 𝑉 +▽ 𝑉
= 2 ▽( 𝑉 ) , (5.33)
donde ▽ es la derivada covariante derivada de 𝑔 .
Pongamos algunas de estas ideas en el contexto de la relatividad general. A menudo se oye
proclamar que la RG es una teoría "invariante por difeomorfismo". Lo que esto significa es
que, si el universo está representado por una variedad M con métrica 𝑔 y campos de
materia ψ, y 𝜙 : M → M es un difeomorfismo, entonces los conjuntos (M, 𝑔 , ψ) y (M, 𝜙∗ 𝑔 ,
𝜙∗ ψ) representan la misma situación física. Dado que los difeomorfismos no son más que
transformaciones de coordenadas activas, ésta es una forma elegante de decir que la teoría
es invariante de coordenadas. Aunque tal afirmación es cierta, es una fuente de grandes
malentendidos, por el simple hecho de que transmite muy poca información. Cualquier
teoría física medianamente respetable es invariante de coordenadas, incluidas las que se
basan en la relatividad especial o en la mecánica newtoniana; la RG no es única en este
sentido. Cuando la gente dice que la RG es invariante por difeomorfismo, lo más probable es
que tenga en mente uno de los dos conceptos (estrechamente relacionados): la teoría está
libre de "geometría previa", y no hay un sistema de coordenadas preferido para el
espaciotiempo. El primero de ellos se desprende del hecho de que la métrica es una variable
dinámica, y junto con ella el elemento de conexión y volumen, etc. Nada nos viene dado de
antemano, a diferencia de lo que ocurre en la mecánica clásica o en la RE. En consecuencia,
no hay manera de simplificar la vida ciñéndose a un sistema de coordenadas específico
adaptado a algunos elementos absolutos de la geometría. Este estado de cosas nos obliga a
ser muy cuidadosos; es posible que dos configuraciones supuestamente distintas (de
materia y métrica) en RG sean en realidad "la misma", relacionadas por un difeomorfismo.
En una aproximación integral de la trayectoria a la gravedad cuántica, en la que nos gustaría
sumar todas las configuraciones posibles, hay que tener especial cuidado para no excederse
permitiendo que configuraciones físicamente indistinguibles contribuyan más de una vez.
Mientras tanto, en la RE o en la mecánica newtoniana, la existencia de un conjunto de
coordenadas preferidas nos salva de tales ambigüedades. El hecho de que la RG no tenga un
sistema de coordenadas preferido se confunde a menudo con la afirmación de que es
invariante de coordenadas (o "generalmente covariante"); ambas cosas son ciertas, pero
una tiene más contenido que la otra.
Por otro lado, el hecho de la invariancia del difeomorfismo puede aprovecharse.
Recordemos que la acción completa para la gravedad acoplada a un conjunto de campos de
materia 𝜓 viene dada por una suma de la acción de Hilbert para la RG más la acción de la
materia,
S= 𝑆 𝑔 +𝑆 𝑔 ,𝜓 . (5.34)
La acción de Hilbert 𝑆 es invariante por difeomorfismo cuando se considera de forma

aislada, por lo que la acción de la materia 𝑆 también debe serlo si la acción en su conjunto
ha de ser invariante. Podemos escribir la variación de 𝑆 bajo un difeomorfismo como
𝛿𝑆 𝛿𝑆𝑀
𝛿𝑆 = 𝑑 𝑥 𝛿𝑔𝑀 𝛿𝑔 + 𝑑 𝑥 𝑖 𝛿𝜓 . (5.35)
𝜈 𝛿𝜓
No estamos considerando variaciones arbitrarias de los campos, sólo las que resultan de un
difeomorfismo. Sin embargo, las ecuaciones de movimiento de la materia nos dicen que la
variación de 𝑆 con respecto a 𝜓 se desvanecerá para cualquier variación (ya que la parte
gravitacional de la acción no involucra los campos de materia). Por lo tanto, para una teoría
invariante del difeomorfismo el primer término del lado derecho de (5.35) debe
desaparecer. Si el difeomorfismo es generado por un campo vectorial 𝑉 (𝑥), el cambio
infinitesimal en la métrica está simplemente dado por su derivada de Lie a lo largo de 𝑉 ;
por (5.33) tenemos
𝛿𝑔 =ℒ 𝑔
= 2 ▽( 𝑉 ) . (5.36)
Haciendo 𝛿𝑆 implica
0 = 𝑑 𝑥 ▽𝜇 𝑉 𝜈
= - 𝑑 𝑥 −𝑔 𝑉 ▽ , (5.37)
√
donde podemos eliminar la simetrización de ▽( 𝑉 ) ya que 𝛿𝑆 / 𝛿𝑔 ya es simétrico.
Exigiendo que (5.37) se cumpla para difeomorfismos generados por campos vectoriales
arbitrarios 𝑉 , y utilizando la definición (4.70) del tensor de energía-momento, obtenemos
precisamente la ley de conservación de energía-momento,
▽ 𝑇 =0. (5.38)
Por eso hemos afirmado antes que la conservación de 𝑇 era algo más que una simple
consecuencia del Principio de Equivalencia; es mucho más segura que eso, ya que sólo se
basa en la invariancia del difeomorfismo de la teoría.
Hay un uso más para el que pondremos la maquinaria que hemos establecido en esta
sección: las simetrías de los tensores. Decimos que un difeomorfismo 𝜙 es una simetría de
un tensor T si el tensor es invariante después de haber sido arrastrado (“pulled back”) bajo
𝜙:
𝜙∗ 𝑇 = 𝑇. (5.39)
Aunque las simetrías pueden ser discretas, es más común tener una familia de simetrías de
un parámetro 𝜙 . Si la familia está generada por un campo vectorial 𝑉 (𝑥), entonces (5.39)
equivale a
ℒ 𝑇 =0. (5.40)
Por (5.25), una implicación de una simetría es que, si T es simétrico bajo alguna familia de
difeomorfismos de un parámetro, siempre podemos encontrar un sistema de coordenadas
en el que las componentes de T son todas independientes de una de las coordenadas (la
coordenada de la curva integral del campo vectorial). Lo contrario también es cierto; si
todas las componentes son independientes de una de las coordenadas, entonces el campo
vectorial de derivadas parciales asociado a esa coordenada genera una simetría del tensor.
Las simetrías más importantes son las de la métrica, para la que 𝜙∗ 𝑔 = 𝑔 . Un
difeomorfismo de este tipo se llama isometría. Si una familia de isometrías de un parámetro
está generada por un campo vectorial 𝑉 (𝑥), entonces 𝑉 se conoce como campo vectorial
de Killing. La condición de que 𝑉 sea un vector de Killing es, por lo tanto
ℒ =0, (5,41)
o de (5.33)
▽( 𝑉 ) =0. (5.42)
Esta última versión es la ecuación de Killing. Si un espaciotiempo tiene un vector de Killing,
entonces sabemos que podemos encontrar un sistema de coordenadas en el que la métrica
es independiente de una de las coordenadas.
El hecho más útil sobre los vectores de Killing es, con mucho, que los vectores de Killing
implican cantidades conservadas asociadas al movimiento de las partículas libres. Si 𝑥 (𝜆) es
una geodésica con vector tangente 𝑈 = 𝑑𝑥 /dλ, y 𝑉 es un vector de Killing, entonces
𝑈 ▽ 𝑉𝑈 =𝑈 𝑈 ▽ 𝑉 +𝑉𝑈 ▽ 𝑈
=0, (5.43)
donde el primer término desaparece por la ecuación de Killing y el segundo por el hecho de
que 𝑥 (𝜆) es una geodésica. Así, la cantidad 𝑉 𝑈 se conserva a lo largo de la línea del mundo
de la partícula. Esto puede entenderse físicamente: por definición, la métrica no cambia a lo
largo de la dirección del vector de Killing. Por lo tanto, hablando en términos generales, una
partícula libre no sentirá ninguna "fuerza" en esta dirección, y, en consecuencia, la

componente de su momento en esa dirección se conservará.
Hace tiempo nos referimos al concepto de espacio con simetría máxima, sin ofrecer una
definición rigurosa. La definición rigurosa es que un espacio con simetría máxima es
aquel que posee el mayor número posible de vectores de Killing, que en una variedad de n
dimensiones es n(n+ 1)/2. No vamos a demostrar esta afirmación, pero es fácil de entender
a nivel informal. Consideremos el espacio euclidiano 𝐑 , donde las isometrías son bien
conocidas por nosotros: traslaciones y rotaciones. En general habrá n traslaciones, una por
cada dirección en la que nos podemos mover. También habrá n(n - 1)/2 rotaciones; para
cada una de las n dimensiones hay n - 1 direcciones en las que lo podemos rotar, pero
debemos dividir por dos para no contar de más (girar x en y y girar y en x son dos versiones
de la misma cosa). Por tanto, tenemos
( ) ( )
𝑛+ = (5.44)
vectores de Killing independientes. El mismo tipo de argumento de recuento se aplica a los

espacios de máxima simetría con curvatura (como las esferas) o a una firma no euclidiana
(como el espacio de Minkowski), aunque los detalles son marginalmente diferentes.
Aunque puede o no ser sencillo resolver realmente la ecuación de Killing en cualquier
espaciotiempo dado, con frecuencia es posible escribir algunos vectores de Killing por
inspección. (Por supuesto, una métrica "genérica" no tiene vectores de Killing en absoluto,
pero para simplificar las cosas a menudo tratamos con métricas con altos grados de
simetría). Por ejemplo, en 𝐑 con la métrica 𝑑𝑠 = d𝑥 +d𝑦 , la independencia de las
componentes de la métrica con respecto a x e y produce inmediatamente dos vectores de
Killing:
𝑋 = (1, 0) ,
𝑌 = (0, 1) . (5.45)
Estos representan claramente las dos traslaciones. La única rotación correspondería al
vector R = ∂/∂θ si estuviéramos en coordenadas polares; en coordenadas cartesianas se
convierte en
𝑅 = (−𝑦, 𝑥) . (5.46)
Pueden Uds. comprobar que esto realmente resuelve la ecuación de Killing.
Observen que en n ≥ 2 dimensiones, puede haber más vectores de Killing que dimensiones.
Esto se debe a que un conjunto de campos vectoriales de Killing puede ser linealmente
independiente, aunque en un punto cualquiera de las variedades los vectores de ese punto
sean linealmente dependientes. Es trivial demostrar (por lo que debería hacerlo el lector
por sí mismo) que una combinación lineal de vectores de Killing con coeficientes constantes
sigue siendo un vector de Killing (en cuyo caso la combinación lineal no cuenta como un
vector de Killing independiente), pero esto no es necesariamente cierto con coeficientes que
varían sobre la variedad. También podrán demostrar que el conmutador de dos campos
vectoriales de Killing es un campo vectorial de Killing; es muy útil saberlo, pero puede darse
el caso de que el conmutador nos dé un campo vectorial que no sea linealmente
independiente (o que simplemente desaparezca). El problema de encontrar todos los
vectores de Killing de una métrica es, por tanto, algo complicado, ya que a veces no está
claro cuándo hay que dejar de buscar.
6 CAMPOS DÉBILES Y RADIACIÓN GRAVITACIONAL 120
6. Campos débiles y radiación gravitacional

Cuando derivamos por primera vez las ecuaciones de Einstein, comprobamos que íbamos
por el buen camino considerando el límite newtoniano. Esto equivalía a los requisitos de
que el campo gravitatorio fuera débil, que fuera estático (sin derivadas temporales) y que
las partículas de prueba se movieran lentamente. En esta sección consideraremos una
situación menos restrictiva, en la que el campo sigue siendo débil pero puede variar con el
tiempo, y no hay restricciones en el movimiento de las partículas de prueba. Esto nos
permitirá discutir fenómenos ausentes o ambiguos en la teoría newtoniana, como la
radiación gravitatoria (en la que el campo varía con el tiempo) y la desviación de la luz (en
la que intervienen partículas que se mueven rápidamente).
La debilidad del campo gravitatorio se expresa una vez más en nuestra capacidad de
descomponer la métrica en la métrica plana de Minkowski más una pequeña perturbación,
𝑔 =𝜂 +ℎ , ℎ ≪ 1. (6.1)
Nos limitaremos a las coordenadas en las que 𝜂 toma su forma canónica, 𝜂 = diag(-1, +1,
+1, +1). La suposición de que ℎ es pequeña nos permite ignorar todo lo que sea superior
al primer orden en esta cantidad, de lo que obtenemos inmediatamente
𝑔 =𝜂 −ℎ , (6.2)
donde ℎ = 𝜂 𝜂 ℎ . Como antes, podemos subir y bajar los índices utilizando 𝜂 y 𝜂 ,
ya que las correcciones serían de orden superior en la perturbación. De hecho, podemos
pensar en la versión linealizada de la relatividad general (en la que se desprecian los efectos
de orden superior al primero en ℎ ) como la descripción de una teoría de un campo
tensorial simétrico ℎ que se propaga en un espaciotiempo de fondo plano. Esta teoría es
invariante de Lorentz en el sentido de la relatividad especial; bajo una transformación de
Lorentz 𝑥 = Λ 𝑥 , la métrica plana ηµν es invariante, mientras que la perturbación se
transforma como
ℎ =Λ Λ ℎ . (6.3)
(Nótese que podríamos haber considerado pequeñas perturbaciones sobre algún otro
espaciotiempo de fondo además del espacio de Minkowski. En ese caso la métrica se habría
( )
escrito 𝑔 + ℎ , y habríamos derivado una teoría de un tensor simétrico que se propaga
( )
en el espacio curvo con la métrica 𝑔 . Este enfoque es necesario, por ejemplo, en
cosmología).
Queremos encontrar la ecuación de movimiento a la que obedecen las perturbaciones ℎ ,
que vienen al examinar las ecuaciones de Einstein en primer orden. Comenzamos con los
símbolos de Christoffel, que vienen dados por
Γ = 𝑔 ∂ 𝑔 +∂ 𝑔 −∂ 𝑔
= 𝜂 ∂ ℎ +∂ ℎ −∂ ℎ . (6.4)
Como los coeficientes de conexión son cantidades de primer orden, la única contribución
al tensor de Riemann provendrá de las derivadas de los Γ s, no de los términos Γ . Bajando
un índice por comodidad, obtenemos
𝑅 =𝜂 ∂ Γ −𝜂 ∂ Γ
1
= 2 ∂ ∂ ℎ +∂ ∂ ℎ −∂ ∂ ℎ −∂ ∂ ℎ . (6.5)
El tensor de Ricci proviene de la contracción sobre µ y ρ, dando
𝑅 = ∂ ∂ ℎ +∂ ∂ ℎ − ∂ ∂ ℎ − □ℎ , (6.6)
que es manifiestamente simétrico en µ y ν. En esta expresión hemos definido la traza de la
perturbación como h = 𝜂 ℎ = ℎ , y el D'Alembertiano es simplemente el del espacio
plano, □ = − ∂ + ∂ + ∂ + ∂ . Contrayendo de nuevo para obtener el escalar de Ricci se
obtiene
R=∂ ∂ ℎ − □ℎ . (6.7)
Poniendo todo junto obtenemos el tensor de Einstein:
1
𝐺 =𝑅 −2𝜂 R
= ∂ ∂ ℎ +∂ ∂ ℎ − ∂ ∂ ℎ − □ℎ −𝜂 ∂ ∂ ℎ + 𝜂 □ℎ . (6.8)
En consonancia con nuestra interpretación de la teoría linealizada como aquella que
describe un tensor simétrico sobre un fondo plano, el tensor de Einstein linealizado (6.8)
puede derivarse variando el siguiente Lagrangiano con respecto a ℎ :
Les ahorraré los detalles.

La ecuación de campo linealizada es, por supuesto, 𝐺 = 8πG𝑇 , donde 𝐺 viene dada por
(6.8) y 𝑇 es el tensor de energía-momento, calculado al orden cero en ℎ . No incluimos
correcciones de orden superior al tensor de energía-momento porque la cantidad de
energía y momento debe ser en sí misma pequeña para que se aplique el límite de campo
débil. En otras palabras, el menor orden no evanescente en 𝑇 es automáticamente del
mismo orden de magnitud que la perturbación. Obsérvese que la ley de conservación hasta
el orden más bajo es simplemente 𝜕 𝑇 = 0. La mayoría de las veces nos ocuparemos de
las ecuaciones del vacío, que como es habitual son simplemente 𝑅 = 0, donde 𝑅 viene
dada por (6.6).
Con las ecuaciones de campo linealizadas en la mano, estamos casi preparados para
empezar a resolverlas. Sin embargo, primero debemos tratar el espinoso tema de la
invariancia gauge. Esta cuestión surge porque la exigencia de que 𝑔 = 𝜂 + ℎ no
especifica completamente el sistema de coordenadas en el espaciotiempo; puede haber
otros sistemas de coordenadas en los que la métrica puede seguir escribiéndose como la
métrica de Minkowski más una pequeña perturbación, pero la perturbación será diferente.
Así, la descomposición de la métrica en un fondo plano más una perturbación no es única.
Podemos pensar en esto desde un punto de vista intelectual. La noción de que la teoría
linealizada puede pensarse como una que gobierna el comportamiento de los campos
tensoriales sobre un fondo plano puede formalizarse en términos de un "espaciotiempo de
fondo" 𝑀 , un "espaciotiempo físico" 𝑀 , y un difeomorfismo 𝜙 : 𝑀 → 𝑀 . Como
variedades, 𝑀 y 𝑀 son "lo mismo" (ya que son difeomorfos), pero imaginamos que
poseen algunos campos tensoriales diferentes; en 𝑀 hemos definido la métrica plana de
Minkowski 𝜂 , mientras que en 𝑀 tenemos una métrica 𝑔 que obedece a las ecuaciones
de Einstein. (Imaginamos que 𝑀 está dotado de coordenadas 𝑥 y 𝑀 de coordenadas 𝑦 ,
aunque éstas no jugarán un papel destacado). El difeomorfismo 𝜙 nos permite mover los
tensores hacia adelante y hacia atrás entre el espaciotiempo de fondo y el físico. Dado que
queremos construir nuestra teoría linealizada como una que tiene lugar en el espaciotiempo
de fondo plano, nos interesa el retroceso (𝜙∗ 𝑔) de la métrica física. Podemos definir la
perturbación como la diferencia entre la métrica física retrasada y la plana:
ℎ = (𝜙∗ 𝑔) − 𝜂 . (6.10)
A partir de esta definición, no hay razón para que las componentes de ℎ sean pequeñas;
sin embargo, si los campos gravitatorios en Mp son débiles, entonces para algunos
difeomorfismos 𝜙 tendremos | ℎ | << 1. Por tanto, limitamos nuestra atención sólo a
aquellos difeomorfismos para los que esto es cierto. Entonces, el hecho de que 𝑔 obedezca
a las ecuaciones de Einstein en el espaciotiempo físico significa que ℎ obedecerá a las
ecuaciones linealizadas en el espaciotiempo de fondo (ya que 𝜙, como difeomorfismo, puede
utilizarse para arrastrar (“pullback”) las propias ecuaciones de Einstein).
𝑀 𝑀
𝜙
𝜂
g αβ
(𝜙∗ 𝑔)
𝜙∗
En este lenguaje, la cuestión de la invariancia gauge es simplemente el hecho de que hay un

gran número de difeomorfismos permisibles entre 𝑀 y 𝑀 (donde "permisible" significa
que la perturbación es pequeña). Consideremos un campo vectorial 𝜉 (𝑥) en el
espaciotiempo de fondo. Este campo vectorial genera una familia de difeomorfismos 𝜓 :
𝑀 → 𝑀 de un solo parámetro. Para 𝜖 suficientemente pequeño, si 𝜙 es un difeomorfismo
para el que la perturbación definida por (6.10) es pequeña entonces también lo será (𝜙 ∘
𝜓 ), aunque la perturbación tendrá un valor diferente.
𝑀 𝑀
𝜙 𝜓
𝜉
𝜓
(𝜙 ∘ 𝜓 )∗
En concreto, podemos definir una familia de perturbaciones parametrizadas por 𝜖 :

( )
ℎ = [(𝜙 ∘ 𝜓 )∗ 𝑔] −𝜂
= [𝜓 ∗ (𝜙∗ 𝑔)] −𝜂 . (6.11)
La segunda igualdad se basa en el hecho de que el pullback bajo una composición viene dado
por la composición de los pullbacks en el orden opuesto, lo que se deduce del hecho de que
el propio pullback mueve las cosas en la dirección opuesta al mapa original. Introduciendo
la relación (6.10), encontramos
( )
ℎ = 𝜓 ∗ (ℎ + 𝜂) −𝜂
=𝜓 ∗ ℎ +𝜓 ∗ 𝜂 −𝜂 (6.12)
(ya que el pullback de la suma de dos tensores es la suma de los pullbacks). Ahora utilizamos
nuestra suposición de que 𝜖 es pequeño; en este caso 𝜓 ∗ ℎ será igual a ℎ en el orden
menor, mientras que los otros dos términos nos dan una derivada de Lie:
( ) ∗
ℎ = 𝜓 ∗ ℎ +𝜖
= ℎ + 𝜖ℒ 𝜂
= ℎ + 2𝜖𝜕( 𝜉 ) . (6.13)
La última igualdad se desprende de nuestro cálculo anterior de la derivada de Lie de la
métrica, (5.33), más el hecho de que las derivadas covariantes son simplemente derivadas
parciales de menor orden.
Los difeomorfismos infinitesimales 𝜙 proporcionan una representación diferente de la
misma situación física, manteniendo nuestro requisito de que la perturbación sea pequeña.
Por lo tanto, el resultado (6.12) nos dice qué tipo de perturbaciones métricas denotan
espaciotiempos físicamente equivalentes - aquellos relacionados entre sí por 2𝜖𝜕( 𝜉 ) , para
algún vector 𝜉 . La invariancia de nuestra teoría bajo tales transformaciones es análoga a la
invariancia gauge tradicional del electromagnetismo bajo 𝐴 → 𝐴 + ∂ λ. (La analogía es
diferente de la anterior que trazamos con el electromagnetismo, relacionando las
transformaciones locales de Lorentz en el formalismo del marco ortonormal con los
cambios de base en un haz vectorial interno). En el electromagnetismo la invariancia se
produce porque la intensidad de campo 𝐹 = ∂ 𝐴 - ∂ 𝐴 no se ve modificada por las
transformaciones gauge; análogamente, encontramos que la transformación (6.13) cambia
el tensor de Riemann linealizado por
1
𝛿𝑅 =2 ∂ ∂ ∂ 𝜉 +∂ ∂ ∂ 𝜉 +∂ ∂ ∂ 𝜉 +∂ ∂ ∂ 𝜉
−∂ ∂ ∂ 𝜉 − ∂ ∂ ∂ 𝜉 − ∂ ∂ ∂ 𝜉 − ∂ ∂ ∂ 𝜉
=0. (6.14)
Nuestra derivación abstracta de la transformación gauge apropiada para la perturbación
métrica se verifica por el hecho de que deja la curvatura (y por tanto el espaciotiempo físico)
sin cambios.
La invariancia gauge también puede entenderse desde la vía un poco más humilde, pero
considerablemente más directa, de las transformaciones de coordenadas infinitesimales.
Nuestro difeomorfismo 𝜓∗ puede considerarse como un cambio de coordenadas de 𝑥 a 𝑥
- 𝜖𝜉 . (El signo menos, poco convencional, proviene del hecho de que la "nueva" métrica se
retira de una pequeña distancia hacia delante a lo largo de las curvas integrales, lo que
equivale a sustituir las coordenadas por las de una pequeña distancia hacia atrás a lo largo
de las curvas). Siguiendo las reglas habituales para transformar tensores bajo
transformaciones de coordenadas, se puede derivar precisamente (6.13) - aunque hay que
hacer algo de trampa igualando componentes de tensores en dos sistemas de coordenadas
diferentes. Véase Schutz o Weinberg para un ejemplo.
Cuando nos enfrentamos a un sistema que es invariante bajo algún tipo de transformaciones
gauge, nuestro primer instinto es fijar un gauge. Ya hemos hablado del sistema de
coordenadas armónico, y volveremos a él ahora en el contexto del límite de campo débil.
Recordemos que este gauge estaba especificado por □𝑥 = 0, que demostramos que era
equivalente a
𝑔 Γ =0. (6.15)
en el límite del campo débil se convierte en
𝜂 𝜂 ∂ ℎ +∂ ℎ −∂ ℎ =0, (6.16)
o
∂ ℎ −∂ ℎ=0. (6.17)
Esta condición también se conoce como gauge de Lorentz (o gauge de Einstein o gauge de
Hilbert o gauge de Donder o gauge de Fock). Al igual que antes, aún nos queda algo de
libertad gauge, ya que podemos cambiar nuestras coordenadas por funciones armónicas
(infinitesimales).
En este calibre, las ecuaciones de Einstein linealizadas 𝐺 = 8π𝐺𝑇 se simplifican un poco,
a
□ℎ − 𝜂 □ℎ = −16𝜋𝐺𝑇 , (6.18)
mientras que las ecuaciones del vacío 𝑅 = 0 adoptan la elegante forma
□ℎ =0, (6.19)
que es simplemente la ecuación de onda relativista convencional. Juntas, (6.19) y (6.17)
determinan la evolución de una perturbación en el campo gravitatorio en el vacío en el
gauge armónico.
A menudo es conveniente trabajar con una descripción ligeramente diferente de la
perturbación métrica. Definimos la perturbación de "trazo invertido" ℎ por
ℎ =ℎ − 𝜂 ℎ. (6.20)
El nombre tiene sentido, ya que ℎ = −ℎ . (El tensor de Einstein es simplemente el tensor

de Ricci invertido). En términos de ℎ la condición gauge armónica se convierte en
𝜕 ℎ =0. (6.21)
Las ecuaciones de campo completas son
ℎ = −16𝜋𝐺𝑇 , (6.22)
de lo que se deduce inmediatamente que las ecuaciones del vacío son
□ℎ =0. (6.23)
A partir de (6.22) y de nuestra exploración anterior del límite newtoniano, es sencillo
derivar la métrica de campo débil para una fuente esférica estacionaria como un planeta o
una estrella. Recordemos que anteriormente encontramos que las ecuaciones de Einstein
predecían que ℎ obedecía la ecuación de Poisson (4.51) en el límite de campo débil, lo que
implicaba
ℎ = −2Φ , (6.24)
donde Φ es el potencial newtoniano convencional, Φ = −GM/r. Supongamos ahora que el
tensor de energía-momento de nuestra fuente está dominado por su densidad de energía en
reposo ρ = 𝑇 . (Esta suposición no suele ser necesaria en el límite de campo débil, pero
ciertamente se mantendrá para un planeta o una estrella, que es lo que queremos considerar
por el momento). Entonces los otros componentes de 𝑇 serán mucho menores que 𝑇 , y
a partir de (6.22) debe ocurrir lo mismo con ℎ . Si ℎ es mucho mayor que ℎ , tendremos
ℎ = −ℎ = −𝜂 ℎ =ℎ , (6.25)
y entonces de (6.20) obtenemos inmediatamente
ℎ = 2ℎ = −4Φ . (6.26)
Los otros componentes de ℎ son despreciables, de lo que podemos deducir
ℎ = ℎ − 𝜂 ℎ =0 , (6.27)
y
ℎ = ℎ − 𝜂 ℎ = −2Φ𝛿 . (6.28)
La métrica para una estrella en el límite del campo débil es por consiguiente
𝑑𝑠 = −(1 + 2Φ)d𝑡 + (1 − 2Φ)(d𝑥 + d𝑦 + d𝑧 ) . (6.29)
Una aplicación algo menos simplista del límite de campo débil es la de la radiación
gravitatoria. Los que estén familiarizados con el problema análogo en electromagnetismo
notarán que el procedimiento es casi exactamente el mismo. Comenzamos considerando las
ecuaciones linealizadas en el vacío (6.23). Como el espacio plano D'Alembertiano tiene la
forma □ = − ∂ +▽ , la ecuación de campo tiene la forma de una ecuación de onda para
ℎ . Como todos los buenos físicos saben, lo que hay que hacer ante una ecuación de este
tipo es escribir las soluciones en valores complejos, y luego tomar la parte real al final del
día. Así pues, reconocemos que un conjunto de soluciones particularmente útil para esta
ecuación de onda son las ondas planas, dadas por
ℎ =𝐶 𝑒 , (6.30)
donde 𝐶 es un tensor constante, simétrico, (0,2), y 𝑘 es un vector constante conocido
como vector de onda. Para comprobar que se trata de una solución, introducimos
0 = □ℎ
=𝜂 ∂ ∂ ℎ
=𝜂 ∂ 𝑖𝑘 ℎ
= −𝜂 𝑘 𝑘 ℎ
= −𝑘 𝑘 ℎ . (6.31)
Dado que (para una solución interesante) no todos los componentes de ℎ serán cero en
todas las partes, debemos tener
𝑘 𝑘 =0. (6.32)
La onda plana (6.30) es, por tanto, una solución a las ecuaciones linealizadas si el vector de
onda es nulo; esto se traduce vagamente en la afirmación de que las ondas gravitacionales
se propagan a la velocidad de la luz. La componente temporal del vector de onda suele
denominarse frecuencia de la onda, y escribimos 𝑘 = (𝜔, 𝑘 , 𝑘 , 𝑘 ). (De forma más
general, un observador que se mueva con la velocidad 𝑈 observaría que la onda tiene una
frecuencia 𝜔 = −𝑘 𝑈 . Entonces la condición de que el vector de onda sea nulo se convierte
en
𝜔 =𝛿 𝑘 𝑘 . (6.33)
Por supuesto, nuestra onda está lejos de ser la solución más general; cualquier número
(posiblemente infinito) de ondas planas distintas puede sumarse y seguirá resolviendo la
ecuación lineal (6.23). De hecho, cualquier solución puede escribirse como una
superposición de este tipo.
Hay una serie de parámetros libres para especificar la onda: diez números para los
coeficientes 𝐶 y tres para el vector nulo 𝑘 . Gran parte de ellos son el resultado de la
libertad de coordenadas y de la libertad gauge, que ahora nos proponemos eliminar.
Comenzamos imponiendo la condición gauge armónica, (6.21). Esto implica que
0=∂ ℎ
=∂ 𝐶 𝑒
=𝑖 𝐶 𝑘 𝑒 , (6.34)
que sólo es cierto si
𝑘 𝐶 =0. (6.35)
Decimos que el vector de onda es ortogonal a Decimos que el vector de onda es ortogonal a
𝐶 . Estas son cuatro ecuaciones, que reducen el número de componentes independientes
de 𝐶 de diez a seis.
Aunque ahora hemos impuesto la condición de calibre armónico, aún queda cierta libertad
de coordenadas. Recordemos que cualquier transformación de coordenadas de la forma
𝑥 →𝑥 +𝜁 (6.36)
dejará la condición de coordenadas armónicas
□𝑥 = 0 (6.37)
Satisfecha en tanto en cuanto tengamos
□𝜁 = 0 . (6,38)
Por supuesto, (6.38) es en sí misma una ecuación de onda para𝜁 ; una vez que elijamos una
solución, habremos utilizado toda nuestra libertad gauge. Elijamos la siguiente solución:
𝜁 =𝐵 𝑒 , (6.39)
donde 𝑘 es el vector de onda para nuestra onda gravitacional y los 𝐵 son coeficientes
constantes.
( )
Ahora afirmamos que esta libertad restante nos permite convertir los coeficientes 𝐶 que
( )
caracterizan nuestra onda gravitacional en un nuevo conjunto 𝐶 , tal que
( )
𝐶 =0 (6.40)
y
( )
𝐶 =0. (6.41)
(En realidad, esta última condición es tanto una elección del calibre como una elección del
( )
marco de Lorentz. La elección del calibre establece que 𝑈 𝐶 = 0 para un vector
constante de tipo temporal (“timelike vector”) 𝑈 , mientras que la elección del marco hace
que 𝑈 apunte a lo largo del eje del tiempo). Veamos cómo esto es posible resolviendo
explícitamente los coeficientes necesarios 𝐵 . Bajo la transformación (6.36), el cambio
resultante en nuestra perturbación métrica puede escribirse
( ) ( )
ℎ =ℎ −𝜕 𝜁 −𝜕 𝜁 , (6.42)
que induce un cambio en la perturbación de la traza invertida,
( ) ( )
ℎ =ℎ − 𝜂 ℎ( )
( ) ( )
=ℎ −𝜕 𝜁 −𝜕 𝜁 − 𝜂 ℎ − 2𝜕 𝜁 2
( )
=ℎ −𝜕 𝜁 −𝜕 𝜁 +𝜂 𝜕 𝜁 . (6.43)
2 En el pdf de Sean M. Carroll , en el último paréntesis aparece ℎ( )

en lugar de ℎ(𝜇𝜈
old)
(nota del
traductor).
Utilizando las formas específicas (6.30) para la solución y (6.39) para la transformación,
obtenemos
( ) ( )
𝐶 =𝐶 − 𝑖𝑘 𝐵 − 𝑖𝑘 𝐵 + 𝑖𝜂 𝑘 𝐵 . (6.44)
Por lo tanto, imponer (6.40) significa
( )
0=𝐶 + 2𝑖𝑘 𝐵 , (6.45)
o
𝑖 ( )
𝑘 𝐵 = 2𝐶 . (6.46)
Entonces podemos imponer (6.41), primero para ν = 0:
( )
0=𝐶 − 2𝑖𝑘 𝐵 − 𝑖𝑘 𝐵
( ) 𝑖 ( )
=𝐶 − 2𝑖𝑘 𝐵 + 2 𝐶 , (6.47)
o
( ) 𝑖 ( )
𝐵 =− 𝐶 +2𝐶 . (6.48)
A continuación imponemos (6.41) para 𝜈 = j:

( )
0= 𝐶 − 𝑖𝑘 𝐵 − 𝑖𝑘 𝐵
( ) 𝑖 ( ) 𝑖 ( )
0= 𝐶 − 𝑖𝑘 𝐵 − 𝑖𝑘 − 2𝑘 𝐶 +2𝐶 , (6.49)
0
o
𝑖 ( ) ( ) 𝑖 ( )
𝐵 = 2 −2𝑘 𝐶 +𝑘 𝐶 + 2𝐶 . (6.50)
2𝑘0
Para comprobar que estas opciones son coherentes entre sí, debemos volver a introducir
(6.48) y (6.50) en (6.40), lo que dejaré a su criterio. Supongamos que hemos realizado esta
( )
transformación, y que nos referiremos a los nuevos componentes 𝐶 simplemente como
𝐶µ .
Así, comenzamos con los diez números independientes de la matriz simétrica 𝐶µ . La
elección del gauge armónico implicó las cuatro condiciones (6.35), lo que redujo el número
de componentes independientes a seis. El uso de nuestra libertad de gauge restante condujo
a la condición (6.40) y a las cuatro condiciones (6.41); pero cuando ν = 0 (6.41) implica
(6.35), de modo que tenemos un total de cuatro restricciones adicionales, lo que nos lleva a
dos componentes independientes. Hemos utilizado toda nuestra libertad posible, así que
estos dos números representan la información física que caracteriza a nuestra onda plana
en esta galga (“gauge”). Esto se puede ver de forma más explícita eligiendo nuestras
coordenadas espaciales de forma que la onda se desplace en la dirección 𝑥 ; es decir,
𝑘 = (𝜔, 0, 0, 𝑘 ) = (𝜔, 0, 0, 𝜔 ) , (6.51)
donde sabemos que 𝑘 = ω porque el vector de onda es nulo. En este caso, 𝑘 𝐶µ = 0 y 𝐶 =
0 implican conjuntamente
𝐶 =0. (6.52)
Los únicos componentes no cero de 𝐶µ son por lo tanto 𝐶 , 𝐶 , 𝐶 y 𝐶 . Pero 𝐶µ no tiene
traza y es simétrico, por lo que en general podemos escribir
0 0 0 0
0 𝐶 𝐶 0
𝐶µ = . (6.53)
0 𝐶 −𝐶 0
0 0 0 0
Así, para una onda plana en esta galga (“gauge”) que viaja en la dirección 𝑥 , las dos
componentes 𝐶 y 𝐶 (junto con la frecuencia ω) caracterizan completamente la onda.
Al utilizar toda nuestra libertad gauge, hemos pasado a un “subgauge” del gauge armónico
conocido como gauge transversal sin traza (o a veces "gauge de radiación"). El nombre
viene del hecho de que la perturbación métrica no tiene traza y es perpendicular al vector
de onda. Por supuesto, hemos estado trabajando con la perturbación de traza inversa ℎ
en lugar de con la propia perturbación ℎµ ; pero como ℎ no tiene traza (porque𝐶 sí la
tiene), y es igual a la traza inversa de ℎµ , en este calibre (“gauge”) tenemos
ℎ =ℎ (galga transversal sin traza) . (6.54)
Por lo tanto, podemos dejar de lado la barra sobre ℎµ , siempre que estemos en este calibre.
Una buena característica de la galga transversal sin traza es que si se dan las componentes
de una onda plana en alguna galga arbitraria, se pueden convertir fácilmente en las
componentes transversales si traza. Primero definimos un tensor 𝑃µ que actúa como un
operador de proyección:
𝑃µ = 𝜂µ − 𝜂 𝜂 . (6.55)
Se puede comprobar que esto proyecta vectores sobre hiperplanos ortogonales al vector
unitario 𝜂 . Aquí tomamos 𝜂 como un vector unitario espacial (“spacelike”), que lo
elegimos de manera que esté a lo largo de la dirección de propagación de la onda:
𝜂 = 0 , 𝜂 = 𝑘 /𝜔 . (6.56)
Entonces la parte transversal de una perturbación ℎµ es simplemente la proyección
𝑃 𝑃 ℎ , y la parte transversal sin traza se obtiene restando la traza:
1
ℎ =𝑃 𝑃 ℎ − 2𝑃 𝑃 ℎ . (6.57)
Para los detalles relativos a casos más generales, véase la discusión en Misner, Thorne y
Wheeler.
Para tener una idea de los efectos físicos debidos a las ondas gravitacionales, es útil
considerar el movimiento de las partículas de prueba en presencia de una onda. Es
ciertamente insuficiente resolver la trayectoria de una sola partícula, ya que eso sólo nos
diría los valores de las coordenadas a lo largo de la línea del mundo. (De hecho, para
cualquier partícula individual podemos encontrar coordenadas transversales sin traza en
las que la partícula parece estacionaria en primer orden en ℎµ ). Para obtener una medida
independiente de las coordenadas de los efectos de la onda, consideramos el movimiento
relativo de las partículas cercanas, descrito por la ecuación de desviación geodésica. Si
consideramos algunas partículas cercanas con cuadri-velocidad descritas por un único
campo vectorial 𝑈 (𝑥) y un vector de separación 𝑆 , tenemos
𝑆 =𝑅 𝑈 𝑈 𝑆 . (6.58)
Nos gustaría calcular el lado izquierdo en primer orden en ℎµ . Si consideramos que
nuestras partículas de prueba se mueven lentamente, entonces podemos expresar la cuadri-
velocidad como un vector unitario en la dirección del tiempo más correcciones de orden de
ℎµ y superiores; pero sabemos que el tensor de Riemann ya es de primer orden, por lo que
las correcciones a 𝑈 pueden ignorarse, y escribimos
𝑈 = (1, 0, 0, 0) . (6.59)
Por lo tanto sólo necesitamos calcular 𝑅 , o de manera equivalente 𝑅 . De (6.5)
tenemos
𝑅 = 𝜕 𝜕 ℎ +𝜕 𝜕 ℎ −𝜕 𝜕 ℎ −𝜕 𝜕 ℎ . (6.60)
Pero ℎ = 0, por lo tanto
1
𝑅 = 2𝜕 𝜕 ℎ . (6.61)
Mientras tanto, para nuestras partículas de movimiento lento tenemos τ = 𝑥 = t en el orden

más bajo, por lo que la ecuación de desviación geodésica se convierte en
𝑆𝜇 = 𝑆𝜎 ℎ𝜇 𝜎 . (6.62)
Para nuestra onda que viaja en la dirección 𝑥 , esto implica que sólo 𝑆 y 𝑆 se verán
afectadas - las partículas de prueba sólo son perturbadas en direcciones perpendiculares al
vector de la onda. Esto es, por supuesto, conocido del electromagnetismo, donde los campos
eléctrico y magnético en una onda plana son perpendiculares al vector de la onda.
Nuestra onda está caracterizada por los dos números, que para mayor comodidad
renombraremos como 𝐶 = 𝐶 y 𝐶× = 𝐶 . Consideremos sus efectos por separado,
empezando por el caso 𝐶× = 0. Entonces tenemos
𝜎
𝑆1 = 𝑆1 (𝐶+ 𝑒𝑖𝑘𝜎𝑥 ) (6.63)
y
𝜎
𝑆2 = − 𝑆2 (𝐶+ 𝑒𝑖𝑘𝜎𝑥 ) . (6.64)
Estas ecuaciones pueden ser resueltas inmediatamente para obtener, al orden más bajo,
1
𝑆 = 1 + 2𝐶 𝑒 𝑆 (0) (6.65)
y
1
𝑆 = 1 − 2𝐶 𝑒 𝑆 (0) . (6.66)
Así, las partículas inicialmente separadas en la dirección 𝑥 oscilarán hacia delante y hacia
atrás en la dirección 𝑥 , y lo mismo para las que tengan una separación inicial 𝑥 . Es decir,
si empezamos con un anillo de partículas inmóviles en el plano x-y, al pasar la onda
rebotarán hacia delante y hacia atrás en forma de "+":
y
x
Por otro lado, el análisis equivalente para el caso en que 𝐶 = 0 pero 𝐶× ≠ 0 daría la solución
1
𝑆 = 𝑆 (0) + 2 𝐶× 𝑒 𝑆 (0) (6.67)
1
y 𝑆 = 𝑆 (0) + 2 𝐶× 𝑒 𝑆 (0) . (6.68)
En este caso, el círculo de partículas rebotaría de un lado a otro en forma de "×":
y
x
Por tanto, la notación 𝐶 y 𝐶× debe quedar clara. Estas dos cantidades miden los dos modos
independientes de polarización lineal de la onda gravitacional. Si quisiéramos, podríamos
considerar los modos de polarización circular a la derecha y a la izquierda definiendo
1
𝐶 = (𝐶 + 𝑖𝐶× ) ,3
2
1
𝐶 = (𝐶 − 𝑖𝐶× ) . 4 (6.69)
2
El efecto de una onda 𝐶 pura sería la rotación de las partículas en un sentido diestro,
y
x
y de forma similar para el modo zurdo 𝐶 . (Nótese que las partículas individuales no viajan
alrededor del anillo; sólo se mueven en pequeños epiciclos).
Podemos relacionar los estados de polarización de las ondas gravitacionales clásicas con los
tipos de partículas que esperaríamos encontrar al cuantificarlas. El campo electromagnético
tiene dos estados de polarización independientes que se describen mediante vectores en el
plano x-y; de forma equivalente, un solo modo de polarización es invariante bajo una
rotación de 360 en este plano. Al cuantificar esta teoría se obtiene el fotón, una partícula
sin masa de espín uno. El neutrino, por su parte, es también una partícula sin masa, descrita
por un campo que adquiere signo negativo bajo rotaciones de 360 ; es invariante bajo
rotaciones de 720 , y decimos que tiene espín − .
La regla general es que el espín S está relacionado con el ángulo θ bajo el cual los modos de
polarización son invariantes por S = 360 /θ. El campo gravitacional, cuyas ondas se
propagan a la velocidad de la luz, debería conducir a partículas sin masa en la teoría
cuántica. Dado que los modos de polarización que hemos descrito son invariantes bajo
rotaciones de 180 en el plano x-y, esperamos que las partículas asociadas -los "gravitones"-
3 𝐶𝑅 : polarización a la derecha (R: right)

4 𝐶𝐿 : polarización a la izquierda (L: left)
sean de espín-2. Estamos muy lejos de detectar tales partículas5 (y no sería una sorpresa si
nunca las detectáramos directamente), pero cualquier teoría cuántica respetable de la
gravedad debería predecir su existencia.
Con las soluciones de ondas planas a las ecuaciones del vacío linealizadas en nuestro poder,
queda por discutir la generación de radiación gravitacional por parte de las fuentes. Para
ello es necesario considerar las ecuaciones acopladas a la materia,
□ℎ = −16𝜋𝐺𝑇 . (6.70)
La solución de dicha ecuación puede obtenerse mediante una función de Green,
precisamente del mismo modo que el problema análogo en electromagnetismo. Aquí
repasaremos el esquema del método.
La función de Green G(𝑥 − 𝑦 ) para el operador D'Alembertiano □ es la solución de la
ecuación de onda en presencia de una fuente de función delta:
□ 𝐺(𝑥 − 𝑦 ) = 𝛿 ( )(𝑥 − 𝑦 ) , (6.71)
donde □ denota la D'Alembertiana con respecto a las coordenadas 𝑥 . La utilidad de dicha
función reside en el hecho de que la solución general de una ecuación como (6.70) puede
escribirse
ℎ = −16𝜋𝐺 ∫ 𝐺 (𝑥 − 𝑦 )𝑇 (𝑦 )d 𝑦 , (6.72)
como puede verificarse inmediatamente. (Nótese que no son necesarios factores de −𝑔,
ya que nuestro fondo es simplemente un espaciotiempo plano). Las soluciones de (6.71) han
sido, por supuesto, elaboradas hace mucho tiempo, y se puede pensar en ellas como
"retardadas" o "avanzadas", dependiendo de si representan ondas que viajan hacia adelante
o hacia atrás en el tiempo. Nuestro interés se centra en la función de Green retardada, que
representa los efectos acumulados de las señales hacia el pasado del punto considerado.
Viene dada por
1
𝐺(𝑥 − 𝑦 ) = − 4𝜋|𝐱 − 𝐲| 𝛿[|𝐱 − 𝐲| − (𝑥 − 𝑦 )]𝜃(𝑥 − 𝑦 ) . (6.73)
Aquí hemos utilizado negrita para denotar los vectores espaciales x = (𝑥 , 𝑥 , 𝑥 ) e y =

(𝑦 , 𝑦 , 𝑦 ) con norma |x - y| = [𝛿 𝑥 − 𝑦 𝑥 − 𝑦 ] / . La función theta θ(𝑥 − 𝑦 ) es
igual a 1 cuando 𝑥 > 𝑦 , y cero en caso contrario. La derivación de (6.73) nos llevaría
demasiado lejos, pero se puede encontrar en cualquier texto estándar sobre
electrodinámica o ecuaciones diferenciales parciales en física.
Al introducir (6.73) en (6.72), podemos utilizar la función delta para realizar la integral
sobre 𝑦 , lo que nos deja con
1
ℎ (𝑡, 𝐱) = 4𝐺 ∫ |𝐱 − 𝐲| 𝑇 (𝑡 − |𝐱 − 𝐲|, 𝐲)𝑑 𝑦 , (6.74)
Donde t = 𝑥 . Usamos el término “tiempo retardado” para referirnos a la cantidad

𝑡 = 𝑡 − |𝐱 − 𝐲| . (6.75)
La interpretación de (6.74) debe ser clara: la perturbación en el campo gravitatorio en (t, x)
es una suma de las influencias de las fuentes de energía y de momento en el punto (𝑡 , x - y)
en el cono de luz pasado.
5El pasado día 11 de febrero de 2016, se anunció el descubrimiento por primera vez de ondas
gravitacionales provenientes del Universo
t xi
yi
(t r , yi )
Tomemos esta solución general y consideremos el caso en que la radiación gravitacional es

emitida por una fuente aislada, bastante lejana, compuesta por materia no relativista; estas
aproximaciones se precisarán a medida que avancemos. En primer lugar, hay que establecer
algunas convenciones para las transformadas de Fourier, que siempre facilitan la vida
cuando se trata de fenómenos oscilatorios. Dada una función del espaciotiempo 𝜙(𝑡, 𝐱 ), nos
interesa su transformada de Fourier (y su inversa) con respecto al tiempo solamente,
𝜙(𝜔, 𝐱) = ∫ 𝑑𝑡 𝑒 𝜙(𝑡, 𝐱) ,
√
𝜙(𝑡, 𝐱) = ∫ 𝑑𝜔 𝑒 𝜙(𝜔, 𝐱) . (6.76)

√
Tomando la transformada de la perturbación métrica, obtenemos
1
ℎ (𝜔, 𝐱) = ∫ 𝑑𝑡 𝑒 ℎ (𝑡, 𝐱)
2𝜋
𝑇𝜇𝜈 (𝑡−|𝐱−𝐲|,𝐲)
= ∫ 𝑑𝑡 𝑑 𝑦 𝑒 |𝐱−𝐲|
√
4𝐺 |𝐱 𝐲| 𝑇𝜇𝜈 (𝑡𝑟 ,𝐲)
= ∫ 𝑑𝑡 𝑑 𝑦 𝑒 𝑒 |𝐱−𝐲|
2𝜋
|𝐱 𝐲| 𝑇𝜇𝜈 (𝜔,𝐲)
= 4𝐺 ∫ 𝑑 𝑦 𝑒 |𝐱−𝐲|
. (6.77)
En esta secuencia, la primera ecuación es simplemente la definición de la transformada de

Fourier, la segunda línea proviene de la solución (6.74), la tercera línea es un cambio de
variables de t a 𝑡 , y la cuarta línea es de nuevo la definición de la transformada de Fourier.
Ahora hacemos las aproximaciones de que nuestra fuente está aislada, alejada y se mueve
lentamente. Esto significa que podemos considerar que la fuente está centrada a una
distancia (espacial) R, con las diferentes partes de la fuente a distancias R + δR tales que δR
<< R. Como se mueve lentamente, la mayor parte de la radiación emitida será a frecuencias
ω suficientemente bajas como para que δR << ω-1. (Esencialmente, la luz atraviesa la fuente
mucho más rápido que los componentes de la propia fuente).
observador R
δR
fuente
Bajo estas aproximaciones, el término 𝑒 |𝐱 𝐲| /|𝐱 − 𝐲| puede ser reemplazado por 𝑒 /R y

llevado fuera de la integral. Esto nos deja con
ℎ (𝜔, 𝐱) = 4G 𝑑 𝑦𝑇 (𝜔, 𝐲) . (6.78)
De hecho no es necesario calcular todas las componentes de ℎ (𝜔, 𝐱), ya que la condición
de calibre armónico 𝜕 ℎ (𝑡, 𝐱) = 0 en el espacio de Fourier implica
𝑖
ℎ = 𝜔𝜕 ℎ . (6.79)
Por lo tanto, sólo tenemos que preocuparnos por las componentes espaciales de ℎ (𝜔, 𝐱).
A partir de (6.78) queremos tomar la integral de las componentes espaciales de 𝑇 (𝜔, 𝐲).
Comenzamos integrando por partes en sentido inverso:
𝑑 𝑦𝑇 (𝜔, 𝐲) = 𝜕 𝑦𝑇 𝑑 𝑦− 𝑦 𝜕 𝑇 𝑑 𝑦. (6.80)
El primer término es una integral de superficie que se desvanecerá (desaparecerá) ya que

la fuente está aislada, mientras que el segundo puede relacionarse con 𝑇 mediante la
versión del espacio de Fourier de 𝜕 𝑇 = 0:
−𝜕 𝑇 = 𝑖𝜔𝑇 . (6.81)
Por tanto,
𝑑 𝑦𝑇 (𝜔, 𝐲) = i𝜔 𝑦𝑇 𝑑 𝑦
= 𝑦𝑇 +𝑦 𝑇 𝑑 𝑦
= 𝜕 𝑦𝑦 𝑇 −𝑦 𝑦 𝜕 𝑇 𝑑 𝑦
=− 𝑦𝑦 𝑇 𝑑 𝑦 . (6.82)
La segunda línea se justifica ya que sabemos que el lado izquierdo es simétrico en i y j,

mientras que la tercera y cuarta líneas son simplemente repeticiones de la integración
inversa por partes y la conservación de 𝑇 . Es convencional definir el tensor del momento
cuadripolar de la densidad de energía de la fuente,
𝑞 (𝑡) = 3 𝑦 𝑦 𝑇 (𝑡, 𝐲)𝑑 𝑦 , (6.83)
un tensor constante en cada superficie de tiempo constante. En términos de la transformada
de Fourier del momento cuadripolar, nuestra solución adopta la forma compacta
2𝐺𝜔2 𝑒𝑖𝜔𝑅
ℎ (𝜔, 𝐱) = − − 3 𝑅
𝑞 (𝜔) , (6.84)
o, transformando de nuevo a t,
1 2𝐺 ( )
ℎ (𝑡, 𝐱) = − √2𝜋 3𝑅
d𝜔 𝑒 𝜔 𝑞 (𝜔)
= d𝜔 𝑒 𝑞 (𝜔)
√
= (𝑡 ) , (6.85)
donde, como antes 𝑡 = 𝑡 − 𝑅 .

La onda gravitacional producida por un objeto aislado no relativista es, por tanto,
proporcional a la segunda derivada del momento cuadrupolar de la densidad de energía en
el punto en el que el cono de luz pasado del observador se cruza con la fuente. En cambio, la
contribución principal a la radiación electromagnética proviene del momento dipolar
cambiante de la densidad de carga. Esta diferencia se debe a la naturaleza universal de la
gravitación. Un momento dipolar cambiante corresponde al movimiento del centro de
densidad -densidad de carga en el caso del electromagnetismo, densidad de energía en el
caso de la gravitación-. Mientras que nada impide que el centro de carga de un objeto oscile,
la oscilación del centro de masa de un sistema aislado viola la conservación del momento.
(Se puede sacudir un cuerpo hacia arriba y hacia abajo, pero usted y la tierra se sacuden
ligeramente en la dirección opuesta para compensar). El momento cuadripolar, que mide la
forma del sistema, es generalmente más pequeño que el momento dipolar, y por esta razón
(así como por el débil acoplamiento de la materia a la gravedad) la radiación gravitacional
es típicamente mucho más débil que la radiación electromagnética.
Siempre es educativo tomar una solución general y aplicarla a un caso específico de interés.
Un caso de verdadero interés es la radiación gravitatoria emitida por una estrella binaria
(dos estrellas en órbita una alrededor de la otra). Para simplificar, consideremos dos
estrellas de masa M en una órbita circular en el plano 𝑥 - 𝑥 , a una distancia r de su centro
de masa común.
x3
v
M r r
M
x2
v
x1
Trataremos el movimiento de las estrellas en la aproximación newtoniana, donde podemos
discutir su órbita tal y como lo habría hecho Kepler. Las órbitas circulares se caracterizan
más fácilmente equiparando la fuerza debida a la gravedad con la fuerza "centrífuga" hacia
el exterior:
( )
= , (6.86)
lo que nos da
/
v= . (6.87)
El tiempo que se tarda en completar una sola órbita es simplemente
T= , (6.88)
pero a nosotros nos es más útil la frecuencia angular de la órbita,

/
𝐺𝑀
Ω= = 4𝑟3
. (6.89)
En función de Ω podemos escribir el camino explícito de la estrella a,

𝑥 = 𝑟cos Ω𝑡 , 𝑥 = 𝑟sen Ω𝑡 , (6.90)
y la estrella b,
𝑥 = −𝑟cos Ω𝑡 , 𝑥 = −𝑟sen Ω𝑡 , (6.91)
La densidad de energía correspondiente es
𝑇 (𝑡, 𝐱) = 𝑀𝛿(𝑥 )[𝛿(𝑥 − 𝑟cos Ω𝑡)𝛿(𝑥 − 𝑟sen Ω𝑡) + 𝛿(𝑥 + 𝑟cos Ω𝑡)𝛿(𝑥 + 𝑟sen Ω𝑡)].
(6.92)
La profusión de funciones delta nos permite integrar esto directamente para obtener el
momento cuadripolar a partir de (6.83):
𝑞 = 6𝑀𝑟 cos Ω𝑡 = 3𝑀𝑟 (1 + cos2Ω𝑡)
𝑞 = 6𝑀𝑟 sen Ω𝑡 = 3𝑀𝑟 (1 − cos2Ω𝑡)
𝑞 =𝑞 = 6𝑀𝑟 (cosΩ𝑡)(sen Ω𝑡) = 3𝑀𝑟 sen2Ω𝑡
𝑞 =0. (6.93)
A su vez de esto es fácil obtener los componentes de la perturbación métrica a partir de
(6.85):
−cos2Ω𝑡 −sen2Ω𝑡 0
ℎ (𝑡, 𝐱) = Ω 𝑟 −sen2Ω𝑡 cos2Ω𝑡 0 . (6.94)
0 0 0
Las restantes componentes de ℎ podrían derivarse de exigir que se cumpla la condición
gauge armónica. (No hemos impuesto una condición gauge subsidiaria, por lo que aún
somos libres de hacerlo).
En este punto es natural hablar de la energía emitida a través de la radiación gravitatoria.
Sin embargo, tal discusión se ve inmediatamente acosada por problemas, tanto técnicos
como filosóficos. Como hemos mencionado antes, no existe una verdadera medida local de
la energía en el campo gravitatorio. Por supuesto, en el límite del campo débil, en el que
pensamos que la gravitación está descrita por un tensor simétrico que se propaga en una
métrica de fondo fija, podríamos esperar derivar un tensor de energía-momento para las
fluctuaciones ℎµ , al igual que haríamos para el electromagnetismo o cualquier otra teoría
de campo. Hasta cierto punto esto es posible, pero sigue habiendo dificultades. Como
resultado de estas dificultades, existen en la literatura diferentes propuestas sobre lo que
deberíamos utilizar como tensor de energía-momento para la gravitación en el límite del
campo débil; todas ellas son diferentes, pero en su mayor parte dan las mismas respuestas
para cuestiones físicamente bien planteadas, como la tasa de energía emitida por un sistema
binario.
A nivel técnico, las dificultades comienzan a surgir cuando consideramos qué forma debe
adoptar el tensor energía-momento. Anteriormente hemos mencionado los tensores de
energía-momento para el electromagnetismo y la teoría del campo escalar, y ambos
compartían una característica importante: eran cuadráticos en los campos relevantes. Por
hipótesis, nuestra aproximación al límite de campo débil ha sido mantener sólo los términos
que son lineales en la perturbación métrica. Por lo tanto, para seguir la pista de la energía
transportada por las ondas gravitacionales, tendremos que ampliar nuestros cálculos hasta
al menos el segundo orden en ℎµ . De hecho, hemos estado haciendo un poco de trampa
todo el tiempo. Al discutir los efectos de las ondas gravitacionales en las partículas de
prueba, y la generación de ondas por un sistema binario, hemos estado utilizando el hecho
de que las partículas de prueba se mueven a lo largo de geodésicas. Pero como sabemos,
esto se deriva de la conservación covariante de la energía-momento, ▽ 𝑇 = 0. Sin
embargo, en el orden en el que hemos estado trabajando, en realidad tenemos 𝜕 𝑇 = 0, lo
que implicaría que las partículas de prueba se mueven en líneas rectas en la métrica de
fondo plana. Esto es un síntoma de la inconsistencia fundamental del límite del campo débil.
En la práctica, lo mejor que se puede hacer es resolver las ecuaciones de campo débil hasta
algún orden apropiado, y luego justificar a posteriori la validez de la solución.
Teniendo en cuenta estas cuestiones, consideremos las ecuaciones de Einstein (en el vacío)
hasta el segundo orden, y veamos cómo puede interpretarse el resultado en términos de un
tensor de energía-momento para el campo gravitatorio. Si escribimos la métrica como 𝑔µ =
𝜂µ + ℎµ , entonces en primer orden tenemos
( )
𝐺 [𝜂 + ℎ] = 0 , (6.95)
( )
donde 𝐺 es el tensor de Einstein expandido al primer orden en ℎµ . Estas ecuaciones
determinan ℎµ hasta transformaciones gauge (inevitables), de manera que para satisfacer
las ecuaciones en segundo orden tenemos que añadir una perturbación de orden superior,
y escribir
( )
𝑔µ = 𝜂µ + ℎµ + ℎ . (6.96)
La versión de segundo orden de las ecuaciones de Einstein está formada por todos los
( )
términos cuadráticos en ℎµ o lineales en ℎ . Como cualquier término cruzado sería de al
menos tercer orden, tenemos
( ) ( )
𝐺 𝜂 + ℎ( )
+𝐺 [𝜂 + ℎ] = 0 . (6.97)
( )
Aquí, 𝐺 es la parte del tensor de Einstein que es de segundo orden en la perturbación
métrica. Puede calcularse a partir del tensor de Ricci de segundo orden, que viene dado por
( )
𝑅 = ℎ 𝜕 𝜕 ℎ −ℎ 𝜕 𝜕( ℎ ) + 𝜕 ℎ 𝜕 ℎ + 𝜕 ℎ 𝜕[ ℎ ]
1
+2𝜕 ℎ 𝜕 ℎ − 𝜕 ℎ 𝜕 ℎ− 𝜕 ℎ − 𝜕 ℎ 𝜕( ℎ ) . (6.98)
Podemos transformar (6.97) en la sugerente forma

( )
𝐺 𝜂 + ℎ( )
= 8𝜋𝐺𝑡 , (6.99)
simplemente definiendo
( )
𝑡 =− 𝐺 [𝜂 + ℎ] . (6.100)
La notación pretende, por supuesto, sugerir que pensemos en 𝑡 como un tensor de

energía-momento, concretamente el del campo gravitatorio (al menos en el régimen de
campo débil). Para que esta afirmación parezca plausible, nótese que la identidad de Bianchi
( )
para 𝐺 𝜂 + ℎ( ) implica que 𝑡 se conserva en el sentido del espacio plano,
𝜕 𝑡 =0. (6.101)
Desgraciadamente, hay algunas limitaciones en nuestra interpretación de𝑡 como tensor
de energía-momento. Por supuesto, no es un tensor en absoluto en la teoría completa, pero
lo dejamos de lado por hipótesis. Y lo que es más importante, no es invariante bajo
transformaciones gauge (difeomorfismos infinitesimales), como se puede comprobar por
cálculo directo. Sin embargo, podemos construir cantidades globales que son invariantes
bajo ciertos tipos especiales de transformaciones gauge (básicamente, aquellas que
desaparecen suficientemente rápido en el infinito; ver Wald). Entre ellas está la energía total
en una superficie Σ de tiempo constante,
E= 𝑡 𝑑 𝑥 (6.102)
Σ
y la energía total radiada hasta el infinito,
△E = 𝑡 𝑛 𝑑 𝑑𝑡 . (6.103)
S
Aquí, la integral se toma sobre una superficie temporal S formada por una 2-esfera espacial
en el infinito y algún intervalo de tiempo, y 𝑛 es un vector espacial unitario normal a S.
La evaluación de estas fórmulas en términos del momento cuadripolar de una fuente
radiante implica un largo cálculo que no reproduciremos aquí. Sin más preámbulos, la
cantidad de energía radiada puede escribirse como
△E = 𝑃 𝑑𝑡 , (6.104)
donde la potencia P viene dada por
P= , (6.105)
y aquí 𝑄 es la parte sin traza del momento cuadripolar,
𝑄 =𝑞 − 𝛿 𝛿 𝑞 . (6.106)
Para el sistema binario representado por (6.93), la parte sin traza del cuadripolo es
(1 + 3cos2Ω𝑡) 3sen2Ω𝑡 0
𝑄 = 𝑀𝑟 3sen2Ω𝑡 (1 − 3cos2Ω𝑡) 0 , (6.107)
0 0 −2
y su tercera derivada temporal es por tanto
sen2Ω𝑡 −cos2Ω𝑡 0
= 24𝑀𝑟 Ω −cos2Ω𝑡 −sen2Ω𝑡 0 . (6.108)
0 0 0
La potencia radiada por el sistema binario es por tanto
𝑃= 𝐺𝑀 𝑟 Ω , (6.109)
o, usando la expresión (6.89) para la frecuencia,
P= . (6.110)
Por supuesto, esto se ha observado realmente. En 1974, Hulse y Taylor descubrieron un

sistema binario, PSR1913+16, en el que ambas estrellas son muy pequeñas (por lo que los
efectos clásicos son despreciables, o al menos están controlados) y una es un púlsar. El
periodo de la órbita es de ocho horas, extremadamente pequeño para los estándares
astrofísicos. El hecho de que una de las estrellas sea un púlsar proporciona un reloj muy
preciso, con respecto al cual se puede medir el cambio en el periodo a medida que el sistema
pierde energía. El resultado es coherente con la predicción de la relatividad general sobre
la pérdida de energía a través de la radiación gravitacional. Hulse y Taylor recibieron el
Premio Nobel en 1993 por sus esfuerzos.
7 LA SOLUCIÓN SCHWARZSCHILD Y LOS AGUJEROS NEGROS 138
7. LA SOLUCIÓN SCHWARZSCHILD Y LOS AGUJEROS NEGROS
Ahora pasamos del dominio del límite de campo débil a las soluciones de las ecuaciones de
Einstein no lineales completas. Con la posible excepción del espacio de Minkowski, la
solución más importante de este tipo es, con mucho, la descubierta por Schwarzschild, que
describe espacios de vacío con simetría esférica. Como estamos en el vacío, las ecuaciones
de Einstein se convierten en 𝑅µ = 0. Por supuesto, si tenemos una solución propuesta para
un conjunto de ecuaciones diferenciales como ésta, bastaría con introducir la solución
propuesta para verificarla; sin embargo, nos gustaría hacerlo mejor. De hecho, esbozaremos
una prueba del teorema de Birkhoff, que afirma que la solución de Schwarzschild es la única
solución esféricamente simétrica de las ecuaciones de Einstein en el vacío. El procedimiento
consistirá en presentar primero algunos argumentos no rigurosos de que cualquier métrica
esféricamente simétrica (resuelva o no las ecuaciones de Einstein) debe adoptar una
determinada forma, y luego trabajar a partir de ahí para derivar más cuidadosamente la
solución real en tal caso.
"Esféricamente simétrica" significa "que tiene las mismas simetrías que una esfera". (En
esta sección la palabra "esfera" significa 𝑆 , no esferas de dimensión superior). Dado que el
objeto que nos interesa es la métrica sobre una variedad diferenciable, nos preocupan las
métricas que tienen tales simetrías. Sabemos cómo caracterizar las simetrías de la métrica:
vienen dadas por la existencia de vectores de Killing. Además, sabemos cuáles son los
vectores de Killing de 𝑆 , y que son tres. Por lo tanto, una variedad esféricamente simétrica
es aquella que tiene tres campos vectoriales de Killing que son iguales a los de 𝑆 . Por
"iguales" queremos decir que el conmutador de los vectores de Killing es el mismo en ambos
casos -en lenguaje más elegante, que el álgebra generada por los vectores es la misma-. Algo
que no hemos demostrado, pero que es cierto, es que podemos elegir que nuestros tres
vectores de Killing en 𝑆 sean 𝑉 ( ) , 𝑉 ( ) , 𝑉 ( ) , de forma que
𝑉 ( ), 𝑉 ( )
= 𝑉( )
𝑉 ( ), 𝑉 ( )
= 𝑉( )
𝑉 ( ), 𝑉 ( )
= 𝑉( )
. (7.1)
Las relaciones de conmutación son exactamente las de SO(3), el grupo de rotaciones en tres
dimensiones. Esto no es una coincidencia, por supuesto, pero no vamos a seguir con esto
aquí. Todo lo que necesitamos es que una variedad esféricamente simétrica es aquella que
posee tres campos vectoriales de Killing con las relaciones de conmutación anteriores.
En la tercera sección mencionamos el teorema de Frobenius, que afirma que si tenemos un
conjunto de campos vectoriales conmutados, existe un conjunto de funciones de
coordenadas tal que los campos vectoriales son las derivadas parciales con respecto a estas
funciones. De hecho, el teorema no se detiene ahí, sino que continúa diciendo que si tenemos
algunos campos vectoriales que no conmutan, pero cuyo conmutador se cierra - el
conmutador de dos campos cualesquiera del conjunto es una combinación lineal de otros
campos del conjunto -, entonces las curvas integrales de estos campos vectoriales "encajan"
para describir subvariedades de la variedad en la que están todos definidos. La
dimensionalidad de la subvariedad puede ser menor que el número de vectores, o puede
ser igual, pero obviamente no mayor. Los campos vectoriales que obedecen a (7.1)
formarán, por supuesto, 2-esferas. Como los campos vectoriales se extienden por todo el
espacio, cada punto estará exactamente en una de estas esferas. (En realidad, es casi cada
punto - mostraremos más adelante cómo puede no ser absolutamente cada punto). Por
tanto, decimos que una variedad esféricamente simétrica puede ser foliada en esferas.
Veamos algunos ejemplos para ponerlo en práctica. El ejemplo más sencillo es el espacio
plano tridimensional euclidiano. Si elegimos un origen, entonces 𝐑 es claramente
esféricamente simétrico con respecto a las rotaciones alrededor de este origen. Bajo tales
rotaciones (es decir, bajo el flujo de los campos vectoriales de Killing) los puntos se mueven
unos hacia otros, pero cada punto permanece en una 𝑆 a una distancia fija del origen.
z
3
R
x
Son estas esferas las que folian 𝐑 . Por supuesto, no folian realmente todo el espacio, ya que
el propio origen se mantiene bajo las rotaciones, no se mueve en una 2-esfera. Pero debería
quedar claro que casi todo el espacio está correctamente foliado, y esto nos resultará
suficiente.
También podemos tener simetría esférica sin un "origen" alrededor del cual girar las cosas.
Un ejemplo lo proporciona un "agujero de gusano", con topología R × 𝑆 . Si suprimimos una
dimensión y dibujamos nuestras dos esferas como círculos, dicho espacio podría tener este
aspecto:
En este caso, toda la variedad puede estar foliada por dos esferas.
Esta estructura foliada sugiere que pongamos las coordenadas en nuestra variedad de
forma adaptada a la foliación. Con esto queremos decir que, si tenemos una variedad n-
dimensional foliada por subvariedades m-dimensionales, podemos utilizar un conjunto de
m funciones de coordenadas 𝑢 en las subvariedades y un conjunto de n-m funciones de
coordenadas 𝑣 para decirnos en qué subvariedad estamos. (Así, i va de 1 a m, mientras que
I va de 1 a n - m.) Entonces la colección de v’s y u’s “coordinatiza” todo el espacio. Si las
subvariedades son espacios máximamente simétricos (como lo son las dos-esferas),
entonces existe el siguiente poderoso teorema: siempre es posible elegir las coordenadas u
de tal manera que la métrica en la totalidad de la variedad sea de la forma
𝑑𝑠 = 𝑔 d𝑥 d𝑥 = 𝑔 (𝑣)d𝑣 d𝑣 + 𝑓(𝑣)𝛾 (𝑢)d𝑢 d𝑢 . (7.2)

Aquí 𝛾 (𝑢) es la métrica sobre la subvariedad. Este teorema está diciendo dos cosas a la
vez: que no hay términos cruzados d𝑣 d𝑢 , y que tanto 𝑔 (𝑣) como 𝑓(𝑣)son funciones sólo
de 𝑣 , independientes de 𝑢 . Demostrar el teorema es un lío, pero se anima a buscarlo en el
capítulo 13 de Weinberg. No obstante, es un resultado perfectamente sensato. A grandes
rasgos, si 𝑔 o f dependieran de la 𝑢 , entonces la métrica cambiaría al movernos en una
única subvariedad, lo que viola la suposición de simetría. Los términos cruzados no
deseados, por su parte, pueden eliminarse asegurándose de que los vectores tangentes
∂/∂𝑣 son ortogonales a las subvariedades, es decir, que alineamos nuestras subvariedades
de la misma manera en todo el espacio.
Ahora ya no hay que hacer más cábalas y podemos empezar a hacer algunos cálculos
honestos. Para el caso que nos ocupa, nuestras subvariedades son dos esferas, en las que
solemos elegir coordenadas (θ, 𝜙) en las que la métrica toma la forma
dΩ = d𝜃 + sen 𝜃d𝜙 . (7.3)
Como estamos interesados en un espaciotiempo de cuatro dimensiones, necesitamos dos
coordenadas más, que podemos llamar a y b. El teorema (7.2) nos dice entonces que la
métrica en un espaciotiempo esféricamente simétrico puede ponerse en la forma
𝑑𝑠 = 𝑔 (𝑎, 𝑏)d𝑎 + 𝑔 (𝑎, 𝑏)(d𝑎d𝑏 + d𝑏d𝑎) + 𝑔 (𝑎, 𝑏)d𝑏 + 𝑟 (𝑎, 𝑏)𝑑Ω . (7.4)
Aquí r(𝑎, 𝑏) es una función aún no determinada, a la que simplemente hemos dado una
etiqueta sugerente. Nada nos impide, sin embargo, cambiar las coordenadas de (𝑎, 𝑏) a
(𝑎, 𝑟), invirtiendo r(𝑎, 𝑏). (Lo único que podría impedirnos sería que r fuera una función
sólo de a; en este caso podríamos pasar fácilmente a (𝑏, 𝑟), por lo que no consideraremos
esta situación por separado). La métrica es entonces
𝑑𝑠 = 𝑔 (𝑎, 𝑟)d𝑎 + 𝑔 (𝑎, 𝑟)(d𝑎d𝑟 + d𝑟d𝑎) + 𝑔 (𝑎, 𝑟)d𝑟 + 𝑟 𝑑Ω . (7.5)
Nuestro siguiente paso es encontrar una función t(𝑎, 𝑟) tal que, en el sistema de
coordenadas (𝑡, 𝑟), no haya términos cruzados dtdr + drdt en la métrica. Obsérvese que
d𝑡 = da + dr , (7.6)
de esa manera
d𝑡 = d𝑎 + (d𝑎d𝑟 + d𝑟d𝑎) + d𝑟 . (7.7)
Queremos sustituir los tres primeros términos de la métrica (7.5) por

m d𝑡 + 𝑛d𝑟 , (7.8)
para unas ciertas funciones m y n. Esto equivale a los requisitos
m =𝑔 , (7.9)
n+m =𝑔 , (7.10)
m =𝑔 . (7.11)
Por tanto, tenemos tres ecuaciones para las tres incógnitas t(𝑎, 𝑟), m(𝑎, 𝑟)y n(𝑎, 𝑟), lo
suficiente para determinarlas con precisión (hasta las condiciones iniciales de t). (Por
supuesto, están "determinadas" en términos de las funciones desconocidas 𝑔 , 𝑔 y 𝑔 ,
por lo que en este sentido siguen siendo indeterminadas). Por lo tanto, podemos poner
nuestra métrica en la forma
𝑑𝑠 = 𝑚(𝑡, 𝑟)d𝑡 + 𝑛(𝑡, 𝑟)d𝑟 + 𝑟 𝑑Ω . (7.12)
Hasta aquí la única diferencia entre las dos coordenadas t y r es que hemos elegido que r es
la que multiplica la métrica para la dos-esfera. Esta elección está motivada por lo que
sabemos de la métrica para el espacio plano de Minkowski, que puede escribirse 𝑑𝑠 =
−d𝑡 + 𝑑𝑟 + 𝑟 𝑑Ω . Sabemos que el espaciotiempo considerado es lorentziano, por lo que
m o n tendrán que ser negativos. Elijamos que m, el coeficiente de d𝑡 , sea negativo. Esta no
es una elección que se nos permita hacer sin más, y de hecho veremos más adelante que
puede salir mal, pero la asumiremos por ahora. La suposición no es del todo irrazonable, ya
que sabemos que el espacio de Minkowski es en sí mismo esféricamente simétrico, y por lo
tanto será descrito por (7.12). Con esta elección podemos cambiar las funciones m y n por
nuevas funciones α y β, tales que
( , ) ( , )
𝑑𝑠 = −𝑒 d𝑡 + 𝑒 d𝑟 + 𝑟 𝑑Ω . (7.13)
Esto es lo mejor que podemos hacer para una métrica general en un espaciotiempo
esféricamente simétrico. El siguiente paso es resolver realmente las ecuaciones de Einstein,
lo que nos permitirá determinar explícitamente las funciones α(𝑡, 𝑟) y β(𝑡, 𝑟).
Lamentablemente, es necesario calcular los símbolos de Christoffel para (7.13), a partir de
los cuales podemos obtener el tensor de curvatura y, por tanto, el tensor de Ricci. Si
utilizamos etiquetas (0,1,2,3) para (t, r, θ, 𝜙) de la forma habitual, los símbolos de Christoffel
vienen dados por
( )
Γ =𝜕 𝛼 Γ =𝜕 𝛼 Γ =𝑒 𝜕 𝛽
( )
Γ =𝑒 𝜕 𝛼 Γ =𝜕 𝛽 Γ =𝜕 𝛽
Γ = Γ = −𝑟𝑒 Γ =
Γ = −𝑟𝑒 sen 𝜃 Γ = −sen𝜃cos𝜃 Γ = . (7.14)
(Todo lo que no esté escrito explícitamente se entiende que es cero, o que está relacionado
con lo escrito por simetrías). A partir de ellas obtenemos las siguientes componentes no
evanescentes del tensor de Riemann:
( ) [𝜕
𝑅 = 𝑒 𝛽 + (𝜕 𝛽) − 𝜕 𝛼𝜕 𝛽] + [𝜕 𝛼𝜕 𝛽 − 𝜕 𝛼 − (𝜕 𝛼) ]
𝑅 = −𝑟𝑒 𝜕 𝛼
𝑅 = −𝑟𝑒 sen 𝜃𝜕 𝛼
𝑅 = −𝑟𝑒 𝜕 𝛽
𝑅 = −𝑟𝑒 sen 𝜃𝜕 𝛽
𝑅 = 𝑟𝑒 𝜕 𝛽
𝑅 = 𝑟𝑒 sen 𝜃𝜕 𝛽
𝑅 = 1 − 𝑟𝑒 sen 𝜃 . (7.15)
Tomando la contracción como es habitual se obtiene el tensor de Ricci:
2
𝑅 = 𝜕20 𝛽 + (𝜕0 𝛽)2 − 𝜕0 𝛼𝜕0 𝛽 +𝑒 ( )
𝜕 𝛼 + (𝜕 𝛼) − 𝜕 𝛼𝜕 𝛽 + 𝑟 𝜕 𝛼
𝑅 = − 𝜕21 𝛼 + (𝜕1 𝛼)2 − 𝜕1 𝛼𝜕1 𝛽 − 𝜕1 𝛽 + 𝑒2(𝛽−𝛼) 𝜕20 𝛽 + (𝜕0 𝛽)2 − 𝜕0 𝛼𝜕0 𝛽
𝑅01 = 𝜕 𝛽
𝑅 = 𝑒 [𝑟(𝜕 𝛽 − 𝜕 𝛼) − 1] + 1
𝑅 =𝑅 sen 𝜃 . (7.16)
Nuestro trabajo es establecer 𝑅µ = 0. De 𝑅 = 0 obtenemos
𝜕 𝛽 =0. (7.17)
Si consideramos tomar la derivada temporal de 𝑅 = 0 y utilizar 𝜕 𝛽 = 0, obtenemos
𝜕 𝜕 𝛼 =0. (7.18)
Podemos por tanto escribir
𝛽 = 𝛽(𝑟)
𝛼 = 𝑓(𝑟) + 𝑔(𝑡) . (7.19)
El primer término de la métrica (7.13) es, pues, −𝑒 ( ) 𝑒 ( ). Pero siempre podríamos
simplemente redefinir nuestra coordenada temporal sustituyendo dt → 𝑒 ( ) d𝑡 ; en otras
palabras, somos libres de elegir t de manera que 𝑔(𝑡) = 0, con lo que α(𝑡, 𝑟)= f(𝑟). Por lo
tanto, tenemos
( ) ( )
𝑑𝑠 = −𝑒 d𝑡 + 𝑒 d𝑟 + 𝑟 𝑑Ω . (7.20)
Todas las componentes de la métrica son independientes de la coordenada t. Por tanto,
hemos demostrado un resultado crucial: cualquier métrica de vacío esféricamente simétrica
posee un vector de Killing temporal (“time-like”).
Esta propiedad es tan interesante que recibe su propio nombre: una métrica que posee un
vector de Killing semejante al tiempo se llama estacionaria. También hay una propiedad
más restrictiva: una métrica se llama estática si posee un vector de Killing semejante al
tiempo que es ortogonal a una familia de hipersuperficies. (Una hipersuperficie en una
variedad n-dimensional es simplemente una subvariedad (n-1)dimensional). La métrica
(7.20) no sólo es estacionaria, sino también estática; el campo vectorial de Killing 𝜕 es
ortogonal a las superficies t = const (ya que no hay términos cruzados como dtdr y demás).
A grandes rasgos, una métrica estática es aquella en la que nada se mueve, mientras que una
métrica estacionaria permite que las cosas se muevan pero sólo de forma simétrica. Por
ejemplo, la métrica estática con simetría esférica (7.20) describirá estrellas o agujeros
negros que no giran, mientras que los sistemas que giran (que siguen girando de la misma
manera en todo momento) serán descritos por métricas estacionarias. Es difícil recordar
qué palabra va con cada concepto, pero la distinción entre ambos debería ser comprensible.
Sigamos con la búsqueda de la solución. Como tanto 𝑅 como 𝑅 desaparecen, podemos
escribir
0=𝑒 ( )
𝑅00 + 𝑅11 = (𝜕 𝛼 + 𝜕 𝛽) . (7.21)
lo que implica que α = -β + constante. Una vez más, podemos deshacernos de la constante
escalando nuestras coordenadas, por lo que tenemos
α=-β. (7.22)
A continuación pasemos a 𝑅 = 0, que ahora se lee
𝑒 (2𝑟𝜕 𝛼 + 1) = 1 . (7.23)
Esto es totalmente equivalente a
𝜕 (𝑟𝑒 )=1. (7.24)
Podemos resolverlo y obtener
𝑒 =1+ , (7.25)
donde µ es una constante indeterminada. Con (7.22) y (7.25), nuestra métrica se convierte
en
𝜇 𝜇
𝑑𝑠 = − 1 + 𝑟 d𝑡 + 1 + 𝑟 d𝑟 + 𝑟 𝑑Ω . (7.26)
Ahora no nos queda ninguna libertad excepto la única constante µ, por lo que esta forma
resuelve mejor las ecuaciones restantes 𝑅 = 0 y 𝑅 = 0; es sencillo comprobar que lo hace,
para cualquier valor de µ.
Lo único que queda por hacer es interpretar la constante µ en términos de algún parámetro
físico. El uso más importante de una solución de vacío con simetría esférica es representar
el espaciotiempo fuera de una estrella o planeta o lo que sea. En ese caso esperaríamos
recuperar el límite de campo débil como r → ∞. En este lı́mite, (7.26) implica
𝜇
𝑔 (𝑟 → ∞) = − 1 + 𝑟 ,
𝜇
𝑔 (𝑟 → ∞) = 1 − 𝑟 . (7.27)
Por otro lado, el límite del campo débil tiene

𝑔 = −(1 + 2Φ) ,
𝑔 = −(1 − 2Φ) , (7.28)
con el potencial Φ = -GM/r. Por tanto, las métricas coinciden en este límite, si fijamos µ = -
2GM.
Nuestro resultado final es la célebre métrica de Schwarzschild,
2𝐺𝑀 2𝐺𝑀
𝑑𝑠 = − 1 − 𝑟 d𝑡 + 1 − 𝑟 d𝑟 + 𝑟 𝑑Ω . (7.29)
Esto es cierto para cualquier solución de vacío esféricamente simétrica de las ecuaciones de
Einstein; M funciona como un parámetro, que resulta que podemos interpretar como la
masa newtoniana convencional que mediríamos estudiando las órbitas a grandes distancias
de la fuente gravitatoria. Nótese que a medida que M → 0 recuperamos el espacio de
Minkowski, lo cual es de esperar. Nótese también que la métrica se vuelve progresivamente
minkowskiana a medida que vamos a r → ∞; esta propiedad se conoce como planitud
asintótica (“asymptotic flatness”).
El hecho de que la métrica de Schwarzschild no sea sólo una buena solución, sino que sea la
única solución esféricamente simétrica del vacío, se conoce como teorema de Birkhoff. Es
interesante observar que el resultado es una métrica estática. No hemos dicho nada sobre
la fuente, excepto que sea esféricamente simétrica. Específicamente, no exigimos que la
fuente en sí sea estática; podría ser una estrella en colapso, siempre y cuando el colapso
fuera simétrico. Por lo tanto, se esperaría que un proceso como la explosión de una
supernova, que es básicamente esférica, generara muy poca radiación gravitacional (en
comparación con la cantidad de energía liberada a través de otros canales). Este es el mismo
resultado que habríamos obtenido en electromagnetismo, donde los campos
electromagnéticos alrededor de una distribución de cargas esférica no dependen de la
distribución radial de las cargas.
Antes de explorar el comportamiento de las partículas de prueba en la geometría de

Schwarzschild, debemos decir algo sobre las singularidades. A partir de la forma de (7.29),
los coeficientes métricos se vuelven infinitos en r = 0 y r = 2GM - una señal aparente de que
algo va mal. Los coeficientes métricos, por supuesto, son cantidades que dependen de las
coordenadas y, como tales, no deberíamos dar demasiada importancia a sus valores;
ciertamente es posible tener una "singularidad de coordenadas" que resulte de una ruptura
de un sistema de coordenadas específico en lugar de la variedad subyacente. Un ejemplo se
produce en el origen de coordenadas polares en el plano, donde la métrica 𝑑𝑠 = 𝑑𝑟 + 𝑟 d𝜃
se degenera y la componente 𝑔 = 𝑟 de la métrica inversa estalla, aunque ese punto de
la variedad no es diferente de cualquier otro.
¿Qué tipo de señal independiente de las coordenadas deberíamos buscar como señal de que
algo en la geometría está fuera de control? Resulta una pregunta difícil de responder, y se
han escrito libros enteros sobre la naturaleza de las singularidades en la relatividad general.
No vamos a profundizar en esta cuestión, sino que vamos a recurrir a un criterio sencillo
para saber cuándo algo va mal: cuando la curvatura se vuelve infinita. La curvatura se mide
mediante el tensor de Riemann, y es difícil decir cuándo un tensor se vuelve infinito, ya que
sus componentes dependen de las coordenadas. Pero a partir de la curvatura podemos
construir varias cantidades escalares, y como los escalares son independientes de las
coordenadas, tendrá sentido decir que se vuelven infinitos. El escalar más sencillo es el
escalar de Ricci R = 𝑔 𝑅 , pero también podemos construir escalares de orden superior
como 𝑅 𝑅 , 𝑅 𝑅 , 𝑅 𝑅 𝑅 , etc. Si alguno de estos escalares (no
necesariamente todos) llega al infinito al acercarnos a algún punto, consideraremos ese
punto como una singularidad de la curvatura. También debemos comprobar que el punto
no está "infinitamente lejos", es decir, que se puede llegar a él recorriendo una distancia
finita a lo largo de la curva.
Tenemos, pues, una condición suficiente para que un punto sea considerado una
singularidad. Sin embargo, no es una condición necesaria y, por lo general, es más difícil
demostrar que un punto determinado no es singular; para nuestros fines, simplemente
comprobaremos si las geodésicas se comportan bien en el punto en cuestión y, si es así,
consideraremos que el punto no es singular. En el caso de la métrica de Schwarzschild
(7.29), el cálculo directo revela que
𝑅 𝑅 = . (7.30)
Esto es suficiente para convencernos de que r = 0 representa una singularidad auténtica. En

el otro punto problemático, r = 2GM, se podría comprobar y ver que ninguna de las
invariantes de curvatura estalla. Por lo tanto, empezamos a pensar que en realidad no es
singular, y que simplemente hemos elegido un mal sistema de coordenadas. Lo mejor es
transformar a coordenadas más apropiadas si es posible. Pronto veremos que en este caso
sí es posible, y la superficie r = 2GM se comporta muy bien (incluso de forma interesante)
en la métrica de Schwarzschild.
Habiéndonos preocupado un poco por las singularidades, debemos señalar que el
comportamiento de Schwarzschild en r ≤ 2GM tiene poca importancia en el día a día. La
solución que derivamos es válida sólo en el vacío, y esperamos que se mantenga fuera de un
cuerpo esférico como una estrella. Sin embargo, en el caso del Sol estamos tratando con un
cuerpo que se extiende hasta un radio de
𝑅⊙ = 10 𝐺𝑀⊙ . (7.31)
Así, r = 2𝐺𝑀⊙ está muy dentro del interior solar, donde no esperamos que la métrica de
Schwarzschild se implique. De hecho, las soluciones interiores estelares realistas son de la
forma
2𝐺𝑚(𝑟) 2𝐺𝑚(𝑟)
𝑑𝑠 = − 1 − 𝑟
d𝑡 + 1 − 𝑟 d𝑟 + 𝑟 𝑑Ω . (7.32)
Véase Schutz para más detalles. En este caso, m(r) es una función de r que llega a cero más
rápido que la propia r, por lo que no hay que lidiar con ninguna singularidad. Sin embargo,
hay objetos para los que se requiere la métrica de Schwarzschild completa -agujeros negros-
y, por tanto, en esta sección dejaremos que nuestra imaginación se aleje del sistema solar.
El primer paso que daremos para comprender mejor esta métrica es considerar el
comportamiento de las geodésicas. Necesitamos los símbolos de Christoffel no nulos para
Schwarzschild:
Γ = (𝑟 − 2𝐺𝑀) Γ = Γ =
( ) ( )
Γ = Γ = −(𝑟 − 2𝐺𝑀) Γ =
Γ = −(𝑟 − 2𝐺𝑀)sen 𝜃 Γ = −sen𝜃cos𝜃 Γ = . (7.33)
La ecuación geodésica se convierte por tanto en las siguientes cuatro ecuaciones, donde λ
es un parámetro afín:
+ =0, (7.34)
( )
+ (𝑟 − 2𝐺𝑀) -
( )
-(𝑟 − 2𝐺𝑀) + sen 𝜃 =0, (7.35)
𝑑𝜃 2
+ − sen𝜃cos𝜃 𝑑𝜆
=0, (7.36)
y
cos𝜃
+ + 2 sen𝜃 =0. (7.37)
No parece haber muchas esperanzas de resolver simplemente por inspección este conjunto
de ecuaciones acopladas. Afortunadamente, nuestra tarea se ve muy simplificada por el alto
grado de simetría de la métrica de Schwarzschild. Sabemos que hay cuatro vectores de
Killing: tres para la simetría esférica y uno para las traslaciones temporales. Cada uno de
ellos conducirá a una constante del movimiento para una partícula libre; si 𝐾 µ es un vector
de Killing, sabemos que
𝐾 = constante . (7.38)
Además, hay otra constante del movimiento que siempre tenemos para las geodésicas; la
compatibilidad métrica implica que a lo largo de la trayectoria la cantidad
𝜖 = −𝑔 (7.39)
es constante. Por supuesto, para una partícula masiva solemos elegir λ = τ, y esta relación
se convierte simplemente en 𝜖 = −𝑔 𝑈 𝑈 = +1. Para una partícula sin masa siempre
tenemos 𝜖 = 0. También nos ocuparemos de las geodésicas espaciales (aunque no
correspondan a trayectorias de partículas), para las que elegiremos 𝜖 = −1.
En lugar de escribir inmediatamente expresiones explícitas para las cuatro magnitudes

conservadas asociadas a los vectores de Killing, pensemos en lo que nos dicen. Fíjense en
que las simetrías que representan también están presentes en el espaciotiempo plano,
donde las cantidades conservadas a las que conducen son muy familiares. La invariancia
bajo traslaciones temporales lleva a la conservación de la energía, mientras que la
invariancia bajo rotaciones espaciales lleva a la conservación de las tres componentes del
momento angular. Lo mismo ocurre con la métrica de Schwarzschild. Podemos pensar en el
momento angular como un vector triple con una magnitud (un componente) y una dirección
(dos componentes). La conservación de la dirección del momento angular significa que la
partícula se moverá en un plano. Podemos elegir que éste sea el plano ecuatorial de nuestro
sistema de coordenadas; si la partícula no está en este plano, podemos rotar las
coordenadas hasta que lo esté. Así, los dos vectores de Killing que conducen a la
conservación de la dirección del momento angular implican
𝜃= . (7.40)
Los dos vectores de Killing restantes corresponden a la energía y a la magnitud del momento
angular. La energía surge del vector de Killing de tipo temporal K = ∂t, o
𝐾 = (− (1 − , 0, 0, 0 ) . (7.41)
El vector de Killing cuya cantidad conservada es la magnitud del momento angular es

L=𝜕 ,o
𝐿 = (0, 0, 0, 𝑟 sen 𝜃) . (7.42)
Como (7.40) implica que senθ = 1 a lo largo de las geodésicas que nos interesan, las dos
cantidades conservadas son
1− =E, (7.43)
𝑟 = L. (7.44)
En el caso de las partículas sin masa, pueden considerarse como la energía y el momento
angular; en el caso de las partículas masivas, son la energía y el momento angular por unidad
de masa de la partícula. Obsérvese que la constancia de (7.44) es el equivalente en la RG de
la segunda ley de Kepler (áreas iguales son barridas en tiempos iguales).
El conjunto de estas cantidades conservadas proporciona una forma conveniente de
entender las órbitas de las partículas en la geometría de Schwarzschild. Expandamos la
expresión (7.39) para ǫ para obtener
2𝐺𝑀 𝑑𝑟 2
− 1− + 1− 𝑟 𝑑𝜆
+𝑟 = −𝜖 . (7.45)
Si multiplicamos esto por (1 - 2GM/r) y utilizamos nuestras expresiones para E y L,

obtenemos
2𝐺𝑀 𝐿2
−𝐸 + + 1− 𝑟
𝑟2
+ ϵ =0. (7.46)
Esto es ciertamente un progreso, ya que hemos tomado un desordenado sistema de

ecuaciones acopladas y hemos obtenido una única ecuación para r(λ). Parece aún más
bonito si lo reescribimos como
+ 𝑉(𝑟) = 𝐸 , (7.47)
donde
𝑉(𝑟) = ϵ-ϵ + − . (7.48)
En (7.47) tenemos precisamente la ecuación para una partícula clásica de masa y "energía"
unitarias que se mueve en un potencial unidimensional dado por V(r). (La verdadera
energía por unidad de masa es E, pero el potencial efectivo para la coordenada r responde
a 𝐸 ).
Por supuesto, nuestra situación física es muy diferente a la de una partícula clásica que se
mueve en una dimensión. Las trayectorias consideradas son órbitas alrededor de una
estrella u otro objeto:
r( λ )
r(λ )
Las cantidades que nos interesan no son sólo r(λ), sino también t(λ) y 𝜙 (λ). Sin embargo,
podemos avanzar mucho en la comprensión de todas las órbitas si entendemos su
comportamiento radial, y es una gran ayuda reducir este comportamiento a un problema
que sabemos resolver.
Un análisis similar de las órbitas en la gravedad newtoniana habría producido un resultado
parecido; la ecuación general (7.47) habría sido la misma, pero el potencial efectivo (7.48)
no habría tenido el último término. (Nótese que esta ecuación no es una serie de potencias
en 1/r, es exacta). En el potencial (7.48) el primer término es sólo una constante, el segundo
término corresponde exactamente al potencial gravitatorio newtoniano, y el tercer término
es una contribución del momento angular que toma la misma forma en la gravedad
newtoniana y en la relatividad general. El último término, la contribución de la RG, resultará
ser una gran diferencia, sobre todo con r pequeños.
Examinemos los tipos de órbitas posibles, como se ilustra en las figuras. Hay diferentes
curvas 𝑉(𝑟) para diferentes valores de L; para cualquiera de estas curvas, el
comportamiento de la órbita se puede juzgar comparando las 𝐸 con 𝑉(𝑟). El
comportamiento general de la partícula será moverse en el potencial hasta alcanzar un
"punto de inflexión" donde 𝑉(𝑟) = 𝐸 , en el que comenzará a moverse en la otra dirección.
A veces puede que no haya ningún punto de inflexión que alcanzar, en cuyo caso la partícula
simplemente sigue avanzando. En otros casos la partícula puede simplemente moverse en
una órbita circular de radio 𝑟 = const; esto puede ocurrir si el potencial es plano, dV/dr = 0.
Diferenciando (7.48), encontramos que las órbitas circulares ocurren cuando
𝜖𝐺𝑀𝑟 − 𝐿 𝑟 + 3𝐺𝑀𝐿 𝛾 = 0 . (7.49)
donde γ = 0 en la gravedad newtoniana y γ = 1 en la relatividad general. Las órbitas

circulares serán estables si corresponden a un mínimo del potencial, e inestables si
corresponden a un máximo. Las órbitas enlazadas que no sean circulares oscilarán
alrededor del radio de la órbita circular estable.
Volviendo a la gravedad newtoniana, encontramos que las órbitas circulares aparecen en
𝑟 = . (7.50)
0.8
Gravedad Newtoniana
partículas masivas
0.6 5
4
0.4
L=1
0.2
0
0 10 20 30
r
0.8
Gravedad Newtoniana
partículas sin masa
0.6
0.4
L=5
0.2 4
3
2
1
0
0 10 20 30
r
Para las partículas sin masa 𝜖 = 0 y no hay órbitas circulares; esto es consistente con la
figura, que ilustra que no hay órbitas ligadas de ningún tipo. Aunque queda algo oculto en
este sistema de coordenadas, las partículas sin masa se mueven realmente en línea recta, ya
que la fuerza gravitatoria newtoniana sobre una partícula sin masa es nula. (Por supuesto,
la permanencia de las partículas sin masa en la teoría newtoniana es algo problemática, pero
lo ignoraremos por ahora). En términos del potencial efectivo, un fotón con una energía E
dada vendrá de r = ∞ y gradualmente "se frenará " (en realidad dr/dλ disminuirá, pero la
velocidad de la luz no está cambiando) hasta que alcance el punto de inflexión, cuando
comenzará a alejarse de vuelta a r = ∞. Los valores má s bajos de L, para los que el fotón se
acercará antes de empezar a alejarse, son simplemente aquellas trayectorias que se dirigen
inicialmente más cerca del cuerpo gravitatorio. Para las partículas masivas habrá órbitas
circulares estables en el radio (7.50), así como órbitas ligadas que oscilan alrededor de este
radio. Si la energía es mayor que el valor asintótico E = 1, las órbitas serán no ligadas,
describiendo una partícula que se acerca a la estrella y luego se aleja. Sabemos que las
órbitas en la teoría de Newton son secciones cónicas -las órbitas ligadas son círculos o
elipses, mientras que las no ligadas son parábolas o hipérbolas- aunque no lo mostraremos
aquí.
En la relatividad general la situación es diferente, pero sólo para r suficientemente pequeño.
Como la diferencia reside en el término - , a medida que r → ∞ los comportamientos
son idénticos en las dos teorías. Pero a medida que r → 0 el potencial pasa a −∞ en lugar de
+∞ como en el caso newtoniano. En r = 2GM el potencial es siempre cero; dentro de este
radio se encuentra el agujero negro, del que hablaremos más a fondo más adelante. Para las
partículas sin masa siempre hay una barrera (excepto para L = 0, para la cual el potencial
desaparece idénticamente), pero un fotón suficientemente energético pasará sin embargo
por encima de la barrera y será arrastrado inexorablemente hacia el centro. (Obsérvese que
"suficientemente energético" significa "en comparación con su momento angular"; de
hecho, la frecuencia del fotón es irrelevante, sólo la dirección a la que apunta). En la parte
superior de la barrera hay órbitas circulares inestables. Para 𝜖 = 0, γ = 1, podemos resolver
fácilmente (7.49) para obtener
𝑟 = 3𝐺𝑀 . (7.51)
Esto se confirma en la figura, que muestra un máximo de 𝑉(𝑟) en r = 3GM para cada L. Esto
significa que un fotón puede orbitar eternamente en un círculo en este radio, pero cualquier
perturbación hará que salga volando hacia 𝑟 = 0 o hacia 𝑟 = ∞.
0.8
Relatividad
partículas masivas
0.6
5
3
0.4
2
L=1
0.2
0
0 10 20 30
0.8
Relatividad
partículas sin masa
0.6
0.4
0.2 L=5
4
3
2
1
0
0 10 20 30
r
En el caso de las partículas masivas hay de nuevo diferentes regímenes en función del
momento angular. Las órbitas circulares están en
±√
𝑟 = . (7.52)
Para L grande habrá dos órbitas circulares, una estable y otra inestable. En el caso de L → ∞
sus radios vienen dados por
± ( / )
𝑟 = = ∓ 3𝐺𝑀 . (7.53)
En este límite la órbita circular estable se aleja cada vez más, mientras que la inestable se
acerca a 3GM, comportamiento que es paralelo al caso sin masa. A medida que disminuimos
L las dos órbitas circulares se acercan; coinciden cuando el discriminante en (7.52)
desaparece, en
𝐿 = √12𝐺𝑀 , (7.54)
para lo cual
𝑟 = 6𝐺𝑀 , (7.55)
y desaparecen por completo para L más pequeños. Así, 6GM es el radio más pequeño posible
de una órbita circular estable en la métrica de Schwarzschild. También hay órbitas no
ligadas, que llegan desde el infinito y dan la vuelta, y otras ligadas pero no circulares, que
oscilan alrededor del radio circular estable. Nótese que tales órbitas, que describirían
secciones cónicas exactas en la gravedad newtoniana, no lo harán en la RG, aunque
tendríamos que resolver la ecuación para 𝑑𝜙/dt para demostrarlo. Por último, hay órbitas
que llegan desde el infinito y continúan hasta r = 0; esto puede ocurrir tanto si la energía es
mayor que la barrera, como para L < √12𝐺𝑀, cuando la barrera desaparece por completo.
Por tanto, hemos comprobado que la solución de Schwarzschild posee órbitas circulares
estables para r > 6GM y órbitas circulares inestables para 3GM < r < 6GM. Es importante
recordar que éstas son sólo las geodésicas; no hay nada que impida a una partícula en
aceleración descender por debajo de r = 3GM y emerger, siempre que se mantenga más allá
de r = 2GM.
La mayoría de las pruebas experimentales de la relatividad general implican el movimiento
de las partículas de prueba en el sistema solar, y por lo tanto las geodésicas de la métrica de
Schwarzschild; por lo tanto, éste es un buen lugar para detenerse a considerar estas
pruebas. Einstein propuso tres pruebas: la desviación de la luz, la precesión de los perihelios
y el desplazamiento gravitacional. La desviación de la luz es observable en el límite del
campo débil y, por tanto, no es realmente una buena prueba de la forma exacta de la
geometría de Schwarzschild. Se han realizado observaciones de esta desviación durante los
eclipses de Sol, con resultados que coinciden con la predicción de la RG (aunque no es un
experimento especialmente limpio). La precesión de los perihelios refleja el hecho de que
las órbitas no circulares no son elipses cerradas; en una buena aproximación son elipses
que preceden (“realizan una precesión”), describiendo un patrón tipo flor.
Utilizando nuestras ecuaciones geodésicas, podríamos resolver 𝑑𝜙/d𝜆 como una serie de
potencias en la excentricidad e de la órbita, y a partir de ahí obtener la frecuencia apsidal
𝜔 , definida como 2π dividido por el tiempo que tarda la elipse en preceder una vez. Para
los detalles se puede buscar en Weinberg; la respuesta es
( ) /
𝜔 = /
, (7.56)
( )
donde hemos restaurado la c para facilitar la comparación con la observación. (Es un buen
ejercicio derivar esto uno mismo hasta el menor orden no evanescente, en cuyo caso falta el
𝑒 ). Históricamente, la precesión de Mercurio fue la primera prueba de la RG. Para Mercurio
los números relevantes son
⊙
= 1,48 × 10 cm ,
a = 5,55 × 10 cm , (7.57)
y, por supuesto, c = 3,00 × 10 cm /seg. Esto da 𝜔 = 2,35 × 10 seg . En otras palabras,
el eje mayor de la órbita de Mercurio precede a un ritmo de 42,9 arcosegundos cada 100
años. El valor observado es de 5.601 arcosegs/100 años, pero gran parte de este valor se
debe a la precesión de los equinoccios en nuestro sistema de coordenadas geocéntrico:
5.025 arcosegs/100 años, para ser exactos. Las perturbaciones gravitacionales de los otros
planetas contribuyen con 532 arcos/100 años adicionales, dejando 43 arcos/100 años para
ser explicados por la RG, lo que hace bastante bien.
El corrimiento gravitacional, como hemos visto, es otro efecto que está presente en el límite
del campo débil, y de hecho será predicho por cualquier teoría de la gravedad que obedezca
el Principio de Equivalencia. Sin embargo, esto sólo se aplica a regiones suficientemente
pequeñas del espaciotiempo; en distancias mayores, la cantidad exacta de corrimiento al
rojo dependerá de la métrica y, por tanto, de la teoría en cuestión. Por lo tanto, vale la pena
calcular el corrimiento al rojo en la geometría de Schwarzschild. Consideramos dos
observadores que no se mueven en las geodésicas, sino que se encuentran estancados en
valores de coordenadas espaciales fijos (𝑟 , 𝜃 , 𝜙 ) y (𝑟 , 𝜃 , 𝜙 ). Según (7.45), el tiempo
propio del observador i estará relacionado con el tiempo de coordenadas t por
/
= 1− . (7.58)
Supongamos que el observador 𝒪 emite un pulso de luz que viaja hasta el observador 𝒪 ,
de forma que 𝒪 mide que el tiempo entre dos crestas sucesivas de la onda luminosa es △𝜏 .
Cada cresta sigue el mismo camino hacia 𝒪 , excepto que están separadas por un tiempo de
coordenadas
/
△t = 1 − △𝜏 . (7.59)
Esta separación en tiempo de coordenadas no cambia a lo largo de las trayectorias de los

fotones, pero el segundo observador mide un tiempo entre crestas sucesivas dado por
/
△𝜏 = 1 − △t
/ /
= △𝜏 . (7.60)
/
Como estos intervalos △𝜏 miden el tiempo propio entre dos crestas de una onda
electromagnética, las frecuencias observadas estarán relacionadas por
△
=
△
/ /
= . (7.61)
/
Este es un resultado exacto para el desplazamiento de frecuencia; en el límite r >> 2GM
tenemos
= 1- +
=1+Φ −Φ . (7.62)
Esto nos dice que la frecuencia disminuye a medida que Φ aumenta, lo que ocurre al salir de
un campo gravitatorio; por tanto, un desplazamiento al rojo. Se puede comprobar que
coincide con nuestro cálculo anterior basado en el principio de equivalencia.
Desde que Einstein propuso las tres pruebas clásicas, se han propuesto otras pruebas de la
RG. La más famosa es, por supuesto, la del púlsar binario, discutida en la sección anterior.
Otra es el retardo temporal gravitatorio, descubierto por (y observado por) Shapiro. Se trata
simplemente del hecho de que el tiempo transcurrido a lo largo de dos trayectorias
diferentes entre dos eventos no tiene por qué ser el mismo. Se ha medido reflejando las
señales de radar de Venus y Marte, y una vez más es consistente con la predicción de la RG.
Un efecto que aún no se ha observado es el Lense-Thirring, o efecto de arrastre de
fotogramas. Se ha hecho un esfuerzo a largo plazo para proponer un satélite, llamado
Gravity Probe B, que incluiría giroscopios extraordinariamente precisos cuya precesión
podría medirse y la contribución de la RG clasificarse. Sin embargo, aún falta mucho para su
lanzamiento, y la supervivencia de este tipo de proyectos es siempre de año en año.
Ahora sabemos algo sobre el comportamiento de las geodésicas fuera del problemático
radio r = 2GM, que es el régimen de interés para el sistema solar y la mayoría de las demás
situaciones astrofísicas. A continuación pasaremos a estudiar los objetos que se describen
mediante la solución de Schwarzschild incluso a radios menores que 2GM: los agujeros
negros. (De momento utilizaremos el término "agujero negro", aunque no hayamos
introducido un significado preciso para dicho objeto). Una forma de entender una geometría
es explorar su estructura causal, definida por los conos de luz. Por tanto, consideramos las
curvas radiales nulas, aquellas para las que θ y 𝜙 son constantes y 𝑑𝑠 = 0:
2𝐺𝑀
𝑑𝑠 = 0 = − 1− d𝑡 + 1 − 𝑟 d𝑟 , (7.63)
de lo cual vemos que

2𝐺𝑀
=± 1− 𝑟 . (7.64)
Esto, por supuesto, mide la pendiente de los conos de luz en un diagrama espaciotempo del
plano t-r. Para r grande la pendiente es ±1, como lo sería en el espacio plano, mientras que
a medida que nos acercamos a r = 2GM obtenemos dt/dr → ±∞, y los conos de luz se
"cierran":
r
2GM
Así, un rayo de luz que se aproxima a r = 2GM no parece llegar nunca, al menos en este
sistema de coordenadas, sino que parece asimétrico a este radio.
Como veremos, esto es una ilusión, y el rayo de luz (o una partícula masiva) no tiene en
realidad ningún problema para alcanzar r = 2GM. Pero un observador lejano nunca podría
saberlo. Si nos quedáramos fuera mientras un intrépido relativista general observacional se
sumerge en el agujero negro, enviando señales de vuelta todo el tiempo, simplemente
veríamos que las señales nos llegan cada vez más lentamente. Esto debería quedar claro en
las imágenes, y se confirma con nuestro cálculo de △𝜏 /△𝜏 cuando hablamos del
corrimiento al rojo gravitacional (7.61). A medida que los astronautas en caída se acercan a
r = 2GM, cualquier intervalo fijo △𝜏 de su tiempo propio corresponde a un intervalo cada
vez más largo △𝜏 desde nuestro punto de vista. Esto continúa para siempre; nunca
veríamos al astronauta cruzar r = 2GM, sólo los veríamos moverse cada vez más lentamente
(y volverse más y más rojos, casi como si se avergonzaran de haber hecho algo tan estúpido
como sumergirse en un agujero negro).
El hecho de que nunca veamos a los astronautas en caída alcanzar r = 2GM es una afirmación
significativa, pero el hecho de que su trayectoria en el plano t-r nunca llegue hasta allí no lo
es. Depende en gran medida de nuestro sistema de coordenadas, y nos gustaría plantear una
pregunta más independiente de las coordenadas (por ejemplo, ¿llegan los astronautas a ese
radio en una cantidad finita de su tiempo propio?) La mejor manera de hacerlo es cambiar
las coordenadas a un sistema que sea mejor
t
∆τ2’ > ∆τ2
∆τ
2
∆τ 1
∆τ 1
r
2GM
en r = 2GM. Existe un conjunto de coordenadas de este tipo, que ahora nos proponemos
encontrar. No hay manera de "derivar" una transformación de coordenadas, por supuesto,
sólo decimos cuáles son las nuevas coordenadas y añadimos las fórmulas. Pero
desarrollaremos estas coordenadas en varios pasos, con la esperanza de que las elecciones
parezcan algo motivadas.
El problema con nuestras coordenadas actuales es que dt/dr → ∞ a lo largo de las geodé sicas
radiales nulas que se acercan a r = 2GM; el progreso en la dirección r se hace cada vez más
lento con respecto al tiempo de la coordenada t. Podemos intentar arreglar este problema
sustituyendo t por una coordenada que se "mueva más lentamente" a lo largo de las
geodésicas nulas. En primer lugar, observemos que podemos resolver explícitamente la
condición (7.64) que caracteriza a las curvas radiales nulas para obtener
𝑡 = ±𝑟 ∗ + constante , (7.65)
donde la coordenada tortuga (“coordenada lenta”)r∗ está definida por
𝑟 ∗ = 𝑟 + 2𝐺𝑀ln −1 . (7.66)
(La coordenada tortuga sólo tiene sentido en relación con r cuando r ≥ 2GM, pero más allá
de ahí nuestras coordenadas no son muy buenas de todos modos). En términos de la
coordenada tortuga, la métrica de Schwarzschild se convierte en
𝑑𝑠 = 1− (−d𝑡 + d𝑟 ∗ ) + 𝑟 𝑑Ω , (7.67)
donde r se considera una función de 𝑟 ∗ . Esto representa un cierto progreso, ya que ahora
los conos de luz no parecen cerrarse; además, ninguno de los coeficientes métricos se hace
infinito en r = 2GM (aunque tanto 𝑔 como 𝑔 ∗ ∗ se hacen cero). El precio que pagamos, sin
embargo, es que la superficie de interés en r = 2GM acaba de ser empujada al infinito.
Nuestro siguiente paso es definir unas coordenadas que se adapten de forma natural a las
geodésicas nulas. Si dejamos que
𝑢 = 𝑡 + 𝑟∗
t
r*
r = 2GM
r* = - ∞
𝑣 = 𝑡 − 𝑟∗ , (7.68)
entonces las geodésicas radiales nulas de entrada se caracterizan por 𝑢 = constante,
mientras que las de salida satisfacen 𝑣 = constante. Consideremos ahora volver a la
coordenada radial original r, pero sustituyendo la coordenada temporal t por la nueva
coordenada 𝑢. Estas coordenadas se conocen como coordenadas de Eddington-Finkelstein.
En términos de ellas la métrica es
𝑑𝑠 = 1− d𝑢 + (d𝑢d𝑟 + d𝑟d𝑢) + 𝑟 𝑑Ω . (7.69)
Aquí vemos nuestra primera señal de progreso real. Aunque el coeficiente de la métrica 𝑔
se desvanece en r = 2GM, no hay una degeneración real; el determinante de la métrica es
𝑔 = −𝑟 sen 𝜃 , (7.70)
que es perfectamente regular en r = 2GM. Por tanto, la métrica es invertible, y vemos de una
vez por todas que r = 2GM es simplemente una singularidad de coordenadas en nuestro
sistema original (𝑡, 𝑟, 𝜃, 𝜙). En las coordenadas de Eddington-Finkelstein la condición de las
curvas radiales nulas se resuelve mediante
0, (entrante)
= 2𝐺𝑀 (7.71)
2 1− 𝑟 . (saliente)
Por lo tanto, podemos ver lo que ha sucedido: en este sistema de coordenadas los conos de
luz se mantienen bien en r = 2GM, y esta superficie se encuentra en un valor de coordenadas
finito. No hay ningún problema en trazar las trayectorias de las partículas nulas o
temporales (“timelike”) más allá de la superficie. Por otro lado, ciertamente ocurre algo
interesante. Aunque los conos de luz no se cierran, sí que se inclinan, de forma que para r <
2GM todas las trayectorias dirigidas al futuro van en la dirección de r decreciente.
La superficie r = 2GM, a pesar de ser localmente perfectamente regular, funciona

globalmente como un punto de no retorno: una vez que una partícula de prueba se sumerge
por debajo de ella, nunca puede volver. Por esta razón, r = 2GM se conoce como el horizonte
de sucesos; ningún suceso en r ≤ 2GM puede influir en ningún otro
~
u
~u = const
r=0 r = 2GM
evento en r > 2GM. Obsérvese que el horizonte de sucesos es una superficie nula, no una
superficie temporal. Obsérvese también que, como nada puede escapar del horizonte de
sucesos, es imposible que "veamos dentro", de ahí el nombre de agujero negro.
Consideremos lo que hemos hecho. Actuando bajo la sospecha de que nuestras coordenadas
pueden no haber sido buenas para todo la variedad, hemos cambiado de nuestra
coordenada original t a la nueva 𝑢, que tiene la buena propiedad de que si disminuimos r a
lo largo de una curva radial nula 𝑢 = constante, pasamos por el horizonte de sucesos sin
problemas. (De hecho, un observador local que realmente hiciera el viaje no sabría
necesariamente cuándo se ha cruzado el horizonte de sucesos: la geometría local no es
diferente a la de cualquier otro lugar). Por lo tanto, concluimos que nuestra sospecha era
correcta y que nuestro sistema de coordenadas inicial no hizo un buen trabajo para cubrir
todo la variedad. La región r ≤ 2GM debería ciertamente estar incluida en nuestro
espaciotiempo, ya que las partículas físicas pueden llegar allí y pasar fácilmente. Sin
embargo, no hay garantía de que hayamos terminado; quizás haya otras direcciones en las
que podamos extender nuestra variedad.
De hecho las hay. Observa que en el sistema de coordenadas (𝑢, r) podemos cruzar el
horizonte de sucesos en trayectorias dirigidas al futuro, pero no en las dirigidas al pasado.
Esto parece poco razonable, ya que partimos de una solución independiente del tiempo.
Pero podríamos haber elegido 𝑣 en lugar de 𝑢, en cuyo caso la métrica habría sido
𝑑𝑠 = − 1 − d𝑣 − (d𝑣 d𝑟 + d𝑟d𝑣 ) + 𝑟 𝑑Ω . (7.72)
Ahora podemos volver a atravesar el horizonte de sucesos, pero esta vez sólo a lo largo de
curvas dirigidas al pasado.
Esto es quizás una sorpresa: podemos seguir consistentemente curvas dirigidas al futuro o
al pasado a través de r = 2GM, pero llegamos a lugares diferentes. En realidad era de esperar,
ya que a partir de las definiciones (7.68), si mantenemos 𝑢 constante y disminuimos r
debemos tener t → +∞, mientras que si mantenemos 𝑣 constante y disminuimos r debemos
tener t → -∞. (La coordenada tortuga 𝑟 ∗ va a -∞ a medida que r → 2GM.) Así que hemos
extendido el espaciotiempo en dos direcciones diferentes, una hacia el futuro y otra hacia el
pasado.
~
v
~v = const
r=0 r = 2GM
El siguiente paso sería seguir las geodésicas espaciales para ver si descubrimos aún más
regiones. La respuesta es sí, llegaríamos a otro trozo más del espaciotiempo, pero acortemos
el proceso definiendo coordenadas que sirvan para todo. Una primera aproximación podría
ser utilizar tanto 𝑢 como 𝑣 a la vez (en lugar de t y r), lo que lleva a
𝑑𝑠 = − 1− (d𝑢d𝑣 + d𝑣 d𝑢) + 𝑟 𝑑Ω , (7.73)
donde r está definida implícitamente en función de 𝑢 y 𝑣 mediante

𝑟
(𝑢 − 𝑣 ) = 𝑟 + 2𝐺𝑀ln
2𝐺𝑀
−1 . (7.74)
En realidad hemos vuelto a introducir la degeneración con la que empezamos; en estas

coordenadas r = 2GM está "infinitamente lejos" (en 𝑢 = -∞ o en 𝑣 = +∞). Lo que hay que
hacer es cambiar a unas coordenadas que arrastren estos puntos a valores de coordenadas
finitas; una buena elección es
u’ = 𝑒 /
𝑣’ = 𝑒 /
, (7.75)
que, en términos de nuestro sistema original (t, r) es
𝑟 /
u’ = 2𝐺𝑀 − 1 𝑒( )/
𝑟 /
𝑣’ = 2𝐺𝑀 − 1 𝑒( )/
. (7.76)
En el sistema (𝑢’, 𝑣’, 𝜃, 𝜙) la métrica de Schwarzschild es
𝑑𝑠 = − 𝑒 / (d𝑢’d𝑣’ + d𝑣’d𝑢’) + 𝑟 𝑑Ω . (7.77)
Por último, la naturaleza no singular de r = 2GM se manifiesta por completo; en esta forma
ninguno de los coeficientes métricos se comporta de manera especial en el horizonte de
sucesos.
Tanto u′ como 𝑣 ′ son coordenadas nulas, en el sentido de que sus derivadas parciales ∂/∂u′
y ∂/∂𝑣 ′ son vectores nulos. No hay nada malo en ello, ya que la colección de cuatro vectores
de derivadas parciales (dos nulas y dos espaciales) en este sistema sirven como una base
perfectamente buena para el espacio tangente. Sin embargo, nos resulta más cómodo
trabajar en un sistema en el que una de las coordenadas es temporal y el resto son
espaciales. Por lo tanto, definimos
u= (𝑢’ − 𝑣’)
𝑟 /
= 2𝐺𝑀 − 1 𝑒 /
cosh (𝑡/4𝐺𝑀) (7.78)
v= (𝑢’ + 𝑣’)
1/2
= −1 𝑒 /
senh (𝑡/4𝐺𝑀) , (7.79)
en función de lo cual la métrica se convierte en
𝑑𝑠 = 𝑒 / (−d𝑣 + d𝑢 ) + 𝑟 𝑑Ω , (7.80)
donde r está definida implícitamente a partir de
(𝑢 − 𝑣 ) = −1 𝑒 /
. (7.81)
Las coordenadas (𝑣, 𝑢, 𝜃, 𝜙) se conocen como coordenadas Kruskal, o a veces coordenadas

Kruskal-Szekres. Nótese que v es la coordenada temporal.
Las coordenadas de Kruskal tienen una serie de propiedades milagrosas. Al igual que las
coordenadas (𝑡, 𝑟 ∗ ) las curvas radiales nulas tienen el mismo aspecto que en el espacio
plano:
𝑣 = ±𝑢 + constante . (7.82)
Sin embargo, a diferencia de las coordenadas (𝑡, 𝑟 ∗ ),
el horizonte de sucesos r = 2GM no está
infinitamente lejos; de hecho, está definido por
𝑣 = ±𝑢 , (7.83)
consistente con que sea una superficie nula. De forma más general, podemos considerar las
superficies r = constante. A partir de (7.81) éstas satisfacen
𝑢 − 𝑣 = constante . (7.84)
Así, aparecen como hipérbolas en el plano 𝑢 − 𝑣. Además, las superficies de t constante
vienen dadas por
= tanh (𝑡/4𝐺𝑀) , (7.85)
que define rectas que pasan por el origen con pendiente tanh(t/4GM). Nótese que a medida
que t → ±∞ esto se convierte en lo mismo que (7.83); por lo tanto, estas super icies son
iguales a r = 2GM.
Ahora, nuestras coordenadas (𝑢, 𝑣 ) deben poder abarcar todos los valores que puedan
tomar sin chocar con la singularidad real en r = 2GM; la región permitida es, por tanto, -∞ ≤
𝑢 ≤ ∞ y 𝑣 < 𝑢 + 1. Ahora podemos dibujar un diagrama del espaciotiempo en el plano 𝑣 -
𝑢 (con θ y 𝜙 suprimidos), conocido como "diagrama de Kruskal", que representa todo el
espaciotiempo correspondiente a la métrica de Schwarzschild.
r = 2GM r = 2GM
t=-∞ t=+∞
r=0
u
t = const
r = const
r=0
r = 2GM r = 2GM
t=+∞ t=-∞
Cada punto en el diagrama es una dos-esfera.

Nuestras coordenadas originales (𝑡, 𝑟) sólo servían para r > 2GM, que es sólo una parte de
la variedad representada en el diagrama de Kruskal. Es conveniente dividir el diagrama en
cuatro regiones:
II
IV I
III
La región en la que empezamos era la región I; siguiendo los rayos nulos dirigidos al futuro
llegamos a la región II, y siguiendo los rayos nulos dirigidos al pasado llegamos a la región
III. Si hubiéramos explorado las geodésicas espaciales, habríamos llegado a la región IV. Las
definiciones (7.78) y (7.79) que relacionan (𝑢, 𝑣 ) con (𝑡, 𝑟) en realidad sólo sirven para la
región I; en las demás regiones es necesario introducir los signos menos adecuados para
evitar que las coordenadas se vuelvan imaginarias.
Una vez extendida la geometría de Schwarzschild hasta donde puede llegar, hemos descrito
un espaciotiempo extraordinario. La región II, por supuesto, es lo que consideramos el
agujero negro. Una vez que algo viaja de la región I a la II, nunca puede regresar. De hecho,
toda trayectoria dirigida hacia el futuro en la región II acaba chocando con la singularidad
en r = 0; una vez que entras en el horizonte de sucesos, estás totalmente condenado. Merece
la pena subrayar esto; no sólo no puedes escapar de vuelta a la región I, sino que ni siquiera
puedes evitar moverte en la dirección de la disminución de r, ya que ésta es simplemente la
dirección del tiempo. (Esto podría haberse visto en nuestro sistema de coordenadas
original; para r < 2GM, t se convierte en espacial y r en temporal). Por lo tanto, no se puede
dejar de moverse hacia la singularidad como no se puede dejar de envejecer. Como el tiempo
propio se maximiza a lo largo de una geodésica, vivirás más tiempo si no te esfuerzas, sino
que te relajas a medida que te acercas a la singularidad. No es que tengas mucho tiempo
para relajarte (tampoco es que el viaje sea muy relajante; a medida que te acercas a la
singularidad las fuerzas de marea se vuelven infinitas. A medida que caigas hacia la
singularidad, tus pies y tu cabeza se separarán unos de otros, mientras tu torso es exprimido
hasta una delgadez infinitesimal. La espeluznante muerte de un astrofísico al caer en un
agujero negro se detalla en Misner, Thorne y Wheeler, sección 32.6. Nótese que utilizan
marcos ortonormales [no es que eso haga el viaje más agradable]).
Las regiones III y IV pueden ser algo inesperadas. La región III es simplemente el reverso
temporal de la región II, una parte del espaciotiempo desde la que las cosas pueden escapar
hacia nosotros, mientras que nosotros nunca podemos llegar allí. Se puede considerar como
un "agujero blanco". Hay una singularidad en el pasado, de la que parece salir el universo.
El límite de la región III se llama a veces horizonte de sucesos del pasado, mientras que el
de la región II se llama horizonte de sucesos del futuro. La región IV, por su parte, no puede
ser alcanzada desde nuestra región I ni hacia delante ni hacia atrás en el tiempo (ni nadie
de allí puede llegar a nosotros). Se trata de otra región asintóticamente plana del
espaciotiempo, una imagen especular de la nuestra. Se puede pensar que está conectada a
la región I por un "agujero de gusano", una configuración en forma de cuello que une dos
regiones distintas. Considere la posibilidad de dividir el diagrama de Kruskal en superficies
espaciales de 𝑣 constante:
Ahora podemos hacer dibujos de cada corte, restaurando una de las coordenadas angulares
para mayor claridad:
A B C D E
r = 2GM
v
Así pues, la geometría de Schwarzschild describe realmente dos regiones asintóticamente

planas que se acercan la una a la otra, se unen a través de un agujero de gusano durante un
tiempo y luego se desconectan. Pero el agujero de gusano se cierra con demasiada rapidez
para que cualquier observador de tipo temporal pueda cruzarlo de una región a la siguiente.
Puede parecer algo inverosímil esta historia de dos espaciotiempo separados que se acercan
el uno al otro durante un tiempo y luego se sueltan. De hecho, no se espera que ocurra en el
mundo real, ya que la métrica de Schwarzschild no modela con precisión todo el universo.
Recordemos que sólo es válida en el vacío, por ejemplo fuera de una estrella. Si la estrella
tiene un radio superior a 2GM, no debemos preocuparnos en absoluto por ningún horizonte
de sucesos. Pero creemos que hay estrellas que colapsan bajo su propia atracción
gravitatoria, encogiéndose por debajo de r = 2GM y más allá en una singularidad, dando
lugar a un agujero negro. Sin embargo, no es necesario un agujero blanco, porque el pasado
de tal espaciotiempo no se parece en nada al de la solución completa de Schwarzschild. A
grandes rasgos, un diagrama tipo Kruskal para el colapso estelar tendría el siguiente
aspecto:
r = 2GM
r=0
interior vacío
de la estrella ( Schwarzschild )
La región sombreada no está descrita por Schwarzschild, así que no hay que preocuparse
por los agujeros blancos y los agujeros de gusano. Ya que estamos en el tema, podemos decir
algo sobre la formación de agujeros negros astrofísicos a partir de estrellas masivas. La vida
de una estrella es una lucha constante entre la atracción interior de la gravedad y el empuje
exterior de la presión. Cuando la estrella está quemando combustible nuclear en su núcleo,
la presión proviene del calor producido por esta combustión. (Deberíamos poner "quema"
entre comillas, ya que la fusión nuclear no está relacionada con la oxidación). Cuando el
combustible se agota, la temperatura disminuye y la estrella comienza a encogerse a medida
que la gravedad empieza a ganar la lucha. Finalmente, este proceso se detiene cuando los
electrones se acercan tanto que se resisten a una mayor compresión, simplemente por el
principio de exclusión de Pauli (no puede haber dos fermiones en el mismo estado). El
objeto resultante se llama enana blanca. Sin embargo, si la masa es lo suficientemente alta,
ni siquiera la presión de degeneración de los electrones es suficiente, y los electrones se
combinarán con los protones en una dramática transición de fase. El resultado es una
estrella de neutrones, formada casi exclusivamente por neutrones (aunque el interior de las
estrellas de neutrones no se conoce muy bien). Dado que las condiciones en el centro de una
estrella de neutrones son muy diferentes a las de la Tierra, no tenemos una comprensión
perfecta de la ecuación de estado. Sin embargo, creemos que una estrella de neutrones
suficientemente masiva será incapaz de resistir la atracción de la gravedad y seguirá
colapsando. Dado que un fluido de neutrones es el material más denso que podemos
concebir actualmente, se cree que el resultado inevitable de tal colapso es un agujero negro.
El proceso se resume en el siguiente diagrama de radio frente a masa:
D
M/𝑀⨀
estrellas de
1,5 neutrones
B
1,0 enanas
blancas
0,5
C
A
1 2 3 4 log R ( km)
El punto del diagrama es que, para cualquier masa M dada, la estrella disminuirá su
radio hasta llegar a la línea. Las enanas blancas se encuentran entre los puntos A y B,
y las estrellas de neutrones entre los puntos C y D. El punto B está a una altura algo
inferior a 1,4 masas solares; la altura de D es menos segura, pero probablemente
inferior a 2 masas solares. El proceso de colapso es complicado, y durante la
evolución la estrella puede perder o ganar masa, por lo que el punto final de cualquier
estrella es difícil de predecir. Sin embargo, las enanas blancas están por todas partes,
las estrellas de neutrones no son raras y hay varios sistemas que se cree que
contienen agujeros negros. (Por supuesto, no se puede ver directamente el agujero
negro. Lo que se puede ver es la radiación de la materia que se acumula en el agujero,
que se calienta a medida que se acerca y emite radiación).
Hemos visto que el sistema de coordenadas de Kruskal proporciona una
representación muy útil de la geometría de Schwarzschild. Antes de pasar a otros
tipos de agujeros negros, introduciremos una forma más de pensar en este
espaciotiempo, el diagrama de Penrose (o Carter-Penrose, o diagrama conforme). La
idea es hacer una transformación conforme que lleve todo la variedad a una región
compacta tal que podamos hacer caber el espaciotiempo en un trozo de papel.
Empecemos con el espacio de Minkowski, para ver cómo funciona la técnica. La
métrica en coordenadas polares es
𝑑𝑠 = −d𝑡 + d𝑟 + 𝑟 𝑑Ω . (7.86)
No ocurrirá nada raro con las coordenadas θ, 𝜙, pero querremos seguir con atención
los rangos de las otras dos coordenadas. En este caso, por supuesto, tenemos
−∞ < 𝑡 < +∞
0 ≤ 𝑟 < +∞ . (7.87)
Técnicamente, la línea del mundo r = 0 representa una singularidad de coordenadas

y debería estar cubierta por un parche diferente, pero todos sabemos lo que ocurre,
así que actuaremos como si r = 0 se comportara bien.
Nuestra tarea es algo más fácil si cambiamos a coordenadas nulas:
𝑢= (𝑡 + 𝑟)
𝑣= (𝑡 − 𝑟) , (7.88)
con los rangos correspondientes dados por

−∞ < 𝑢 < +∞
−∞ < 𝑣 < +∞
𝑣≤𝑢. (7.89)
v =const
r
u =const
Estos rangos son los representados en la figura, en la que cada punto representa una 2-
esfera de radio 𝑟 = 𝑢 − 𝑣. La métrica en estas coordenadas viene dada por
𝑑𝑠 = −2(d𝑢d𝑣 + d𝑣d𝑢) + (𝑢 − 𝑣) 𝑑Ω . (7.90)
Ahora queremos cambiar a coordenadas en las que el "infinito" toma un valor de
coordenadas finito. Una buena elección es
U = arctan u
π /2
- π /2
𝑉 = arctan 𝑣
Los rangos ahora son
𝜋 𝜋
− ≤𝑈<+
2 2
𝜋 𝜋
− ≤ 𝑉<+
2 2
𝑉<𝑈. (7.92)
Para obtener la métrica, usamos
d𝑈 = , (7.93)
cos(arctan 𝑢) = , (7.94)
√
y lo mismo para 𝑣. Nos lleva a
d𝑢d𝑣 + d𝑣d𝑢 = (d𝑈d𝑉 + d𝑉d𝑈) . (7.95)
Mientras tanto,
(𝑢 − 𝑣) = (tan𝑈 − tan𝑉)
= (sen𝑈 cos𝑉 − cos𝑈sen𝑉)
= sen (𝑈 − 𝑉) . (7.96)
Por lo tanto, la métrica de Minkowski en estas coordenadas es
𝑑𝑠 = [−2(d𝑈d𝑉 + d𝑉d𝑈) + sen (𝑈 − 𝑉)𝑑Ω ] . (7.97)
Esto tiene un cierto atractivo, ya que la métrica aparece como una expresión bastante simple
multiplicada por un factor global. Podemos hacerlo aún mejor transformando de nuevo a
una coordenada temporal η y a una coordenada espacial (radial) 𝜒, mediante
𝜂 =𝑈+𝑉
𝜒 =𝑈−𝑉,
con rangos
−𝜋 < 𝜂 < +𝜋
0 ≤ 𝜒 < +𝜋 . (7.99)
Ahora la métrica es
𝑑𝑠 = 𝜔 (−d𝜂 + dχ + sen 𝜒𝑑Ω ) , (7.100)
donde
𝜔 = cos𝑈cos𝑉
= (cos𝜂 + cosχ) . (7.101)
Por lo tanto, la métrica de Minkowski puede considerarse relacionada por una

transformación conforme con la métrica "no física"
𝑑𝑠̅ = 𝜔 𝑑𝑠
= −d𝜂 + d𝜒 + sen 𝜒𝑑Ω . (7.102)
Esto describe la variedad R × 𝑆 , en la que la 3-esfera es máximamente simétrica y estática.

Hay curvatura en esta métrica, y no es una solución a las ecuaciones de Einstein en el vacío.
Esto no debería preocuparnos, ya que no es física; la verdadera métrica física, obtenida
mediante una transformación conforme, es simplemente un espaciotiempo plano. De hecho,
esta métrica es la del "universo estático de Einstein", una solución estática (pero inestable)
de las ecuaciones de Einstein con un fluido perfecto y una constante cosmológica. Por
supuesto, el rango completo de coordenadas en R × 𝑆 sería normalmente -∞ < η < +∞, 0 ≤
χ ≤ π, mientras que el espacio de Minkowski se mapea en el subespacio definido por (7.99).
La totalidad de R × 𝑆 se puede dibujar como un cilindro, en el que cada círculo es una tri-
esfera, como se muestra en la figura siguiente.
χ=π
χ=0
η η=π
η = −π
La región sombreada representa el espacio de Minkowski. Nótese que cada punto (𝜂, 𝜒 ) de
este cilindro es la mitad de una biesfera, donde la otra mitad es el punto (𝜂, −𝜒 ). Podemos
desenrollar la región sombreada para representar el espacio de Minkowski como un
triángulo, como se muestra en la figura. Es el diagrama de Penrose. Cada punto representa
una dos-esfera.
η, t
χ=0
ℐ
χ, r
0
t = const
r = const
De hecho, el espacio de Minkowski es sólo el interior del diagrama anterior (incluyendo χ =

0); los límites no forman parte del espaciotiempo original. Juntos se denominan infinito
conforme. La estructura del diagrama de Penrose nos permite subdividir el infinito
conforme en unas regiones diferentes
𝑖 = infinito temporal futuro (η = π , χ = 0)

𝑖 = infinito espacial (η = 0 , χ = π)
𝑖 = infinito temporal pasado (𝜂 = −𝜋 , 𝜒 = 0)
ℐ = infinito nulo futuro (𝜂 = 𝜋 − 𝜒 , 0 < 𝜒 < 𝜋) I
ℐ = infinito nulo pasado (𝜂 = −𝜋 + 𝜒 , 0 < 𝜒 < 𝜋)
(ℐ e ℐ se pronuncian como "scri-plus" y "scri-minus", respectivamente.) Nótese que 𝑖 , 𝑖
e 𝑖 son en realidad puntos, ya que χ = 0 y χ = π son los polos norte y sur de 𝑆 . Mientras
tanto, ℐ e ℐ son en realidad superficies nulas, con la topología de R × 𝑆 .
Hay una serie de características importantes del diagrama de Penrose para el espaciotiempo
de Minkowski. Los puntos 𝑖 , e 𝑖 pueden considerarse como los límites de las superficies
espaciales cuyas normales son temporales; a la inversa, 𝑖 puede considerarse como el
límite de las superficies temporales cuyas normales son espaciales. Las geodésicas radiales
nulas están en ±45◦ en el diagrama. Todas las geodésicas temporales (“timelike”)
comienzan en 𝑖 y terminan en 𝑖 ; todas las geodésicas nulas comienzan en ℐ y terminan
en ℐ ; todas las geodésicas espaciales comienzan y terminan en 𝑖 . Por otra parte, puede
haber curvas no geodésicas temporales que terminen en el infinito nulo (si se vuelven
"asintóticamente nulas").
Es bonito poder meter todo el espacio de Minkowski en un pequeño trozo de papel, pero
realmente no aprendemos mucho que no supiéramos ya. Los diagramas de Penrose son más
útiles cuando queremos representar espaciotiempos algo más interesantes, como los de los
agujeros negros. El uso original de los diagramas de Penrose era comparar los
espaciotiempos con el espacio de Minkowski "en el infinito" - la definición rigurosa de
"asintóticamente plano" es básicamente que un espaciotiempo tiene un infinito conforme
como el espacio de Minkowski. No trataremos estas cuestiones en detalle, sino que
pasaremos directamente al análisis del diagrama de Penrose para un agujero negro de
Schwarzschild.
No repasaremos en detalle las manipulaciones necesarias, ya que son paralelas al caso de
Minkowski con una considerable complejidad algebraica adicional. Empezaremos con la
versión nula de las coordenadas de Kruskal, en la que la métrica toma la forma
𝑑𝑠 = − 𝑒 / (d𝑢’d𝑣’ + d𝑣’d𝑢’) + 𝑟 𝑑Ω , (7.103)
donde r está definida implícitamente mediante
𝑢𝑣 = −1 𝑒 /
. (7.104)
Entonces basta con la misma transformación que se utilizó en el espaciotiempo plano para
llevar el infinito a valores de coordenadas finitos:
𝑢 = arcan
√
𝑣 = arcan , (7.105)
√
con rangos
𝜋 𝜋
− <𝑢 <+
2 2
𝜋 𝜋
− <𝑣 <+
2 2
−𝜋 < 𝑢 + 𝑣 < 𝜋 .
La parte (𝑢 , 𝑣 ) de la métrica (es decir, en coordenadas angulares constantes) está ahora

relacionada en conformidad con el espacio de Minkowski. En las nuevas coordenadas, las
singularidades en r = 0 son líneas rectas que se extienden desde el infinito temporal en una
región asintótica hasta el infinito temporal en la otra. El diagrama de Penrose para la
solución de Schwarzschild maximizada tiene, pues, el siguiente aspecto:
La única sutileza real de este diagrama es la necesidad de entender que 𝑖 , e 𝑖 son distintos
de r = 0 (hay muchas trayectorias similares en el tiempo que no llegan a la singularidad).
Obsérvese también que la estructura del infinito conforme es igual que la del espacio de
Minkowski, lo que es coherente con la afirmación de que Schwarzschild es asintóticamente
plano. Además, el diagrama de Penrose para una estrella que colapsa y forma un agujero
negro es lo que cabría esperar, como se muestra en la página siguiente.
Una vez más, los diagramas de Penrose para estos espaciotiempo no nos dicen nada que no
sepamos ya; su utilidad se hará evidente cuando consideremos agujeros negros más
generales. En principio, podría haber una gran variedad de tipos de agujeros negros,
dependiendo del proceso por el que se hayan formado. Sin embargo, sorprendentemente,
resulta que no es así; no importa cómo se forme un agujero negro, se asienta (con bastante
rapidez) en un estado que se caracteriza únicamente por la masa, la carga y el momento
angular. Esta propiedad, que debe demostrarse individualmente para los distintos tipos de
campos que uno podría imaginar que entran en la construcción del agujero, se suele
enunciar como "los agujeros negros no tienen pelo". Se puede demostrar, por ejemplo,
que un agujero que se forma a partir de un colapso inicialmente no homogéneo se "sacude"
cualquier grumos emitiendo radiación gravitatoria. Este es un ejemplo de "teorema del no
pelo". Si estamos interesados en la forma del agujero negro después de que se haya
asentado, sólo tenemos que preocuparnos por los agujeros cargados y giratorios. En ambos
casos existen soluciones exactas para la métrica, que podemos examinar detenidamente.
Pero primero hagamos un breve desvío al mundo de la evaporación de los agujeros negros.
Es extraño pensar en un agujero negro "evaporándose", pero en el mundo real los agujeros
negros no son realmente negros: irradian energía como si fueran un cuerpo negro de
temperatura T = ℏ/8πkGM, donde M es la masa del agujero y k es la constante de Boltzmann.
La derivación de este efecto, conocido como radiación de Hawking, implica el uso de la

teoría cuántica de campos en el espacio-tiempo curvo y está muy fuera de nuestro alcance
ahora mismo. Sin embargo, la idea informal es comprensible. En la teoría cuántica de
campos existen "fluctuaciones del vacío", es decir, la creación y aniquilación espontánea de
pares partícula/antipartícula en el espacio vacío. Estas fluctuaciones son precisamente
análogas a las fluctuaciones del punto cero de un simple oscilador armónico. Normalmente,
estas fluctuaciones son
t
e+ e-
e-
e+
r
r = 2GM
imposible de detectar, ya que se promedian para dar una energía total nula (aunque nadie
sabe por qué; ése es el problema de la constante cosmológica). En presencia de un horizonte
de sucesos, sin embargo, ocasionalmente un miembro de un par virtual caerá en el agujero
negro mientras su compañero escapa al infinito. La partícula que llega al infinito deberá
tener una energía positiva, pero la energía total se conserva; por tanto, el agujero negro
tiene que perder masa. (Se puede pensar que la partícula que cae dentro tiene una masa
negativa). Vemos las partículas que escapan como radiación Hawking. No es un efecto muy
grande, y la temperatura disminuye a medida que aumenta la masa, por lo que para agujeros
negros de masa comparable a la del sol es completamente despreciable. Aun así, en principio
el agujero negro podría perder toda su masa por la radiación de Hawking, y reducirse a la
nada en el proceso. El diagrama de Penrose correspondiente podría ser así:
r=0
r=0
0
radiación
r=0
Por otro lado, puede que no. El problema de este diagrama es que "se pierde información":
si dibujamos una superficie de espaciotiempo hacia el pasado de la singularidad y la
hacemos evolucionar hacia el futuro, parte de ella acaba chocando con la singularidad y
destruyéndose. Como resultado, la propia radiación contiene menos información que la que
había originalmente en el espaciotiempo. (Esto es lo peor de la falta de pelo en el agujero
negro. Una cosa es pensar que la información ha quedado atrapada dentro del horizonte de
sucesos, pero es más preocupante pensar que ha desaparecido por completo). Pero tal
proceso viola la conservación de la información que está implícita tanto en la relatividad
general como en la teoría cuántica de campos, las dos teorías que llevaron a la predicción.
Esta paradoja se considera un gran problema hoy en día, y hay una serie de esfuerzos para
entender cómo se puede recuperar la información de alguna manera. Una explicación
actualmente popular se basa en la teoría de cuerdas, y básicamente dice que los agujeros
negros tienen mucho pelo, en forma de estados virtuales de cuerdas que viven cerca del
horizonte de sucesos. Espero que no se sientan decepcionados al escuchar que no vamos a
examinar esto muy de cerca; pero deben saber cuál es el problema y que es un área de
investigación activa en estos días.
Una vez que hemos sacado esto de nuestro sistema, pasamos a hablar de los agujeros negros
cargados eléctricamente. En principio, parecen objetos bastante razonables, ya que no hay
nada que nos impida arrojar algo de carga neta a un agujero negro previamente sin carga.
Sin embargo, en una situación astrofísica, se espera que la cantidad total de carga sea muy
pequeña, especialmente si se compara con la masa (en términos de los efectos gravitatorios
relativos). No obstante, los agujeros negros cargados constituyen un útil campo de pruebas
para diversos experimentos mentales, por lo que merecen nuestra consideración.
En este caso, la simetría esférica completa del problema sigue presente; sabemos, por tanto,
que podemos escribir la métrica como
( , ) ( , )
𝑑𝑠 = −𝑒 d𝑡 + 𝑒 d𝑟 + 𝑟 𝑑Ω . (7.106)
Ahora, sin embargo, ya no estamos en el vacío, ya que el agujero tendrá un campo
electromagnético distinto de cero, que a su vez actúa como fuente de energía-momento. El
tensor de energía-momento para el electromagnetismo viene dado por
1
𝑇 = 𝐹 𝐹 −4𝑔 𝐹 𝐹 , (7.107)
donde 𝐹 es el tensor de intensidad de campo electromagnético. Como tenemos simetría

esférica, el tensor de intensidad de campo más general tendrá componentes
𝐹 = 𝑓(𝑟, 𝑡) = −𝐹
𝐹 = 𝑔(𝑟, 𝑡)sen𝜃 = −𝐹 , (7.108)
donde 𝑓(𝑟, 𝑡) y 𝑔(𝑟, 𝑡) son unas funciones a determinar por las ecuaciones de campo, y las
componentes no escritas son cero. 𝐹 corresponde a un campo eléctrico radial, mientras
que 𝐹 corresponde a un campo magnético radial. (Para los que se preguntan por el senθ,
recordemos que lo que debería ser independiente de θ y 𝜙 es la componente radial del
campo magnético, 𝐵 = 𝜖 µ 𝐹 . Para una métrica esféricamente simétrica, 𝜖 µ =
𝜖̃ µ
es proporcional a (sin𝜃) , por lo que queremos un factor de senθ en 𝐹 ). Las
√
ecuaciones de campo en este caso son tanto las ecuaciones de Einstein como las de Maxwell:
𝑔 ▽ 𝐹 =0
▽[ 𝐹 ] =0. (7.109)
Los dos conjuntos están acoplados, ya que el tensor de intensidad de campo
electromagnético entra en las ecuaciones de Einstein a través del tensor de energía-
momento, mientras que la métrica entra explícitamente en las ecuaciones de Maxwell.
Sin embargo, las dificultades no son insuperables, y un procedimiento similar al que hemos
seguido para el caso del vacío conduce a una solución también para el caso cargado. No
repasaremos los pasos explícitamente, sino que nos limitaremos a citar la respuesta final.
La solución se conoce como la métrica de Reissner-Nordstrøm, y viene dada por
𝑑𝑠 = − △ d𝑡 +△ d𝑟 + 𝑟 𝑑Ω , (7.110)
donde
( )
△= 1 − + . (7.111)
En esta expresión, M se interpreta de nuevo como la masa del agujero; q es la carga eléctrica
total, y p es la carga magnética total. Las cargas magnéticas aisladas (monopolos) nunca se
han observado en la naturaleza, pero eso no nos impide escribir la métrica que producirían
si existieran. Hay buenas razones teóricas para pensar que los monopolos existen, pero son
extremadamente raros. (Por supuesto, también existe la posibilidad de que un agujero
negro tenga carga magnética aunque no haya monopolos). De hecho, las cargas eléctricas y
magnéticas entran en la métrica de la misma manera, por lo que no estamos introduciendo
ninguna complicación adicional al mantener p en nuestras expresiones. Los campos
electromagnéticos asociados a esta solución vienen dados por
𝐹 =−
𝐹 = 𝑝sen𝜃 . (7.112)
Los conservadores pueden fijar p = 0 si lo desean.
La estructura de las singularidades y los horizontes de sucesos es más complicada en esta
métrica que en la de Schwarzschild, debido al término adicional de la función △ (𝑟) (que
puede considerarse como una medida de "cuánto se inclinan los conos de luz"). Una cosa
permanece igual: en r = 0 hay una verdadera singularidad de curvatura (como podría
comprobarse calculando el escalar de curvatura 𝑅µ 𝑅µ ). Mientras tanto, el equivalente
de r = 2GM será el radio en el que △ desaparece. Esto ocurrirá en
𝑟± = 𝐺𝑀 ± 𝐺 𝑀 − 𝐺(𝑝 + 𝑞 ) . (7.113)
Esto puede constituir dos, una o cero soluciones, dependiendo de los valores relativos de
𝐺𝑀 y 𝑝 + 𝑞 . Por lo tanto, consideraremos cada caso por separado.
Caso Uno − 𝐺𝑀 < 𝑝 + 𝑞

En este caso el coeficiente △ es siempre positivo (nunca cero), y la métrica es
completamente regular en las coordenadas (𝑡, 𝑟, 𝜃, 𝜑) hasta r = 0. La coordenada t es
siempre temporal, y r es siempre espacial. Pero sigue existiendo la singularidad en r = 0, que
ahora es una línea temporal. Como no hay horizonte de sucesos, no hay ningún obstáculo
para que un observador viaje a la singularidad y regrese para informar sobre lo observado.
Esto se conoce como una singularidad desnuda, que no está protegida por un horizonte.
∆(r)
(1) GM 2 < p 2 + q 2
(3) GM 2 = p 2 + q 2
r
r- GM r
+ 2GM
(2)
GM 2 > p 2 + q 2 p=q=0
(Schwarzschild )
Un análisis cuidadoso de las geodésicas revela, sin embargo, que la singularidad es

“repulsiva” – las geodésicas temporales nunca cortan a r = 0, en cambio, se acercan y luego
invierten el rumbo y se alejan. (Las geodésicas nulas pueden llegar a la singularidad, al igual
que las curvas temporales no geodésicas).
A medida que r → ∞ la solució n se aproxima al espaciotiempo plano, y como acabamos de
ver la estructura causal es "normal" en todas partes. El diagrama de Penrose será, por tanto,
como el del espacio de Minkowski, salvo que ahora r = 0 es una singularidad.
r=0
(singularidad)
0
La desnudez de la singularidad ofende nuestro sentido de la decencia, así como la conjetura

de la censura cósmica, que afirma a grandes rasgos que el colapso gravitatorio de las
configuraciones de la materia física nunca producirá una singularidad desnuda. (Por
supuesto, es sólo una conjetura, y puede que no sea correcta; hay algunas afirmaciones de
simulaciones numéricas que indican que el colapso de configuraciones en forma de huso
puede dar lugar a singularidades desnudas). De hecho, nunca deberíamos esperar encontrar
un agujero negro con 𝐺𝑀 < 𝑝 + 𝑞 como resultado del colapso gravitatorio. A grandes
rasgos, esta condición establece que la energía total del agujero es menor que la
contribución a la energía de los campos electromagnéticos por sí solos, es decir, la masa de
la materia que lleva la carga tendría que ser negativa. Por lo tanto, esta solución se considera
generalmente como no física. Obsérvese también que en este espaciotiempo no hay buenas
superficies de Cauchy (cortes espaciales para los que toda línea temporal inextensible los
cruza), ya que las líneas temporales pueden comenzar y terminar en la singularidad.
Caso Dos - 𝐺𝑀 > 𝑝 + 𝑞
Esta es la situación que esperamos que se dé en el colapso gravitatorio real; la energía del
campo electromagnético es menor que la energía total. En este caso el coeficiente métrico
△ (𝑟) es positivo en r grande y r pequeño, y negativo dentro de los dos puntos de fuga 𝑟± =
𝐺𝑀 ± 𝐺 𝑀 − 𝐺(𝑝2 + 𝑞2). La métrica tiene singularidades de coordenadas tanto en 𝑟
como en 𝑟 ; en ambos casos podrían eliminarse mediante un cambio de coordenadas como
hicimos con Schwarzschild.
Las superficies definidas por r = 𝑟± son ambas nulas, y de hecho son horizontes de sucesos
(en un sentido que precisaremos en un momento). La singularidad en r = 0 es una línea
temporal (no una superficie espacial como en Schwarzschild). Si eres un observador que
cae en el agujero negro desde muy lejos, 𝑟 es justo igual que 2GM en la métrica de
Schwarzschild; en este radio r pasa de ser una coordenada espacial a una coordenada
temporal, y te mueves necesariamente en la dirección de la disminución de r. Los testigos
que están fuera del agujero negro también ven los mismos fenómenos que verían fuera de
un agujero no cargado: se ve que el observador que cae se mueve cada vez más lentamente,
y está cada vez más desplazado al rojo.
Pero la inevitable caída de 𝑟 a radios cada vez menores sólo dura hasta que se llega a la
superficie nula r = 𝑟 , donde r vuelve a ser una coordenada espacial y se puede detener el
movimiento en la dirección de r decreciente. Por lo tanto, no tienes que llegar a la
singularidad en r = 0; esto es de esperar, ya que r = 0 es una línea temporal (y por lo tanto
no necesariamente en tu futuro). De hecho, puedes elegir entre continuar hasta r = 0, o
empezar a moverte en la dirección de aumento de r de vuelta a través de la superficie nula
en r = 𝑟 . Entonces r volverá a ser una coordenada temporal, pero con la orientación
invertida; te verás obligado a moverte en la dirección de r creciente. A partir de aquí puedes
elegir volver a entrar en el agujero negro - esta vez, en un agujero diferente al que entraste
en primer lugar - y repetir el viaje tantas veces como quieras. Esta pequeña historia se
corresponde con el diagrama de Penrose adjunto, que por supuesto puede derivarse de
forma más rigurosa eligiendo las coordenadas apropiadas y extendiendo analíticamente la
métrica de Reissner-Nordstrøm hasta donde pueda llegar.
¿Cuánto de esto es ciencia, en contraposición a la ciencia ficción? Probablemente no mucho.
Si pensamos en el mundo visto desde un observador dentro del agujero negro que está a
punto de cruzar el horizonte de sucesos en 𝑟 , nos daremos cuenta de que pueden mirar
hacia atrás en el tiempo para ver toda la historia del universo externo (asintóticamente
plano), al menos visto desde el agujero negro. Pero ellos ven esta historia (infinitamente
larga) en una cantidad finita de su tiempo propio -por lo tanto, cualquier señal que les llegue
al acercarse a 𝑟 está infinitamente desplazada por el azul. Por lo tanto, es razonable creer
(aunque no conozco ninguna prueba) que cualquier perturbación no esféricamente
simétrica que llegue a un agujero negro de Reissner-Nordstrøm perturbará violentamente
la geometría que hemos descrito. Es difícil decir cómo será la geometría real, pero no hay
ninguna razón de peso para creer que deba contener un número infinito de regiones
asintóticamente planas que se conecten entre sí a través de varios agujeros de gusano.
Caso Tres - 𝐺𝑀 = 𝑝 + 𝑞
Este caso se conoce como solución extrema de Reissner-Nordstrøm (o simplemente
"agujero negro extremo"). La masa está exactamente equilibrada en cierto sentido por la
carga - se pueden construir soluciones exactas consistentes en varios agujeros negros
extremos que permanecen estacionarios entre sí durante todo el tiempo. Por un lado, el
agujero extremo es un divertido juguete teórico; estas soluciones se examinan a menudo en
los estudios sobre la paradoja de la pérdida de información y el papel de los agujeros negros
en la gravedad cuántica. Por otro lado, parece muy inestable, ya que con sólo añadir un poco
de materia se llega al caso dos.
Los agujeros negros extremos tienen △ (𝑟) = 0 en un solo radio, r = GM. Esto representa un
horizonte de sucesos, pero la coordenada r nunca es semejante al tiempo; se vuelve nula en
r = GM, pero es semejante al espacio a ambos lados. La singularidad en r = 0 es una línea
temporal, como en los otros casos. Así que para este agujero negro se puede volver a evitar
la singularidad y continuar moviéndose hacia el futuro a copias extra de la región
asintóticamente plana, pero la singularidad está siempre "a la izquierda". El diagrama de
Penrose es como se muestra.
Por supuesto, podríamos entrar en mucho más detalle sobre las soluciones cargadas, pero
vamos a pasar a los agujeros negros giratorios. En este caso es mucho más difícil encontrar
la solución exacta de la métrica, ya que hemos renunciado a la simetría esférica. Para
empezar, todo lo que hay es simetría axial (alrededor del eje de rotación), pero también
podemos pedir soluciones estacionarias (un vector de Killing semejante al tiempo). Aunque
las soluciones de Schwarzschild y Reissner-Nordstrøm se descubrieron poco después de
que se inventara la relatividad general, la solución para un agujero negro en rotación no fue
encontrada por Kerr hasta 1963. Su resultado, la métrica de Kerr, viene dado por el
siguiente lío:
𝜌2 2𝐺𝑀𝑟
𝑑𝑠 = −d𝑡 + △ d𝑟 + 𝜌 d𝑟 + 𝜌 d𝜃 + (𝑟 + 𝑎 )sen 𝜃d∅ + 2 (𝑎sen 𝜃d∅ − d𝑡 ) ,
𝜌
(7.114)
donde
△ (𝑟) = 𝑟 − 2𝐺𝑀𝑟 + 𝑎 , (7.115)
y
𝜌 (𝑟, 𝜃) = 𝑟 + 𝑎 cos 𝜃 . (7.116)
Aquí a mide la rotación del agujero y M es la masa. Es sencillo incluir las cargas eléctricas y
magnéticas q y p, simplemente sustituyendo 2GMr por 2GMr −(𝑞2 + 𝑝2)/𝐺; el resultado es
la métrica de Kerr-Newman. Todos los fenómenos interesantes persisten en ausencia de
cargas, por lo que a partir de ahora estableceremos q = p = 0.
Las coordenadas (t, r, θ, ∅) se conocen como coordenadas de Boyer-Lindquist. Es sencillo
comprobar que a → 0 se reducen a las coordenadas de Schwarzschild. Sin embargo, si
mantenemos a fijo y dejamos que M → 0, recuperamos el espaciotiempo plano pero no en
coordenadas polares ordinarias. La métrica se convierte en
( )
𝑑𝑠 = −d𝑡 + d𝑟 + (𝑟 + 𝑎 cos 𝜃) d𝜃 + (𝑟 + 𝑎 )sen 𝜃d∅ , (7.117)
( )
y reconocemos la parte espacial de ésta como espacio plano en coordenadas elipsoidales.
Se relacionan con las coordenadas cartesianas en el 3-espacio euclidiano por
/
𝑥 = (𝑟 + 𝑎 ) sen𝜃cos(∅)
/
𝑦 = (𝑟 + 𝑎 ) sen𝜃sen(∅)
𝑧 = 𝑟cos𝜃 . (7.119)
Hay dos vectores de Killing de la métrica (7.114), ambos manifiestos; como los coeficientes
de la métrica son independientes de t y ∅, tanto 𝜁 = 𝜕 como 𝜂 = 𝜕 son vectores de Killing.
θ=const r =const
r=0
Por supuesto, 𝜂 expresa la simetría axial de la solución. El vector 𝜁 no es ortogonal a las

hipersuperficies de t = constante, y de hecho no es ortogonal a ninguna hipersuperficie en
absoluto; por tanto, esta métrica es estacionaria, pero no estática. (No cambia con el tiempo,
pero está girando).
Es más, la métrica de Kerr también posee algo llamado tensor de Killing. Este es cualquier
tensor simétrico (0, n) 𝜉 … que satisface
▽( 𝜉 … ) =0. (7.119)
Ejemplos sencillos de tensores de Killing son la propia métrica y los productos tensoriales
simetrizados de los vectores de Killing. Así como un vector de Killing implica una constante
de movimiento geodésico, si existe un tensor de Killing entonces a lo largo de una geodésica
tendremos
𝜉 … … = constate . (7.120)
(A diferencia de los vectores de Killing, los tensores de Killing de rango superior no

corresponden a simetrías de la métrica). En la geometría de Kerr podemos definir el tensor
(0,2)
𝜉 = 2𝜌 𝑙( 𝑛 ) + 𝑟 𝑔 . (7.121)
En esta expresión los dos vectores l y n vienen dados (con los índices subidos) por
𝑙 = (𝑟 + 𝑎 , − △, 0, 𝑎)
△
𝑛 = (𝑟 + 𝑎 , − △, 0, 𝑎) . (7.122)
Ambos vectores son nulos y satisfacen

𝑙 𝑙 =0, 𝑛 𝑛 =0, 𝑙 𝑛 = −1 . (7.123)
(Por si sirve de algo, son los "vectores nulos especiales" de la clasificación de Petrov para
este espaciotiempo). Con estas definiciones, puede comprobar Usted mismo que 𝜉 es un
tensor de Killing.
Pensemos en la estructura de la solución completa de Kerr. Las singularidades parecen

aparecer tanto en △ = 0 como en ρ = 0; dirijamos nuestra atención primero a △ = 0. Como
en la solución de Reissner-Nordstrøm hay tres posibilidades: 𝐺 𝑀 > 𝑎 , 𝐺 𝑀 = 𝑎 , y
𝐺 𝑀 < 𝑎 . El último caso presenta una singularidad desnuda, y el caso extremo 𝐺 𝑀 =
𝑎 es inestable, al igual que en Reissner-Nordstrøm. Dado que estos casos son de menor
interés físico, y el tiempo es corto, nos concentraremos en 𝐺 𝑀 > 𝑎 . Entonces hay dos
radios en los que ∆ desaparece, dados por
𝑟± = 𝐺𝑀 ± √𝐺 𝑀 − 𝑎 . (7.124)
Ambos radios son superficies nulas que resultan ser horizontes de sucesos. El análisis de
estas superficies se realiza por analogía con el caso de Reissner-Nordstrøm; es sencillo
encontrar las coordenadas que se extienden a través de los horizontes.
Además de los horizontes de sucesos en 𝑟± , la solución de Kerr también presenta una
superficie adicional de interés. Recordemos que en las soluciones con simetría esférica, el
vector de Killing "temporal" 𝜁 µ =𝜕 es nulo en el horizonte de sucesos (exterior) y espacial
en el interior. Comprobando dónde ocurre lo mismo para Kerr, calculamos
1
𝜁µ𝜁 = − (△ −𝑎 sen 𝜃) . (7.125)
𝜌2
Esto no desaparece en el horizonte de sucesos exterior; de hecho, en r = 𝑟 (donde △ = 0),
tenemos
1
𝜁µ𝜁 = − sen 𝜃 ≥ 0 . (7.126)
𝜌2
Por tanto, el vector de Killing ya es espacialmente similar en el horizonte exterior, excepto
en los polos norte y sur (θ = 0), donde es nulo. El lugar de los puntos donde 𝜁 µ 𝜁 = 0 se
conoce como el horizonte de Killing, y viene dado por
(𝑟 − 𝐺𝑀) = 𝐺 𝑀 − 𝑎 cos 𝜃 , (7.127)
mientras que el horizonte de sucesos exterior viene dado por
(𝑟 − 𝐺𝑀) = 𝐺 𝑀 − 𝑎 . (7.128)
Por tanto, existe una región entre estas dos superficies, conocida como ergosfera. Dentro
de la ergosfera, hay que moverse en la dirección de la rotación del agujero negro (la
dirección ∅); sin embargo, podemos seguir acercándonos o alejándonos del horizonte de
sucesos (y no hay problemas para salir de la ergosfera). Evidentemente, es un lugar en el
que pueden ocurrir cosas interesantes incluso antes de cruzar el horizonte; más detalles
sobre esto los veremos más adelante.
horizonte exterior
de sucesos horizonte
r+ de Killing
r-
r=0
ergosfera
horizonte interior de sucesos

Antes de apresurarnos a dibujar los diagramas de Penrose, debemos comprender la

naturaleza de la verdadera singularidad de la curvatura; ésta no se produce en r = 0 en este
espaciotiempo, sino en ρ = 0. Dado que 𝜌 = 𝑟 + 𝑎 cos 𝜃 es la suma de dos cantidades
manifiestamente no negativas, sólo puede desaparecer cuando ambas cantidades son cero,
o
r=0, 𝜃 = . (7.129)
Esto parece un resultado curioso, pero recordemos que r = 0 no es un punto en el espacio,

sino un disco; el conjunto de puntos r = 0, θ = π/2 es en realidad el anillo en el borde de este
disco. La rotación ha "suavizado" la singularidad de Schwarzschild, extendiéndola sobre un
anillo.
¿Qué ocurre si nos adentramos en el anillo? Una continuación analítica cuidadosa (que no
realizaremos) revelaría que se sale a otro espaciotiempo asintóticamente plano, pero no
una copia idéntica del que se viene. El nuevo espaciotiempo está descrito por la métrica de
Kerr con r < 0. Como resultado, △ nunca desaparece y no hay horizontes. El diagrama de
Penrose es muy parecido al de Reissner-Nordstrøm, salvo que ahora se puede pasar por la
singularidad.
No sólo tenemos la extrañeza habitual de estas distintas regiones asintóticamente planas
conectadas a la nuestra a través del agujero negro, sino que la región cercana a la
singularidad del anillo tiene patologías adicionales: curvas cerradas de tipo temporal. Si se
consideran trayectorias que dan vueltas en ∅ manteniendo θ y t constantes y r un valor
negativo pequeño, el elemento de línea a lo largo de tal trayectoria es
2𝐺𝑀
𝑑𝑠 = 𝑎 1+ 𝑟 d∅ , (7.130)
que es negativo para r negativo pequeño. Dado que estas trayectorias son cerradas,
obviamente son CTC’s. Por lo tanto, se pueden encontrar en el pasado, con todo lo que ello
conlleva.
Por supuesto, todo lo que digamos sobre la extensión analítica de Kerr está sujeto a las
mismas advertencias que mencionamos para Schwarzschild y Reissner-Nordstrøm; es poco
probable que el colapso gravitatorio realista conduzca a estos extraños espaciotiempos. No
obstante, siempre es útil disponer de soluciones exactas. Además, para la métrica de Kerr
ocurren cosas extrañas incluso si nos quedamos fuera del horizonte de sucesos, a lo que nos
referimos ahora.
Comenzamos por considerar con más atención la velocidad angular del agujero.
Obviamente, la definición convencional de velocidad angular tendrá que modificarse un
poco antes de que podamos aplicarla a algo tan abstracto como la métrica del
espaciotiempo. Consideremos el destino de un fotón que se emite en la dirección ∅ en algún
radio r en el plano ecuatorial (θ = π/2) de un agujero negro de Kerr. En el instante en que es
emitido su momento no tiene componentes en la dirección r o θ, y por tanto la condición de
que sea nulo es
𝑑𝑠 = 0 = 𝑔 d𝑡 + 𝑔 ∅ (d𝑡d∅ + d∅d𝑡) + +𝑔∅∅ d∅ . (7.131)
Esto se resuelve fácilmente para obtener
∅ ∅ 𝑔𝑡∅ 𝑔
=− ± 𝑔∅∅
− 𝑔 𝑡∅ . (7.132)
∅∅ ∅∅
Si evaluamos esta cantidad en el horizonte de Killing de la métrica de Kerr, tenemos 𝑔 = 0,

y las dos soluciones son
∅ ∅
=0, = . (7.133)
( )
La solución no nula tiene el mismo signo que a; lo interpretamos como que el fotón se mueve
alrededor del agujero en la misma dirección que la rotación del agujero. La solución cero
significa que el fotón dirigido en contra de la rotación del agujero no se mueve en absoluto
en este sistema de coordenadas. (Esto no es una solución completa de la trayectoria del
fotón, sólo la afirmación de que su velocidad instantánea es cero). Este es un ejemplo del
"arrastre de marcos inerciales" mencionado anteriormente. El objetivo de este ejercicio es
observar que las partículas masivas, que deben moverse más lentamente que los fotones,
son necesariamente arrastradas junto con la rotación del agujero una vez que están dentro
del horizonte de Killing. Este arrastre continúa a medida que nos acercamos al horizonte de
sucesos exterior en 𝑟 podemos definir la velocidad angular del propio horizonte de
sucesos, Ω , como la velocidad angular mínima de una partícula en el horizonte.
Directamente a partir de (7.132) encontramos que
∅
Ω = (𝑟 ) = . (7.134)
Pasemos ahora al movimiento geodésico, que sabemos que se simplificará considerando las
cantidades conservadas asociadas a los vectores de Killing 𝜁 µ = 𝜕 y 𝜂 µ = 𝜕∅ . Para los fines
que nos ocupan podemos restringir nuestra atención a las partículas masivas, para las que
podemos trabajar con el cuadrimomento
𝑝µ = 𝑚 , (7.135)
donde m es la masa en reposo de la partícula. Entonces podemos tomar como nuestras dos
cantidades conservadas la energía real y el momento angular de la partícula,
2𝐺𝑀𝑟
𝐸 = −𝜁 𝑝 = 𝑚 1 − + sen 𝜃 (7.136)
𝜌2
y
( ) △
𝐿=𝜂 𝑝 =− sen 𝜃 + sen 𝜃 . (7.137)
(Esto difiere de nuestras definiciones anteriores para las cantidades conservadas, en las que
E y L se consideraban la energía y el momento angular por unidad de masa. Por supuesto,
se conservan de cualquier manera).
El signo menos en la definición de E está ahí porque en el infinito tanto 𝜁 como 𝑝 son
semejantes en el tiempo, por lo que su producto interno es negativo, pero queremos que la
energía sea positiva. Sin embargo, dentro de la ergosfera, 𝜁 se convierte en espacial; por
tanto, podemos imaginar partículas para las que
𝐸 = −𝜁 𝑝 < 0 . (7.138)
La medida en que esto nos molesta se ve mejorada por la constatación de que todas las
partículas fuera del horizonte de Killing deben tener energías positivas; por tanto, una
partícula dentro de la ergosfera con energía negativa debe permanecer en una geodésica
dentro del horizonte de Killing, o ser acelerada hasta que su energía sea positiva si quiere
escapar.
Aun así, esta constatación conduce a una forma de extraer energía de un agujero negro en
rotación; el método se conoce como proceso de Penrose. La idea es sencilla; partiendo del
exterior de la ergosfera, te armas con una gran roca y saltas hacia el agujero negro. Si
llamamos al cuadrimomento del sistema (tú + roca) 𝑝( )µ , entonces la energía 𝐸 ( ) =
−𝜁 𝑝( ) es ciertamente positiva, y se conserva a medida que te desplazas por tu geodésica.
Una vez que entras en la ergosfera, lanzas la roca con todas tus fuerzas, de una forma muy
concreta. Si llamamos a tu momento 𝑝( ) y al de la roca 𝑝( ) , entonces en el instante en
que la lanzas tenemos conservación del momento igual que en la relatividad especial:
𝑝( )
= 𝑝( )
+ 𝑝( )
. (7.139)
Haciendo contracción con el vector de Killing 𝜁 nos da
𝐸( )
= 𝐸( ) + 𝐸( ) . (7.140)
Pero, si imaginamos que eres arbitrariamente fuerte (y preciso), puedes disponer tu
lanzamiento de forma que 𝐸 ( ) < 0, según (7.158). Además, Penrose pudo demostrar que se
puede organizar la trayectoria inicial y el lanzamiento de forma que después se siga una
trayectoria geodésica de vuelta fuera del horizonte de Killing hacia el universo externo.
Como su energía se conserva a lo largo del camino, al final tendremos
𝐸( )
> 𝐸( ) . (7.141)
En consecuencia, has salido con más energía de la que entraste.
(Vista superior) horizonte de

ergosfera Killing
p(2) µ
p (1) µ
p (0) µ
No existe el almuerzo gratis; la energía que ganaste vino de algún lugar, y ese lugar es el
agujero negro. De hecho, el proceso de Penrose extrae energía del agujero negro en rotación
disminuyendo su momento angular; hay que lanzar la roca contra la rotación del agujero
para que el truco funcione. Para ver esto con más precisión, tenemos que definir un nuevo
vector de Killing
𝜒 =𝜁 +Ω 𝜂 . (7.142)
En el horizonte exterior 𝜒 es nulo y tangente al horizonte. (Esto puede verse a partir de

𝜁 = ∂ , 𝜂 = ∂ , y la definición (7.134) de Ω ). La afirmación de que la partícula con
momento 𝑝( ) cruza el horizonte de sucesos "avanzando en el tiempo" es simplemente
𝑝( )
𝜒 <0. (7.143)
Introduciendo las definiciones de E y L, vemos que esta condición es equivalente a

( )
𝐿( )
< . (7.145)
Como hemos dispuesto que 𝐸 ( ) sea negativo, y Ω es positivo, vemos que la partícula debe
tener un momento angular negativo: se mueve en contra de la rotación del agujero. Una vez
que ha escapado de la ergosfera y la roca ha caído dentro del horizonte de sucesos, la masa
y el momento angular del agujero son los que eran más las contribuciones negativas de la
roca:
𝛿𝑀 = 𝐸 ( )
𝛿𝐽 = 𝐿( ) . (7.145)
Hemos introducido aquí la notación J para el momento angular del agujero negro; viene
dado por
𝐽 = 𝑀𝑎 . (7.146)
No vamos a justificar esto, per se puede mirar en Wald para una explicación. Entonces
(7.144) se convierte en un límite para lo que puede disminuir el momento angular:
𝛿𝐽 < . (7.147)
Si alcanzamos exactamente este límite, a medida que la roca que arrojamos se vuelve más y
más nula, tenemos el proceso "ideal", en el que 𝛿𝐽 = δM/Ω .
Ahora utilizaremos estas ideas para demostrar un poderoso resultado: aunque se puede
utilizar el proceso de Penrose para extraer energía del agujero negro, nunca se puede
disminuir el área del horizonte de sucesos. Para una métrica de Kerr, se puede hacer un
cálculo directo (proyectando la métrica y el elemento de volumen, etc.) para calcular el área
del horizonte de sucesos:
𝐴 = 4𝜋(𝑟 + 𝑎 ) . (7.148)
Para mostrar que esto no disminuye, lo más conveniente es trabajar en su lugar en términos
de la masa irreducible del agujero negro, definida por
𝑀 =
= (𝑟 + 𝑎 )
= 𝑀 + 𝑀 − (𝑀𝑎/𝐺)
1
= 2 𝑀 + 𝑀 − (𝐽/𝐺) . (7.149)
Podemos diferenciar para obtener, tras un poco de trabajo,
𝛿𝑀 = (Ω 𝛿𝑀 − 𝛿𝐽) . (7.150)
√
(Creo que tengo los factores de G correctos, pero no estaría de más comprobarlo.) Entonces
nuestro límite (7.147) se convierte en
𝛿𝑀 >0. (7.151)
La masa irreducible no puede reducirse nunca; de ahí su nombre. De ello se desprende que
la cantidad máxima de energía que podemos extraer de un agujero negro antes de frenar su
rotación a cero es
/
𝑀−𝑀 =𝑀− 𝑀 + 𝑀 − (𝐽/𝐺) . (7.152)
El resultado de esta extracción completa es un agujero negro de Schwarzschild de masa

𝑀 . Resulta que lo mejor que podemos hacer es empezar con un agujero negro de Kerr
extremo; entonces podemos sacar aproximadamente el 29% de su energía total.
La irreductibilidad de 𝑀 conduce inmediatamente al hecho de que el área A nunca puede
disminuir. A partir de (7.149) y (7.150) tenemos
𝛿𝐴 = 8𝜋𝐺 𝛿𝑀 − Ω 𝛿 . (7.153)
√
que se puede reformular como
𝛿𝑀 = 𝛿𝐴 + Ω 𝛿𝐽 , (7.154)
donde hemos introducido

√
𝜅= . (7.155)
√
La cantidad κ se conoce como la gravedad superficial del agujero negro.
Fueron ecuaciones como la de (7.154) las primeras que hicieron pensar en la relación entre
los agujeros negros y la termodinámica. Consideremos la primera ley de la termodinámica,
𝑑𝑈 = 𝑇𝑑𝑆 + términos de trabajo . (7.156)
Es natural pensar en el término Ω 𝛿𝐽 como el "trabajo" que realizamos sobre el agujero

negro al lanzarle piedras. Entonces la analogía termodinámica empieza a tomar forma si
pensamos en identificar el área A como la entropía S, y la gravedad superficial κ como 8πG
por la temperatura T. De hecho, en el contexto de la relatividad general clásica la analogía
es esencialmente perfecta. El "principio cero" de la termodinámica (“zeroth law”) afirma que
en el equilibrio térmico la temperatura es constante en todo el sistema; la afirmación
análoga para los agujeros negros es que los agujeros negros estacionarios tienen una
gravedad superficial constante en todo el horizonte (verdadero). Como hemos visto, la
primera ley (7.156) es equivalente a (7.154). La segunda ley, que la entropía nunca
disminuye, es simplemente la afirmación de que el área del horizonte nunca disminuye.
Finalmente, la tercera ley es que es imposible alcanzar T = 0 en cualquier proceso físico, lo
que debería implicar que es imposible alcanzar κ = 0 en cualquier proceso físico. Resulta
que κ = 0 corresponde a los agujeros negros extremos (ya sea en Kerr o en Reissner-
Nordstrøm), donde aparecerían las singularidades desnudas. De alguna manera, pues, la
tercera ley está relacionada con la censura cósmica.
La pieza que falta es que los cuerpos termodinámicos reales no se quedan ahí, sino que
emiten una radiación de cuerpo negro con un espectro que depende de su temperatura. Los
agujeros negros, se pensaba antes de que Hawking descubriera su radiación, no hacen eso,
ya que son verdaderamente negros. Históricamente, Bekenstein propuso la idea de que los
agujeros negros deberían ser realmente cuerpos negros auténticos, incluyendo la radiación
a la temperatura adecuada. Esto molestó a Hawking, que se propuso demostrar que estaba
equivocado, y acabó demostrando que, después de todo, habría radiación. Así que la
analogía termodinámica es aún mejor de lo que teníamos derecho a esperar, aunque es
seguro decir que nadie sabe realmente por qué.
8. COSMOLOGÍA
Los modelos cosmológicos contemporáneos se basan en la idea de que el universo es

prácticamente igual en todas partes, una postura que a veces se conoce como principio
copernicano. A primera vista, esta afirmación parece absurda; el centro del sol, por ejemplo,
se parece muy poco al frío desolado del espacio interestelar. Pero consideramos que el
principio copernicano sólo se aplica en las escalas más grandes, donde se promedian las
variaciones locales de densidad. Su validez a tales escalas se manifiesta en diversas
observaciones, como el recuento de galaxias y las observaciones de los fondos difusos de
rayos X y rayos γ, pero es más clara en la radiación de fondo de microondas de 3 . Aunque
ahora sabemos que el fondo de microondas no es perfectamente liso (y nadie esperaba que
lo fuera), las desviaciones de la regularidad son del orden de 10 o menos, sin duda una
base adecuada para una descripción aproximada del espaciotiempo a grandes escalas.
El principio copernicano está relacionado con dos propiedades más precisas desde el punto
de vista matemático que puede tener una variedad: la isotropía y la homogeneidad. La
isotropía se aplica en algún punto específico del espacio, y afirma que el espacio tiene el
mismo aspecto sin importar la dirección en la que se mire. Más formalmente, una variedad
M es isotrópica alrededor de un punto p si, para cualesquiera dos vectores V y W en 𝑇 𝑀,
existe una isometría de M tal que el empuje hacia delante de W bajo la isometría es paralelo
a V (no empujado hacia delante). La isotropía es lo que indican las observaciones del fondo
de microondas.
La homogeneidad es la afirmación de que la métrica es la misma en todo el espacio. En
otras palabras, dados dos puntos cualesquiera p y q en M, existe una isometría que lleva p a
q. Obsérvese que no existe una relación necesaria entre homogeneidad e isotropía; una
variedad puede ser homogénea pero no isotrópica en ninguna parte (como R × 𝑆 en la
métrica habitual), o puede ser isotrópica alrededor de un punto sin ser homogénea (como
un cono, que es isotrópico alrededor de su vértice pero ciertamente no es homogéneo). En
cambio, si un espacio es isótropo en todas partes, entonces es homogéneo. (Del mismo
modo, si es isótropo alrededor de un punto y también homogéneo, será isótropo alrededor
de todos los puntos). Dado que existe una amplia evidencia observacional de la isotropía, y
que el principio copernicano nos hace creer que no somos el centro del universo y que, por
tanto, los observadores de otros lugares también deberían observar la isotropía, en adelante
asumiremos tanto la homogeneidad como la isotropía.
Hay una pega. Cuando observamos galaxias lejanas, parece que se alejan de nosotros;
aparentemente el universo no es estático, sino que cambia con el tiempo. Por tanto,
empezamos a construir modelos cosmológicos con la idea de que el universo es homogéneo
e isótropo en el espacio, pero no en el tiempo. En la relatividad general esto se traduce en la
afirmación de que el universo puede ser foliado en rebanadas espaciales tales que cada
rebanada es homogénea e isotrópica.
Por lo tanto, consideramos que nuestro espaciotiempo es R × Σ, donde R representa la
dirección del tiempo y Σ es una tri-variedad homogénea e isótropa. La utilidad de la
homogeneidad y la isotropía es que implican que Σ debe ser un espacio máximamente
simétrico. (Pensemos en la isotropía como invariancia bajo rotaciones, y en la
homogeneidad como invariancia bajo traslaciones. Entonces la homogeneidad y la isotropía
juntas implican que un espacio tiene su máximo número posible de vectores de Killing). Por
lo tanto, podemos tomar nuestra métrica de la forma
𝑑𝑠 = −𝑑𝑡 + 𝑎 (𝑡)𝛾 (𝑢)d𝑢 d𝑢 . (8.1)
Aquí t es la coordenada temporal, y (𝑢 , 𝑢 , 𝑢 ) son las coordenadas en Σ; 𝛾 es la métrica

de máxima simetría en Σ. Esta fórmula es un caso especial de (7.2), que utilizamos para
derivar la métrica de Schwarzschild, con la salvedad de que hemos escalado t de forma que
𝑔 = −1. La función 𝑎(𝑡) se conoce como el factor de escala, y nos dice "cómo de grande"
es la porción espacial Σ en el momento t. Las coordenadas utilizadas aquí, en las que la
métrica está libre de términos cruzados dtd𝑢 y las componentes espaciales son
proporcionales a una única función de t, se conocen como coordenadas comovimiento
(“comoving”), y un observador que permanece en 𝑢 constante también se llama "comoving".
Sólo un observador en comovimiento pensará que el universo parece isotrópico; de hecho,
en la Tierra no estamos del todo en comovimiento, y como resultado vemos una anisotropía
dipolar en el fondo cósmico de microondas como resultado del efecto Doppler convencional.
Por lo tanto, nuestro interés se centra en las tres métricas euclidianas de máxima simetría
𝛾 . Sabemos que las métricas máximamente simétricas obedecen a
(3) 𝑅 = 𝜅(𝛾 𝛾 − 𝛾 𝛾 ) , (8.2)
donde k es alguna constante, y ponemos un superíndice (3) en el tensor de Riemann para
recordar que está asociado a la tri-métrica 𝛾 , no a la métrica de todo el espaciotiempo. El
tensor de Ricci es entonces
(3) 𝑅 = 2𝑘𝛾 . (8.3)
Si el espacio ha de ser de máxima simetría, entonces será sin duda esféricamente simétrico.
Ya sabemos algo sobre los espacios esféricamente simétricos gracias a nuestra exploración
de la solución de Schwarzschild; la métrica puede ponerse en la forma
( )
𝑑𝜎 = 𝛾 d𝑢 d𝑢 = 𝑒 d𝑟 + 𝑟 (d𝜃 + sen 𝜃d𝜙 ) . (8.4)
Las componentes del tensor de Ricci para dicha métrica pueden obtenerse a partir de (7.16),
el tensor de Ricci para un espaciotiempo esféricamente simétrico, fijando α = 0 y 𝜕 𝛽 = 0, lo
que da
(3) 𝑅 = 𝜕 𝛽
(3) 𝑅 =𝑒 (𝑟𝜕 𝛽 − 1) + 1
(3) 𝑅 = 𝑒 (𝑟𝜕 𝛽 − 1) + 1 sen 𝜃 . (8.5)
Fijamos estos proporcionales a la métrica utilizando (8.3), y podemos resolver para β(𝑟):
𝛽 = − ln(1 − 𝑘𝑟 ) . (8.6)
Eso nos da la siguiente métrica en el espaciotiempo:

d𝑟2
𝑑𝑠 = −𝑑𝑡 + 𝑎 (𝑡) + 𝑟 (d𝜃 + sen 𝜃d𝜙 ) . (8.7)
1−𝑘𝑟2
Esta es la métrica de Robertson-Walker. Todavía no hemos hecho uso de las ecuaciones
de Einstein; éstas determinarán el comportamiento del factor de escala 𝑎(𝑡). Nótese que las
sustituciones
𝑘→
| |
𝑟→ |𝑘| 𝑟
𝑎→ (8.8)
| |
dejan invariante (8.7). Por tanto, el único parámetro relevante es k/|k|, y hay tres casos de
interés: k = -1, k = 0, y k = +1. El caso k = -1 corresponde a una curvatura negativa constante
en Σ, y se llama abierto; el caso k = 0 no corresponde a ninguna curvatura en Σ, y se llama
plano; el caso k = +1 corresponde a una curvatura positiva en Σ, y se llama cerrado.
Examinemos cada una de estas posibilidades. Para el caso plano k = 0 la métrica sobre Σ es
𝑑𝜎 = d𝑟 + 𝑟 𝑑Ω
= d𝑥 + d𝑦 + d𝑧 , (8.9)
que es simplemente un espacio plano euclidiano. Globalmente, podría describir 𝐑 o una
variedad más complicada, como el tres-toro 𝑆 × 𝑆 × 𝑆 . Para el caso cerrado k = +1
podemos definir r = sen χ para escribir la métrica en Σ como
𝑑𝜎 = d𝜒 + sen 𝜒 𝑑Ω , (8.10)
que es la métrica de una 3-esfera. En este caso la única estructura global posible es en
realidad la 3-esfera (excepto la variedad no orientable RP ). Por último, en el caso abierto
k = -1 podemos establecer 𝑟 = senh𝜓 para obtener
𝑑𝜎 = d𝜓 + sen 𝜓 𝑑Ω . (8.11)
Se trata de la métrica de un espacio tridimensional de curvatura negativa constante; es
difícil de visualizar, pero piense en el ejemplo de la silla de montar del que hablamos en la
Sección 3. Globalmente, un espacio de este tipo podría extenderse eternamente (lo cual es
el origen de la palabra "abierto"), pero también podría describir un espacio compacto no
simplemente conectado (por lo que "abierto" no es realmente la descripción más exacta).
Con la métrica en la mano, podemos empezar a calcular los coeficientes de conexión y el
tensor de curvatura. Fijando 𝑎̇ ≡ 𝑑𝑎/𝑑𝑡, los símbolos de Christoffel vienen dados por
̇
Γ = Γ = 𝑎𝑎̇ 𝑟 Γ = 𝑎𝑎̇ 𝑟 sen 𝜃
̇
Γ =Γ =Γ =Γ =Γ =Γ =
Γ = −𝑟(1 − 𝑘𝑟 ) Γ = −𝑟(1 − 𝑘𝑟 )sen 𝜃
Γ =Γ =Γ =Γ =
Γ = −sen 𝜃cos𝜃 Γ =Γ = cot𝜃 . (8.12)

Los componentes no cero del tensor de Ricci son
̈
𝑅 = −3
̈ ̇
𝑅 =
𝑅 = 𝑟 (𝑎𝑎̈ + 2𝑎̇ + 2𝑘)

𝑅 = 𝑟 (𝑎𝑎̈ + 2𝑎̇ + 2𝑘)sen 𝜃 , (8.13)
y el escalar de Ricci es entonces
𝑅= (𝑎𝑎̈ + 𝑎̇ + 𝑘) . (8.14)
El universo no está vacío, por lo que no nos interesan las soluciones al vacío de las
ecuaciones de Einstein. Elegiremos modelar la materia y la energía del universo mediante
un fluido perfecto. Ya hablamos de los fluidos perfectos en la Sección Uno, donde se
definieron como fluidos que son isótropos en su marco de reposo. El tensor de energía-
momento para un fluido perfecto puede escribirse
𝑇 = (𝜌 + 𝑝)𝑈 𝑈 + 𝑝𝑔 , (8.15)
donde ρ y p son la densidad de energía y la presión (respectivamente) medidas en el marco
de reposo, y 𝑈 es la cuadrivelocidad del fluido. Es evidente que, si un fluido que es isótropo
en un marco conduce a una métrica que es isótropa en otro marco, los dos marcos
coincidirán; es decir, el fluido estará en reposo en coordenadas comovientes (“comoving”).
La cuadrivelocidad es entonces
𝑈 = (1, 0, 0, 0) , (8,16)
y el tensor de energía-momento es
𝜌 0 0 0
0
𝑇 = . (8.17)
0 𝑔 𝑝
0
Subiendo un índice el tensor toma esta forma más conveniente
𝑇 = diag(−𝜌, 𝑝, 𝑝, 𝑝) . (8.18)
Nótese que la traza viene dada por
𝑇=𝑇 = −𝜌 + 3𝑝 . (8.19)
Antes de introducir las ecuaciones de Einstein, es educativo considerar el componente cero
de la ecuación de conservación de la energía:
0= ▽ 𝑇
= 𝜕 𝑇 +Γ 𝑇 −Γ 𝑇
̇
= −𝜕 𝜌 − 3 (𝜌 + 𝑝) . (8.20)
Para avanzar es necesario elegir una ecuación de estado, una relación entre ρ y p.
Esencialmente todos los fluidos perfectos relevantes para la cosmología obedecen a la
simple ecuación de estado
p = 𝑤𝑝 , (8.21)
donde w es una constante independiente del tiempo. La ecuación de la conservación de la
energía se convierte en
̇ 𝑎̇
= −3(1 + 𝑤) 𝑎 , (8.22)
que puede ser integrada para obtener

( )
𝜌∝𝑎 . (8.23)
Los dos ejemplos más populares de fluidos cosmológicos son el polvo y la radiación. El polvo
es materia no relativista y sin colisiones, que obedece a w = 0. Entre los ejemplos se
encuentran las estrellas y galaxias ordinarias, para las que la presión es insignificante en
comparación con la densidad de energía. El polvo también se conoce como "materia", y los
universos cuya densidad de energía se debe principalmente al polvo se conocen como
dominados por la materia (“matter-dominated”). La densidad de energía en la materia
disminuye como
𝜌∝𝑎 . (8.24)
Esto se interpreta simplemente como la disminución de la densidad numérica de las
partículas a medida que el universo se expande. (En el caso del polvo, la densidad energética
está dominada por la energía en reposo, que es proporcional a la densidad numérica).
"Radiación" puede utilizarse para describir tanto la radiación electromagnética real como
las partículas masivas que se mueven a velocidades relativas lo suficientemente cercanas a
la velocidad de la luz como para que sean indistinguibles de los fotones (al menos en lo que
respecta a su ecuación de estado). Aunque la radiación es un fluido perfecto y, por tanto,
tiene un tensor de energía-momento dado por (8.15), también sabemos que 𝑇 puede
expresarse en función de la intensidad o fuerza de campo (“field strength”) como
1
𝑇 = 𝐹 𝐹 − 4𝜋 𝑔 𝐹 𝐹 . (8.25)
Cuya traza viene dada por
𝑇 = 𝐹 𝐹 − (4)𝐹 𝐹 =0. (8.26)
Pero esto debe ser también igual a (8.19), por lo que la ecuación de estado es
p= 𝜌. (8.27)
Un universo en el que la mayor parte de la densidad de energía está en forma de radiación

se conoce como dominado por la radiación (“radiation-dominated”). La densidad de energía
en forma de radiación disminuye a medida que
𝜌∝𝑎 . (8.28)
Así, la densidad de energía en la radiación disminuye ligeramente más rápido que en la
materia; esto se debe a que la densidad numérica de los fotones disminuye de la misma
manera que la densidad numérica de las partículas no relativistas, pero los fotones
individuales también pierden energía como 𝑎 a medida que se desplazan al rojo, como
veremos más adelante. (Del mismo modo, las partículas masivas pero relativistas perderán
energía a medida que se "ralenticen" en coordenadas “comoving”). Creemos que hoy la
densidad de energía del universo está dominada por la materia, con 𝜌 /𝜌 ∼ 10 . Sin
embargo, en el pasado el universo era mucho más pequeño, y la densidad de energía en
radiación habría dominado en épocas muy tempranas.
Hay otra forma de energía-momento que a veces se considera, la del propio vacío. Introducir
energía en el vacío equivale a introducir una constante cosmológica. Las ecuaciones de
Einstein con una constante cosmológica son
𝐺 = 8𝜋𝐺𝑇 − Λ , (8.29)
que es claramente la misma forma que las ecuaciones sin constante cosmológica pero con
un tensor de energía-momento para el vacío,
( )
𝑇 =− 𝑔 . (8.30)
Esta tiene la forma de un fluido perfecto con
𝜌 = −𝑝 = . (8.31)
Por tanto, tenemos w = -1, y la densidad de energía es independiente de a, que es lo que

esperaríamos para la densidad de energía del vacío. Dado que la densidad de energía de la
materia y la radiación disminuye a medida que el universo se expande, si existe una energía
del vacío distinta de cero, ésta tiende a ganar a largo plazo (siempre que el universo no
empiece a contraerse). Si esto ocurre, decimos que el universo pasa a estar dominado por
el vacío (“vacuum dominated”).
Pasemos ahora a las ecuaciones de Einstein. Recordemos que se pueden escribir en la forma
(4.45):
1
𝑅 = 8𝜋𝐺 𝑇 − 2 𝑔 𝑇 . (8.32)
La ecuación 𝜇𝜈 = 00 es
̈
−3 = 4𝜋𝐺(𝜌 + 3𝑝) , (8.33)
y las ecuaciones 𝜇𝜈 = 𝑖𝑗 dan

̈ ̇
+2 +2 = 4𝜋𝐺(𝜌 − 𝑝) . (8.34)
(Sólo hay una ecuación distinta de µν = ij, debido a la isotropía.) Podemos utilizar (8.33)
para eliminar las segundas derivadas en (8.34), y hacer un poco de limpieza para obtener
̈
=− (𝜌 + 3𝑝) , (8.35)
y
̇
= 𝜌− . (8.36)
En conjunto se conocen como las ecuaciones de Friedmann, y las métricas de la forma (8.7)
que obedecen a estas ecuaciones definen los universos de Friedmann-Robertson-Walker
(FRW).
Hay un montón de terminología asociada a los parámetros cosmológicos, y aquí sólo
introduciremos lo básico. La velocidad de expansión se caracteriza por el parámetro de
Hubble,
̇
𝐻= . (8.37)
El valor del parámetro de Hubble en la época actual es la constante de Hubble, 𝐻 .

Actualmente existe una gran controversia sobre cuál es su valor real, con mediciones que se
sitúan en el rango de 40 a 90 km/seg/Mpc. ("Mpc" significa "megaparsec", que es 3 × 10
cm). Nótese que tenemos que dividir 𝑎̇ por 𝑎 para obtener una cantidad medible, ya que la
escala global de 𝑎 es irrelevante. También existe el parámetro de desaceleración,
̈
𝑞=− , (8.38)
̇
que mide la tasa de cambio de la tasa de expansión.
Otra cantidad útil es el parámetro de densidad ,
Ω= 𝜌
= , (8.39)
donde la densidad crítica está definida por

𝜌 = . (8.40)
Esta cantidad (que generalmente cambiará con el tiempo) se llama densidad "crítica"
porque la ecuación de Friedmann (8.36) se puede escribir
Ω−1 = . (8.41)
Por tanto, el signo de k viene determinado constatando si Ω es mayor, igual o menor que
uno. Tenemos
𝜌<𝜌 ↔ Ω < 1 ↔ 𝑘 = −1 ↔ abierto
𝜌=𝜌 ↔ Ω=1 ↔ 𝑘=0 ↔ plano
𝜌>𝜌 ↔ Ω > 1 ↔ 𝑘 = +1 ↔ cerrado .
El parámetro de densidad, por tanto, nos dice cuál de las tres geometrías de Robertson-
Walker describe nuestro universo. Determinarlo mediante observación es un área de
intensa investigación.
Es posible resolver exactamente las ecuaciones de Friedmann en varios casos sencillos, pero
a menudo es más útil conocer el comportamiento cualitativo de varias posibilidades.
Fijemos por el momento Λ = 0, y consideremos el comportamiento de universos llenos de
fluidos de energía positiva (ρ > 0) y presión no negativa (p ≥ 0). Entonces por (8.35)
debemos tener 𝑎̈ < 0. Como sabemos por las observaciones de galaxias lejanas que el
universo se está expandiendo (𝑎̇ > 0), esto significa que el universo se está "desacelerando".
Esto es lo que deberíamos esperar, ya que la atracción gravitatoria de la materia del
universo actúa en contra de la expansión. El hecho de que el universo sólo pueda
desacelerarse significa que debe haberse expandido aún más rápido en el pasado; si
trazamos la evolución hacia atrás en el tiempo, necesariamente llegamos a una singularidad
en a = 0. Obsérvese que si 𝑎̈ fuera exactamente cero, 𝑎(𝑡) sería una línea recta, y la edad del
universo sería 𝐻 . Como 𝑎̈ es en realidad negativo, el universo debe ser algo más joven
que eso.
Esta singularidad en a = 0 es el Big Bang. Representa la creación del universo a partir de un
estado singular, no la explosión de materia en un espaciotiempo preexistente. Podría
esperarse que la simetría perfecta de nuestros universos FRW fuera la responsable de esta
singularidad, pero de hecho no es cierto; los teoremas de la singularidad predicen que
cualquier universo con ρ > 0 y p ≥ 0 debe haber comenzado en una singularidad. Por
supuesto, la densidad de energía se vuelve arbitrariamente alta a medida que a → 0, y no
esperamos que la relatividad general clásica sea una descripción precisa de naturaleza en
este régimen; esperemos que una teoría consistente de la gravedad cuántica sea capaz de
arreglar las cosas.
La evolución futura es distinta para diferentes valores de k. Para los casos abierto y plano,
𝑘 ≤ 0, (8.36) implica
𝑎̇ = ρ𝑎 + |𝑘| . (8.42)
El lado derecho es estrictamente positivo (ya que estamos suponiendo ρ > 0), por lo que 𝑎̇
nunca pasa por cero. Como sabemos que hoy 𝑎̇ > 0, debe ser positivo para todo el tiempo.
Por tanto, los universos abiertos y planos se expanden para siempre: son abiertos tanto
temporal como espacialmente.
a(t)
Big
Bang
t
-1
H0 ahora
(Por favor, téngase en cuenta las suposiciones que se hacen aquí, es decir, que hay una
densidad de energía positiva no nula. Los universos con densidad de energía negativa no
tienen por qué expandirse eternamente, aunque estén "abiertos").
¿A qué velocidad se expanden estos universos? Consideremos la cantidad ρ𝑎 (que es
constante en los universos dominados por la materia). Por la ecuación de conservación de
̇
la energía (8.20) tenemos
𝑎̇
(𝜌𝑎 ) = 𝑎 𝜌̇ + 3𝜌 𝑎
= −3𝑝𝑎 𝑎̇ . (8.43)
La parte derecha es o bien cero o negativa; por lo tanto
(𝜌𝑎 ) ≤ 0 . (8.44)
Esto implica a su vez que 𝜌𝑎 debe ir a cero en un universo en constante expansión, donde
a → ∞. Ası́, (8.42) nos dice que
𝑎̇ ⟶ |𝑘| . (8.45)
(Recuerden que esto es cierto para k ≤ 0.) Así, para k = -1 la expansión se aproxima al valor
límite 𝑎̇ → 1, mientras que para k = 0 el universo sigue expandiéndose, pero cada vez más
lentamente.
Para los universos cerrados (k = +1), (8.36) se convierte en
𝑎̇ = ρ𝑎 − 1 . (8.46)
El argumento de que ρ𝑎 → 0 a medida que a → ∞ sigue siendo vá lido; pero en ese caso
(8.46) se volvería negativo, lo que no puede ocurrir. Por tanto, el universo no se expande
indefinidamente; a posee un límite superior 𝑎 . A medida que a se acerca a 𝑎 , (8.35)
implica
𝑎̈ → − (𝜌 + 3𝑝)𝑎 <0. (8.47)
Por tanto, 𝑎̈ es finito y negativo en este punto, por lo que a llega a 𝑎 y comienza a
disminuir, tras lo cual (ya que 𝑎̈ < 0) continuará inevitablemente contrayéndose hasta llegar
a cero: el Big Crunch. Así, los universos cerrados (de nuevo, bajo nuestros supuestos de ρ
positiva y p no negativa) son cerrados tanto en el tiempo como en el espacio.
a(t)
k = -1
k=0
k = +1
t
bang ahora crujido
A continuación enumeraremos algunas de las soluciones exactas correspondientes a un solo
tipo de densidad de energía. Para los universos sólo de polvo (p = 0), es conveniente definir
un ángulo de desarrollo φ(t), en lugar de utilizar t como parámetro directamente. Las
soluciones son entonces, para universos abiertos,
𝐶
𝑎 = 2 (cosh𝜙 − 1)
(𝑘 = −1) , (8.48)
𝐶
𝑡 = (senh𝜙 − 𝜙)
2
para universos planos,
/
𝑎= 𝑡 / (𝑘 = 0) , (8.49)
y para universos cerrados,

𝐶
𝑎 = 2 (1 − cosh𝜙)
(𝑘 = +1) , (8.50)
𝐶
𝑡 = (𝜙 − senh𝜙)
2
donde hemos definido
C= ρ𝑎 = constante . (8.51)
Para universos llenos sólo con radiación, 𝑝 = ρ, tenemos de nuevo los universos
abiertos,
√
𝑡
𝑎 = √𝐶 1+ −1 (𝑘 = −1) , (8.52)
𝐶′
universos planos,
𝑎 = (4𝐶′) /
𝑡 / (𝑘 = 0) , (8.53)
y universos cerrados,
/
𝑡
𝑎 = √𝐶 1− 1− (𝑘 = +1) , (8.54)
𝐶′
donde esta vez hemos definido
C’ = ρ𝑎 = constante . (8.55)
Pueden comprobar por Uds. mismos que estas soluciones exactas tienen las propiedades
que argumentamos que se mantendrían en general.
Para los universos que están vacíos salvo por la constante cosmológica, o bien ρ o bien p
serán negativos, en violación de los supuestos que utilizamos antes para derivar el
comportamiento general de 𝑎(𝑡). En este caso se pierde la conexión entre abierto/cerrado
y se expande para siempre/recolapsa. Comenzamos considerando Λ < 0. En este caso Ω es
negativo, y a partir de (8.41) esto sólo puede ocurrir si 𝑘 = −1. La solución en este caso es
𝑎= sen 𝑡 . (8.56)
Hay también una solución abierta (𝑘 = −1) para Λ > 0, dada por
𝑎= senh 𝑡 . (8.57)
Un universo plano dominado por el vacío (“vacuum dominated”) debe tener Λ > 0, siendo la
solución
𝑎 ∝ exp ± 𝑡 , (8.58)
mientras que el universo cerrado también debe tener Λ > 0, y cumple
𝑎= cosh 𝑡 . (8.59)
Estas soluciones son un poco engañosas. De hecho, las tres soluciones para Λ > 0 - (8.57),
(8.58) y (8.59) - representan el mismo espaciotiempo, sólo que en coordenadas diferentes.
Este espaciotiempo, conocido como espacio de Sitter, es en realidad máximamente
simétrico como espaciotiempo. (La solución de Λ < 0 (8.56) también es máximamente
simétrica y se conoce como espacio anti-de Sitter.
Está claro que nos gustaría determinar mediante observación una serie de cantidades para
decidir cuál de los modelos FRW corresponde a nuestro universo. Obviamente, nos gustaría
determinar 𝐻 , ya que está relacionado con la edad del universo. (Para un universo
dominado por la materia, k = 0, (8.49) implica que la edad es 2/(3𝐻 ). Otras posibilidades
predecirían relaciones similares). También nos gustaría conocer Ω, que determina k
mediante (8.41). Dada la definición (8.39) de Ω, esto significa que queremos conocer tanto
𝐻 como 𝜌 . Desgraciadamente, ambas cantidades son difíciles de medir con precisión,
especialmente ρ. Pero fíjense en que el parámetro de deceleración q puede relacionarse con
Ω mediante (8.35):
𝑎𝑎̈
𝑞= −
𝑎̇ 2
̈
= −𝐻
= (𝜌 + 3𝑝)
= 𝜌(1 + 3𝑤)
= Ω. (8.60)
Por lo tanto, si pensamos que sabemos qué es w (es decir, de qué tipo de materia está hecho
el universo), podemos determinar Ω midiendo q. (Desgraciadamente, no estamos
completamente seguros de conocer w, y q es en sí mismo difícil de medir. Pero la gente lo
intenta).
Para entender cómo podrían medirse estas cantidades, consideremos el movimiento
geodésico en un universo FRW. Hay una serie de vectores de Killing espaciales, pero ningún
vector de Killing temporal que nos dé una noción de energía conservada. Sin embargo, existe
un tensor de Killing. Si 𝑈 = (1, 0, 0, 0) es la cuadrivelocidad de los observadores en
movimiento, entonces el tensor
𝐾 =𝑎 𝑔 +𝑈 𝑈 (8.61)
cumple con ▽( 𝐾 ) = 0 (como se puede comprobar), y es por lo tanto un tensor Killing.
Esto significa que si una partícula tiene una cuadrivelocidad 𝑉 = 𝑑𝑥 /𝑑𝜆, la cantidad
𝐾 =𝐾 𝑉 𝑉 =𝑎 𝑉𝑉 + 𝑈 𝑉 (8.62)
será constante a lo largo de todas las geodésicas. Pensemos sobre esto, primero para as
partículas masivas. Tendremos entonces 𝑉 𝑉 = −1, o
(𝑉 ) = 1 + 𝑉⃗ , (8.63)
donde 𝑉⃗ = 𝑔 𝑉 𝑉 . De este modo (8.61) implica
𝑉⃗ = . (8.64)
Por lo tanto, la partícula se "ralentiza" con respecto a las coordenadas “comoving” a medida
que el universo se expande. De hecho, se trata de una ralentización real, en el sentido de que
un gas de partículas con velocidades relativas inicialmente altas se enfriará a medida que el
universo se expande.
Algo similar ocurre con las geodésicas nulas. En este caso 𝑉 𝑉 = 0, y (8.62) implica
𝑈 𝑈 = . (8.65)
Pero la frecuencia del fotón medida por un observador desplazado es 𝜔 = −𝑈 𝑉 . Por

tanto, la frecuencia del fotón emitido con frecuencia 𝜔 se observará con una frecuencia
menor 𝜔 a medida que el universo se expande:
= . (8.66)
A los cosmólogos les gusta hablar de esto en términos del desplazamiento al rojo z entre
los dos eventos, definido por el cambio fraccional en la longitud de onda:
𝑧=
= −1 . (8.67)
Obsérvese que este corrimiento al rojo no es el mismo que el efecto Doppler convencional;
es la expansión del espacio, no las velocidades relativas del observador y del emisor, lo que
conduce al corrimiento al rojo.
El corrimiento al rojo es algo que podemos medir; conocemos las longitudes de onda en
reposo de varias líneas espectrales en la radiación de galaxias lejanas, por lo que podemos
saber cuánto han cambiado sus longitudes de onda a lo largo del camino desde el momento
𝑡 en que fueron emitidas hasta el momento 𝑡 en que fueron observadas. Por tanto,
conocemos la relación de los factores de escala en estos dos tiempos. Pero no conocemos
los tiempos en sí; los fotones no son lo suficientemente inteligentes como para decirnos
cuánto tiempo de coordenadas ha transcurrido en su viaje. Tenemos que esforzarnos más
para extraer esta información.
A grandes rasgos, dado que un fotón se mueve a la velocidad de la luz, su tiempo de viaje
debería ser simplemente su distancia. Pero ¿cuál es la "distancia" de una galaxia lejana en
un universo en expansión? La distancia comoving no es especialmente útil, ya que no es
medible, y además porque las galaxias no tienen por qué ser comoving en general. En su
lugar, podemos definir la distancia de luminosidad como
𝑑 = , (8.68)
donde L es la luminosidad absoluta de la fuente y F es el flujo medido por el observador (la

energía por unidad de tiempo por unidad de superficie de un detector). La definición viene
del hecho de que en el espacio plano, para una fuente a la distancia d del flujo sobre la
luminosidad es justo 1 sobre el área de una esfera centrada alrededor de la fuente, F/L =
1/𝐴 (𝑑) = 1/4𝜋𝑑 . En un universo FRW, sin embargo, el flujo se diluye. La conservación de
los fotones nos dice que el número total de fotones emitidos por la fuente acabará pasando
por una esfera a una distancia comoving r del emisor. Dicha esfera está a una distancia física
d = 𝑎 𝑟, donde 𝑎 es el factor de escala cuando se observan los fotones. Pero el flujo se diluye
por dos efectos adicionales: los fotones individuales se desplazan al rojo por un factor (1 +
z), y los fotones golpean la esfera con menos frecuencia, ya que dos fotones emitidos con un
tiempo δt de diferencia serán medidos con un tiempo (1+z)δt de diferencia. Por tanto,
tendremos
= ( )
, (8.69)
o
𝑑 = 𝑎 𝑟(1 + 𝑧) . (8.70)
La distancia de luminosidad dL es algo que podríamos esperar medir, ya que hay algunas
fuentes astrofísicas cuyas luminosidades absolutas son conocidas ("velas estándar"). Pero r
no es observable, así que tenemos que eliminarlo de nuestra ecuación. En una geodésica
nula (elegida como radial por comodidad) tenemos
0 = 𝑑𝑠 = −d𝑡 + d𝑟 , (8.71)
o
𝑡 𝑟
= . (8.72)
𝑡 ( ) 0 ( ) /
Para galaxias no muy lejanas, podemos expandir el factor de escala en una serie de Taylor
sobre su valor actual:
𝑎(𝑡 ) = 𝑎 + (𝑎̇ ) (𝑡 − 𝑡 ) + 𝑎̈ (𝑡 − 𝑡 ) +. . . . (8.73)
Podemos entonces expandir ambos lados de (8.72) para encontrar
𝑟=𝑎 (𝑡 − 𝑡 ) + 𝐻 (𝑡 − 𝑡 ) +. . . . (8.74)
Ahora recordando (8.67), la expansión (8.73) es la misma que

= 1 + 𝐻 (𝑡 − 𝑡 ) − 𝑞 𝐻 (𝑡 − 𝑡 ) + . . . . (8.75)
Para 𝐻 (𝑡 − 𝑡 ) pequeño se puede invertir para obtener

𝑞
𝑡 −𝑡 =𝐻 𝑧 − 1 + 20 𝑧 . . . . (8.76)
Sustituyendo esto de nuevo en (8.74) nos da

1
𝑟= 𝑧 − 2 (1 + 𝑞 )𝑧 + . . . . (8.77)
Finalmente, utilizando esto en (8.70) se obtiene la Ley de Hubble:

1
𝑑 =𝐻 𝑧 + 2 (1 − 𝑞 )𝑧 + . . . . (8.78)
Por lo tanto, la medición de las distancias de luminosidad y los corrimientos al rojo de un

número suficiente de galaxias nos permite determinar 𝐻 y 𝑞 , y por lo tanto nos lleva un
largo camino para decidir en qué tipo de universo FRW vivimos. Las observaciones en sí son
extremadamente difíciles, y los valores de estos parámetros en el mundo real siguen siendo
muy discutidos. A lo largo de la próxima década, más o menos, una serie de nuevas
estrategias y una aplicación más precisa de las antiguas podrían responder a estas
preguntas de una vez por todas.

Lectures On GeneralRelativity - Sean - M - Carroll - SP2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectures On GeneralRelativity - Sean - M - Carroll - SP2

Cargado por

Copyright:

Formatos disponibles

Notas de Conferencias sobre Relatividad General

(Lecture Notes on General Relativity)

Institute for Theoretical Physics

Santa Barbara, CA 93106 carroll@itp.ucsb.edu

*** Nota del traductor ***

0. Introducción tabla de contenidos — prefacio — bibliografía

1. Relatividad especial y Espacio Plano — el intervalo espaciotiempo — la métrica

2. Ejemplos de variedades — no-ejemplos — mapas — continuidad — la regla de la

3. Derivadas covariantes de la curvatura y conexiones — coeficientes de

4. Gravitación — el Principio de Equivalencia— desplazamiento gravitacional

5. Más Geometría- arrastres y empujes (“pullbacks and pushforwards”) —

7. La solución de Schwarzschild y Agujeros Negros — simetría esférica — la métrica

negros — diagramas de Penrose — infinitud conformal — sin pelo — agujeros negros

8. Homogeneidad e Isotropía Cosmológicas— la métrica de Robertson-Walker —

• C. Misner, K. Thorne and J. Wheeler, Gravitation (Freeman, 1973) [**]. Un libro

• R. D’Inverno, Introducing Einstein’s Relativity (Oxford, 1992) [**]. Un libro que no he

• N. Straumann, General Relativity and Relativistic Astrophysics (Springer-Verlag, 1984)

• F. de Felice and C. Clarke, Relativity on Curved Manifolds (Cambridge, 1990) [***]. Un

• S. Hawking and G. Ellis, The Large-Scale Structure of Space-Time (Cambridge, 1973)

• R. Sachs and H. Wu, General Relativity for Mathematicians (Springer-Verlag, 1977)

• B. Schutz, Geometrical Methods of Mathematical Physics (Cambridge, 1980) [**]. Otro

• V. Guillemin and A. Pollack, Differential Topology (Prentice-Hall, 1974) [**]. Un

• F.W. Warner, Foundations of Differentiable Manifolds and Lie Groups (SpringerVerlag,

1. Relatividad Especial y espacio Plano

Consideremos un plano bidimensional cualquiera. Normalmente es conveniente etiquetar

En un sistema de coordenadas cartesianas diferente, definido por los ejes x′ e y′ girados

𝑠 = − (𝑐 △ 𝑡′) + (△ 𝑥′) + (△ 𝑦′) + (△ 𝑧′) . (1.4)

Ahora podemos considerar las transformaciones de coordenadas en el espaciotiempo a un

o, en notación matricial más convención,

El parámetro de refuerzo (“boost”) 𝜙, a diferencia del ángulo de rotación, se define de -∞ a

debería sorprender, ya que si el espaciotiempo se comportara como una versión

conjunto de vectores unidos a un punto en un espacio bidimensional curvo simple

Por tanto, el conjunto de vectores base se transforma mediante la transformación inversa

La regla de la cadena convencional utilizada para transformar las derivadas parciales

(Nótese que 𝜔 ( ) y 𝑉 ( ) son vectores y vectores duales distintos, no componentes de los

En un espaciotiempo de 4 dimensiones habrá 4 tensores base en total. En notación de

significa que 𝐴 es antisimétrico en sus índices primero y tercero (o simplemente

𝑇[ … ] = 𝑇 … + suma sobre las permutaciones de índices 𝜇 ··· 𝜇 , 1,67)

𝑇[ … ] = 𝑇 … + suma alternada sobre las permutaciones de índices ··· 𝜇 .

Obsérvese que los paréntesis redondos/cuadrados denota simetrización/antisimetrización.

covariante" que sustituya a la derivada parcial. No obstante, podemos seguir utilizando el

El ejemplo más sencillo es el gradiente, que es la derivada exterior de un 1-forma:

Esto se conoce como el 𝑝é espacio vectorial de cohomología de de Rham, y depende sólo

𝜒(𝑀) = (−1) 𝑏 . (1.86)

La teoría de la cohomología es la base de gran parte de la topología diferencial moderna.

**𝐴 = (−1)s+p(n−p)A , (1.88)

la dimensionalidad del espacio de (n - p)-formas es igual a la del espacio de p-formas, por lo

d(∗F) = 4π(∗J) , (1.93)

naturaleza; entonces podríamos añadir un término de corriente magnética 4π(∗𝐽 ) al lado

para diferentes casos. Para las trayectorias espaciales definimos la longitud de la

Dado que dτ2 = −ηµνdxµdxν, el cuadrivelocidad es normalizado automáticamente:

𝑓 =𝑚 𝑥 (𝜏) = 𝑝 (𝜏) . (1.102)

El ejemplo más sencillo de una fuerza en la física newtoniana es la fuerza debida a la

de 𝑇 es "el flujo de cuadrimomentos 𝑝 a través de una superficie de 𝑥 constante". Para

 El n-toro 𝑇 resulta de tomar un cubo de n dimensiones e identificar los lados

 Una superficie de Riemann de género g es esencialmente un dos-toro con g agujeros

género 0 género 1 género 2

 De forma más abstracta, un conjunto de transformaciones continuas, como las

 El producto directo de dos variedades es una variedad. Es decir, dadas las

La noción de continuidad de un mapa entre espacios topológicos (y por tanto las

Podemos representar cada espacio en términos de coordenadas: 𝑥 en 𝐑 , 𝑦 en 𝐑 , y 𝑧

Que es habitualmente abreviada como

* Nota del traductor *