Semillero PDF

Centro de
Investigación en
Matemáticas, A.C.
PERSISTENCIA, PROBABILIDAD
E INFERENCIA ESTADÍSTICA PARA
ANÁLISIS TOPOLÓGICO DE DATOS
Módulos: Fermín Reveles (Topología), Víctor Pérez Abreu (Probabilidad),
Miguel Nakamura (Inferencia estadística), Rolando Biscay (Campos aleatorios)
Julio 2016
Persistencia, Probabilidad e Inferencia
Estadı́stica para Análisis Topológico de Datos
Módulos: Fermı́n Reveles (Topologı́a), Vı́ctor Pérez Abreu (Probabilidad),

Miguel Nakamura (Inferencia estadı́stica), Rolando Biscay (Campos aleatorios)
CIMAT, Guanajuato, México
7 de julio de 2016
Índice general
1. Topologı́a y Geometrı́a 13
1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.1. Tipo de homotopı́a y homeomorfismos . . . . . . . . . . . . . . . . . 18
1.1.2. Topologı́a cociente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3. Complejos simpliciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.1. Nervio y Filtraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4. Homologı́a simplicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.4.1. Cálculo de números de Betti . . . . . . . . . . . . . . . . . . . . . . . 37
1.5. Homologı́a singular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.6. Variedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.6.1. Caracterı́stica de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.6.2. Espacio tangente y distancia geodésica . . . . . . . . . . . . . . . . . 46
1.6.3. Variedades parametrizadas . . . . . . . . . . . . . . . . . . . . . . . . 48
1.7. Teorı́a de Morse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2. Persistencia 57
2.1. Homologı́a persistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2. Persistencia topológica de una filtración . . . . . . . . . . . . . . . . . . . . . 60
2.3. Diagramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4. Persistencia de conjuntos de nivel . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5. Panoramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6. Códigos de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.7. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3
4 Índice general
3. Probabilidad 75
3.1. Elementos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.1.1. Variables aleatorias y sus distribuciones . . . . . . . . . . . . . . . . . 77
3.1.2. Tipos de convergencia en probabilidad y resultados lı́mite universales 82
3.1.3. Aplicaciones al análisis de datos de altas dimensiones . . . . . . . . . 85
3.2. Construcción de medidas y variables aleatorias . . . . . . . . . . . . . . . . . 86
3.2.1. Construcción de medidas y aplicaciones a probabilidad . . . . . . . . 86
3.2.2. Existencia de variables aleatorias independientes . . . . . . . . . . . . 90
3.2.3. Distribución conjunta y condicional de variables aleatorias . . . . . . 91
3.3. Probabilidad en variedades I: . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.1. Sobre la distribución uniforme en probabilidad . . . . . . . . . . . . . 93
3.3.2. Medida uniformemente distribuida . . . . . . . . . . . . . . . . . . . 95
3.3.3. Medida de Lebesgue en Rd y distribución uniforme en subconjuntos . 97
3.3.4. Medida normal estándar en un espacio euclidiano . . . . . . . . . . . 99
3.3.5. Probabilidad uniformemente distribuida en esferas . . . . . . . . . . . 99
3.3.6. Otras medidas en la esfera y el toro . . . . . . . . . . . . . . . . . . . 103
3.4. Integral de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4.1. Funciones medibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4.2. Construcción de la integral de Lebesgue y propiedades iniciales . . . . 107
3.4.3. Espacios Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.4.4. Construcción de medidas a partir de la integral: la densidad . . . . . 114
3.5. Especificación de modelos de probabilidad usando densidades . . . . . . . . . 115
3.5.1. Transformación de variables aleatorias, momentos y convergencia . . 115
3.5.2. Medidas de referencia universales, ejemplos y su contexto . . . . . . 118
3.5.3. Densidades conjuntas, marginales, condicionales e independencia . . 121
3.5.4. Ejemplos de densidades en algunas variedades . . . . . . . . . . . . . 122
3.6. Probabilidad en variedades II: medida geométrica . . . . . . . . . . . . . . . 125
3.6.1. Medidas definidas por restricción a una cubierta abierta . . . . . . . . 125
3.6.2. La medida geométrica (distribución uniforme) . . . . . . . . . . . . . 125
3.6.3. Distribución uniforme vs probabilidad uniformemente distribuida . . 127
3.6.4. Medida de Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
3.6.5. Jacobianos, cambio de variable y áreas . . . . . . . . . . . . . . . . . 128
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4. Simulación de variables aleatorias en variedades 131

4.1. Variables aleatorias en la esfera . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.1.1. Distribución cociente de una normal multivariada . . . . . . . . . . . 133
4.1.2. Distribución cociente con fuerzas de repulsión en la esfera . . . . . . . 135
Índice general 5
4.1.3. Distribución cociente de colas pesadas . . . . . . . . . . . . . . . . . 138

4.2. Variables aleatorias en el toro . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.2.1. Distribución uniforme como elemento en R2d y R3 . . . . . . . . . . . 140
4.2.2. Fuerza de repulsión en el toro . . . . . . . . . . . . . . . . . . . . . . 141
4.2.3. Otras distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.3. Variables aleatorias en la botella de Klein y la banda de Moebius . . . . . . 144
4.4. Variables aleatorias en otras variedades . . . . . . . . . . . . . . . . . . . . . 144
5. Inferencia Estadı́stica 145

5.1. Premisa principal de un problema de inferencia estadı́stica . . . . . . . . . . 145
5.2. Conceptos básicos de estadı́stica matemática . . . . . . . . . . . . . . . . . . 146
5.2.1. Modelos estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.2. Estadı́sticas y distribuciones muestrales . . . . . . . . . . . . . . . . . 148
5.2.3. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3. Tipos de problemas estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.3.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.3.2. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.4. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.4.1. Estimación paramétrica puntual . . . . . . . . . . . . . . . . . . . . . 153
5.4.2. Estimación por subconjuntos . . . . . . . . . . . . . . . . . . . . . . . 155
5.4.3. Estimación de otras cantidades: funcionales estadı́sticos . . . . . . . . 158
5.4.4. Bootstrap computacional . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.4.5. Estimación de densidades . . . . . . . . . . . . . . . . . . . . . . . . 163
5.5. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.5.1. Consideraciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.5.2. El concepto de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.5.3. Pruebas de hipótesis acerca de la media . . . . . . . . . . . . . . . . . 170
5.6. Aplicación de principios de inferencia en literatura de ATD . . . . . . . . . . 172
5.6.1. Pruebas de hipótesis para homogeneidad entre grupos de diagramas
de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.6.2. Subconjuntos de confianza para diagramas de persistencia . . . . . . 175
5.6.3. Inferencia estadı́stica basada en panoramas de persistencia . . . . . . 178
5.6.4. Inferencia estadı́stica robusta para diagramas de persistencia . . . . . 182
5.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
6. Persistencia de campos aleatorios 189

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.2. Teorı́a fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6 Índice general
6.3. Campos aleatorios motivados por neuroimágenes . . . . . . . . . . . . . . . . 195

6.4. Aproximación de homologı́a persistente de campos aleatorios . . . . . . . . . 197
6.4.1. Aproximación de la media de un campo aleatorio . . . . . . . . . . . 198
6.4.2. Aproximación de función de regresión sobre una variedad . . . . . . . 200
6.5. Caracterı́stica de Euler de códigos de barras de campos gaussianos estándar . 201
6.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
7. Estimación de números de Betti y topologı́a estocástica 205

7.1. Topologı́a de densidades paramétricas . . . . . . . . . . . . . . . . . . . . . . 205
7.1.1. Intervalos de persistencia y esperanza de códigos de barra . . . . . . . 207
7.1.2. Códigos de barra de ciertas densidades paramétricas . . . . . . . . . . 211
7.1.3. Estimación estadı́stica de códigos de barra . . . . . . . . . . . . . . . 220
7.2. Topologı́a de densidades no–paramétricas en variedades . . . . . . . . . . . . 226
7.2.1. La nube de puntos como un proceso puntual y su topologı́a . . . . . . 226
7.2.2. Teoremas lı́mite: Casos subcrı́tico, crı́tico y supercrı́tico . . . . . . . . 229
7.3. Topologı́a de complejos aleatorios geométricos . . . . . . . . . . . . . . . . . 234
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos . . . . 243
A. Análisis de componentes principales (PCA) 251
B. Probabilidad en espacios métricos polacos 255
C. Variables aleatorias en espacios de Banach 261
D. Medidas de Poisson para conjuntos aleatorios de puntos 267
Algunos proyectos de alumnos del curso
I. Esqueleto de homologı́a persistente para aproximar fronteras de objetos en

una imagen. Marı́a Alejandra Valdez Cabrera, Omar Radhames Urquı́dez Calvo.
II. Método para simular puntos uniformemente distribuidos sobre una super-
ficie en Rn . Gilberto Flores Vargas, Yair Hernández Esparza.
III. Análisis topológico de datos utilizando Mapper y complejos testigo (incluye

un tutorial de uso de software). Jesús Manuel Pérez Angulo.
Índice de figuras
1.1. Nube de puntos y complejo simplicial asociado . . . . . . . . . . . . . . . . . 17

1.2. Ejemplo de retracto por deformación . . . . . . . . . . . . . . . . . . . . . . 19
1.3. Ejemplo de un complejo Vietoris–Rips . . . . . . . . . . . . . . . . . . . . . 20
1.4. Ejemplo de un –contrapeso . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5. Ejemplos de simplejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.6. Ejemplos de complejos simpliciales. . . . . . . . . . . . . . . . . . . . . . . . 29
1.7. Intersección de abiertos y creación de 1–simplejos. . . . . . . . . . . . . . . . 32
1.8. Ejemplo de complejo de Vietoris–Rips . . . . . . . . . . . . . . . . . . . . . . 33
1.9. Complejo de cadenas de homologı́a . . . . . . . . . . . . . . . . . . . . . . . 36
1.10. Ejemplos de puntos crı́ticos de la función distancia . . . . . . . . . . . . . . 52
2.1. Emparejamiento de máximos y mı́nimos . . . . . . . . . . . . . . . . . . . . 58

2.2. Aproximación de una función y su diagrama de persistencia . . . . . . . . . 58
2.3. Distancia cuello de botella . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.4. Panoramas de persistencia y relacionados . . . . . . . . . . . . . . . . . . . . 67
2.5. Código de barras e intervalos por clases de homologı́a . . . . . . . . . . . . . 69
4.1. Distribución uniforme sobre S2 . . . . . . . . . . . . . . . . . . . . . . . . . . 134

4.2. Distribución cociente de una distribución normal bivariada con dependencia
en S1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
4.3. Distribución cociente de una distribución normal trivariada con dependencia
en S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.4. Distribución cociente GOE en S1 . . . . . . . . . . . . . . . . . . . . . . . . 136
4.5. Distribución cociente GUE en S1 . . . . . . . . . . . . . . . . . . . . . . . . 137
4.6. Distribución cociente GOE en S2 . . . . . . . . . . . . . . . . . . . . . . . . 137
4.7. Distribución cociente GUE en S2 . . . . . . . . . . . . . . . . . . . . . . . . 138
4.8. Distribución cociente Cauchy en S1 . . . . . . . . . . . . . . . . . . . . . . . 139
4.9. Distribución cociente Cauchy en S2 . . . . . . . . . . . . . . . . . . . . . . . 139
7
8 Índice de figuras
4.10. Distribución inducida por la uniforme en la inmersión de T2 en R3 . . . . . . 140

4.11. Distribución uniforme en el toro . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.12. Distribución en T2 con distribución marginal GOE en S1 . . . . . . . . . . . 142
4.13. Distribución en T2 con distribución marginal GUE en S1 . . . . . . . . . . . 142
4.14. Distribución en T2 con distribución marginal cociente bivariada en S1 . . . . 143
4.15. Distribución en T2 con distribución marginal Cauchy en S1 . . . . . . . . . . 143
5.1. Interpretación de franja de confianza para un diagrama de persistencia . . . 177
7.1. Comparación entre n β0 (x, 0) y f (x) = − log(1 − x) . . . . . . . . . . . . . . 211

7.2. Arco-coseno con rango [−π, π) . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.3. Arco-coseno con rango [π, 3π) . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.4. Arco de cı́rculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
7.5. Gráfica de β0 cuando d = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
A.1. Ejemplo de componentes principales . . . . . . . . . . . . . . . . . . . . . . . 252

Introducción
16 T
Estas notas constituyen un compendio de aspectos teóricos, tanto geométrico–topológico
como de probabilidad e inferencia estadı́stica, para el Análisis Topológico de Datos (ATD).
20 A
Fueron desarrolladas a la par del curso Probabilidad e Inferencia Estadı́stica para el ATD, que
se impartió por vez primera durante el semestre enero-junio 2016 en el Centro de Investigación
lio IM
en Matemáticas A. C. (CIMAT). Las notas se adscriben al proyecto Análisis Topológico de
Datos para Matemáticas y Aplicaciones, CIMAT-ATD (http://atd.cimat.mx/).
Ju -C
El objetivo es presentar los principales conceptos y resultados de homologı́a persistente,

teorı́a de probabilidad e inferencia estadı́stica que permitan entender la creciente literatura
actual de investigación en ATD y temas relacionados. Las notas están dirigidas a estudiantes
de licenciatura y posgrado con una sólida formación matemática básica. No se presuponen
D
conocimientos previos en los temas que se abordan de topologı́a, probabilidad y estadı́stica.

Se introducen conceptos primordiales en cada uno de estos temas, ası́ como una exposición
AT
de los principales resultados y su relevancia para el ATD.

El Módulo I incluye material de geometrı́a, topologı́a y homologı́a persistente que se
presenta en los Capı́tulos 1 y 2. El Módulo II introduce elementos de teorı́a de probabilidad
y simulación de variables aleatorias en variedades, y corresponde al material contenido en
los Capı́tulos 3 y 4, ası́ como en los Apéndices B-D. El Módulo III incluye elementos de
inferencia estadı́stica y su aplicación en literatura reciente de ATD, lo cual se presenta en el
Capı́tulo 5 y el Apéndice A. El Módulo IV cubre el tema de campos aleatorios gaussianos
y se presenta en el Capı́tulo 6, en donde se mencionan numerosas aplicaciones del tema en
neuroimágenes.
El Capı́tulo 7 contiene material que se ha presentado durante el último año en algunas de
las sesiones mensuales ATD del CIMAT y está relacionado con el comportamiento asintótico
de los números de Betti y una introducción a la topologı́a estocástica. La Sección 7.1 fue
escrita por Erik Amézquita (estudiante de licenciatura), la Sección 7.2 por Fermı́n Reveles
y las Secciones 7.3 y 7.4 por Erika Roldán (estudiante de doctorado).
9
10 Introducción
El curso contó con la participación de estudiantes de la licenciatura en matemáticas

de la Universidad de Guanajuato y de los posgrados de ciencias de la computación y de
probabilidad y estadı́stica del CIMAT. Al final de estas notas se incluyen algunos reportes
de proyectos finales del curso desarrollados por alumnos. Estos trabajos abordan aspectos
complementarios del curso como la interpretación de resúmenes topológicos de algoritmos
ATD mediante varios ejemplos de diagramas de persistencia y códigos de barra; limitaciones
computacionales y algoritmos alternativos como Mapper y los complejos testigos; un tutorial
sobre el uso de software diverso para ATD; aplicaciones en análisis de imágenes, y un método
general para la simulación de variables aleatorias en variedades basado en la medida de
16 T
Hausdorff, ejemplificado con la botella de Klein y la banda de Moebius.
Otros trabajos del curso (no incluidos en estas notas) abordaron aspectos de inferencia
20 A
estadı́stica, ası́ como aplicaciones a una base de datos de máscaras prehispánicas del Insti-
lio IM
tuto Nacional de Antropologı́a e Historia, la cual está siendo estudiada en CIMAT mediante
diversas técnicas de topologı́a, estadı́stica y ciencias de la computación. También se cuenta
con un tutorial desarrollado por el estudiante de maestrı́a Rafael González, que explica con
herramientas de álgebra lineal el cálculo de números de Betti en Lenguaje R, mismo que
Ju -C
está disponible por solicitud en tda@cimat.mx. Una aplicación interactiva para la visualiza-
ción de la homologı́a y su correspondiente código de barras puede consultarse en [129].
Al final de las notas se compila una lista amplia de referencias, tanto clásicas de los temas
D
de topologı́a, probabilidad y estadı́stica, como de la literatura reciente en ATD, las cuales se

contextualizan a lo largo de las notas. Se incluyen algunas referencias de aplicaciones—cada
AT
vez más numerosas en la literatura de persistencia y ATD—, todas ellas motivadas por la
necesidad de analizar y modelar datos modernos, los cuales no resultan ser vectores sino
objetos con una estructura peculiar y más compleja. Como menciona Gunnar Carlsson—
uno de los pioneros del ATD—“los datos tienen forma y esta forma importa”; ver también
[90]. La gama de aplicaciones incluye áreas como procesamiento de imágenes [26], [39], [87];
aprendizaje de máquina [27]; oncologı́a [5], [103]; estudios sobre irrigación arterial en el
cerebro [11], [116]; microbiologı́a [69]; nichos ecológicos [60]; redes de sensores y rutas de
evasión [101]; astronomı́a [127]; y filogenética [30], [31], [107], entre otras. Se recomienda [68]
para una exposición critica de los trabajos [31] y [107] a través de un análisis detallado de
la modelación matemática y una introducción a la filogenética.
Al curso asistieron también varios estudiantes, posdoctorados e investigadores. Agradece-
mos a quienes revisaron partes de estas notas, especialmente a Airam Blancas, Gerardo Ba-
rrera, Israel Martı́nez, Joaquı́n Ortega, Erika Roldán y Carlos Vargas. Varios de los inscritos y
asistentes a este curso habı́an participado previamente en los cursos seminales de Topologı́a
Computacional y/o Topologı́a para Computación y Estadı́stica que impartió José Carlos
Gómez Larrañaga en semestres pasados.
Introducción 11
La edición y uniformización de las notas estuvo a cargo de Fermı́n Reveles. Éstas irán
evolucionando y actualizándose de manera intensa en la segunda edición del curso durante
el semestre agosto-diciembre de 2017. Agradecemos también a Armando Domı́nguez quien
ya realizó una revisión minuciosa de las mismas durante el IX Verano de Probabilidad y
Estadı́stica dedicado a ATD. Agradecemos los comentarios que el lector nos pueda propor-
cionar.
Guanajuato, Gto., México, julio de 2016.
16 T
Rolando Biscay, Miguel Nakamura, Vı́ctor Pérez Abreu, Fermı́n Reveles.
20 A
lio IM
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 1
16 T
Topologı́a y Geometrı́a
20 A
lio IM
En este capı́tulo hacemos un repaso de los conceptos y técnicas topológico–geométricas
comúnmente usadas en el ATD. En la mayorı́a de los casos faltarán las demostraciones y se
harán las referencias adecuadas. Esperamos con esto motivar la lectura fluida y continua,
Ju -C
cargada de conceptos e ideas a utilizar posteriormente.

Para un estudio más a fondo de topologı́a y topologı́a algebraica recomendamos los textos
clásicos de Munkres [98], [99] y de Hatcher [65]. Desde la perspectiva del ATD y en relación
D
al tipo de estudio que buscan develar estas notas, el lector puede consultar el libro en lı́nea
de Ghrist [58] y el aún en curso [20] de Boissonat, Chazal e Yvinnec. Sin dejar de lado los
AT
textos de Edelsbrunner y colaboradores [46] y [47]. Ası́ mismo, una introducción al tema se
encuentra en las notas de Espinoza [51]. La mayorı́a de las imágenes en este capı́tulo fueron
tomadas de la tesis de José Marı́a Ibarra [68].
Entendemos que para un estudio profundo de las herramientas de persistencia, es ne-
cesario utilizar y comprender el lenguaje de homologı́a, al menos en su versión simplicial
y con coeficientes en el campo de números binarios Z/2Z. Nuestro enfoque inicial es que
dichas relaciones algebraicas pueden ser pensadas como propiedades geométricas de objetos
computacionalmente tratables. Habrá entonces un “salto” de percepción a la suavidad de
las variedades y los objetos usuales de la topologı́a algebraica. Sin embargo, en nuestro caso,
ambas percepciones serán idénticas.
Esto nos permitirá importar las ideas de teorı́a de Morse de mediados del siglo pasado (ver
[95]), para llevar un estudio en paralelo de las propiedades topológicas relevantes (asociadas
a los números de Betti) y los puntos crı́ticos de funciones “tipo distancia”. Esperamos con
ello motivar un estudio futuro de tópicos avanzados de topologı́a algebraica y su relación al
análisis de datos y aplicaciones.
13
14 Capı́tulo 1. Topologı́a y Geometrı́a
1.1. Definiciones
Una topologı́a en un conjunto X, es una colección U de subconjuntos de X, tal que:
1. ∅ y X pertenecen a U.
2. Cualquier unión de elementos de U pertenece a U.
3. Cualquier intersección finita de elementos de U pertenece a U.
16 T
Llamamos abiertos a los elementos de U y al par (X, U) le decimos un espacio topológi-
co. También es posible definir una topologı́a con subconjuntos cerrados, o subconjuntos de
20 A
la forma X \ U , con U abierto. Si x ∈ X pertenece al abierto U , diremos que U es una
vecindad de x.
lio IM
Dos ejemplos de topologı́as son los siguientes: la topologı́a formada con la colección de
todos los subconjuntos de X se llama la topologı́a discreta. Dado cualquier subconjunto
Y ⊂ X, la familia {U ∩ Y : U ∈ U} es una topologı́a, llamada topologı́a inducida.
Ju -C
La mayorı́a de los espacios que trabajaremos satisfacen la propiedad de

Hausdorff .
D
Definición 1.1.1. Un espacio topológico X es Hausdorff, si para cualesquiera x, y en X,

existen vecindades U de x y V de y, tales que U ∩ V = ∅.
AT
Usualmente será complicado especificar todos los elementos de la topologı́a U. En la

mayorı́a de los casos uno puede especificar una colección de subconjuntos de X más pequeña
y definir la topologı́a en términos de ella.
Una base para una topologı́a en el conjunto X es una colección B de subconjuntos de X,
tal que:
(a) Para cualquier elemento x ∈ X, existe al menos un elemento B ∈ B tal que x ∈ B.
(b) Dados B1 , B2 ∈ B y x ∈ X, si x ∈ B1 ∩ B2 entonces existe un elemento B3 ∈ B tal que
x ∈ B3 ⊂ B1 ∩ B2 .
Los elementos de B se llamaran básicos. En el caso que B sea una base para una topologı́a
en X, la topologı́a generada por B se define como sigue: Un subconjunto U de X es abierto
en X si para cada x ∈ U , existe un elemento básico B ∈ B tal que x ∈ B ⊂ U .
De manera alternativa la topologı́a generada por una base está descrita por el siguiente
resultado.
1.1. Definiciones 15
Lema 1.1.2. Sea B una base para una topologı́a U en X. Entonces U es igual a la colección
de todas las uniones de elementos de B.
Ejemplo 1.1.3. La colección de todos los intervalos abiertos
(a, b) := {x ∈ R : a < x < b}
es una base para los números reales R y la topologı́a que genera se llama la topologı́a estándar
en R.
16 T
Para poder relacionar dos espacios topológicos usamos la noción de continuidad. Una
20 A
aplicación f : X −→ Y se dice una función continua si para cualquier abierto V de Y , la
imagen inversa f −1 (V ) = {x ∈ X : f (x) ∈ V } es un abierto de X.
lio IM
Equivalentemente tenemos las siguientes afirmaciones:
• f : X −→ Y es continua si la imagen inversa de cualquier cerrado es un cerrado.

Ju -C
• f : XS −→ Y es continua si X puede ser escrito como la unión de conjuntos abiertos,

X = Uα , tales que f |Uα es continua para cada α.
D
• f : X −→ Y es continua si para cada x ∈ X y cada vecindad V de f (x), existe una

vecindad U de x en X tal que f (U ) ⊂ V .
AT
Si se satisface la última condición diremos que f es continua en x. Además, las funciones

constantes son continuas, ası́ como las aplicaciones de inclusión A ,→ X con A ⊂ X y la
composición de funciones continuas.
Ejemplo 1.1.4. La definición de una función continua f : R −→ R, es equivalente a la

definición usual con − δ. Dado x0 ∈ R y > 0, supongamos que f : R −→ R es continua
en x0 , entonces el intervalo
V = (f (x0 ) − , f (x0 ) + )
es un abierto de R. Luego, f −1 (V ) es abierto del dominio, o bien, existe (a, b) ⊂ R tal que
x0 ∈ (a, b) ⊂ f −1 (V ). Escogemos δ > 0 como el más pequeño entre x0 − a y b − x0 . Por lo
tanto, si
|x − x0 | < δ,
x debe pertenecer a (a, b) y ası́ f (x) ∈ V , o
|f (x) − f (x0 )| < .

Dada una relación de equivalencia ∼ en X, la topologı́a cociente es por definición la

topologı́a más grande que hace a la aplicación de proyección
π : X −→ X/ ∼
continua. Esto es, un subconjunto U de X/ ∼ es una colección de clases de equivalencias y

π −1 (U ) es la unión de clases de equivalencia que pertenecen a U . Luego, un abierto tı́pico
del cociente X/ ∼ es una colección de clases de equivalencia cuya unión es un abierto de X.
La topologı́a cociente es de importante relevancia debido a la construcción de ejemplos
16 T
vistos como espacios o variedades cociente. Más adelante daremos un breve repaso sobre la
misma y presentaremos algunos ejemplos clásicos.
20 A
En ocasiones, habrá ciertas maneras “canónicas” de definir una topologı́a, esto sucede en
particular cuando en el conjunto en cuestión se pueden medir distancias.
lio IM
Una métrica o distancia en X es una aplicación d : X × X −→ [0, ∞) tal que
1. para cualquier x, y ∈ X, d(x, y) = d(y, x),

Ju -C
2. para cualquier x, y ∈ X, d(x, y) = 0 si y solo si, x = y,
3. para cualquier x, y, z ∈ X,
D
d(x, z) ≤ d(x, y) + d(y, z).

AT
El par (X, d) se dice un espacio métrico.

La menor topologı́a que contiene todas las bolas abiertas
B(x, r) := {y ∈ X : d(y, x) < r}
se llama la topologı́a métrica inducida por d.

Algunos ejemplos de espacios topológicos son:
1. Los espacios euclidianos Rn con la topologı́a estándar, la cual es la topologı́a inducida

por la métrica de la norma d(x, y) = ||x − y||.
2. Los números complejos C vistos con la topologı́a estándar de R2 .
3. Espacios cociente como el cı́rculo T = R/Z, o el toro T 2 = R2 /Z2 que están inducidos
por acciones de subgrupos discretos (tipo látices o retı́culas).
4. En general, cualquier espacio que sea localmente euclidiano, como las variedades.
5. Nubes discretas de puntos y sus realizaciones como complejos simpliciales.
16 T
20 A
lio IM
Figura 1.1: Nube de puntos y complejo simplicial asociado
Ju -C
Decimos que un subconjunto K ⊂ X es compacto si para cualquier cubierta por abiertos

de K, existe S {Ui : i ∈ I}
una subcubierta finita. Es decir, dada una colección de abiertos S
D
tal que K ⊆ I Ui ; existe un subconjunto finito de ı́ndices J ⊂ I tal que K ⊆ J Uj .

Para el caso de espacios métricos tenemos la siguiente caracterización de compactos:
AT
Un espacio métrico X es compacto si y sólo si, para cualquier sucesión de X existe una
subsucesión convergente. En el caso de espacios euclidianos, por el teorema de Heine–Borel,
un espacio K ⊂ Rd es compacto si y sólo si, K es cerrado y acotado.
La mayorı́a de los objetos con los que trataremos en estas notas serán
espacios compactos dotados con una distancia.
Decimos que un espacio topológico X es conexo si no puede ser separado por dos abiertos
disjuntos. Esto es, dados cualesquiera abiertos U y V tales que X ⊆ U ∪ V y U ∩ V = ∅;
entonces X ⊆ U o X ⊆ V . Equivalentemente, un espacio topológico X es conexo si y sólo
si, los únicos subconjuntos de X que son al mismo tiempo abiertos y cerrados son el vacı́o y
X mismo.
Un espacio topológico es arco–conexo si para cualesquiera x, y ∈ X, existe una aplicación
continua
γ : [0, 1] −→ X,
tal que γ(0) = x y γ(1) = y.
1.1.1. Tipo de homotopı́a y homeomorfismos

Decimos que dos espacios topológicos son el mismo si son homeomorfos.
Definición 1.1.5. Dos espacios topológicos X, Y son homeomorfos si existe una apli-
cación continua biyectiva h : X −→ Y , tal que h−1 : Y −→ X también es continua. La
aplicación h se llama un homeomorfismo.
Si el espacio X es compacto y Y es un espacio Hausdorff, entonces cualquier aplicación

continua y biyectiva entre X y Y es un homeomorfismo. Los espacios que son homeomorfos
16 T
a la bola unitaria estándar en Rn , se llamarán bolas topológicas.
20 A
Decidir si dos espacios son homeomorfos es una tarea complicada. En general, trabaja-
remos con una noción más débil que ésta, la relación de equivalencia homotópica.
lio IM
Decimos que dos aplicaciones f0 , f1 : X −→ Y son homotópicas, si existe una aplicación
continua
H : X × [0, 1] −→ Y
Ju -C
tal que para cada x ∈ X:
H(x, 0) = f0 (x) y H(x, 1) = f1 (x).

D
En tal caso escribiremos f0 ' f1 .

AT
Definición 1.1.6. Dos espacios X y Y son homotópicamente equivalentes (tienen el

mismo tipo de homotopı́a) si existen aplicaciones continuas
f : X −→ Y y g : Y −→ X,
tales que f ◦ g ' idY y g ◦ f ' idX .

Un espacio es contraı́ble si es homotópicamente equivalente a un punto.
Cuando Y es un subconjunto de X, podemos saber si existe una equivalencia homotópica

entre Y y X mediante el siguiente resultado.
Proposición 1.1.7. Si Y ⊂ X y existe una aplicación continua
H : X × [0, 1] −→ X,
tal que:
• Para cada x ∈ X, H(x, 0) = x,

• para cada x ∈ X, H(x, 1) ∈ Y ,

• para cada y ∈ Y y para todo t ∈ [0, 1], H(y, t) ∈ Y .
Entonces X y Y son homotópicamente equivalentes.
Observación 1.1.8. Si la última propiedad se reemplaza por la propiedad más fuerte de que
para cada y ∈ Y y para todo t ∈ [0, 1], H(y, t) = y, entonces, decimos que H define un
retracto por deformación de X sobre Y .
Ejemplo 1.1.9. La esfera unitaria Sn es un retracto por deformación del espacio euclidiano
16 T
Rn+1 \ {0}. Consideramos la función
F : (Rn+1 \ {0}) × [0, 1] → Rn+1 \ {0},
definida por
20 A
lio IM
x
F (x, t) = (1 − t)x + t .
||x||
Dicha aplicación va “encogiendo” gradualmente el rayo que emana del origen en Rn+1 \{0}
Ju -C
al punto donde intersecta la esfera. Como para cada y ∈ Sn , ||y|| = 1, tenemos que F (y, t) = y
para cada t ∈ [0, 1] y por lo tanto, F define un retracto por deformación de Rn+1 \ {0} sobre
Sn .
D
AT
Figura 1.2: El espacio R3 \ {0} se retrae en la esfera S2 .

En general, una nube discreta de puntos tendrá asociada un complejo simplicial, el lla-
mado complejo de Čech; o bien, el complejo de Rips (incluso el caso de los complejos α para
dos y tres dimensiones). Dicho complejo simplicial será homotópicamente equivalente a un
espacio métrico compacto formado por unión de bolas cerradas. Esté será el contenido del
llamado Lema del Nervio, que veremos posteriormente.
Para poder caracterizar las propiedades topológicas de un espacio buscamos invariantes
topológicos, objetos matemáticos como números, grupos, polinomios; tales que permanez-
can el mismo entre espacios homotópicamente equivalentes.
16 T
Ejemplo 1.1.10. Los números de Betti βk (X) de un espacio X están definidos por la di-
20 A
mensión del espacio vectorial
Hk (X, Z/2Z);
lio IM
donde el k–ésimo grupo de homologı́a en este caso mide lazos, agujeros, vacı́os en el espacio
X. En general y dependiendo del modelo, se pueden utilizar los grupos de homologı́a con
Ju -C
coeficientes en Z, Q o R.
Más adelante ahondaremos en la definición formal de homologı́a simplicial y singular,
ası́ mismo extenderemos nuestro estudio a la homologı́a persistente.
D
AT
Figura 1.3: Ejemplo de un complejo de Vietoris–Rips asociado a una nube de puntos.

1.1.2. Topologı́a cociente

Las construcciones más comunes en topologı́a suelen ser espacios formados vı́a identifica-
ciones o “pegados”, los cuales en el lenguaje de topologı́a suelen ser vistos como construccio-
nes muy poco formales. En esta sección veremos la teorı́a detrás de este tipo de ejemplos y
presentaremos algunos ejemplos importantes como el cı́rculo, la banda de Moebius, el plano
proyectivo, el toro y la botella de Klein.
Como hemos mencionado anteriormente, la mayorı́a de los espacios en la aplicación satis-
facen la propiedad de ser Hausdorff. Para el caso de las variedades, que veremos más adelante,
esta condición más la propiedad de ser segundo numerable son necesarias en la definición.
16 T
Para un estudio introductorio sobre variedades riemannianas recomendamos [126].
20 A
Recordamos que una relación de equivalencia ∼ en un conjunto X es una relación que
es simétrica, reflexiva y transitiva. Se define la clase de equivalencia [x] de x ∈ X, como
lio IM
el conjunto de los elementos de X equivalentes con x. Luego, una relación de equivalencia
particiona a un conjunto X en sus clases de equivalencia disjuntas. Denotamos por X/ ∼ al
conjunto de clases de equivalencia y lo llamamos el espacio cociente de X por ∼. Ası́ mismo,
Ju -C
consideramos la aplicación natural de proyección

π : X −→ X/ ∼,
D
que asigna a x ∈ X su clase [x] ∈ X/ ∼.

Si X es además un espacio topológico, definimos una topologı́a en el espacio cociente
X/ ∼ como sigue: U es abierto en X/ ∼ si y sólo si, π −1 (U ) es abierto en X. Se observa
AT
directamente que el vacı́o y X/ ∼ son abiertos. Más aún, como

! !
[ [ \ \
π −1 Uα = π −1 (Uα ) y π −1 Ui = π −1 (Ui ),
α α i i
entonces también se satisface que la colección de abiertos en X/ ∼ es cerrada bajo uniones

arbitrarias e intersecciones finitas. Esta topologı́a en X/ ∼ se llama la topologı́a cociente.
Observar que con la topologı́a cociente en X/ ∼ automáticamente la proyección π es
continua.
Supongamos que una función f : X −→ Y es constante en cada clase de equivalencia,
entonces tenemos una aplicación inducida f¯ : X/ ∼−→ Y dada por f¯([x]) = f (x) para
x ∈ X. Directamente de esta construcción podemos probar que f¯ es continua si y sólo si, f
es continua.
Sea A ⊂ X un subespacio topológico de X, definimos la relación de equivalencia ∼ en X
via x ∼ x para cada x ∈ X y
x ∼ y, ∀x, y ∈ A.
En este caso, decimos que el espacio cociente X/ ∼ se obtiene de X al identificar A a un

punto.
Ejemplo 1.1.11 (El cı́rculo). Sea I = [0, 1] el intervalo unitario cerrado e I/ ∼ el espacio
cociente que se obtiene de I al identificar {0, 1} a un punto. Si S1 denota el cı́rculo en el
plano complejo C, la función f : I −→ S1 , dada por f (x) = exp(2πix), toma los mismos
valores en 0 y 1 y por lo tanto induce una función
f¯ : I/ ∼−→ S1 .
Claramente la función f¯ es continua ya que f lo es y además es una biyección. Como
16 T
I/ ∼ es imagen continua de un compacto I, entonces también es compacto. Luego, tenemos
20 A
una función biyectiva continua del espacio compacto I/ ∼ al espacio Hausdorff S1 ; esto es,
f¯ es un homeomorfismo.
lio IM
En general, la construcción de pasar al cociente no respeta las propiedades de ser Haus-
dorff y segundo numerable, que son deseables en un espacio topológico. Supongamos que
X/ ∼ es Hausdorff, entonces para cualquier x ∈ X, el conjunto de un solo punto {π(x)} es
Ju -C
cerrado en X/ ∼. Ası́ que π −1 ({π(x)}) = [x] es cerrado en X. Lo cual nos da una condición
necesaria para probar cuando X/ ∼ es Hausdorff.
Proposición 1.1.12. Si el espacio cociente X/ ∼ es Hausdorff, entonces la clase de equi-
D
valencia [x] es cerrada en X para cada x ∈ X.

AT
Uno de los ejemplos más importantes en el contexto de variedades no–orientables es el

espacio proyectivo real. Consideramos una relación de equivalencia en Rn+1 \ {0} mediante
x∼y ⇐⇒ y = tx para algún número real t.
El espacio proyectivo real RP n es el espacio cociente Rn+1 / ∼. A la clase de equivalencia
[x0 , . . . , xn ] ∈ RP n se le llama coordenadas homogéneas de RP n .
Observar que dos puntos que no son cero en Rn+1 son equivalentes si y sólo si yacen
sobre la misma lı́nea a través del origen. Como cada lı́nea a través del origen en Rn+1 corta
la esfera Sn en un par de puntos antipodales, y viceversa, entonces definimos la siguiente
relación de equivalencia ∼ en Sn :
x∼y ⇐⇒ x = ±y, x, y ∈ Sn .
Esto es, tenemos una biyección entre RP n y Sn / ∼. En otras palabras, la aplicación de
x
proyección f : Rn+1 −→ Sn , dada por f (x) = ||x|| , induce un homeomorfismo
f¯ : RP n −→ Sn / ∼ .
Ejemplo 1.1.13 (La lı́nea proyectiva real). Cada lı́nea a través del origen en R2 corta al
cı́rculo S1 en un par de puntos antipodales. Luego RP 1 es homeomorfo a S1 / ∼, el cual es
homeomorfo al semicı́rculo superior cerrado, con los dos puntos finales identificados.
Ejemplo 1.1.14 (El plano proyectivo real). Sabemos que existe un homeomorfismo entre
RP 2 y S2 / ∼ con la relación de identificar puntos antipodales. Para puntos que no están en el
ecuador, cualquier par de puntos antipodales tiene un único punto en el hemisferio superior
H 2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, z ≥ 0},
16 T
ası́ que existe una biyección entre S2 / ∼ y H 2 identificando cada par de puntos antipodales
del ecuador:
20 A
(x, y, 0) ∼ (−x, −y, 0), x2 + y 2 = 1.
Consideremos además el disco unitario cerrado
lio IM
D2 = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}.
Vemos que H 2 y D2 son homeomorfos vı́a
Ju -C
p
φ(x, y, z) = (x, y) y φ−1 (x, y) = (x, y, 1 − x2 − y 2 ).
En D2 definimos la relación de equivalencia ∼ identificando puntos antipodales en el cı́rculo
D
frontera:
(x, y) ∼ (−x, −y), x2 + y 2 = 1.
AT
Entonces, tenemos definidos los homeomorfismos

φ̄ : H 2 / ∼−→ D2 / ∼ y φ−1 : D2 / ∼−→ H 2 / ∼ .
En conclusión, tenemos quizás la mejor manera de visualizar el plano proyectivo RP 2
como D2 / ∼, el cociente del disco cerrado D2 con puntos antipodales en la frontera identifi-
cados.
Ejemplo 1.1.15 (La botella de Klein). Sea X = S1 × S1 el producto de dos cŕculos. Consi-
deramos en X la relación de equivalencia:
(z, w) ∼ (1/z, −w), (z, w) ∈ S1 × S1 .
Notar que estamos pensando que S1 está inmerso en el plano complejo C. Luego, esta
aplicación en el cociente, refleja sobre el eje x en el primer cı́rculo y rota 180 grados en el
segundo. Explı́citamente podemos considerar el homeomorfismo entre C y R2 :
z := x + iy 7−→ (x, y).
De tal forma que la relación de equivalencia en X se expresa ahora como
(x, y) × (u, v) ∼ (x, −y) × (−u, −v), (x, y) × (u, v) ∈ S1 × S1 ;
o bien, (x, y), (u, v) ∈ R2 con x2 + y 2 = u2 + v 2 = 1.

El espacio topológico cociente K 2 := X/ ∼ se llama la botella de Klein. Observar que
es un espacio topológico compacto.
Ejemplo 1.1.16 (La banda de Moebius). Sean a > 0 y X = (−a, a)×S1 . En X consideramos
la relación de equivalencia:
16 T
(t, z) ∼ (−t, −z), (t, z) ∈ (−a, a) × S1 .
20 A
El espacio topológico cociente Ma := X/ ∼ se conoce como la banda de Moebius de altura
lio IM
2a. Notar que si pensamos al intervalo (−a, a) como un subconjunto abierto de S1 , Ma puede
ser visto como parte de la botella de Klein K 2 .
Más aún, si consideramos el cociente de R×S1 , el resultado M∞ se conoce como la banda
Ju -C
de Moebius de altura infinita.

D
1.2. Distancias
AT
Dado un conjunto compacto K de Rn , definimos la vecindad tubular o contrapeso de K

de radio ; como el conjunto de todos los puntos a distancia a lo más de K:
[
n
K = y ∈ R : ı́nf ||x − y|| ≤ = B(x, ).
x∈K
x∈K
Definición 1.2.1. La distancia Hausdorff dH (K, K 0 ) entre dos conjuntos cerrados K, K 0

de Rn está definida por:
dH (K, K 0 ) = ı́nf{ ≥ 0 : K ⊂ (K 0 ) , K 0 ⊂ K }

= máx sup (ı́nf ||x − y||), sup( ı́nf 0 ||x − y||) .
y∈K 0 x∈K x∈K y∈K
En general, dado un compacto K ⊂ Rn , se define la función distancia a K:
dK (x) := ı́nf d(x, y) = ı́nf ||x − y||, x ∈ Rn .

y∈K y∈K
1.2. Distancias 25
Observar que dicha función distancia es continua y 1–Lipschitz; i.e.
|dK (x) − dK (x0 )| ≤ ||x − x0 ||.
Más aún, K = d−1

K (0) y el contrapeso de K de radio ,
K = d−1 n
K ([0, ]) = {x ∈ R : dK (x) ≤ },
es decir, K corresponde al subconjunto de nivel de dK .
16 T
20 A
lio IM
Ju -CD
AT
Figura 1.4: Ejemplo de un –contrapeso de una nube de puntos.
Proposición 1.2.2. Dados dos compactos K, K 0 ⊂ Rn , la distancia Hausdorff dH (K, K 0 )

entre K y K 0 está definida por cualquiera de las afirmaciones siguientes:
1. dH (K, K 0 ) = máx (supx∈K dK 0 (x), supx∈K 0 dK (x)) .

0
2. dH (K, K 0 ) es el menor número tal que K ⊂ K y K 0 ⊂ K .
3. dH (K, K 0 ) = ||dK − dK 0 || := supx∈Rn |dK (x) − dK 0 (x)|.

En ocasiones, los espacios correspondientes no serán ambos subespacios de un espacio en

común. En tales casos se define la distancia Gromov–Hausdorff dGH (X, Y ) como sigue.
Decimos que dos espacios métricos compactos (X, d), (Y, d0 ) son isométricos si existe una
biyección Φ : X −→ Y que preserva distancias.
Para un r > 0,
dGH (X, Y ) < r
si y sólo si, existe un espacio métrico Z y subespacios X 0 , Y 0 de éste, los cuales son isométricos
a X, Y respectivamente y tales que
16 T
dH (X 0 , Y 0 ) < r.
20 A
Intuitivamente, la distancia Gromov–Hausdorff es el ı́nfimo de la distancia Hausdorff
sobre todas las posibles inclusiones isométricas de estos espacios sobre un espacio métrico
lio IM
común.
Sin embargo, en ocasiones la distancia Hausdorff no será una buena aproximación entre
conjuntos. Una medida con más aproximación a la similaridad de dos formas es la distancia
Ju -C
de Fréchet.
Definición 1.2.3. Las distancia Fréchet entre dos subconjuntos X, Y de Rn es
D
dF (X, Y ) = ı́nf sup d(p, h(p)),

h p∈X
AT
donde h corre sobre todos los homeomorfismos entre X, Y .

La distancia de Fréchet es más fina para poder comparar conjuntos que la distancia Haus-
dorff. Sin embargo, solamente nos permite comparar entre espacios que son homeomorfos.
Más adelante trabajaremos con distancias tipo Wasserstein y usaremos esta idea de
homeomorfismo o “paridad” entre elementos de dos espacios, para definir distancias entre
los objetos que miden la persistencia topológica.
1.3. Complejos simpliciales

Antes de pasar al estudio de la homologı́a simplicial, entenderemos la clase de espacios pa-
ra la cual se define. Estamos hablando de los poliedros, espacios que son construidos a partir
de “bloques” como segmentos de lı́neas, triángulos, tetraedros y sus análogos en dimensiones
mayores, a partir de pegar éstos a lo largo de sus caras. En esta sección estudiaremos estos
bloques esenciales.
1.3. Complejos simpliciales 27
La combinación lineal
m
X
λi pi ,
i=0
donde para cada ı́ndice i, λi ∈ R y pi ∈ Rn , es una combinación convexa si y sólo si,

m
X
λi = 1, λi ≥ 0, i = 0, . . . , m.
i=0
16 T
Un subconjunto de Rn es convexo si contiene al segmento de lı́nea que une cualesquiera
dos de sus puntos. La intersección de dos conjuntos convexos es necesariamente convexa y
20 A
el espacio ambiente Rn también lo es.
lio IM
Definición 1.3.1. Dado un conjunto finito de puntos P = {p0 , . . . , pm } de Rn , la envol-
vente convexa de P es el conjunto de todas las combinaciones convexas de puntos de P .
La envolvente convexa puede verse como la intersección de todos los conjuntos convexos
Ju -C
de Rn que contienen a P .
Un conjunto finito de puntos P = {p0 , . . . , pm } en Rn se dice geométricamente indepen-
diente si no está contenido en un subespacio afı́n de dimensión menor que m. Esto es, para
D
cualesquiera números reales {λi : 0 ≤ i ≤ m} las ecuaciones

AT
m
X m
X
λi = 0 y λi pi = 0,
i=0 i=0
implican que λ0 = λ1 = . . . = λm = 0.
Equivalentemente, P es geométricamente independiente si y sólo si,
{pi − p0 : 1 ≤ i ≤ m}
es un conjunto linealmente independiente en el sentido ordinario del álgebra lineal. Trivial-

mente un conjunto de un punto es geométricamente independiente, ası́ como dos puntos
distintos, tres puntos no co–lineales, cuatro puntos no co–planares y ası́ sucesivamente.
Definición 1.3.2. El conjunto de combinaciones convexas de m + 1 puntos geométricamente

independientes [p0 , . . . , pm ] se dice un m–simplejo.
Un 0–simplejo es un punto, un 1– simplejo es un segmento de recta, un 2–simplejo es un

triángulo, un 3–simplejo es un tetraedro, etc.
Las caras de un simplejo con conjunto de vértices P , son los simplejos de dimensión
menor o igual que la dimensión del simplejo, obtenidos como combinaciones convexas de
subconjuntos de P . Por ejemplo, las caras del triángulo [p0 , p1 , p2 ] son los simplejos
∅, [pi ], [pi , pj ]i<j , [p0 , p1 , p2 ], i, j = 0, 1, 2.
16 T
20 A
lio IM
Ju -CD
Figura 1.5: Ejemplos de simplejos.

AT
Observación 1.3.3. Podemos inferir el número de caras de un m–simplejo a partir del

triángulo de Pascal. Recordamos que éste codifica la información de los coeficientes binomia-
les, el número de diferentes combinaciones de l elementos distintos tomados de m objetos
sin importar el orden en que se elijan, es decir ml .

Tenemos que un m–simplejo tiene m+1

l+1
caras de dimensión l y en total
m
X m+1
= 2m+1
l=−1
l+1
caras.
Si pensamos que el vacı́o es una (−1)–cara de cualquier simplejo, entonces la j–ésima
fila del triángulo de Pascal nos dice el número de caras de un (j − 2)–simplejo. Por ejemplo,
el tetraedro o 3–simplejo tiene una (−1)–cara, cuatro 0–caras o puntos, seis 1–caras o lados,
cuatro 2–caras o triángulos y una 3–cara o el mismo tetraedro. Tal como nos dice la quinta
fila del triángulo de Pascal.
Un simplejo es por definición un objeto muy grande. Para el caso del cálculo digital estos
objetos se vuelven matemáticamente intratables. Sin embargo, son muy uniformes y simples
en su estructura y por lo tanto nos proveen de un objeto ideal computacionalmente hablando.
16 T
20 A
lio IM
Figura 1.6: Ejemplos de complejos simpliciales.
Ju -C
Definición 1.3.4. Un complejo simplicial K es una colección finita de simplejos, tales

que:
D
1. Cualquier cara de un simplejo de K es un simplejo de K.

AT
2. La intersección de cualesquiera dos simplejos de K es, o bien vacı́a, o una cara común
de ambos simplejos.
Llamamos a los simplejos de K caras y su dimensión será la dimensión más alta entre sus
simplejos. Un subconjunto de K que es un complejo simplicial por su cuenta será llamado
subcomplejo de K.
El j–esqueleto de K, Skj (K), es el subcomplejo de K que consiste de los simplejos de
dimensión a lo más j. Por ejemplo, el 0–esqueleto son los puntos del complejo y el 1–esqueleto
será la gráfica asociada al conjunto de puntos que forman el complejo.
Dado un complejo simplicial K como antes, definimos el espacio subyacente (o polı́topo)
|K|, como el subconjunto de Rn que es la unión de los simplejos de K. La topologı́a de K es
la topologı́a inducida en |K| por la topologı́a estándar de Rn .
Definición 1.3.5. Decimos que un complejo simplicial K es una triangulación del espacio
topológico X si
|K| = X.
Observar que estamos considerando que los simplejos que definen el complejo están in-
mersos en algún espacio euclidiano; es decir, podrı́amos decir que K es un complejo simplicial
geométrico.
Definición 1.3.6. Sea P = {p1 , . . . , pn } un conjunto finito de elementos. Un complejo
simplicial abstracto K con conjunto de vértices P , es un conjunto de subconjuntos de P
tal que:
1. Los elementos de P pertenecen a K.
2. Si τ ∈ K y σ ⊆ τ , entonces σ ∈ K.
16 T
En este caso los simplejos de K no están pensados como objetos geométricos en Rn , sino
20 A
sólo como conjuntos de vértices. Si σ ∈ K tiene precisamente m + 1 elementos, entonces la
dimensión de σ será m y llamaremos a σ un m–simplejo.
lio IM
Un complejo simplicial K define naturalmente un complejo abstracto Ka : El conjunto de
vértices de Ka es el conjunto de vértices de K y los simplejos de Ka son los conjuntos de
vértices de simplejos de K.
Ju -C
Recı́procamente, dado un complejo simplicial abstracto K, se define un complejo simpli-

cial geométrico Kg de la siguiente manera en un espacio euclidiano: Consideremos el simplejo
estándar σ ⊂ Rn generado por los vectores unitarios {e1 , . . . , eN }, donde N es el número
D
de vértices del complejo K. Sea {v1 , . . . , vN } el conjunto de vértices de K. Entonces Kg es

el subcomplejo de σ definido como sigue: [ei0 , . . . , eim ] es un m–simplejo de Kg si, y sólo si,
AT
[vi0 , . . . , vim ] es un simplejo de K. Llamaremos a Kg la realización geométrica de K.

Dicho espacio euclidiano no será único y tenemos que todo complejo simplicial abstrac-
to de dimensión n, tiene una realización geométrica en R2n+1 . Más aún, cualesquiera dos
realizaciones geométricas Kg1 , Kg2 son homeomorfas.
Usualmente trabajaremos con complejos cuyos vértices están en Rn .
1.3.1. Nervio y Filtraciones

Decimos que un espacio X es paracompacto si para cualquier cubierta abierta U de X,
existe un refinamiento U 0 que es localmente finito; esto es, cualquier x ∈ X tiene una vecindad
tal que intersecta sólo un número finito de Ui ∈ U 0 . En particular, un espacio compacto es
paracompacto.
Sea U = {Ui }i∈I una cubierta abierta de X, consideramos el complejo simplicial asociado
C(U) con conjunto de vértices U, tal que
m
\
σ = [Ui0 , . . . , Uim ] ∈ C(U) ⇐⇒ Uij 6= ∅.
j=0
Dicho complejo C(U) se llama el complejo del nervio o complejo de Čech de la cubierta U.
Teorema 1.3.7 (Teorema del Nervio). Sea U = {Ui }i∈I una cubierta abierta del espacio
paracompacto X, tal que cualquier intersección finita de los Ui es, o bien vacı́a, o contraible.
Entonces, X y C(U) son homotópicamente equivalentes.
Observación 1.3.8. El teorema es cierto para cubiertas por cerrados con la condición de
que X sea homeomorfo a un complejo simplicial finito.
Una cubierta con las propiedades del teorema del Nervio se llama una buena cubierta.
16 T
Dicho teorema es de gran relevancia para la inferencia topológico–geométrica y la topologı́a
20 A
computacional, ya que nos permite reunir la topologı́a del espacio X mediante un complejo
simplicial, describiendo las propiedades combinatorias de una buena cubierta. En particular,
cuando el espacio X es una unión de bolas (o conjuntos convexos) en Rn , X será homotópi-
lio IM
camente equivalente al nervio de la cubierta hecha por esta unión.
Usualmente un complejo simplicial K vendrá especificado con cierto orden de sus sim-
Ju -C
plejos, esto tendrá un rol importante en la inferencia geométrica.
Definición 1.3.9. Una filtración de un complejo simplicial finito K es una sucesión de

subcomplejos F = {K 0 , . . . , K m } tal que:
D
1. ∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K m = K.
AT
2. K i+1 = K i ∪ σ i+1 , donde σ i+1 es un subcomplejo de K.
La segunda condición es equivalente a que K i es un subcomplejo de K i+1 . Análogamente

una filtración de un espacio topológico cualquiera X, puede ser vista como una sucesión de
subespacios encajados cuya unión es igual al espacio X.
Todo complejo simplicial geométrico K admite una filtración estándar; esto es, escogiendo
K j como el j–esqueleto de K, Skj (K).
Lema 1.3.10. ∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K m = K con K i+1 = K i ∪ σ i+1 y σ i+1 de dimensión

m, es una filtración de K si y sólo si, para cualquier i = 0, . . . , m − 1 todas las caras de σ i+1
están contenidas en K i
En ocasiones, lo más natural será considerar el orden de los complejos usando una sucesión
creciente de valores reales {αi } ⊂ R:
∅ = K α0 ⊂ K α1 ⊂ · · · ⊂ K αm = K.
Esto dará pie a definir filtraciones por subconjuntos de nivel de funciones con valores reales
como las funciones “tipo distancia”.
Las filtraciones serán usadas para construir estructuras geométricas sobre conjuntos fini-
tos de puntos. Dado un conjunto finito de puntos P en Rn , el –contrapeso de P , o nervio
[
C(P, ) = B(p, ) = d−1
P ([0, ]),
p∈P
define una filtración mientras va de 0 a ∞. Esta filtración se llama la filtración de Čech
16 T
construida sobre P .
Los 0–simplejos de C(P, ) son los puntos de P y los otros simplejos están caracterizados
20 A
por
m
lio IM
\
σ = [p0 , p1 , . . . , pm ] ∈ C(P, ) ⇐⇒ B(pj , ) 6= ∅.
j=0
Observación 1.3.11. El cómputo del complejo de Čech para dimensiones mayores que 3
Ju -C
se vuelve rápidamente intratable. En geometrı́a computacional se usan los complejos α, los

cuales están asociados a células de Voronoi (ver [46]). En la actualidad se busca una gene-
ralización de estos objetos a dimensiones mayores.
D
AT
Figura 1.7: Intersección de abiertos y creación de 1–simplejos.

Otra filtración usada comúnmente es la del complejo de Vietoris–Rips, cuyos simplejos

R(P, ) construidos sobre P están definidos por
σ = {p0 , . . . , pm } ∈ R(P, ) ⇐⇒ ||pi − pj || ≤ , ∀i, j ∈ {0, . . . , m}.
El complejo de Vietoris–Rips es el complejo más grande que tiene como 1–esqueleto el

complejo de Čech. Éste complejo es menos costoso desde el punto de vista computacional que
el complejo de Čech. La razón es debido a que el complejo de Vietoris–Rips es un complejo
bandera; es decir, es maximal entre todos los complejos simpliciales que tienen dicho 1–
16 T
esqueleto. De tal forma que las combinaciones del 1–esqueleto completamente determinan el
complejo y el complejo de Vietoris–Rips puede ser guardado como una gráfica.
20 A
lio IM
Ju -CD
AT
Figura 1.8: Complejo de Vietoris–Rips.
Al convertir una nube de datos en un complejo simplicial como hasta ahora, la elec-
ción adecuada del valor será crucial. Es decir, para valores muy pequeños de el espacio
será discreto y para valores muy grandes será un único simplejo de dimensión alta. Tenemos
en particular lo siguiente.
Lema 1.3.12. Sea P un subconjunto finito de puntos de Rn , para cualquier α ≥ 0,

√ √
R(P, α) ⊆ C(P, α 2) ⊆ R(P, α 2).
Esto implica que cualquier propiedad topológica que persiste bajo la inclusión
R(P, α) ,→ R(P, α0 )
es de hecho una propiedad topológica del complejo de Čech cuando
√
α0 /α ≥ 2.
Es decir, las propiedades asociadas en topologı́a y/o geometrı́a de dicha inclusión, revelan
información que no es visible (inmediatamente) a partir de los estadios en α y α0 respecti-
vamente.
16 T
El complejo de Vietoris–Rips es usado en aplicaciones, sin embargo su cómputo se vuelve
intratable para dimensiones altas. Otra opción serı́a cambiar el modelo topológico.
20 A
lio IM
1.4. Homologı́a simplicial
En general, para el estudio posterior de la homologı́a persistente, basta estudiar la ho-
Ju -C
mologı́a para un complejo finito K ⊂ Rn .

A partir de ahora, restringiremos nuestro estudio a la homologı́a con coeficientes en el
campo Z2 = Z/2Z, lo cual como veremos adelante tiene una interpretación geométrica muy
D
particular. Un tutorial desarrollado en el Lenguaje R por el estudiante de maestrı́a Rafael

González, explica con herramientas del álgebra lineal el cálculo de la homologı́a simplicial
AT
con dichos coeficientes. Éste se encuentra disponible bajo pedido a tda@cimat.mx. Además,
una aplicación interactiva para la visualización de la homologı́a y su código de barras puede
ser consultada en [129].
Cabe mencionar que la teorı́a es análoga para cualquier otro tipo de coeficientes, usual-
mente el tipo de coeficientes depende del modelo o el tipo de estimación que se requiera
realizar, otros coeficientes usualmente considerados son los campos Q, R y el anillo Z.
Dado cualquier entero no negativo m, definimos el espacio de m–cadenas Cm (K), como
el Z2 –espacio vectorial de las sumas formales de simplejos m–dimensionales de K; i.e.,
( k
)
X
Cm (K) = c = ri σi : ri = 0, 1
i=1
donde {σ1 , . . . , σk } es el conjunto de m–simplejos de K. Observar que la suma y el producto

por escalar en Cm (K) están definidas en los coeficientes usando suma y multiplicación módulo
2:
X k k
X
0 0
c+c = (ri + ri )σi y λc = (λri )σi .
i=1 i=1
1.4. Homologı́a simplicial 35
Notar además que los m–simplejos de K forman una base de Cm (K). Más aún, las cadenas
con coeficientes en Z2 tienen una interpretación geométrica especı́fica: Como cualquier m–
cadena puede ser escrita únicamente como una suma de m–simplejos c = σi1 + · · · + σik ,
entonces c es pensado como la unión de los simplejos σij y la suma de dos m–cadenas será su
diferencia simétrica.
Dado un m–simplejo σ = [v0 , . . . , vm ] definimos la frontera de σ como la (m − 1)–cadena
formada por sus (m − 1)–caras; i.e.,
16 T
X
∂(σ) = [v0 , . . . , v̂i , . . . , vm ]
i=0
20 A
donde [v0 , . . . , v̂i , . . . , vm ] denota el (m − 1)–simplejo formado al remover el vértice i–ésimo.
lio IM
Podemos extender linealmente esta noción al conjunto de m–cadenas.
Definición 1.4.1. El operador frontera es la aplicación lineal definida por

Ju -C
∂ : Cm (K) −→ Cm−1 (K)

c 7−→ ∂(c),
D
donde
AT
X
∂(c) = ∂(σ).
σ∈c
Observación 1.4.2. En general, si consideramos cualquier dominio de ideales principales

como conjunto de coeficientes, el conjunto de m–cadenas Cm (K) será un grupo libre generado
por los m–simplejos de K. Más aún, el operador frontera ∂ : Cm (K) −→ Cm−1 (K), definido
según convenga, será un homomorfismo de grupos.
Calculando sobre cualquier m–simplejo obtenemos que la composición del operador fron-
tera con él mismo se anula. Esto es ∂◦∂ ≡ 0. De hecho, el operador frontera define aplicaciones
lineales entre espacios de cadenas.
Definición 1.4.3. El complejo de cadenas asociado a un complejo simplicial K de di-

mensión m es la sucesión de operadores lineales
∂ ∂ ∂ ∂
∅ −→ Cα (K) −→ Cα−1 (K) −→ · · · −→ C1 (K) −→ C0 (K) −→ ∅.
Figura 1.9: Complejo de cadenas de homologı́a hasta grado tres.
16 T
Para cualquier m ∈ {0, . . . , α}, sean
20 A
Zm (K) := ker(∂ : Cm −→ Cm−1 ) = {c ∈ Cm (K) : ∂(c) = 0}
lio IM
el conjunto de m–ciclos y
Bm (K) := im(∂ : Cm+1 (K) −→ Cm (K)) = {c ∈ Cm (K) : ∃c0 ∈ Cm+1 (K), ∂(c0 ) = c}
Ju -C
el conjunto de m–fronteras.
Tal como se observa en la imagen anterior 1 Zm (K) y Bm (K) son subespacios de Cm (K)
y
D
Bm (K) ⊂ Zm (K) ⊂ Cm (K).

Ası́, de acuerdo con la observación anterior podemos definir lo siguiente.
AT
Definición 1.4.4. El m–ésimo grupo de homologı́a de K es el espacio vectorial cociente

Zm (K)
Hm (K) = ,
Bm (K)
cuyos elementos son las clases de homologı́a de K.
La dimensión de Hm (K),
βm (K) := dim Hm (K)
es el m–ésimo número de Betti de K.
La clase de homologı́a de c ∈ Zm (K) es por definición el conjunto
c + Bm (K) = {c + b : b ∈ Bm (K)}.
Luego, dos ciclos c y c0 se dicen homólogos si están en la misma clase de homologı́a; es decir,
existe b ∈ Bm (K) tal que
c0 − c = c0 + c = b.
1
Imagen tomada de [131]
1.4. Homologı́a simplicial 37
1.4.1. Cálculo de números de Betti

Sean K, L dos complejos simpliciales finitos y
f : Sk0 (K) −→ Sk0 (L)
una función entre los vértices, tal que si el conjunto de vértices {v0 , . . . , vm } forma un simplejo
en K, entonces [f (v0 ), . . . f (vm )] también es un simplejo en L. Decimos que g : K −→ L es
el mapeo simplicial inducido por f si
16 T
m
! m
X X
g λi vi = λi f (vi ).
20 A
i=0 i=0
Notar que la función g es continua.

lio IM
Las inclusiones respectivas de una filtración son mapeos simpliciales, ası́ como la compo-
sición de dos mapeos simpliciales. Además, si la aplicación f entre los vértices es biyectiva,
tendremos que el mapeo simplicial inducido será un homeomorfismo.
Ju -C
Un mapeo simplicial f : K −→ L induce un homomorfismo de grupos
f∗ : Hm (K) −→ Hm (L).
D
Más aún,
(f ◦ g)∗ ≡ f∗ ◦ g∗ y (idK )∗ ≡ idHm (K) .
AT
En particular, estamos interesados en estudiar las imágenes de los mapeos inducidos por
inclusiones en una filtración.
Sea K un complejo simplicial finito de dimensión n y
F = {∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K α = K}
una filtración de K con la condición que
K i+1 = K i ∪ σ i+1 ;
con σ i+1 un m–simplejo cuyas caras están todas contenidas en K i , para cada i. Este tipo de
filtraciones se llaman planas y son de utilidad para los ejemplos en topologı́a computacional
en R2 y R3 (ver [46]).
En ocasiones, además de esta condición sobre la filtración pedimos que los simplejos de
dimensión menor precedan a los de dimensión mayor, siguiendo la manera en que incluimos
los simplejos σ i , podemos inferir entonces la “evolución” de la topologı́a de la filtración
mediante sus números de Betti.
Supongamos que se han calculado los números de Betti para K i−1 y que se agrega el
(m + 1)–simplejo σ i para obtener K i . Dado que como hemos mencionado, todas las caras de
σ i están en K i−1 , entonces σ i no puede ser frontera de un (m + 2)–simplejo en K i . Tenemos
dos opciones: σ i pertenece a un (m + 1)–cı́clo o no lo hace.
Lema 1.4.5 (Nacimiento o Muerte). Si σ i está contenido en un (m+1)–cı́clo en K i , entonces
βm+1 (K i ) = βm+1 (K i−1 ) + 1.
En caso contrario,
16 T
βm (K i ) = βm (K i−1 ) − 1.
Demostración. En primer lugar, asumamos que σ i está contenido en un (m + 1)–cı́clo c en
20 A
Zm+1 (K i ). Luego, c no puede ser homólogo a algún (m+1)–ciclo c0 en Zm+1 (K i−1 ), pues en tal
caso c+c0 ≡ ∂d, para alguna (m+2)–cadena d. Esto contradice lo mencionado anteriormente
lio IM
pues entonces σ i está contenido en c + c0 y es frontera de un (m + 2)–simplejo en K i .
Consecuentemente, c crea una nueva clase de cohomologı́a que es linealmente independiente
de las clases creadas por los ciclos en K i−1 , i.e.
Ju -C
βm+1 (K i ) ≥ βm+1 (K i−1 ) + 1.

De hecho, la igualdad se satisface ya que el agregar el (m + 1)–simplejo σ i a K i−1 solo
D
puede aumentar la dimensión del (m+1)–ésimo grupo de homologı́a por uno: Si consideramos
dos (m + 1)–ciclos c y c0 , tales que contienen a σ i , entonces por definición
AT
c + c0 ∈ Zm+1 (K i−1 )
y ası́, c0 está contenido en el subespacio lineal generado por Zm+1 (K i−1 ) y c. Esto es,
dim Zm+1 (K i ) ≤ dim Zm+1 (K i−1 ) + 1.
Pero como además para cada m, Bm (K i−1 ) ⊂ Bm (K i ) tenemos que
βm+1 (K i ) ≤ βm+1 (K i−1 ) + 1.
En el caso en que σ i no esté contenido en un (m + 1)–ciclo en K i , tenemos que el m–
cı́clo ∂σ i no es frontera de algún ciclo c en K i−1 , pues si se observa que ∂σ i ≡ ∂c, entonces
∂(σ i + c) = 0; o bien, σ i + c es un (m + 1)–ciclo en K i que contiene a σ i , lo cual no es posible.
De tal forma que ∂σ i se vuelve una frontera en K i , i.e.
βm (K i ) ≤ βm (K i−1 ) − 1.
La igualdad se sigue usando un argumento similar al usado en el primer caso.
1.5. Homologı́a singular 39
Resulta ser que dichos simplejos serán de relevancia a la hora de definir la homologı́a
persistente.
Definición 1.4.6. Dada una filtración plana de K, decimos que un simplejo σ i es positivo
si pertenece a un (m + 1)–cı́clo en K i y negativo en otro caso.
Observación 1.4.7. El m–ésimo número de Betti es igual a la diferencia entre m–simplejos
positivos y (m + 1)–simplejos negativos.
El procedimiento anterior para decidir sobre los números de Betti, requiere el saber si el
simplejo en cuestión es positivo o negativo, responder a esta pregunta es uno de los propósitos
16 T
de la homologı́a persistente. Más aún, el procedimiento calcula los números de Betti de K y
de todos los subcomplejos K i en la filtración.
20 A
lio IM
1.5. Homologı́a singular
Tanto los números de Betti como los grupos de homologı́a son invariantes topológicos; esto
Ju -C
es, si K y K 0 son dos complejos simpliciales cuyos soportes geométricos son homeomorfos,
entonces sus grupos de homologı́a son isomorfos y sus números de Betti iguales. De hecho,
este resultado sigue siendo cierto si los espacios subyacentes |K| y |K 0 | son homotópicamente
D
equivalentes. Enunciaremos este resultado a continuación, para lo que requeriremos la noción

de homologı́a singular.
AT
Consideremos el simplejo estándar ∆m en Rm+1 ; esto es,

∆m = [e1 , . . . , em+1 ]
donde {ei } es la base canónica de Rm+1 . Dado un espacio topológico X, un m–simplejo
singular σm , es una aplicación continua
σm : ∆m −→ X.
Análogamente al caso simplicial, definimos el espacio vectorial de m–cadenas singulares
Cm (X) como las sumas formales de m–simplejos singulares. La frontera ∂σm de un com-
plejo singular es la suma de la restricción de σm a cada (m − 1)–cara de ∆m .
Más aún, tenemos un operador frontera (singular)
∂m : Cm (X) −→ Cm−1 (X),
tal que ∂m−1 ◦ ∂m ≡ 0 y se definen de manera análoga los m–ciclos y las m–fronteras:
Zm (X) = ker ∂m y Bm (X) = im∂m+1 ,
respectivamente.
Definición 1.5.1. El m–ésimo grupo de homologı́a singular de X es el espacio vec-

torial cociente
Zm (X)
Hm (X) = .
Bm (X)
Ası́ mismo, su dimensión βm (X) será llamada el m–ésimo número de Betti de X.
Una primera observación importante es que a diferencia de complejos simpliciales finitos,
los números de Betti pueden no ser finitos. En los casos que nos ocupan podremos usar sin
distinción entre homologı́a singular y simplicial.
Sea X un espacio topológico que es homeomorfo al soporte de un complejo simplicial K,
16 T
entonces los grupos de homologı́a singular de X y los grupos de homologı́a simplicial de K
serán isomorfos.
20 A
Teorema 1.5.2 (Isomorfismo). Sea K un complejo simplicial finito. Entonces
lio IM
Hm (|K|) ∼
= Hm (K), m ≥ 0.
Es decir,
βm (|K|) = βm (K), m ≥ 0.
Ju -C
Observación 1.5.3. Si es el caso de que X es una superficie y tenemos dos triangulaciones

K y K 0 de X, entonces Hm (K) es isomorfo a Hm (K 0 ) y los números de Betti son los mismos
que los de X.
D
Como en el caso de aplicaciones simpliciales, una aplicación continua entre espacios to-
AT
pológicos induce un homomorfismo a nivel de sus grupos de homologı́a. Sea f : X −→ Y

continua y σ : ∆m −→ X un simplejo singular en X, entonces f ◦ σ : ∆m −→ Y es un sim-
plejo singular en Y . Ası́, f induce una aplicación lineal entre espacios de cadenas singulares
en X y Y , que además preserva ciclos y fronteras. Es decir, f induce un homomorfismo
f? : Hm (X) −→ Hm (Y ).
Más aún, si f es un homeomorfismo entre X y Y , entonces f? es un isomorfismo y
f?−1 = (f −1 )? .
Aún en el caso en que f sea una equivalencia homotópica tenemos el mismo resultado.
Teorema 1.5.4. Sean X, Y espacios topológicos homotópicamente equivalentes y
f : X −→ Y continua con inversa homotópica g : Y −→ X. Entonces,
f? : Hm (X) −→ Hm (Y )
es un isomorfismo con inversa g? .
Por lo tanto, dos espacios que son homotópicamente equivalentes tienen los mismos núme-
ros de Betti.
1.6. Variedades 41
1.6. Variedades
Las variedades son la extensión de los espacios topológicos familiares del cálculo, como
las curvas o superficies, a dimensiones más altas.
Definición 1.6.1. Una n-variedad (topológica) M es un espacio localmente homeomorfo

a Rn . Esto es, existe una cubierta por abiertos U = {Uα } de M , junto con homeomorfismos
φα : Uα −→ Rn .
16 T
Comúnmente se requiere que las variedades sean suaves, de tal forma que puedan ser
utilizadas todas las herramientas del cálculo. Es decir, pedimos además que las aplicaciones
20 A
φβ ◦ φ−1
α : φα (Uα ∩ Uβ ) −→ φβ (Uα ∩ Uβ ),
lio IM
sean infinitamente diferenciables o suaves, siempre que Uα ∩ Uβ 6= ∅.
Los pares (Uα , φα ) se llaman cartas, las cuales generan un atlas maximal de cartas que
Ju -C
especı́fica una estructura suave en M .

Ejemplos de 1–variedades son las curvas suaves. Cualquier curva conexa es difeomorfa a
R o al cı́rculo S1 ; es decir, la compacidad distingue cualquiera de los dos.
D
Para el caso de 2–variedades, o superficies, tenemos otros dos parámetros: Las superfi-
cies compactas pueden ser orientables o no–orientables. Además, los agujeros o asas están
AT
capturados en el invariante topológico llamado género.
Ejemplo 1.6.2. La esfera S2 es la superficie orientable de género cero. Esto es,
S2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1}.
Podemos definir seis cartas en S2 correspondientes a seis hemisferios y sus respectivas pro-
yecciones:
U1 = {(x, y, z) ∈ S2 : x > 0}, φ1 (x, y, z) = (y, z),

U2 = {(x, y, z) ∈ S2 : x < 0}, φ2 (x, y, z) = (y, z),
U3 = {(x, y, z) ∈ S2 : y > 0}, φ3 (x, y, z) = (x, z),
U4 = {(x, y, z) ∈ S2 : y < 0}, φ4 (x, y, z) = (x, z),
U5 = {(x, y, z) ∈ S2 : z > 0}, φ5 (x, y, z) = (x, y),
U6 = {(x, y, z) ∈ S2 : z < 0}, φ6 (x, y, z) = (x, y).
Estas cartas definen un atlas máximal sobre S2 .

Más aún, se puede generalizar este ejemplo para dotar de un atlas maximal a cualquier
esfera n–dimensional,
Sn = {(x1 , . . . , xn+1 ) ∈ Rn+1 : x21 + · · · + x2n+1 = 1}.
Para poder ver ejemplos de variedades producto necesitamos el siguiente resultado.
Proposición 1.6.3. Sean {Uα , φα } y {Vi , ψi } dos atlas de cartas suaves para las variedades
16 T
M y N , de dimensiones m y n, respectivamente. Entonces, la colección de cartas
{(Uα × Vi , φα × ψi : Uα × Vi −→ Rm × Rn )}
20 A
forma un atlas suave en la variedad producto M × N . Por lo tanto M × N es una variedad
lio IM
suave de dimensión m + n.
Ejemplo 1.6.4. El toro T2 = S1 × S1 es la superficie orientable de género uno. Por el

Ju -C
resultado anterior, el toro es una variedad de dimensión 2.
Las contrapartes no–orientables de los ejemplos anteriores son el plano proyectivo RP 2

y la botella de Klein K 2 .
D
Ejemplo 1.6.5. Consideremos las coordenadas homogéneas [x0 , x1 , x2 ] del plano proyectivo
AT
RP 2 . Observar que al menos algún xi es distinto de cero, luego hace sentido definir las 3
cartas estándar en RP 2 :

x1 x2
U0 = {[x0 , x1 , x2 ] : x0 6= 0} φ0 ([x0 , x1 , x2 ]) = , ,
x0 x0

x0 x2
U1 = {[x0 , x1 , x2 ] : x1 6= 0} φ1 ([x0 , x1 , x2 ]) = , ,
x1 x1

x0 x1
U2 = {[x0 , x1 , x2 ] : x2 6= 0} φ2 ([x0 , x1 , x2 ]) = , .
x2 x2
Notar que dichas aplicaciones tienen inversas continuas bien definidas, por ejemplo para el
caso de φ0 tenemos que
(x, y) 7−→ [1, x, y]
define su inversa. Esto es, RP 2 es localemente como R2 y {(Ui , φi ) : i = 0, 1, 2} es un atlas
maximal para RP 2 .
1.6. Variedades 43
Teorema 1.6.6 (Clasificación de Superficies). Cualquier superficie compacta es difeomorfa

a la superficie orientable o no–orientable, de algún género fijo g ≥ 0.
El resultado anterior además puede interpretarse en un sentido práctico como “pegados”
de dos superficies elementales. Esto es, cualquier superficie compacta es o bien una suma
conexa de g toros, o una suma conexa de g planos proyectivos. Ası́, al especificar lo que una
suma conexa es, estamos dotando de cartas naturales para cualquier superficie compacta.
Presumiblemente, el universo espacial es una 3–variedad.
En general, todas las herramientas del cálculo pueden ser utilizadas en variedades. Se
16 T
definen por ejemplo los espacios tangentes a un punto, derivadas, operadores gradientes,
hessianos y laplacianos sobre variedades. Además de las herramientas propias de la geometrı́a
20 A
riemanniana como el transporte paralelo, la curvatura, el alcance, etc. Para un estudio más
general pero exhaustivo ver el trabajo de Ghrist ([58]).
lio IM
1.6.1. Caracterı́stica de Euler
Ju -C
Uno de los invariantes topológicos más simples es la caracterı́stica de Euler, en este

apartado veremos su definición en poliedros, complejos simpliciales y variedades en general.
Dado un conjunto finito P , la caracterı́stica de Euler de P es justo la cardinalidad
D
χ(P ) = |P |.
Utilizando una estructura simplicial, si conectamos dos puntos de P por medio de un 1–
AT
simplejo o lado, entonces la caracterı́stica de Euler decrecerá por uno. Esto es, al contar uno
a uno vemos que este invariante nos cuenta vértices con peso +1 y lados con peso −1.
Sin embargo, esto deja de suceder cuando un lado crea un nuevo cı́clo de dimensión uno.
Para poder volver a la analogı́a de contar componentes conexas, tendrı́amos que agregar la
cara o 2–simplejo cuya frontera es el 1–cı́clo. Es decir, la caracterı́stica de Euler asigna un peso
de +1 a las caras. Procediendo de manera inductiva vemos como definir combinatoriamente
la caracterı́stica de Euler de cualquier espacio X, que se descomponga de alguna forma
simplicial (o celular).
Definición 1.6.7. Sea X un espacio tal que se puede escribir como la unión disjunta de
m–simplejos, G
X= σα ,
α
se define la caracterı́stica de Euler de X como
X
χ(X) := (−1)dimσα .
α
Dicha cantidad es invariante respecto a la descomposición escogida, luego es invariante ba-

jo homeomorfismos. No es homotópicamente invariante en el caso de espacio no–compactos,
ası́ χ((0, 1)) = −1 y χ([0, 1]) = 1.
Ejemplo 1.6.8. La caracterı́stica de Euler de un poliedro K (sólido en tres dimensiones
con estructura simplicial) se define como
χ(K) = V − L + C,
donde V denota el número de vértices, L el número de aristas o lados y C el número de
caras.
16 T
En particular, el tetraedro ∆3 = [p0 , p1 , p2 , p3 ] tiene caracterı́stica de Euler
20 A
χ(∆3 ) = 4 − 6 + 4 = 2.
lio IM
Al igual que el cubo, el dodecaedro, el octaedro y el icosaedro. De hecho, cualquier poliedro
convexo tiene caracterı́stica de Euler igual a 2.
Observación 1.6.9. En el caso de espacios compactos la caracterı́stica de Euler es un
Ju -C
invariante homotópico. Por lo tanto, podemos determinar el tipo de homotopı́a de una gráfica
G. Por ejemplo, G es un árbol si χ(G) = 1.
Para superficies compactas orientables tenemos que la caracterı́stica de Euler puede ser
D
calculada a partir de su género; esto es,

χ(Mg ) = 2 − 2g;
AT
donde Mg es una superficie orientable de género g. Por lo tanto:

χ(S2 ) = 2 y χ(T2 ) = 0.
Más aún, como toda superficie es triangulable, podemos calcular que la caracterı́stica de
Euler para el plano proyectivo es igual a 1 y para la botella de Klein es igual a 0. Más aún,
cualquier subconjunto compacto convexo de Rd tiene caracterı́stica de Euler igual a 1.
Con este análisis podemos ver ahora una definición que involucra los cálculos en homo-
logı́a. Esto es, dada una variedad compacta M de dimensión n, consideremos sus números
de Betti {βm (M )}nm=0 , entonces
n
X
χ(M ) = (−1)i βi (M ).
i=0
En otras palabras, la caracterı́stica de Euler es un resumen de los números de Betti en un

número entero. Más adelante veremos que esta definición también es equivalente usando los
llamados puntos crı́ticos de ı́ndice m de una función “tipo Morse”.
1.6. Variedades 45
Curvatura
Aún cuándo no hablaremos con detalle acerca de integración en variedades, por medio de
la caracterı́stica de Euler podemos dar una primera aproximación, cuyo sabor es puramente
geométrico.
Sea M una superficie suave inmersa en R3 . Dado cualquier punto en M , podemos hablar
de sus direcciones tangentes o normales. La aplicación de Gauss es la aplicación
γ : M −→ S2 ,
16 T
que asocia a cada punto de M la dirección de su vector normal unitario en R3 . La curvatura
20 A
de Gauss κ = det(Dγ) es el determinante de la derivada de dicha aplicación γ.
En este sentido la curvatura es un invariante de transformaciones rı́gidas y rotaciones,
lio IM
pero cambia al ser M deformada en alguna forma.
Teorema 1.6.10 (Gauss–Bonnet). Para una superficie suave compacta y orientable M en

R3 , la integral de curvatura de Gauss con respecto a la medida de área en M es igual a
Ju -C
Z Z
dκ = κdA = 2πχ(M ).
M M
D
Si pensamos en que M tiene una descomposición simplicial (o celular), quizás con frontera
AT
suave por pedazos, entonces la cantidad 2πχ(M ) puede dividirse como M :
• En 2–simplejos, dκ significa curvatura de Gauss multiplicado por el elemento de área, kdA.
• En 1–simplejos, dκ significa curvatura geodésica multiplicado por el elemento de longitud,

kg dλ.
• En 0–simplejos, dκ significa defecto de ángulo.
Por lo tanto, la integral respectiva se divide en tres integrales sobre cada dimensión de
los simplejos.
Como consecuencia inmediata de este resultado vemos que la curvatura de Gauss es
constante, no importa como deformemos la superficie. Más aún, usando la caracterı́stica de
Euler podemos medir y sumar ángulos para los llamados triángulos geodésicos. Esto es, dκ
se anula a lo largo de los lados geodésicos y la suma de los ángulos del triángulo es igual a
π más la integral de la curvatura de Gauss sobre la cara del triángulo.
1.6.2. Espacio tangente y distancia geodésica

En ocasiones, la distancia intrı́nseca de las variedades será de mayor relevancia que la
distancia extrı́nseca heredada de algún espacio euclidiano. Estamos hablando de la distancia
geodésica. Para poder definir ésta, definiremos brevemente el espacio tangente a un punto y
su producto interno asociado. Queremos hacer énfasis en la estructura geométrica de estos
espacios (euclidianos).
Sea M una variedad de dimensión k, de tal forma que sus cartas son de clase C m , con
m ≥ 1. En general podemos pensar que M es una subvariedad inmersa en Rd con k ≤ d. Sea
p ∈ M cualquier punto y γ : (−, ) −→ M una curva de clase C 1 tal que γ(0) = p. Observar
16 T
que si M no está inmersa en un espacio euclidiano, la noción de derivada γ 0 (0) podrı́a no
20 A
estar bien definida.
Sin embargo, el comportamiento de la curva se puede traducir localmente. Sea (U, φ) una
lio IM
carta de M alrededor de p, la aplicación φ ◦ γ es una curva de clase C 1 en Rk y el vector
tangente v = (φ ◦ γ)0 (0) está bien definido. Pero puede ser el caso que diferentes curvas nos
den el mismo vector tangente.
Definimos la siguiente relación de equivalencia en el conjunto de curvas que pasan por p.
Ju -C
Dos curvas de clase C 1 , γ1 : (−, ) −→ M y γ2 : (−, ) −→ M , con γ1 (0) = γ2 (0) = p, se

dicen equivalentes si y sólo si, existe una carta (U, φ) en p tal que
D
(φ ◦ γ1 )0 (0) = (φ ◦ γ2 )0 (0).
Es un ejercicio interesante observar que dicha relación de equivalencia es independiente de
AT
la elección de la carta.
Definición 1.6.11. Un vector tangente de M en p es una clase de equivalencia de curvas
de clase C 1 que pasan por p. El conjunto de todos los vectores tangentes se denota por Tp (M )
y se llama el espacio tangente de M en p.
De la definición observamos que Tp (M ) es un espacio vectorial y además se puede probar
que es de dimensión k; de hecho, Tp (M ) es homeomorfo al espacio euclidiano Rk . Más aún,
no existe una relación (a priori ) entre Tp (M ) y Tq (M ) para p 6= q ∈ M , con M una
variedad arbitraria. En el caso particular en que M = Rk , se tiene que Tp (M ) y Tq (M ) son
homeomorfos vı́a una traslación por q − p.
Observación 1.6.12. Existe una manera de definir el espacio tangente usando “gérmenes
de funciones en p”, la cual explicita claramente el uso de la diferenciabilidad o clase C m de la
variedad. Sin embargo, la definición es un poco más engorrosa e innecesaria por el momento.
Usando los espacios tangentes en un punto podemos definir una métrica muy especial en
estos puntos.
1.6. Variedades 47
Definición 1.6.13. Una métrica en un punto p de M es una aplicación
gp : Tp (M ) × Tp (M ) −→ R
tal que satisface las siguientes condiciones:
1. gp es bilineal; es decir, si up , vp y wp están en Tp (M ) y a, b ∈ R, entonces
gp (aup + bvp , wp ) = agp (up , wp ) + bgp (vp , wp )
16 T
y
gp (up , avp + bwp ) = agp (up , vp ) + bgp (up , wp ).
2. gp es simétrica:
20 A
lio IM
gp (up , vp ) = gp (vp , up ), up , vp ∈ Tp (M ).
3. gp es no–degenerada; esto es, para cualquier vector tangente no cero up ∈ Tp (M ) la

función Tp (M ) −→ R definida por
Ju -C
vp 7−→ gp (up , vp ),
D
no es cero en todos lados, i.e. existe wp ∈ Tp (M ) tal que gp (up , wp ) 6= 0.
En particular, tenemos un “tensor de métrica” g : M −→ R, de tal forma que asigna a

AT
cada punto p ∈ M una métrica gp que varı́a de manera suave con respecto al punto p ∈ M .
Con estos elementos disponibles, definimos una distancia sobre M de la forma siguiente.
Definición 1.6.14. Consideremos una variedad M de dimensión k y g un tensor de métrica
como antes. Si γ : [a, b] −→ M es una curva de clase C 1 , se define la longitud de γ mediante
Z b
1/2
gγ(t) (γ 0 (t), γ 0 (t))

`(γ) = dt.
a
La distancia geodésica dg : M × M −→ R+ se define como
dg (p, q) = ı́nf `(γ) p, q ∈ M,

γ:[a,b]−→M
donde el ı́nfimo se toma sobra todas las curvas γ continuas, continuamente diferenciables
por pedazos en [a, b] tales que γ(a) = p y γ(b) = q. Una geodésica en M es una curva que
localmente minimiza distancias.
1.6.3. Variedades parametrizadas

Es de interés particular poder conocer medidas de referencia sobre variedades. Es decir,
maneras de medir usando propiedades geométricas de objetos localmente euclidianos. Para
poder definir adecuadamente medidas de volumen o medidas geométricas sobre variedades
ocupamos el concepto de variedades parametrizadas que veremos a continuación. Para un
estudio detallado sobre el tema recomedamos el trabajo de Tjur [125].
Sean X y Y subconjuntos abiertos de Rd y Rk , respectivamente. Una transformación
continuamente diferenciable
16 T
T : X −→ Y
se dice suprayectivamente regular si la diferencial
20 A DT (x) : Rd −→ Rk
lio IM
es una aplicación lineal suprayectiva para cualquier x ∈ X. De manera similar se define una
transformación inyectivamente regular. Como T solo puede ser suprayectivamente regular
cuando d ≤ k e inyectivamente regular para d ≥ k, más el hecho de que para d = k ambas
Ju -C
condiciones son equivalentes, sin problema alguno diremos que una transformación T es
regular si satisface alguna de las propiedades anteriores.
D
Definición 1.6.15. Dado un conjunto abierto M 0 ⊂ Rk con k ≤ d, una parametrización

p : M 0 −→ Rd
AT
es una aplicación (inyectivamente) regular, la cual es uno a uno y lleva M 0 de manera

homeomorfa en su imagen.
Una variedad parametrizada Mp ⊂ Rd de dimensión k con k ≤ d, es la imagen
Mp = p(M 0 )
de una parametrización p definida sobre M 0 en Rk .
Además, una variedad de dimensión k, M en Rd , es un subconjunto M ⊆ Rd que
es localmente una variedad parametrizada de dimensión k. Es decir, para cualquier x ∈ M ,
existe una vecindad Ux relativa a Rd , tal que M ∩ Ux es una variedad parametrizada de
dimensión k.
Para el caso particular de transformaciones T : X −→ Y como antes, los conjuntos
T −1 (y) y ∈ Y,
se llaman superficies de nivel de T . Tenemos el siguiente resultado, el cual puede ser
probado usando el teorema de la función implı́cita.
1.7. Teorı́a de Morse 49
Proposición 1.6.16. Sean X, Y abiertos de Rd y Rk respectivamente y T : X −→ Y (sup.)

regular. Entonces, las superficies de nivel T −1 (y) son variedades de dimensión d − k para
cada y ∈ Y .
1.7. Teorı́a de Morse

La teorı́a de Morse es uno de los lugares donde se unen los complejos simpliciales y las
16 T
variedades. Tomemos la teorı́a de Morse sobre variedades, la cual usa la función altura para
facilitar el conteo en homologı́a. Para una breve introducción recomendamos el trabajo de
20 A
J. A. González [59], donde además se hace un estudio extenso de la teorı́a de Morse discreta
y aplicaciones en el ATD.
lio IM
Sea M una variedad compacta sin frontera. La teorı́a de Morse se ocupa de una función
con valores reales y la dinámica asociada a su flujo gradiente. Sea h : M −→ R una función
suave y consideremos el campo gradiente −∇h en M .
Ju -C
Tenemos una dinámica sencilla: Las soluciones del sistema asociado son o bien puntos
fijos, es decir puntos crı́ticos de h,
∇h(p) = 0;
D
o el flujo va moviéndose hacia abajo de un punto a otro. Pensamos además que los puntos
crı́ticos son no–degenerados, es decir que el hessiano tiene determinante no cero en estos
AT
puntos. Llamamos a h(p) ∈ R el valor crı́tico de h en p.

Los puntos crı́ticos además tienen una manera de ser graduados, sea p en M un punto
crı́tico, el ı́ndice de Morse µ(p) es el número de valores propios negativos del hessiano de
h en p. El cual mide que tan inestable es un punto crı́tico: Los mı́nimos tienen el ı́ndice más
pequeño, los máximos el más grande.
Observación 1.7.1. El ı́ndice de un punto crı́tico p es la dimensión de la variedad inestable
asociada al campo vectorial −∇h en p;
µ(p) = dimW u (p).
La teorı́a de Morse clásica estudia los conjuntos de nivel de funciones de Morse

h : M −→ R sobre una variedad compacta:
Mα := h−1 ((−∞, α]) = {x ∈ M : h(x) ≤ α} ⊂ M, α ∈ (−∞, ∞).
Teorema 1.7.2. Si no existen valores crı́ticos de h en el intervalo (a, b], entonces Ma y Mb

son homotópicamente equivalentes. En particular, tienen la misma homologı́a.
Podemos decir un poco más dependiendo de cómo pasamos de un nivel crı́tico a otro.
Lema 1.7.3. Supongamos que p ∈ M es un punto crı́tico de h, de ı́ndice de Morse igual a
m y sea v = h(p) el valor crı́tico respectivo. Dado > 0, tenemos que se satisface alguna de
las siguientes:
βm (Mv+ ) = βm (Mv− ) + 1,
o
βm−1 (Mv+ ) = βm−1 (Mv− ) − 1.
16 T
En otras palabras, al pasar un nivel crı́tico, o bien se forma un nuevo vacı́o m–dimensional,
o un vacı́o (m − 1)–dimensional se llena. Es decir, Mv+ es homotópicamente equivalente al
20 A
resultado de pegar a lo largo de la frontera de Mv− un m–simplejo, donde m es el ı́ndice
crı́tico. Al igual que anteriormente, decimos que un punto crı́tico es positivo en el primer
lio IM
caso y negativo en el segundo.
Ejemplo 1.7.4. Consideremos el toro T2 = S1 × S1 , h : T2 −→ R la función que mide la
altura de cada punto p ∈ T2 y la filtración por subconjuntos de nivel {Mα }R . En este caso
Ju -C
mediremos la homologı́a con coeficientes en Z, como es usual para el caso de variedades.

Observar que tenemos cuatro puntos crı́ticos sobre T2 y sean
D
{vi : i = 1, . . . , 4}
los valores crı́ticos asociados. Además, los ı́ndices en los puntos crı́ticos respectivos son
AT
0, 1, 1, y 2.
Para cada t0 < v1 tenemos que Mt0 = ∅ y ası́
Hm (Mt0 ) ∼
= {0}, m ≥ 0.
En el nivel t = v1 tenemos un punto crı́tico de ı́ndice 0, un punto mı́nimo: Al pasar este

nivel obtenemos una nueva componente conexa para Mt ; o bien,
H0 (Mt1 ) ∼
=Z v1 < t1 < v2 .
En el nivel de v2 tenemos un punto crı́tico de ı́ndice 1, un punto silla: Al pasar este nivel un
nuevo agujero de dimensión 1 es creado para Mt ; i.e.
H1 (Mt2 ) ∼
=Z v2 < t2 < v3 .
De manera similar, v3 corresponde a un punto silla y se obtiene que
H1 (Mt3 ) ∼
=Z⊕Z v3 < t3 < v4 .
Por último, v4 corresponde a un punto máximo o de ı́ndice 2. Al cruzar este nivel se completa
la superficie del toro, introduciendo un nuevo vacı́o de dimensión 2; esto es,
H2 (Mt4 ) ∼
=Z v4 < t4 .
Luego, el proceso para recuperar la homologı́a está terminado.

En este caso la persistencia se refiere a dar un “apareamiento” entre puntos crı́ticos
positivos de ı́ndice m y puntos crı́ticos negativos de ı́ndice m + 1. La idea es que una clase
de homologı́a que nace en un tiempo particular, muere un tiempo después o puede no morir.
16 T
Puntos crı́ticos de la función distancia
20 A
Sea P una colección finita de puntos en Rn . La función distancia a P ,
lio IM
dP : Rn −→ R
x 7−→ mı́n ||x − p||
p∈P
Ju -C
puede ser tratada análogamente a como una función de Morse, aún cuando no sea una
aplicación suave.
Recordar que definimos el –contrapeso de P , como
D
C(P, ) = d−1 d
P ((−∞, ]) := {x ∈ R : dP (x) ≤ }.
AT
Para poder usar la teorı́a de Morse tendremos una definición análoga de puntos crı́ticos
para dP (ver [18]). En primer lugar, los mı́nimos de la función distancia dP , los puntos de P ,
serán llamados puntos crı́ticos de ı́ndice 0. Para ı́ndices superiores hacemos lo siguiente.
Definición 1.7.5. Un punto c ∈ Rn es un punto crı́tico de ı́ndice m de dP , donde
1 ≤ m ≤ n, si existe un subcojunto Y de m + 1 puntos de P tales que:
1. Para cada y ∈ Y :
dP (c) = ||c − y||
y para cada p ∈ P \ Y tenemos que
||c − p|| > dP (c).
2. Los puntos de Y son geométricamente independientes.
3. c pertenece al interior de la envolvente convexa de Y (el cual es un m–simplejo abierto

en este caso).
Este será un caso particular de importancia si pensamos que el conjunto P consta de una
muestra aleatoria sobre alguna variedad o algún espacio compacto euclidiano.
Observar que la primer condición implica que en una vecindad pequeña de c, dP ≡ dY . La
segunda condición nos dice que Y vive en una única esfera (m−1)–dimensional Sm−1 = S(Y ).
Más aún, c es el centro de S(Y ) y el radio de la esfera r(Y ) es el valor crı́tico de la función
distancia. Consideremos
B(Y ) = Br(Y ) (c)
como la bola abierta de Rn con radio r(Y ) y centro c. Observar que S(Y ) está contenida en
B(Y ) pero a menos que m = n, S(Y ) no es la frontera de B(Y ).
16 T
Decimos entonces que c es el único punto crı́tico de ı́ndice m generado por los m + 1
20 A
puntos del subconjunto Y . En la imagen se muestran puntos crı́ticos de ı́ndice pequeño.2
Lema 1.7.6. Un subconjunto Y ⊂ P de m+1 puntos geométricamente independiente, genera
lio IM
un punto crı́tico de ı́ndice m si y sólo si, se satisfacen las siguientes:
(a) c pertenece al interior de la envolvente convexa de Y .
Ju -C
(b) P ∩ B(Y ) = ∅.
D
AT
Figura 1.10: 3 puntos mı́nimos pi , 3 puntos silla ci y 1 punto máximo c4 .

2
Con esta caracterización de puntos crı́ticos para la función distancia
dP : Rn −→ R,
el teorema principal de Teorı́a de Morse en relación a cambios en la homologı́a del complejo

simplicial C(P, ) = d−1
P ([0, ]) también se satisface. Es decir, al pasar un punto crı́tico, o
bien se crea un nuevo agujero m–dimensional o un agujero (m − 1)–dimensional es llenado.
16 T
20 A
lio IM
Ju -CD
AT
1.8. Ejercicios
Ejercicio 1.8.1. Prueba que el conjunto
B = {B (x) : x ∈ Rn , > 0};
donde
B (x) = {y ∈ Rn : ||x − y|| < },
16 T
define una base para la topologı́a estándar de Rn .
20 A
Ejercicio 1.8.2. Encuentra ejemplos para cada caso; explica:
lio IM
(a) Un espacio topológico X conexo que no sea arco–conexo.
(b) Una función f : X −→ Y continua y biyectiva que no es un homeomorfismo.

Ju -C
(c) Un espacio topológico X contraı́ble.

D
Ejercicio 1.8.3. Sean X un espacio topológico y A ⊂ X. Supongamos que para cada x ∈ A,

existe un conjunto abierto U tal que
AT
x ∈ U ⊂ A.
Demuestra que A es abierto en X.
Ejercicio 1.8.4. Sea X un espacio topológico. Prueba que:
1. ∅ y X son cerrados.
2. La intersección arbitraria de conjuntos cerrados es cerrado.
3. La unión finita de conjuntos cerrados es cerrado.
Ejercicio 1.8.5. Sea f : X −→ Y una función continua y biyectiva.
(i) Prueba que si X es compacto, entonces Y también es compacto.

1.8. Ejercicios 55
(ii) Prueba que si X es conexo, entonces Y también es conexo.
Ejercicio 1.8.6 (?). Demuestra que la función

x
F : (−1, 1) −→ R 7−→
1 − x2
es un homeomorfismo.
16 T
Ejercicio 1.8.7. Demuestra que cualquier subespacio (a, b) de R es homeomorfo a (0, 1).
20 A
Ejercicio 1.8.8. Sea X un segmento, o bien un subespacio de R homeomorfo a [0, 1], y Y un
lio IM
punto de X. Prueba que X y Y son homotópicamente equivalentes pero no son homeomorfos.
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 2
16 T
Persistencia
20 A
lio IM
Sea f : R −→ R una función suave. Supongamos que x es un punto crı́tico y f (x) es
un valor crı́tico si f 0 (x) = 0. Decimos además que un punto crı́tico es no–degenerado si
f 00 (x) 6= 0. Supongamos que f tiene solamente puntos crı́ticos no–degenerados con valores
Ju -C
crı́ticos distintos. Luego, cualquier punto es o bien un mı́nimo local o un máximo local.
Para cada α ∈ R consideramos los subconjuntos de nivel
D
Rα = f −1 ((−∞, α]).
AT
Mientras α crece hacia ∞, la conectividad de Rα permanece la misma excepto cuando pasa-

mos un valor crı́tico. En puntos mı́nimos locales surgen nuevas componentes y en los máximos
locales dos componentes se unen en una sola.
Hacemos un emparejamiento de los puntos crı́ticos de f como sigue: Cuando se introduce
una nueva componente conexa, se dice que el mı́nimo local que la crea representa dicha com-
ponente. Ahora, cuando pasamos un máximo local y se unen dos componentes, emparejamos
el máximo, con el mı́nimo local más “joven” que representa esta componente. A partir de
ese momento, el otro mı́nimo local se vuelve el representante de la componente que resulte
de la unión.
Observar que los puntos crı́ticos que están emparejados pueden no ser adyacentes. Defi-
nimos la persistencia del par (x, y) como f (y) − f (x). La persistencia se mide en el diagrama
de persistencia al llevar cualquier punto (x, y) al punto con coordenadas los valores crı́ticos
respectivos,
dgm(f ) = {(f (x), f (y))} ⊂ R2 .
57
58 Capı́tulo 2. Persistencia
16 T
Figura 2.1: Emparejamiento de máximos y mı́nimos de una función.
20 A
lio IM
En el diagrama de persistencia todos los puntos viven por encima de la diagonal y = x
y además la persistencia es la distancia vertical a esta lı́nea diagonal. Usualmente siempre
adjuntaremos esta lı́nea al diagrama de persistencia.1
Ju -C
Si reemplazamos la función f por una aproximación (polinomial por ejemplo) “cercana”

g, de tal forma que el número de pares de g es más grande que el de f . Sin embargo, la
mayorı́a de éstos corresponderán a intervalos pequeños, o puntos cercanos a la diagonal. Los
pares con intervalos más grandes están próximos a los de f .2
D
AT
Figura 2.2: Aproximación de una función y su diagrama de persistencia.
Es decir que las propiedades topológicas que tienen mayor persistencia se preservan bajo
perturbaciones. Mientras que aquellas que representan menor persistencia son claramente
creadas por la perturbación. Este será un fenómeno general: Dos funciones cercanas tendrán
1
2
2.1. Homologı́a persistente 59
diagramas cercanos. Las propiedades de estabilidad de los diagramas de persistencia son de

importancia fundamental para usar la persistencia topológica en el análisis topológico de
datos.
El resto de este capı́tulo se dedica al estudio general de la persistencia. En particular
usaremos la homologı́a persistente para ir más allá de componentes conexas y aprovecharemos
las ideas previamente vistas para hacer persistencia de subconjuntos de nivel.
16 T
2.1. Homologı́a persistente
20 A
La idea básica de la homologı́a persistente es reunir en una única estructura toda la
lio IM
información topológica relevante de un espacio filtrado por subespacios. En primer lugar
describiremos el caso para un complejo simplicial finito K y la homologı́a simplicial con
coeficientes en Z/2Z.
Consideremos una filtración de K:
Ju -C
F = {∅ = K 0 ⊂ K 1 ⊂ . . . ⊂ K α = K}.
D
Para cada i ≤ j tenemos que K i es un subcomplejo de K j . Luego podemos definir las

inclusiones o aplicaciones inyectivas
AT
ϕi,j : K i −→ K j .
Las cuales a su vez pueden ser extendidas a los m–ciclos:
ϕi,j i j
m : Zm (K ) −→ Zm (K ).
Esto define las aplicaciones lineales inducidas en homologı́a
(ϕi,j i j
m )∗ : Hm (K ) −→ Hm (K ),
que son en general no–inyectivas.

Especı́ficamente, sea c ∈ Hm (K i ) y γ ∈ Zm (K i ) un cı́clo representativo de la clase c.
Entonces, (ϕi,j j i,j
m )∗ (c) es la clase en Hm (K ) que contiene a ϕm (γ). Notar que la definición no
depende de la elección del representante.
Por ejemplo, si γ “engloba” un vacı́o en K i , pero ese vacı́o es llenado en K j , tenemos que
c es llevado a cero en Hm (K j ) vı́a (ϕi,j
m )∗ .
Definición 2.1.1. La imagen de (ϕi,j j

m )∗ en Hm (K ),
i,j
Hm = (ϕi,j i
m )∗ (Hm (K )),
se llama el m–ésimo grupo de homologı́a persistente.

Decimos que la dimensión de este subespacio
i,j i,j
βm = dim Hm ,
es el m–ésimo número persistente de Betti.
16 T
En general no indicaremos los ı́ndices de persistencia, dependiendo del análisis diremos
20 A
también el (i, j)–ésimo grupo de homologı́a persistente. Este grupo contiene todas las clases
m–dimensionales a nivel j, que ya tenı́an representantes presentes (vivos) en K i .
lio IM
El correspondiente número persistente de Betti cuenta los vacı́os m–dimensionales que
existen todo el camino desde K i hasta K j . Estamos interesados en clases particulares, como
por ejemplo la clase con el menor ı́ndice i y mayor ı́ndice j, tal que la clase es no–trivial en
Ju -C
todo el intervalo completo de K i a K j .
Definición 2.1.2. Decimos que una clase c ∈ Hm (K i ) nace en K i si c no esta en Hm i−1,i

.
D
i j i,j−1
Además, decimos que una clase c que nace en K muere entrando a K si (ϕm )∗ (c)
i−1,j−1
no está en Hm , pero (ϕi,j i−1,j
m )∗ (c) está en Hm .
El ı́ndice de persistencia es j − i.
AT
Observar que una clase que nace puede no morir, o bien decimos que “muere en infinito”.
Como hemos visto, en la mayorı́a de las aplicaciones existe una función que gobierna la
evolución (construcción) de la filtración. En este caso llamamos persistencia a la diferencia
entre los valores de la función al nacimiento y muerte de una clase. Por ejemplo, para la
construcción de la filtración de Čech, usamos la función distancia dP a una muestra finita
de puntos P de un espacio euclidiano.
2.2. Persistencia topológica de una filtración

Consideremos el caso particular de un complejo de dimensión finita. Nos interesa calcular
la evolución de la homologı́a de los subcomplejos de la filtración.
Sea K un complejo de dimensión d y
F = {∅ = K 0 ⊂ K 1 ⊂ . . . ⊂ K α = K},
2.2. Persistencia topológica de una filtración 61
una filtración plana. Es decir,
K i+1 = K i ∪ σ i+1 , i = 0, . . . , m − 1,
con σ i+1 un simplejo.

Para cada 0 ≤ n ≤ α, denotamos por
n
Cm = Cm (K n )
al conjunto de las m–cadenas de K n . Observar que la restricción del operador frontera
16 T
n n−1
∂ : Cm −→ Cm−1 ,
20 A
n−1
tiene imagen contenida en Cm−1 . Denotamos también por
lio IM
n
Zm = Zm (K n ) y Bm
n
= Bm (K n )
a los m–ciclos y m–fronteras de K n , respectivamente. Luego, tenemos el m–ésimo grupo de

Ju -C
homologı́a de K n :
Zn
Hm n
= Hm (K n ) = mn
.
Bm
D
Usando esta notación tenemos las inclusiones siguientes

AT
0 1 n α
Zm ⊂ Zm ⊂ . . . ⊂ Zm ⊂ . . . ⊂ Zm = Zm (K),
0 1 n α
Bm ⊂ Bm ⊂ . . . ⊂ Bm ⊂ . . . ⊂ Bm = Bm (K).
Definición 2.2.1. Para p ∈ {0, . . . , α} y l ∈ {0, . . . , α − p}, el m–ésimo número persis-

tente de Betti de K l es igual a la dimensión del espacio vectorial
l
l,p Zm
Hm = l+p
.
Bm l
∩ Zm
El m–ésimo número persistente de Betti de K l representa el número de clases de homo-

logı́a independientes de m–ciclos en K l , que no son fronteras en K l+p . Es decir, un m–cı́clo
en K l que genera un elemento no–cero en Hm l,p
es un cı́clo que ha aparecido en la filtración
desde el paso l + 1 y que aún no es una frontera al paso l + p.
La idea de la persistencia es emparejar los nacimientos y muertes de ciclos, dependiendo
de si se agrega un simplejo positivo o uno negativo en la filtración.
2.3. Diagramas de persistencia

Como antes consideremos la filtración F del complejo finito K. Para m ∈ N usaremos la
notación
ci,j i
m ∈ Hm (K ),
para referirnos al m–cı́clo que nace en K i y que muere en K j . Sea
Cm (F) = {ci,j
m}
16 T
el conjunto de m–ciclos. En caso de que un ciclo nazca en i pero no muera, escribiremos ci,∞
m .
20 A
Definición 2.3.1. Definimos el m–ésimo diagrama de persistencia de F como el sub-
lio IM
conjunto de R2 :
dgm(F) = {(i, j) : ci,j
m ∈ Cm (F)} ∪ diag,
donde diag = {(α, α) : α ∈ R} es la diagonal de R2 .

Ju -C
La introducción de la diagonal en el diagrama de persistencia se debe a que estamos

pensando que la distancia a la diagonal nos da la persistencia de la clase. Además, están
D
incluidos puntos de la forma (i, ∞), o bien con j representando ∞.

Dos diagramas de persistencia pueden ser comparados usando una distancia de empare-
AT
jamiento.
Definición 2.3.2. Sean dgm1 y dgm2 dos diagramas de persistencia. La distancia del
cuello de botella entre dgm1 y dgm2 se define como
dB (dgm1 , dgm2 ) = ı́nf sup ||p − γ(p)||∞ ;

γ p∈dgm
1
donde γ corre sobre el conjunto de biyecciones entre los conjuntos dgm1 y dgm2 .
Recordamos que la distancia infinito de p = (xp , yp ) y q = (xq , yq ) se define como
||p − q||∞ = máx(|xp − xq |, |yp − yq |).
Con esta definición de distancia queda ratificado el uso de la diagonal en la definición

del diagrama de persistencia. Esto es, los puntos que están cerca de la diagonal pueden ser
emparejados con puntos en la diagonal y considerados en el análisis como ruidos.
2.4. Persistencia de conjuntos de nivel 63
16 T
20 A
lio IM
Ju -CD
AT
Figura 2.3: La figura muestra dos diagramas de persistencia, (a) dgm1 y (b) dgm2 . En (c) y
(d) se denotan dos posibles biyecciones γ1 y γ2 entre los puntos de dgm1 y dgm2 . En la figura,
se cumple supz∈dgm1 kz − γ2 (z)k∞ < supz∈dgm1 kz − γ1 (z)k∞ , para ilustrar que la biyección
óptima que opera en la definición de dB conlleva una búsqueda sobre todas las posibles γ.
2.4. Persistencia de conjuntos de nivel

Consideremos ahora la persistencia usando las ideas de la teorı́a de Morse. Sea M una
variedad n–dimensional y f : M −→ R una función, la cual puede no ser suave. Para cada
a ∈ R consideramos los subconjuntos de nivel
Ma = f −1 ((−∞, a]) = {p ∈ M : f (p) ≤ a},
y la filtración asociada a las inclusiones
ϕa,b : Ma −→ Mb , a ≤ b.
Esto es, ϕa,b induce una aplicación en homologı́a
(ϕa,b
m )∗ : Hm (Ma ) −→ Hm (Mb ), m ≥ 0.
La imagen de (ϕa,b
m )∗ es el m–ésimo grupo de homologı́a persistente de a a b, denotado
a,b
por Hm . Sea
a,b a,b
βm = dim Hm ,
el m–ésimo número persistente de Betti. El cual cuenta las clases de homologı́a independien-
tes que nacen en tiempo a y mueren después del tiempo b.
16 T
Definición 2.4.1. Decimos que v ∈ R es un valor crı́tico homológico de f , si para > 0
20 A
suficientemente pequeño la aplicación
v−,v+
lio IM
(ϕm )∗ : Hm (Mv− ) −→ Hm (Mv+ )
no es un isomorfismo.
Además, f se dice mansa si tiene un número finito de valores crı́ticos homológicos, y
Ju -C
para cada a ∈ R, Hm (Ma ) es de dimensión finita.
En particular, cualquier función de Morse sobre una variedad compacta es mansa.

D
Supongamos que f : M −→ R es una función mansa y escojamos > 0 más pequeño que
la distancia entre dos valores crı́ticos homológicos. Para cada par de valores crı́ticos a < b,
AT
definimos su multiplicidad µa,b como el número de clases de homologı́a independientes que

nacen en a y mueren en b. Explı́citamente:
µa,b = β a+,b− − β a−,b− − β a+,b+ + β a−,b+ .
Luego, la homologı́a persistente puede codificarse en el diagrama de persistencia de f .

^ ) como el conjunto de los pares (a, b), junto con sus multipli-
Esto es, consideremos dgm(f
a,b
cidades µ . Como anteriormente, queremos agregar al diagrama el conjunto de pares que
nacen y mueren al mismo tiempo.
Definición 2.4.2. Se define el diagrama de persistencia de f como la unión
^ ) ∪ diag,
dgm(f ) = dgm(f
donde los elementos de la diagonal tienen multiplicidad “igual” a infinito.
Más aún, el conjunto de diagramas de persistencia puede pensarse como un espacio

métrico con la siguiente distancia.
2.5. Panoramas de persistencia 65
Definición 2.4.3. La distancia cuello de botella entre los diagramas de persistencia

dgm(f ) y dgm(g) se define como
dB (dgm(f ), dgm(g)) = ı́nf sup ||p − γ(p)||∞ ;

γ p∈dgm(f )
donde el ı́nfimo se toma sobre todas las posibles biyecciones
γ : dgm(f ) −→ dgm(g)
16 T
y estamos considerando la norma del supremo para funciones.
20 A
Dicha distancia fue introducida por Cohen–Steiner, Edelsbrunner y Harer ([40]), además
de obtener el siguiente resultado
lio IM
dB (dgm(f ), dgm(g)) ≤ ||f − g||∞ ,
donde f, g : M −→ R son funciones mansas. El cual enunciaremos con detalle más adelante.
Ju -CD
2.5. Panoramas de persistencia

En adelante pensaremos la persistencia de manera más general, ejemplos de esto pue-
AT
den encontrarse en el trabajo de P. Bubenik, F. Chazal, H. Edelsbrunner, entre otros. En

particular, tomamos el material de esta sección del trabajo de P. Bubenik [22].
El objeto algebráico más general que estudia el análisis topológico de datos es el módulo
de persistencia.
Definición 2.5.1. Un módulo de persistencia V = {Va , va,b } es un conjunto de espacios

vectoriales y aplicaciones indexados por R; esto es, Va es un espacio vectorial para cada
a ∈ R y existen aplicaciones lineales
va,b : Va −→ Vb , a ≤ b,
tales que va,a es la aplicación identidad y para cada a ≤ b ≤ c:
va,c ≡ vb,c ◦ va,b .
Además, diremos que el módulo de persistencia V es q–manso si el rango de va,b es

finito siempre que a < b.
Por ejemplo, la construcción del complejo de Čech o el complejo de Rips, junto con las
respectivas aplicaciones en homologı́a simplicial definen un módulo de persistencia. Observar
que en este tipo de filtraciones se calcula la homologı́a singular del espacio formado por
uniones de bolas, mediante el calculo en homologı́a simplicial del complejo respectivo. En
este caso, existen algoritmos eficientes para calcular la homologı́a persistente (Edelsbrunner,
Milosavljević, Chen y Kerber).
Otro tipo de construcciones de complejos son las del complejo “witness” (de Silva y
Carlsson) o complejos construidos usando estimadores de densidad de kernel (Bubenik).
Dada una función f : X −→ R, la filtración por subconjuntos de nivel define un módulo
16 T
de persistencia para cada m ∈ N ; o bien
20 A
Va = Hm (f −1 ((−∞, a])),
y va,b ≡ (ϕa,b
lio IM
m )∗ son las aplicaciones lineales respectivas. En particular, las funciones distancia
a una nube de puntos y distancia a un subconjunto compacto nos dan ejemplos de módulos
de persistencia.
Sea V un módulo de persistencia y para cada a ≤ b consideramos el correspondiente
Ju -C
número de Betti de V:
β a,b = β a,b (V) = dim im(va,b ).
D
Observar que para a ≤ b ≤ c ≤ d:

β b,c ≥ β a,d ,
AT
ya que va,d = vc,d ◦ vb,c ◦ va,b .

Consideremos la función rango λ : R2 −→ R dada por
b,d
β , b ≤ d;
λ(b, d) =
0, en otro caso.
Hacemos el cambio de coordenadas
b+d d−b
k= , h= ,
2 2
para que la función resultante quede en el semi–plano superior. Es decir, tenemos la función
rango reescalada λ : R2 −→ R:
k−h,k+h
β , h ≥ 0;
λ(k, h) =
0, en otro lado.
Queremos analizar el comportamiento de este tipo de funciones. En particular, tenemos
la siguiente función importante.
2.5. Panoramas de persistencia 67
Definición 2.5.2. El panorama de persistencia es una función

λ : N × R → [−∞, ∞],
donde [−∞, ∞] son los números reales extendidos. De manera alternativa, tenemos la suce-
sión de funciones λn : R −→ [−∞, ∞]:
λn (t) = λ(n, t) = sup(h ≥ 0 : β t−h,t+h ≥ n).
En la siguiente imagen se ilustra la construcción de un panorama de persistencia.3
16 T
20 A
lio IM
Ju -CD
AT
Figura 2.4: Función rango arriba a la izquierda, función rango reescalada y correspondiente
código de barras arriba a la derecha, panorama de persistencia y su versión extendida abajo.
Además, para facilitar la gráfica de la función extendemos un panorama de pesistencia λ

a λ̂ : R2 −→ [−∞, ∞] como sigue,

λ(dxe, t) x > 0;
λ̂(x, t) =
0, x < 0.
En el trabajo de Bubenik [22] se definen los panoramas de persistencia y se observan las
siguientes propiedades:
λn (t) ≥ 0, λn (t) ≥ λn+1 (t) y λn es 1–Lipschitz.
3
Observación 2.5.3. Los números de Betti dim(Vt ) de un módulo de persistencia V pueden

ser leı́dos en la diagonal de la función rango, en el eje k de la función rango reescalada y en
el soporte del panorama de persistencia.
Es importante notar que la geometrı́a del espacio de diagramas de persistencia se vuelve

complicada de trabajar, por ejemplo este conjunto no necesariamente tiene una única media
de Fréchet. En contraste, el espacio de los panoramas de persistencia es bueno para trabajar,
en particular tiene una única media.
16 T
2.6. Códigos de barras
20 A
Informalmente, el diagrama de persistencia consiste en las “esquinas superiores izquier-
lio IM
da” de la función rango, viceversa λ(b, d) cuenta el número de puntos en el diagrama de
persistencia en el cuadrante superior izquierdo. Esto es, dado un diagrama de persistencia
{(bi , di )} definimos
Ju -C
λn (t) = n–ésimo valor más grande de mı́n(t − bi , di − t)+ ,
donde c+ = máx(c, 0).

D
De manera similar, el código de barras consiste de las bases de los triángulos formados
en la función rango reescalada. Para el caso de los códigos de barras tenemos que son un
AT
invariante de los módulos de persistencia (ver [28]). Enunciamos el teorema fundamental de

la persistencia, que nos permite obtener el código de barras.
Teorema 2.6.1 (Fundamental de homologı́a persistente). Dado un módulo de persistencia

q–manso V, existe una elección de bases para los espacios vectoriales Va , tal que cualquier
aplicación está determinada por un emparejamiento bipartito de vectores básicos.
Es decir, si consideramos el módulo de persistencia asociado a una filtración F:
Va = Hm (K a ), va,b = (ϕa,b
m )∗ .
Entonces los parámetros que surgen de la base de Hm (F) a partir del teorema anterior,
podemos pensarlos en una captura visual en la forma de un código de barras. O bien, una
representación gráfica de Hm (F) como una colección de segmentos de lı́nea horizontales en
un plano, con eje horizontal correspondiendo a los parámetros y eje vertical representando
un orden (arbitrario) de los generadores de homologı́a.
Explı́citamente tenemos lo siguiente (ver [24]).
2.6. Códigos de barras 69
Lema 2.6.2. Dado cualquier m–cı́clo γ ∈ Zm (F), el conjunto de números a ∈ [−∞, ∞]

tales que la clase [γ] no está en Hm (K a ) es o bien vacı́o, o un intervalo.
Definición 2.6.3. Sean γ ∈ Zm (F) e Iγ el m–ésimo intervalo de homologı́a persis-
tente representado por γ que surge del lema anterior.
El m–ésimo código de barras de Betti es el conjunto de intervalos
{Jγ : γ ∈ S ⊂ Zm (F)};
donde Jγ es un subintervalo de Iγ y para cada a ∈ [−∞, ∞], {[γ] : γ ∈ S, a ∈ Jγ } forma
16 T
una base para el espacio vectorial Hm (K a ).
20 A
lio IM
Ju -CD
AT
Figura 2.5: Filtración con código de barras e intervalos por clases de homologı́a.
Tenemos la siguiente caracterización.

a,b
Teorema 2.6.4. El rango del m–ésimo grupo de homologı́a persistente Hm es igual al
número de intervalos en el código de barras de Hm (F) que generan el intervalo [a, b]. En
particular, Hm (K a ) es igual al número de intervalos que contienen a.
El conjunto de códigos de barras viene dotado con una métrica (ver [28]). Dado un
intervalo J, denotamos por λ(J) su longitud. Si J y J 0 son dos intervalos, denotamos por
∆(J, J 0 ) su diferencia simétrica o médida de dimensión uno
∆(J, J 0 ) = λ(J ∪ J 0 ) − λ(J ∩ J 0 ).
Definición 2.6.5. Dados dos códigos de barras {Jα }α∈S1 y {Jα0 0 }α0 ∈S2 , un emparejamiento
parcial entre S1 y S2 es un subconjunto m ⊂ S1 × S2 , donde cada α y α0 aparece a lo más
una vez. Definimos la distancia entre códigos de barras
16 T
 
20 A
X X X
D({Jα }S1 , {Jα0 0 }S2 ) = mı́n  ∆(Jα , Jα0 ) + λ(Jα ) + λ(Jα0 0 ) ;
m∈match
(α,α0 )∈m α∈S1 \m1 α0 ∈S2 \m2
lio IM
donde mi es la proyección de m en Si .
Ju -C
Dicha definición de distancia define una “cuasi–métrica”, dado que su valor puede ser
infinito, sin embargo puede ser convertida en una métrica.
D
Una de los aspectos importantes de los códigos de barras es la habilidad de distinguir

cualitativamente ruido topológico y capturar las propiedades significativas. Como hemos
AT
visto, para el caso de filtraciones tipo Morse los códigos de barras son estables en la presencia
de ruido.
2.7. Estabilidad
En general, los módulos de persistencia que son q–mansos son los objetos ideales de
trabajo. En esta sección culminamos enunciando los resultados de estabilidad en relación a
la persistencia.
Recordamos que un módulo de persistencia V es q–manso si el rango de va,b es finito
siempre que a < b.
Teorema 2.7.1. Si un módulo de persistencia es q–manso, entonces tiene un diagrama

de persistencia dgm(V) ⊂ [−∞, ∞]2 bien definido. En particular, si V es el módulo de
persistencia formado por la filtración de un complejo simplicial finito, este diagrama coincide
con el definido anteriormente.
2.7. Estabilidad 71
Dados dos módulos de persistencia V y U, con aplicaciones respectivas va,b , ua,b y ≥ 0.

Un homomorfismo de grado es una colección de aplicaciones lineales
Ψ = {ψa : Ua −→ Va+ }
tales que
va+,b+ ◦ ψa ≡ ψb ◦ ua,b , a ≤ b.
Escribimos Hom (U, V) para el conjunto de homomorfismos de grado de U a V y End (V)
para los homomorfismos de grado de V en sı́ mismo.
Para ≥ 0, consideramos la aplicación de desplazamiento
16 T
1V ∈ End (V),
20 A
la cual es la colección de aplicaciones {va,a+ }. En particular, si Ψ es un homomorfismo de
cualquier grado de U en V, entonces por definición
lio IM
Ψ ◦ 1V ≡ 1V ◦ Ψ.
Definición 2.7.2. Dos módulos de persistencia U y V se dicen –intercalados si existen
Ju -C
aplicaciones
Φ ∈ Hom (U, V), Ψ ∈ Hom (V, U),
tales que
D
Ψ ◦ Φ ≡ 12
U y Φ ◦ Ψ ≡ 12
V.
AT
Con esta noción tenemos el teorema fundamental de estabilidad de diagramas de persis-

tencia.
Teorema 2.7.3 (Estabilidad de persistencia). Sean U y V dos módulos de persistencia q–
mansos, que además son –intercalados para algún ≥ 0. Entonces
dB (dgm(U), dgm(V)) ≤ .
Este teorema nos permite obtener la estabilidad de los diferentes tipos de filtraciones
consideradas hasta ahora.
Dada una función f : X → R definida en un espacio topológico, consideramos la filtración
por subconjuntos de nivel
{Xα = f −1 ((−∞, α])}R
y el módulo de persistencia Fm formado por los grupos de homologı́a singular Hm (Xα ) y las
aplicaciones inducidas por inclusión.
Sean dos funciones f, g : X −→ R tales que ||f − g||∞ < , entonces sus módulos de
persistencia Fm y Gm son –intercalados. Para garantizar que además estos módulos de
persistencia son q–mansos tenemos el siguiente resultado.
Proposición 2.7.4. Si X es homeomorfo a un complejo simplicial finito y f : X −→ R es

continua, entonces Fm es q–manso para cualquier m ∈ N. En particular, dgm(Fm ) está bien
definido.
Luego, si Fm es q–manso para cualquier m ∈ N, obtenemos la definición previamente

descrita de que f : X −→ R es mansa. Ası́ que usualmente dgm(f ) denota el diagrama
de persistencia de Fm para cualquier m. Usando el teorema de estabilidad concluimos el
siguiente resultado.
Teorema 2.7.5. Sea X un espacio topológico homeomorfo a un complejo simplicial finito y
16 T
f, g : X −→ R funciones continuas. Entonces
20 A
dB (dgm(Fm ), dgm(Gm )) ≤ ||f − g||∞ .
lio IM
Para el caso de la función distancia tenemos lo siguiente. Si X ⊂ Rn es un espacio
topológico compacto y
dX (y) = ı́nf ||x − y||
Ju -C
x∈X
la función distancia a X. En particular, si X = P donde P ⊂ Rn es un subconjunto finito

de puntos, tenemos la función distancia dP : Rn −→ R descrita anteriormente.
D
Proposición 2.7.6. Sea X ⊂ Rn un subconjunto compacto. Entonces, la función distancia

dX : Rn −→ R es mansa.
AT
Por lo tanto, las funciones distancias a un subconjunto compacto tienen diagramas de

persistencia bien definidos. Si C(P ) representa la filtración de Čech de una nube de datos
tenemos lo siguiente.
Corolario 2.7.7. Sean X, Y ⊂ Rn dos subconjuntos compactos. Entonces
dB (dgm(dX ), dgm(dY )) ≤ dH (X, Y ).
En particular, si P, Q ⊂ Rn son nubes finitas de puntos, entonces para cualquier m ∈ N
dB [dgm(Hm (C(P ))), dgm(Hm (C(Q)))] ≤ dH (P, Q).
Como consecuencia, los módulos de persistencia inducidos por subconjuntos de nivel de

dP y la filtración de Čech son 0–intercalados.
2.8. Ejercicios 73
2.8. Ejercicios
Ejercicio 2.8.1. Considera las dos condiciones en la definición de un complejo simplicial.
1. Da una pequeña colección de simplejos que no satisface la primera condición pero sı́ la
segunda.
2. Da una pequeña colección de simplejos que no satisface la segunda condición pero sı́ la
primera.
16 T
20 A
Ejercicio 2.8.2. Sea K un complejo simplicial finito.
1. Demuestra que K es arco–conexo si y sólo si, su 1–esqueleto Sk1 (K) es conexo.

lio IM
2. Deduce que β0 (K) es igual al número de componentes conexas de K.
Ju -C
Ejercicio 2.8.3. Considera m–cadenas con coeficientes en Z/2Z y su interpretación geométri-

ca; esto es, una m–cadena c se escribe únicamente como c = σi1 + . . . + σik , donde los σij
D
son m–simplejos, y por lo tanto c se ve como la unión de los simplejos σij . Prueba que la
suma de dos m–cadenas es igual a su diferencia simétrica.
AT
Ejercicio 2.8.4. Sea K un complejo simplicial de dimensión 1 con vértices a, b, c, d, e y

lados ab, ac, ad, be, ce, de.
1. Determina los rangos de C1 (K), Z1 (K) y B0 (K) .
2. Deduce cuántas 1–cadenas tienen la misma frontera; en otras palabras, cuántos ele-
mentos de C1 (K) son llevados al mismo elemento de B0 (K).
Ejercicio 2.8.5. Sea F una filtración de un complejo simplicial finito K. Demuestra que
todos los vértices de K son positivos y que un segmento o lado σ i es positivo si y sólo si, los
dos vértices finales de σ i están en la misma componente conexa de K i−1 .
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 3
Probabilidad
16 T
20 A
lio IM
El objetivo de este capı́tulo es dar una breve introducción a los conceptos y resultados
de la teorı́a de probabilidad y la teorı́a de medida e integración de Lebesgue que son nece-
sarios para estudiar variables aleatorias en variedades, la inferencia estadı́stica y el análisis
Ju -C
topológico de datos (ATD). Los conceptos y resultados se presentan en el orden que se

considera conveniente - de acuerdo al expositor- para irse familiarizando con los elementos
de análisis estadı́stico de altas dimensiones, variables aleatorias en variedades y sus distribu-
D
ciones de probabilidad. En particular, estamos interesados en entender un modelo usual en

ATD en donde las observaciones son del tipo M + σZ, con M una variable aleatoria con cierta
distribución de probabilidad (usualmente uniforme) en una variedad en Rd , Z, el ruido, un
AT
vector gaussiano estándar y σ 2 la varianza del ruido; ası́ como distribuciones de probabilidad
alternativas para M y Z. Se hace especial énfasis en el caso de la esfera y el toro, y en el
marco teórico para simular elementos aleatorios en éstas y otras variedades, lo cual es el
tema del Capı́tulo 4.
Para exposiciones introductorias de teorı́a de la medida e integración, puede consultar-
se los libros clásicos de Bartle [9] y Halmos [65]. Para un enfoque unificado de medida y
probabilidad existen numerosos libros, entre ellos Billingsley [14] y Athreya y Lahiri [6]. Un
compendio rápido de medida y probabilidad se expone en las notas de Domı́nguez–Molina y
Pérez Abreu [44]. El libro de Klenke [85] contiene material avanzado de teorı́a de probabili-
dad en espacios topológicos y el libro de Federer [53] está dedicado a la medida geométrica.
Las demostraciones de los resultados clásicos de esta teorı́a no se presentan, nos remitimos
a cualquiera de estas referencias, o la favorita del lector.
Exposiciones en la literatura sobre variables aleatorias y probabilidad en variedades se
irán mencionando cuando se aborden estos temas. En la tesis de maestrı́a reciente de Lilia
Rivera [114] se presenta una motivación para el análisis estadı́stico sobre variedades, ası́ como
su relevancia y complejidad, más allá del análisis topológico de datos.
75
76 Capı́tulo 3. Probabilidad
3.1. Elementos de probabilidad

En primer lugar, tenemos la noción de probabilidad, de acuerdo a la axiomatización dada
por Andreı́ Kolmogorov en 1933.
Definición 3.1.1. Un espacio de probabilidad es una terna (Ω, A, P) donde:
1. Ω es un conjunto no–vacı́o.
2. A es una σ–álgebra de subconjuntos de Ω; o bien,
16 T
∞
[
C
Ω ∈ A, A∈A⇒A ∈A An ∈ A,
20 A
y
n=1
lio IM
para toda sucesión de eventos {Ai } ⊂ A.
3. P es una medida de probabilidad; i.e.

Ju -C
P : A −→ [0, 1], P(Ω) = 1,
y dada una sucesión de eventos {An } tales que son disjuntos por pares An ∩ Am = ∅,
D
n 6= m, entonces
∞
! ∞
[ X
An = P(An ).
AT
P
n=1 n=1
Pensamos a Ω como el espacio de muestra de un experimento y un conjunto A ∈ A se

dice evento.
Dados dos eventos A, B ∈ A y P(B) > 0, definimos la probabilidad condicional de A dado
B como
P(A ∩ B)
P(A|B) = .
P(B)
Notar que dado B ∈ A con P(B) > 0, la aplicación
P( · |B) : A −→ [0, 1],
es una medida de probabilidad. Pero en general P(A| · ) no es medida de probabilidad y

P(A|B) 6= P(B|A).
Además consideramos la regla del producto
P(A ∩ B) = P(A|B)P(B).
3.1. Elementos de probabilidad 77
Diremos además que los eventos A y B son independientes si

P(A ∩ B) = P(A)P(B);
o bien, P(A|B) = P(A). Más aún, una sucesión {Ai } finita de n–eventos son independientes
si para cualesquiera 1 ≤ k ≤ n y {i1 < . . . < ik } ⊂ {1, ...n}
P(Ai1 ∩ . . . ∩ Aik ) = P(Ai1 ) · · · P(Aik ).
Asimismo, una colección arbitraria de eventos {At } son eventos independientes, si cualquier
subcolección finita está formada por eventos independientes.
16 T
20 A
3.1.1. Variables aleatorias y sus distribuciones
lio IM
En el contexto de topologı́a consideramos lo siguiente. Dado un espacio topológico X,
consideremos OX la colección de abiertos de X. Sea B(X) la menor σ–álgebra generada por
OX ; esto es, la intersección de las σ–álgebras que contienen a OX . Llamamos a B(X) la
Ju -C
σ–álgebra de Borel de X.
Definición 3.1.2. Dado un espacio de probabilidad (Ω, A, P) y Y un espacio topológico. Una

función
D
Y : Ω −→ Y
se llama variable aleatoria (o función B(Y ) \ A–medible) si
AT
∀A ∈ B(Y ) : Y−1 (A) ∈ A.

La distribución de Y es la probabilidad PY en (Y, B(Y )) dada por
PY (A) = P(Y−1 (A)), A ∈ B(Y ).
Proposición 3.1.3. Si Y = R tenemos que Y : Ω −→ R es una variable aleatoria si y sólo
si,
Y−1 ((−∞, x]) ∈ A, ∀x ∈ R.
Un hecho importante de mencionar es que la σ–álgebra de Borel de R, B(R) es igual a
la σ–álgebra generada por varias clases de subconjuntos de R.
La función FY : R −→ [0, 1] definida por
FY (x) := P(Y ≤ x), x ∈ R,
se llama la función de distribución de la variable aleatoria Y. En particular, F = FY
tiene las siguientes propiedades:
1. F es no decreciente y 0 ≤ F (x) ≤ 1 para cada x ∈ R.
2.
F (−∞) = lı́m F (x) = 0 y F (∞) = lı́m F (x) = 1.
x→−∞ x→∞
3. F es continua por la derecha (y tiene lı́mites por la izquierda); i.e.
F (x) = F (x+ ) = lı́m+ F (y), x ∈ R.

y→x
16 T
Cualquier función F : R −→ [0, 1] que cumple (1) − (3) se llama función de distribu-
20 A
ción.
lio IM
Teorema 3.1.4 (Kolmogorov). Dada una función de distribución F , existe un espacio de
probabilidad (Ω, A, P) y una variable aleatoria Y : Ω −→ R en (R, B(R)) tal que Y tiene
función de distribución F .
Ju -C
Veremos más adelante cómo demostrar este teorema el cual usaremos múltiples veces.
Ejemplo 3.1.5. La función distribución degenerada en a ∈ R,

D

0, x < a;
F (x) =
AT
1, x ≥ a.
Luego P(Y = a) = 1.
Ejemplo 3.1.6. La función de distribución Bernoulli: sean a1 , a2 ∈ R y 0 < p < 1, tal que
P(Y = a1 ) = p y P(Y = a2 ) = 1 − p.
Si a1 < a2 , se define 
 0, x < a1 ;
F (x) = p, a1 ≤ x < a2 ;
1, x ≥ a2 .

Ejemplo 3.1.7. La función de distribución Normal N(µ, σ 2 ), tal que µ ∈ R y σ 2 > 0.

Consideremos la función (de densidad)

2 1 1 2
φ(x; µ, σ ) = √ exp − 2 (x − µ) , x ∈ R.
σ 2π 2σ
Luego Z x
F (x) := φ(t, µ, σ 2 )dt
−∞
es una función de distribución. Una variable aleatoria con esta distribución se llama variable
aleatoria con distribución normal N(µ, σ 2 ); lo cual denotaremos por X ∼ N(µ, σ 2 ). Decimos
que una variable aleatoria Z tiene distribución normal estándar si Z ∼ N(0, 1), en cuyo caso
la función de densidad es par (simétrica alrededor del cero)

1 1 2
φ(x) = √ exp − x , x ∈ R.
16 T
2π 2
En particular, tenemos las siguientes implicaciones:
20 A
X−µ
1. Si X ∼ N(µ, σ 2 ), entonces Z = σ
∼ N(0, 1).
lio IM
2. Si Z ∼ N(0, 1), entonces X = µ + σZ ∼ N(µ, σ 2 ).
3. Dadas n variables aleatorias independientes
Ju -C
n n n
!
X X X
Xi ∼ N(µi , σi2 ) ⇒ Xi ∼ N µi , σi2 .
i=1 i=1 i=1
D
En general, dada una función f : R −→ [0, ∞) que integre uno, se definirán las distribu-
ciones absolutamente continuas
AT
Z x
F (x) = f (t)dt.
−∞
0
En tal caso, F (x) = f (x) casi seguramente (como se explica más adelante) y la variable
aleatoria respectiva X satisface que
P(a ≤ X ≤ b) = F (b) − F (a).
Ejemplos de esto pueden encontrarse en las funciones de distribución exponencial, gama,
beta, t, Cauchy o χ2 .
Las distribuciones absolutamente continuas son continuas.
Definición 3.1.8. Una variable aleatoria Y es continua si su función de distribución es
continua. En este caso P(Y = y) = 0 para cada −∞ < y < ∞.
Una variable aleatoria es discreta si existe una sucesión de números nonegativos {pn }n≥0
∞
P
con pn = 1, y un conjunto numerable {yn }n≥0 ⊂ R tal que
n=0
P(Y = yn ) = pn , n ≥ 0.
En el caso de distribuciones discretas es usual tomar {yn }n≥0 = N∪{0}. En este caso la
función de distribución de Y es

0, x < 0;
F (x) = P[x]
n=0 pk , x ≥ 0.
Ejemplos de distribuciones discretas son la Bernoulli, Binomial, Poisson, geométrica, bi-

nomial negativa o hipergeométrica. Un ejemplo de especial interés es la distribución uniforme
en un conjunto finito de puntos.
16 T
Ejemplo 3.1.9 (Distribución uniforme discreta). Sea Ω = {w1 , ..., wn } un conjunto finito
arbitrario, A = 2Ω y la probabilidad P definida en los singletones {wi } como P({wi }) = 1/n.
20 A
Entonces para cualquier subconjunto A ⊂ Ω, P(A) = #(A)/n. Esta probabilidad se conoce
lio IM
como probabilidad uniforme, ya que conjuntos con el mismo número de elementos tienen la
misma probabilidad.
Definición 3.1.10. Decimos que n variables aleatorias Y1 , . . . , Yn en Y son independientes

Ju -C
si para cada k ≥ 1 !
\k Yk
P Yi−1 (Ai ) = P(Yi−1 (Ai )),
D
i=1 i=1
con Ai ∈ B(Y ). Análogamente, si las variables aleatorias toman valores reales, decimos que
AT
son independientes si y sólo si, para cada k ≥ 1:
P(Y1 ≤ x1 , . . . , Yk ≤ xk ) = P(Y1 ≤ x1 ) · · · P(Yk ≤ xk ).
Teorema 3.1.11. Dada una sucesión de funciones de distribución {Fn }n≥1 en R, existen un
espacio de probabilidad (Ω, A, P) y variables aleatorias independientes Yj : Ω −→ R, j ≥ 1,
tales que para cada n ≥ 1, Yn tiene función de distribución Fn .
Sea X una variable aleatoria con función de distribución F y g : R −→ R una función

medible; o bien, tal que para cada x ∈ R, g −1 ((−∞, x)) ∈ B(R). Si además
Z
|g(x)|F (dx) < ∞,
R
definimos la esperanza de g(X) como

Z
Eg(X) = g(x)F (dx).
R
En particular, dada una distribución F , X variable aleatoria con esta función de distri-
bución y p > 0, si Z ∞
|x|p F (dx) < ∞,
−∞
se define el p–ésimo momento de X como

Z ∞
p
µp = E|X| = |x|p F (dx) < ∞.
−∞
16 T
Usualmente denotaremos por µ a la esperanza o primer momento µ1 , además el p–ésimo
momento central se define como E(|X − µ|p ).
20 A
Definimos la varianza de la variable X como
lio IM
Var(X) = σ 2 = E(X − µ)2 = EX2 − (EX)2 ,
siempre que σ 2 < ∞. Esto es,

Ju -C
Z ∞
Var(X) = (x − µ)2 F (dx).
−∞
D
Dadas n variables aleatorias {Xi } y n constantes {ci }, tenemos las siguientes propiedades
importantes:
AT
1. !
n
X n
X
E c i Xi = ci E(Xi ).
i=1 i=1
2. Si además las variables aleatorias son independientes:

n
! n
Y Y
E Xi = E(Xi ),
i=1 i=1
3.
Var(c1 X + c2 ) = c21 Var(X),
Sean X, Y variables aleatorias con medias µX , µY , y de varianza finita. Definimos la

covarianza entre X y Y como
Cov(X, Y) = E ((X − µX )(Y − µY )) = µXY − µX µY

donde µXY = E(XY). Notar que si X y Y son independientes Cov(X, Y) = 0. Decimos que
X y Y están no correlacionadas si Cov(X, Y) = 0. El que dos variables aleatorias estén no
correlacionadas no implica que sean independientes; es un ejercicio muy fácil dar un ejemplo.
Más aún,
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
y en general dadas n variables aleatorias {Xi } y n constantes {ci }, tenemos que
n
! n n X
X X X
2
Var ci X i = ci Var(Xi ) + 2 ci cj Cov(Xi , Xj ).
16 T
i=1 i=1 j=1 i<j
20 A
Por lo tanto, si las variables aleatorias {Xi } son independientes o no correlacionadas a pares
lio IM
n
! n
X X
Var c i Xi = c2i Var(Xi ).
i=1 i=1
Ju -C
Volveremos al tema de esperanza y momentos en la Sección 3.5.1

D
3.1.2. Tipos de convergencia en probabilidad y resultados lı́mite

universales
AT
Daremos ahora las nociones fundamentales de convergencia que se usan en probabilidad.

Decimos que una sucesión de variables aleatorias {Yi }i≥1 convergen a Y en probabilidad
si para cada > 0,
P(|Yn − Y| > ) −→ 0, n −→ ∞.
En tal caso escribiremos
Pr
Yn −→ Y.
Decimos además que convergen a Y con probabilidad 1 si existe un conjunto Ω0 ∈ A con
P(Ω0 ) = 1 tal que para cada ω ∈ Ω0 ,
Yn (ω) −→ Y(ω), n −→ ∞.
Escribimos
c.p,1
Yn −→ Y.
En estos casos, el lı́mite es único, módulo variables aleatorias que difieren en un conjunto
de probabilidad cero.
Considerando las funciones de distribución FYn asociadas a la sucesión de variables alea-

torias como antes, decimos que {Yn } converge en distribución o en ley si
lı́m FYn (x) = FY (x),

n→∞
para cada x que es punto de continuidad de FY . Escribimos

L
Yn −→ Y.
16 T
La distribución lı́mite es única.
20 A
Proposición 3.1.12. 1. Sean Xn , n ≥ 1, X variables aleatorias, entonces
c.p,1 Pr L
lio IM
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.
Pr L
2. Si X es variable aleatoria degenerada, entonces Xn −→ X ⇔ Xn −→ X.
Ju -C
c.p,1 Pr c.p,1
3. Si Xn −→ X (Xn −→ X) y g es una función continua, entonces g(Xn ) −→ g(X)
Pr
(g(Xn ) −→ g(X)).
D
Además tenemos el siguiente resultado, el cual es muy usado en probabilidad.

AT
Teorema 3.1.13 (Slutsky). Sean Xn , Yn , Zn , n ≥ 1, X, Y, Z variables aleatorias y a, c

constantes. Si se satisfacen:
L Pr Pr
Xn −→ X, Yn −→ a, y Zn −→ c;
entonces
L
Xn Yn + Zn −→ aX + c.
Enunciamos ahora algunos de los resultados universales de la teorı́a de probabilidad.
Teorema 3.1.14 (Ley Fuerte de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
independientes con la misma distribución, con primer momento EYi = µ. Sea Sn = nj=1 Yj ,
P
entonces
Sn
P lı́m = µ = 1.
n−→∞ n
Esto es, la convergencia es con probabilidad 1. Para el caso de convergencia en probabi-

lidad tenemos lo siguiente.
Teorema 3.1.15 (Ley Débil de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
independientes con la misma distribución, con primer momento EYi = µ y Var(Yi ) = σ 2 <
∞. Entonces
a) Para cada > 0
σ2

Sn
P − µ > ≤ 2 .

n n
Sn Pr
b) n
−→ µ.
16 T
Teorema 3.1.16 (Teorema del Lı́mite Central). Sean {Yi }i≥1 variables aleatorias indepen-
20 A
dientes con la misma distribución, con primer momento EYi = µ y Var(Yi ) = σ 2 < ∞.
Entonces
lio IM
!
√ Snn − µ L
n −→ Z;
σ
Ju -C
donde Z es una variable aleatoria que tiene distribución N(0, 1) con

Z z
1 2 /2
Φ(z) = P(Z ≤ z) = √ e−t dt.
D
2π −∞
AT
En este último resultado la convergencia es sobre la distribución de variables aleatorias.

Además de la ley de grandes números y el teorema del lı́mite central, hay otros resultados
lı́mites universales, como la aproximación de Poisson que se presenta en el Apéndice D.
Por último en esta lista de resultados tenemos el siguiente, el cual nos será de mucha
utilidad.
Teorema 3.1.17 (Método Delta). Sean {Yi }i≥1 variables aleatorias tales que existen µ ∈ R
√ L
y σ 2 > 0 para las cuales n(Yn − µ)/σ −→ Z ∼ N(0, 1). Sea g : R −→ R una función
medible tal que g (1) (µ) 6= 0, entonces
√ g (Yn ) − g(µ)

L
n (1)
−→ Z,
g (µ)σ
con Z ∼ N(0, 1).

3.1.3. Aplicaciones al análisis de datos de altas dimensiones

Consideremos un vector aleatorio
Xd = (X1 , . . . , Xd ),
con variables aleatorias independientes {Xi } con la misma distribución y todos sus momentos
finitos. Dado p ≥ 1 por la LGN
d
1 1X c.p,1
16 T
||Xd ||pp = |Xj |p −→ E|X1 |p = µp . (3.1.1)
d d j=1
20 A
Es decir, con alta probabilidad, para d grande
lio IM
||Xd ||p ' (d)1/p µ1/p
p ,
intuitivamente los números de Betti son cero salvo los casos β0 y βd−1 que son iguales a 1,
Ju -C
para cualquier p ≥ 1.
Por el TLC con σp2 = Var(|X|p ) tenemos que cuando d → ∞
D
||Xd ||pp
 
√ d
− µp L
 d  −→ Z ∼ N(0, 1).
σp
AT
Más aún, por el Método Delta con g(x) = x1/p obtenemos:

 ||X || 1/p

d p
√ 1/p − µp
 d d 1/p−1 L
 −→ Z ∼ N(0, 1).
µp
p
σ p
En consecuencia,
1 1/p−1
||Xd ||p ' d1/p µ1/p
p + µp σp d1/p−1/2 Z.
p
Esto es, la norma del vector tiene un ruido que se distribuye como N(0, kp2 d2/p−1 ). Ası́ pode-
mos observar que para el caso p = 2 el ruido no depende de d y si sucede que p es muy grande,
entonces este ruido tiene varianza pequeña. En general, la dimensión d es muy grande.
Observación 3.1.18. La independencia de variables aleatorias no es algo particular del

fenómeno anterior. Sean X1 , . . . , Xd eigenvectores de una matriz aleatoria Wd del Ensamble
Gaussiano Ortogonal (GOE), ver Sección 4.1.2. Estas variables aleatorias son “fuertemente
dependientes” y se tiene con una “convergencia rápida” lo siguiente
00
||Xd ||p ' d1/p+1/2 kp0 + kp d1/p−1/2 Z.
La prueba no trivial de este hecho se basa en el Teorema de Wigner o Ley de Semicı́rculo

-resultado pionero en la Teorı́a de Matrices Aleatorias (ver [3])- y el estudio de fluctuaciones
alrededor de la ley del semicı́rculo (ver por ejemplo [111]).
16 T
20 A
3.2. Construcción de medidas y variables aleatorias
lio IM
3.2.1. Construcción de medidas y aplicaciones a probabilidad
El objetivo de esta sección es dar los elementos necesarios de medida e integral de Lebes-
Ju -C
gue para la construcción de medidas en espacios métricos.

Decimos que (X, A) es un espacio medible, si A es una σ–álgebra de X. En general, dada
una colección C ⊂ X, una función
D
µ : C −→ [0, ∞]
AT
S
es σ–aditiva si siempre que Ai ∈ C, Ai ∩ Aj = ∅ y Ai ∈ C entonces,
∞
! ∞
[ X
µ Ai = µ(Ai ).
i=1 i=1
Definición 3.2.1. Una medida en A es una función σ–aditiva en A tal que µ(∅) = 0. La
terna (X, A, µ) se llama un espacio de medida.
Decimos que una medida µ es finita si
µ(A) < ∞, A ∈ A.
S
Además, µ es σ–finita en C si existe una sucesión {An } de C tal que X = An y µ(An ) < ∞.
El primer ejemplo de una medida es considerar µ como el número de elementos de un
conjunto X. La cual es una medida que no es finita si la cardinalidad de X no es finita y es
σ–finita si y sólo si X es numerable.
Dado un espacio de medida (X, A, µ), un conjunto A ∈ A es un átomo si
3.2. Construcción de medidas y variables aleatorias 87
(i) µ (A) > 0, y
(ii) si B ⊂ A, y µ (B) < µ (A), entonces µ (B) = 0.
Dado un espacio de medida (X, A, µ), decimos que µ es una medida no atómica si no
tiene átomos.
En particular si µ es una medida no atómica, µ ({i}) = 0, ∀ {i} ∈ A.
Consideremos el espacio de medida dado por X = {1, . . . , n}, A =2X y µ = # (A).
Entonces µ tiene átomos en {1} , . . . , {n}.
16 T
Definición 3.2.2. Una colección S de subconjuntos de X es una semi–álgebra si se satis-
facen:
1. ∅ ∈ S,
20 A
lio IM
2. S es cerrada bajo intersecciones finitas,
3. si A ∈ S, entonces existen A1 , . . . , Ak ∈ S tales que

Ju -C
k
X
c
A = Aj , Ai ∩ Aj = ∅;
D
j=1
P
donde la notación Aj indica la unión disjunta o ajena de los Aj .
AT
Definición 3.2.3. Una colección A0 de subconjuntos de X es un álgebra si se satisfacen:
1. X ∈ A0 ,
2. A ∈ A0 implica que Ac ∈ A0 y
3. A, B ∈ A0 implica que A ∪ B ∈ A0 .
En general, dada una semi–álgebra S, la colección de todas las uniones finitas ajenas de
elementos en S es un álgebra A0 (S).
Ejemplo 3.2.4. Si X es igual a R, el conjunto
S(R) = {∅, (a, b], (b, ∞) : −∞ ≤ a < b < ∞},
es una semi–álgebra. Observe que a cualquier subconjunto en S(R) le podemos medir una
longitud λ y además S no es un álgebra.
Pk
Para A ∈ S(R), A = j=1 Aj , Ai ∩ Aj = ∅, la longitud de A se define como
k
X
λ(A) = λ(Aj ).
j=1
La cual está bien definida y para cualesquiera A, B ∈ A0 (S) ajenos
λ(A ∪ B) = λ(A) + λ(B).
16 T
En particular, la σ–álgebra generada por S(R) es igual a la σ–álgebra de Borel B(R)
Ejemplo 3.2.5. Sean (X1 , A1 ) y (X2 , A2 ) dos espacios medibles, el conjunto
20 A
S 2 = {A1 × A2 : A1 ∈ A1 , A2 ∈ A2 }
lio IM
es una semi–álgebra de X1 × X2 . Si X1 = X2 = R y A1 = A2 = B(R), se tiene que
σ(S 2 ) = B(R2 ).
Ju -C
Este ejemplo se puede generalizar para cualquier producto finito de espacios medibles.
Sean µ1 y µ2 dos medidas en (R, B(R)), para A = A1 × A2 con A1 , A2 en B(R), definimos
D
la medida producto
µ1 × µ2 (A) = µ1 (A1 )µ2 (A2 ).
AT
Tenemos el siguiente resultado importante el cual usaremos varias veces.

Teorema 3.2.6 (Teorema de Extensión). Sea µ una función σ–aditiva en un álgebra A0 ,
con µ(∅) = 0. Entonces, µ se extiende a una medida µ en σ(A0 ). Si además, µ es σ–finita
en A0 , la extensión es única.
En general, probar la σ–aditividad de µ en el álgebra A0 es el paso difı́cil y puede depender
de la topologı́a de X.
Definición 3.2.7. Una colección C de subconjuntos de X es un Π–sistema si ∅ ∈ C y dados
cualesquiera A, B ∈ C, A ∩ B ∈ C.
Para probar la igualdad de medidas basta verificar que son iguales en un Π–sistema.
Teorema 3.2.8 (Unicidad). Sean µ1 y µ2 dos medidas σ–finitas en (X, A) y C un Π–sistema
de X tal que σ(C) = A. Si para cada A ∈ C, µ1 (A) = µ2 (A); entonces µ1 ≡ µ2 .
Una aplicación del Teorema de Extensión es la construcción de medidas en (R, B(R)).
Teorema 3.2.9 (Lebesgue–Stieltjes). Sea F : R −→ R no decreciente continua por la

derecha. Entonces, existe una única medida µF en (R, B(R)) tal que
µF ((a, b]) = F (b) − F (a).
Este teorema puede ser demostrado usando el siguiente resultado.

Lema 3.2.10. Si µ es aditiva en A0 , µ(∅) = 0, An ↓ A, µ(An ) < ∞ y
µ(A) = lı́m µ(An );

n→∞
16 T
entonces, µ es σ–aditiva.
20 A
Tenemos varios ejemplos de medidas que se construyen de esta forma:
lio IM
1. La medida de Lebesgue λ en R está asociada a F (x) = x. En este caso, para cualquier
intervalo I ⊂ R, λ(I) es igual a la longitud de dicho intervalo I. De hecho, basta
observar como se define esta medida en subconjuntos de la forma (a, b] con a < b ∈ R:
Ju -C
λ((a, b]) = b − a.
Observemos algunos casos básicos: Para cualquier a ∈ R y n ∈ N sea An = (a − n1 , a],

D
entonces λ(An ) = n1 y An ↓ {a}. Concluimos que

AT
1
λ(An ) −→ λ({a}) ⇒ −→ 0,
n
es decir, λ({a}) = 0. Más aún, por la σ–aditividad de la medida, si A ∈ B(R) es
numerable, λ(A) = 0. Además tenemos que
λ([a, b]) = λ({a} ∪ (a, b]) = λ({a}) + λ((a, b]) = b − a
y
λ((a, b]) = λ((a, b) ∪ {b}) = λ(a, b) + λ({b}) ⇒ λ((a, b)) = b − a.
2. Dada una función de distribución F , existe una única medida de probabilidad P en

(R, B(R)) tal que
P((a, b]) = F (b) − F (a).
Particularmente, existe una medida N en R tal que
Z b
1 2
N((a, b]) = e−x /2 dx.
2π a
O bien, consideramos la función de distribución

Z x
1 2
F (x) = √ e−u /2 du, x ∈ R.
−∞ 2π
Esta medida se llama la medida de probabilidad
√ normal estándar en R como vimos
2
antes. Observemos que F 0 (x) = e−x /2 / 2π, ∀x ∈ R.
3. Dados −∞ < a < b < ∞ y σ([a, b]) = B(R) ∩ [a, b] se define la distribución uniforme
(continua) en [a, b] como la probabilidad
16 T
λ(A)
20 A
P(A) = , A ∈ σ([a, b]).
b−a
lio IM
En este caso Z x
F (x) = f (u)du, x∈R
−∞
Ju -C
con
1

b−a
, x ∈ (a, b);
f (x) =
0, x∈/ (a, b).
D
AT
3.2.2. Existencia de variables aleatorias independientes

Veamos como a partir del Teorema de Extensión podemos construir medidas en productos
cartesianos y probar la existencia de variables aleatorias independientes con distribuciones
dadas.
Teorema 3.2.11 (Kolmogorov). Dada una función de distribución F , existe un espacio de

probabilidad (Ω, A, P) y una variable aleatoria Y : Ω −→ R en (R, B(R)) tal que Y tiene
función de distribución F .
Demostración. Consideramos Ω = R, A = B(R) y P = µF , además la variable aleatoria

Y : Ω −→ R, definida como la identidad Y(w) = w. En este caso, µF ((−∞, x]) = F (x).
Otra aplicación del Teorema de Extensión es la siguiente.
Teorema 3.2.12 (Medida Producto). Sean (Xi , Ai , µi ), i = 1, ..., d espacios de medida σ-

finita.
(a) La colección de conjuntos
S d = A1 × · · · × Ad = {A1 × A2 × · · · × Ad : Ai ∈ Ai , i = 1, ..., d}
es una semi–álgebra de X1 × · · · × Xd . σ(S d ) se conoce como la σ-álgebra producto y se

denota por A1 ⊗ · · · ⊗ Ad .
(b) Existe una única medida σ-finita µ1 × · · · × µd en A1 ⊗ · · · ⊗ Ad tal que
16 T
µ1 × · · · × µd (A1 × A2 × · · · × Ad ) = µ1 (A1 ) · · · µd (Ad ).
20 A
Con el teorema anterior se prueba la existencia de variables aleatorias independientes
lio IM
con distribuciones dadas. Recordamos que un espacio métrico se dice polaco si es un espa-
cio separable y completo; remitimos al lector al Apéndice B para mayor información sobre
medidas en espacios métricos polacos.
Ju -C
Teorema 3.2.13 (Existencia de variables aleatorias independientes). Sean µ1 , ..., µd medidas

de probabilidad en un espacio métrico polaco X con B(X) la σ–álgebra de Borel. Existen un
espacio de probabilidad (Ω, A,P) y variables aleatorias independientes X1 , ..., Xd con valores
D
en X tales que Xi tiene distribución µi.

AT
Demostración. Idea: Tomemos Ω = X × · · · × X, A = B(X) × · · · × B(X), P =µ1 × · · · × µd

y para w = (w1 , ..., wd ) ∈ Ω, Xi (w) = wi , i = 1, ..., d.
En particular obtenemos el siguiente resultado, el cual es un teorema de Kolmogorov

3.2.11 más general para la existencia de un elemento aleatorio con una distribución dada en
un espacio topológico.
Proposición 3.2.14. Dada una medida de probabilidad µ en un espacio métrico polaco X

con B(X) la σ–álgebra de Borel, existe un espacio de probabilidad (Ω, A,P) y una variable
aleatoria X con valores en X tal que X tiene distribución µ.
3.2.3. Distribución conjunta y condicional de variables aleatorias

En general, no necesariamente en el caso de independencia, hablamos de distribuciones
conjuntas en el siguiente sentido.
Definición 3.2.15. Sean X1 , ..., Xd variables aleatorias en un espacio de probabilidad (Ω, A,P)
y con valores espacio métrico separable X y sea X = (X1 , ..., Xd ).
La distribución de X como elemento en Xd = X × · · · × X se llama la distribución
conjunta de las variables aleatorias X1 , ..., Xd y es la probabilidad en (Xd , B(Xd )) dada por
d
!
\ −1
PX (A1 × A2 × · · · × Ad ) = P Xi (Ai ) , Ai ∈ B(X), i = 1, ..., d.
i=1
Las distribuciones PXi de Xi se conocen como distribuciones marginales y se obtienen
16 T
de la siguiente manera
20 A
PXi (Ai ) = PX (X × · · · × X × Ai × X · · · ×X), Ai ∈ B(X).
lio IM
Una distribución conjunta no está definida por sus distribuciones marginales, a menos
que se tengan variables aleatorias independientes. Existen distribuciones conjuntas con las
mismas marginales.
Si X1 , ..., Xd son independientes
Ju -C
d
Y
P X−1

PX (A1 × A2 × · · · × Ad ) = i (Ai ) , Ai ∈ B(X), i = 1, ..., d.
D
i=1
Dadas dos variables aleatorias X e Y en X en con distribución conjunta PX,Y en (X2 , B(X2 ))
AT
parece intuitivo definir la distribución condicional PX|Y de X dado Y como la medida en

(X, B(X)) dada por
PX,Y ((A × X) ∩ (X × B)) P(A ∩ B)

PX|Y (A |B ) = =
PY (B) PY (B)
para A, B ∈ B(X), con PY (B) > 0.

Observación 3.2.16. (a) La definición precisa de probabilidad no es trivial y se estudia en
cursos de probabilidad avanzada, ver por ejemplo [6, Capı́tulo 12] o [125, Capı́tulo 9] .
(b) En particular, es posible dar un significado preciso a la expresión P(X ∈ A |Y = y ) a

pesar de que Y sea una variable aleatoria continua, es decir P(Y = y) = 0.
En el caso X = R se tiene que la distribución conjunta de X1 , ..., Xd es
d
!
\
PX ((−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xd ]) = P {Xi ≤ xi } , ∀xi ∈ R, i = 1, ..., d.
i=1
3.3. Probabilidad en variedades I: 93
y la función FX : Rd → [0, 1] definida por
FX (x1 , ..., xd ) = PX ((−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xd ]), ∀xi ∈ R, i = 1, ..., d.
se llama la función de distribución conjunta de X1 , ..., Xd .

Si X1 , ..., Xd son independientes
FX (x1 , ..., xd ) = FX1 (x1 ) · · · FXd (xd ), ∀xi ∈ R, i = 1, ..., d.
Veremos más adelante ejemplo de distribuciones conjuntas cuando las variables aleatorias
16 T
no son independientes.
Cuando X e Y son distribuciones discretas
20 A P(X = x |Y = y ) =
P(X = x, Y = y)
lio IM
P(Y = y)
si P(Y = y) > 0. El caso de distribuciones continuas se presenta más adelante.

Ju -C
3.3. Probabilidad en variedades I:

D
En este sección queremos comenzar a dar sentido a la siguiente expresión muy usada en
AT
la literatura actual de ATD: Consideremos una variable aleatoria del tipo
X = M + σZ,
donde M es una variable aleatoria con distribución uniforme en una variedad, Z es un vector
aleatorio con distribución normal multivariada N(0, Id ) y σ > 0 es una constante.
3.3.1. Sobre la distribución uniforme en probabilidad

En la literatura el uso de probabilidad uniforme se usa en varios sentidos. Nos hemos
encontrado ya con la distribución uniforme discreta en el Ejemplo 3.1.9 y la distribución
uniforme continua en un intervalo [a, b] en el último ejemplo de la Sección 3.2.1. Este último
ejemplo se puede generalizar a probabilidad uniforme en un conjunto compacto de Rd , en
donde conjuntos con la misma superficie, área o volumen y su generalización a dimensiones
mayores tienen la misma probabilidad, como veremos en la Sección 3.3.3.
En el caso de medidas en variedades, distribución uniforme se refiere a una medida
particular de la variedad, conocida como medida geométrica. Esta concepto es el análogo k
dimensional de las medidas de longitud en una curva de R2 o R3 y al área de una superficie

de dimensión dos en R3 y se presenta en la Sección 3.6.2.
En la teorı́a de distribuciones de probabilidad para vectores aleatorios o más generalmente
matrices aleatorias, distribución uniforme se refiere a la probabilidad que es invariante bajo
transformaciones ortogonales (o unitarias) por la izquierda en la llamada variedad de Stiefel
Ldp : Sea Rd×p el espacio vectorial de las matrices d × p con entradas reales con norma dada
por
1
kSk2 := Tr(S > S), S ∈ Rd×p ,
d
16 T
entonces
Ldp = T ∈ Rd×p ; T > T = Id .

20 A
Observemos que Sd−1 = Ld1 .
Dada una medida µ en (Rq , B(Rq )), decimos que µ es invariante bajo transformaciones
lio IM
ortogonales por la izquierda si para todo A ∈ B(Rq ), se tiene que µ(OA) = µ(A) para
cualquier matriz ortogonal O(q), con OA = {Ox : x ∈ A}. Recomendamos el libro de Eaton
[45] para este tema.
Ju -C
En el estudio de grupos compactos, la distribución uniforme es la medida de Haar, la

cual es la única medida invariante bajo acciones del grupo por la derecha y por la izquierda.
Recomendamos la Tesis de Sandra Palau [106] para este tema la cual incluye numerosas
D
referencias clásicas.
Finalmente, el tema de la próxima sección y de la Sección 3.6.3 es la medida uniforme-
AT
mente distribuida en espacios métricos y algunos subconjuntos compactos, la cual se refiere

a una propiedad de invarianza de la medida en bolas del mismo radio. Es importante señalar
que este concepto está relacionado con una propiedad de la métrica del espacio ambiente y
no a la métrica de la superficie o variedad.
En el caso de variedades suaves, como la esfera Sd y el toro Td , las distribuciones uniformes
correspondientes coinciden, como se verá en la Sección 3.3.5. Esto permite elegir la construc-
ción conveniente según el enfoque de interés, lo cual es útil especialmente en el aspecto de
simulación de variables aleatorias con distribución uniforme, ası́ como con distribuciones
alternativas como se verá en el Capı́tulo 4.
Definición 3.3.1. Sea µ una medida en un espacio métrico (X, ρ). Sea K ∈ B(X) tal que
0 < µ(K) < ∞ y sea B(K) = B(X) ∩ K. Entonces la medida de probabilidad µ en B(K)
definida por
µ(A)
µ(A) = , A ∈ B(K),
µ(K)
es µ-uniforme, es decir µ(A) = µ(B) si y sólo si µ(A) = µ(B). Usualmente K se toma
compacto y µ una medida de Radon en el sentido del Apéndice B.
3.3.2. Medida uniformemente distribuida

A lo largo de esta sección vamos a considerar medidas sobre un espacio métrico polaco
X con σ-álgebra de Borel B(X) y métrica
ρ : X × X −→ [0, ∞).
Se dice que una medida µ en (X, B(X)) es de Radon si cumple con las siguientes dos
propiedades:
16 T
1. µ es de Borel, para cada x ∈ X existe 0 < r < ∞ tal que µ(Br (x)) < ∞,
20 A
2. µ es regular interior: para cada A ∈ B(X)
lio IM
µ(A) = sup {µ(K) : K ⊂ A, K compacto} .
Para mayor información sobre medidas en espacios métricos polacos, remitimos al lector
al Apéndice B de estas notas.
Ju -C
Cualquier medida de probabilidad en (X, B(X)) es una medida de Radon. Las medidas
de Lebesgue-Stieltjes en (R, B(R)) son de Radon.
Dada una medida de Radon µ en (X, B(X)) se define el soporte de µ como
D
\
supp(µ) = C,
AT
µ(C c )=0
donde la intersección se toma sobre los conjuntos cerrados C. Observe que esto está bien
definido pues el conjunto X es cerrado y su complemento, el conjunto vacı́o, tiene medida
cero.
Definición 3.3.2. Decimos que una medida de Radon µ en (X, B(X)) es uniformemente
distribuida si
µ(Br (x)) = µ(Br (y)), ∀x, y ∈ supp(µ), 0 < r < ∞, (3.3.1)
donde
Br (x) = {y ∈ X : ρ(x, y) < r}.
Teorema 3.3.3 (Christensen). Si µ1 y µ2 son medidas de Radon uniformemente distribuidas

en (X, B(X)) con (X, ρ), entonces existe 0 < c < ∞ tal que
µ1 = cµ2 .
Observación 3.3.4. (a) Una probabilidad uniformemente distribuida en un espacio métrico

es única.
(b) La existencia de un elemento aleatorio X con valores en X está garantizada por la Propo-
sición 3.2.14. Diremos que X tiene probabilidad uniformemente distribuida en el espacio
métrico X.
(c) La probabilidad uniformemente distribuida está ligada a la métrica ρ del espacio ambien-
te.
16 T
El siguiente resultado será usado frecuentemente.
20 A
Teorema 3.3.5. Sean X1 y X2 dos espacios métricos polacos con σ-álgebras de Borel B(X1 )
y B(X2 ). Sean µ1 y µ2 medidas de Radon en (X1 , B(X1 )) y (X2 , B(X2 )) respectivamente.
lio IM
Entonces, la medida producto µ1 ×µ2 es uniformemente distribuida en X1 ×X2 con la topologı́a
producto si y sólo si, las marginales µ1 y µ2 son medidas uniformemente distribuidas en X1
y X2 , respectivamente, en cuyo caso supp(µ1 × µ2 ) = supp(µ1 ) × supp(µ2 ).
Ju -C
Ejemplos de medidas uniformemente distribuidas son la medida de Lebesgue y la medida

de Hausdorff, las cuales estudiaremos más adelante. Otro ejemplo es la medida de conteo.
D
Ejemplo 3.3.6 (Medida de conteo). Sean X = R con la métrica usual y H un subconjunto

finito o numerable de X, usualmente H = N ∪ {0} o H = Z. Se define la medida de conteo c
AT
en B(R) como
c(A) = #(A ∩ H), A ∈ B(R).
Esta medida es finita solamente cuando H es finito, de otra forma es σ-finita. Se tiene que
c es medida uniformemente distribuida en R si supp(c) = Z pero no si supp(c) = N.
Observación 3.3.7. (i) En la Proposición 3.6.4 (c), se describen los posibles soportes de
medidas uniformemente distribuidas en R.
(ii) La medida de Lebesgue en R es uniformemente distribuida.

Ejemplo 3.3.8. Usando el Teorema 3.3.5 se tiene que la medida producto ck también esta
uniformemente distribuida en B(Rk ) con soporte Zk .
Observación 3.3.9. Si µ es una medida de Radon uniformemente distribuida, la distribu-
ción µ en la Definición 3.3.1 no es medida uniformemente distribuida cuando K es compacto.
Sólo las bolas de radio r que se encuentren en el interior de K tendrán la misma medida
µ, pero para algún 0 < r < ∞ habrá bolas con centro en el interior de K que no estén
totalmente contenidas en K y por lo tanto (3.3.1) no se cumple necesariamente.
En la Sección 3.6.3 volvemos al tema de medidas uniformes en Rd .

En lo que sigue vamos a considerar medidas en subespacios (X, B(X)) de (Rd , B(Rd )) con
B(X) = σ(X ∩ B(Rd )) = X ∩ B(Rd ). En particular, explicitaremos los casos de la esfera,
el toro y productos cartesianos finitos de cı́rculos. Notar que por el Teorema 3.3.5, basta
construir medidas para el cı́rculo S1 para obtener medidas en el toro T2 = S1 × S1 cuando
se considera como elemento en R4 .
Ahora construiremos la medida uniformemente distribuida en varios espacios métricos
y en el caso de una probabilidad uniformemente distribuida veremos como se realiza la
correspondiente variable aleatoria. Esto último es importante cuando se desean hacer estudios
16 T
de simulación.
3.3.3.
20 A
Medida de Lebesgue en Rd y distribución uniforme en sub-
lio IM
conjuntos
Consideramos la medida de Lebesgue λd en (Rd , B(Rd )); esto es, λd es la medida producto
en (Rd , B(Rd )) que corresponde a F (x) = x (en el Teorema de construcción de medidas de
Ju -C
Lebesgue-Stieltjes 3.2.9) y es tal que
λd (A1 × · · · × Ad ) = λ(A1 ) × · · · × λ(Ad ),

D
para cada Aj ∈ B(R), donde λ es la medida de Lebesgue en (R, B(R)).

AT
Esta medida es de gran importancia, enunciaremos algunas de sus propiedades (ver por
ejemplo el libro de Jones [71]):
1. λd (A) > 0 si A es un conjunto abierto no vacı́o de Rd .

2. λd no es medida finita, pero es σ–finita. Además, si E ∈ B(Rd ) y 0 < λd (E) < ∞,
entonces
λd (A)
m(A) = d , A ∈ B(E) = E ∩ B(Rd )
λ (E)
es una medida de probabilidad en (E, B(E)), la cual es λd −uniforme en el sentido de
la Definición 3.3.1.
3. λd es la única medida, módulo multiplicación por una constante positiva, en (Rd , B(Rd ))
tal que es invariante bajo traslaciones, i.e.
λd (A + x) = λd (A), x ∈ Rd , A ∈ B(Rd ).
4. λd es una medida de Radon uniformemente distribuida.

5. Sea T una matriz d × d con entradas reales y no singular. Entonces
λd (T A) = | det(T )|λd (A),
con T A = {T x : x ∈ A}.
De esta última propiedad se obtiene de manera inmediata que para cada r > 0,
λd (rA) = rd λd (A)
16 T
donde rA = {rx : x ∈ A}. Además para cualquier matriz ortogonal O ∈ O(d),
20 A
λd (OA) = λd (A);
lio IM
esto es, λd es invariante bajo transformaciones ortogonales por la izquierda.
Observación 3.3.10. De las propiedades anteriores de la medida de Lebesgue se tiene que

si consideramos el disco
Ju -C
( d
)
X
Dd = (x1 , . . . , xd ) ∈ Rd : x2j ≤ 1
D
j=1
entonces
AT
λd (A)
md (A) = , A ∈ B(Dd ) = Dd ∩ B(Rd ) (3.3.2)
λd (Dd )
define una probabilidad “uniforme de volumen” en el disco (Dd , B(Dd )), pero no en el
sentido de la Definición 3.3.2. De esta forma, la medida de un conjunto A ∈ B(Dd ) en este
disco es el “volumen” normalizado del conjunto.
Se cumple que
π d/2
λd (Dd ) = λd (B1 (x)) = .
Γ(d/2 + 1)
En general, para cualquier radio r > 0 se tiene que λd (Br (x)) = π d/2 rd /Γ(d/2 + 1). Esta
distribución es uniforme en el disco, en el sentido de que conjuntos del mismo volumen tienen
la misma probabilidad. Observemos la diferencia entre probabilidad uniformemente
distribuida y probabilidad uniforme de volumen.
El vector aleatorio Xd = (X1 , . . . , Xd ) con esta distribución es tal que las variables alea-
torias X1 , . . . , Xd no son independientes.
3.3.4. Medida normal estándar en un espacio euclidiano

Sea F la función de distribución normal estándar y µF su medida en (R, B(R)). Entonces,
µdF es una probabilidad en (Rd , B(Rd )) dada por la medida producto
µdF = µF × · · · × µF .
| {z }
d
Un vector Xd = (X1 , . . . , Xd ) con distribución µdF se dice vector gaussiano con distribución
normal multivariada N(0, Id ). Se tiene que X1 , . . . , Xd son variables aleatorias independientes
16 T
cada una con distribución normal F . Tal vector aleatorio existe por el Teorema 3.2.13.
Veremos más propiedades de esta medida más adelante en la Sección 3.5.4, como el hecho
20 A
que N(0, Id ) también es invariante bajo transformaciones ortogonales por la izquierda.
lio IM
3.3.5. Probabilidad uniformemente distribuida en esferas
Construcción usando la medida de Lebesgue
Ju -C
Existen varias construcciones de medida de probabilidad uniforme en la esfera

( d
)
D
X
Sd−1 = (x1 , . . . , xd ) ∈ Rd : x2j = 1 .
j=1
AT
A continuación describiremos una construcción que es parte del folklore en la literatura,

a partir de la medida de Lebesgue en Rd . Observemos que λd (Sd−1 ) = 0 lo cual lo hace un
problema no trivial.
También veremos como se realiza un vector aleatorio R = (R1 , . . . , Rd ) en Sd−1 con esa
distribución. La existencia de este vector es dado por la Proposición 3.2.14, pero estamos
interesados en saber más acerca de este vector aleatorio, principalmente con fines de simu-
lación.
Para fines de motivación, en el caso de S0 = {−1, 1} podemos definir una medida de
probabilidad en {−1, 1} usando la medida de Lebesgue en R como sigue, sea
ω : B(S0 ) −→ [0, 1]
definida por
λ((0, 1]) 1 λ((−1, 0]) 1
ω({1}) = = , ω({−1}) = = .
λ[−1, 1] 2 λ[−1, 1] 2
Esta distribución se conoce como distribución Bernoulli simétrica en {−1, 1} , también lla-
mada de Rademacher.
También observemos que si µ es la medida normal estándar en R, debido a la simetrı́a

de la densidad normal alrededor de cero se tiene
µ((0, 1]) 1 µ((−1, 0]) 1
ω({1}) = = , ω({−1}) = = .
µ((−1, 1]) 2 µ((−1, 1]) 2
En forma más general, si µ es una medida en (R, B(R)) , tal que µ((0, 1]) = µ((−1, 0]),
podemos definir la distribución Bernoulli simétrica como en la ultima expresión.
La forma de realizar la distribución Bernoulli, o sea una variable aleatoria R con distri-
bución ω es como sigue: Sea X una variable aleatoria con distribución normal estándar (la
cual toma el valor cero con probabilidad cero), entonces la variable R = X/ |X| tiene dis-
16 T
tribución ω. El mismo resultado se obtiene si se considera otra variable aleatoria que toma
20 A
el valor cero con probabilidad cero y tiene distribución simétrica, es decir X y −X tienen
la misma distribución. Sin embargo, debido a un Teorema de Poincaré que enunciaremos a
lio IM
continuación, es conveniente considerar el usar variables aleatorias normales como punto de
partida para realizar la probabilidad uniformemente distribuida en una esfera.
En general, dada Sd−1 y la σ–álgebra de Borel asociada B(Sd−1 ) = Sd−1 ∩ BRd ), para
A ∈ B(Sd−1 ) definimos
Ju -C
Ă = {tx : 0 < t ≤ 1, x ∈ A} ∈ B(Rd )

y
λd (Ă)
D
ωd (A) = .
λd (B1 (0))
AT
Entonces, ωd es una medida de probabilidad en (Sd−1 , B(Sd−1 )) que está uniformemente dis-
tribuida con soporte Sd−1 y para cualquier abierto no vacı́o A en Sd−1 , ωd (A) > 0. Además,
ωd es invariante bajo transformaciones ortogonales por la izquierda. Estas últimas propie-
dades se obtienen fácilmente de las correspondientes propiedades de la medida de Lebesgue
λd .
Esta probabilidad coincide con la medida de probabilidad de volumen de la esfera, la cual
se explica en la Sección 3.6. Esto se sigue del hecho de que la distancia euclidiana entre dos
elementos de Sd−1 es proporcional a la distancia geodésica entre esos puntos.
Observación 3.3.11. De las consideraciones anteriores tenemos que la distribución uni-
formemente distribuida en Sd−1 es la distribución uniforme de “volumen”, y uniforme en
el sentido de invariante bajo transformaciones ortogonales por la izquierda. La llamaremos
simplemente distribución uniforme en la esfera Sd−1 .
Vectores aleatorios con probabilidad uniformemente distribuida en la esfera

Teorema 3.3.12. Existe una variable aleatoria con valores en Sd−1 que tiene distribución
ωd .
Demostración. Similar a la Proposición 3.2.14: Consideramos el espacio ambiente

Ω = Sd−1 , la σ–álgebra A = B(Sd−1 ), la medida de probabilidad P ≡ ωd y la variable aleatoria
X : Ω −→ Sd−1 , dada por X(x) = x.
Tenemos el siguiente resultado importante. La convergencia en distribución (3.3.3) se

refiere a convergencia de distribuciones en Rk , en el sentido de la Definición B.1.17 en el
Apéndice B.
Teorema 3.3.13 (Poincaré). Sean R = (R1 , . . . , Rd ) una variable aleatoria en Sd−1 con
16 T
probabilidad uniforme ωd y d1 , d2 con 1 ≤ d1 ≤ d2 fijos. Entonces
√ L
20 A
d(Rd1 , . . . , Rd2 ) −→ N(0, Id2 −d1 +1 ), (3.3.3)
cuando d → ∞. Es decir, Rd1 , . . . , Rd2 son asintóticamente independientes y con distribución
lio IM
normal estándar. En particular, para cada i = 1, 2, ..., fijo, cuando d → ∞ se tiene
√ L
dRi −→ N(0, 1). (3.3.4)
Ju -C
La historia de este resultado, su demostración, aplicaciones en distintos ámbitos y la

razón de no atribuirlo a Poincaré pueden consultarse en el artı́culo de Diaconis y Freedman
[42]. Ver también el libro clásico de Kac [74] y las aplicaciones a la fı́sica que presenta.
D
Como consecuencia importante, la probabilidad uniforme en Sd−1 puede ser realizada de

manera “canónica” como sigue, lo cual es un resultado útil para simular variables aleatorias
AT
con distribución uniforme en la esfera Sd−1 . Podemos pensar también a este resultado como
un ejemplo de construcción de distribuciones en variedades (en este caso Sd−1 ) a partir de la
distribución inducida por una variable aleatoria en el espacio ambiente Rd .
Proposición 3.3.14. Si X1 , . . . , Xd son variables aleatorias independientes con distribución
normal estándar N(0, 1) y Xd = (X1 , . . . , Xd ), entonces la variable aleatoria

X1 Xd
R= ,..., (3.3.5)
||Xd || ||Xd ||
tiene distribución uniforme en Sd−1 . Además, la variable aleatoria ||Xd || y el vector aleatorio
R son independientes.
El resultado anterior es un caso particular de un resultado más general en Eaton [45]
página 237, el cual a su vez es un caso particular de un resultado para matrices aleatorias,
también en [45], Proposición 7.3. Se dice que la distribución de un vector aleatorio Xd es
invariante bajo transformaciones ortogonales por la izquierda si OXd y Xd tienen la misma
distribución para cualquier matriz ortogonal O ∈ O(d). (Abusando de notación, cuando
hagamos esta multiplicación pensamos a los vectores, como vectores columna).
Proposición 3.3.15. Si Xd = (X1 , . . . , Xd ) es un vector con distribución invariante bajo

transformaciones ortogonales por la izquierda. Entonces
(i) El vector aleatorio R dado por (3.3.5) tiene distribución uniforme en Sd−1 ,
(ii) La variable aleatoria ||Xd || y el vector aleatorio R son independientes.
(iii) E(R) = 0 y E(R> R) = d1 Id , pero las variables aleatorias (R1 , . . . , Rd ) no son indepen-
dientes.
16 T
Más aún, cuando las variables aleatorias X1 , . . . , Xd son independientes, estas deben tener
20 A
necesariamente una distribución normal estándar para que R tenga probabilidad uniforme-
mente distribuida. Esto lo probaremos de la siguiente manera usando el Teorema de Poincaré,
lio IM
el Teorema de Slutsky y la Ley de Grandes Números (3.1.1).
Proposición 3.3.16. Si existen variables aleatorias independientes X1 , . . . , Xd de tal for-

Ju -C
ma que la variable aleatoria R = (R1 , . . . , Rd ) definida como en (3.3.5) tiene distribución

uniforme en Sd−1 , entonces necesariamente las variables Xi deben tener distribución normal
estándar.
D
Demostración. Por la LGN (3.1.1) con p = 2 tenemos

AT
d
1 1X Pr
||Xd ||2 = |Xj |2 −→ E|X1 |2 = 1
d d j=1
√ Pr
y por lo tanto, usando la Proposición 3.1.12(c), d/||Xd || −→ 1. Finalmente, por el Teorema
de Slutsky, para i = 1, 2, ..., fijo
√
√ d L
dRi = Xi −→ Xi cuando d → ∞.
||Xd ||
Usando 3.3.4 en el Teorema de Poincaré y la unicidad del lı́mite se concluye que Xi tiene
distribución normal N(0, 1).
Más adelante en la Sección 4 retomaremos la idea de construir variables aleatorias en la

esfera Sd−1 usando (3.3.5) a partir de un vector aleatorio arbitrario Xd = (X1 , . . . , Xd ) en
Rd .
Las distribuciones marginales

Si R = (R1 , . . . , Rd ) es una vector aleatorio con distribución uniforme en Sd−1 , las dis-
tribuciones marginales de R (las distribuciones de Ri ) se conocen como distribuciones
ultraesféricas. Estas dependen de la dimensión d como sigue:
1. Para d = 1, R1 se distribuye como una Bernoulli en {−1, 1}.
2. Para d = 2, Ri se distribuyen como una distribución arcoseno en (−1, 1).
16 T
3. Para d = 3, Ri se distribuyen de manera uniforme en (−1, 1).
20 A
4. Para d = 4, Ri se distribuyen como una distribución semicı́rculo en (−1, 1).
En general, para d ≥ 2, la distribución de Ri está dada por la densidad
lio IM
fd (x) = cd (1 − x2 )(d−3)/2 1(−1,1) (x).
Ju -C
donde cd es una constante normalizadora de tal forma que fd integra uno en (−1, 1).
El material de esta sección se puede ver, por ejemplo, en el libro de Kac [74] y el artı́culo
D
de Kingman [82], los cuales no ofrecen mayores detalles. El cálculo de esas distribuciones
marginales utiliza encontrar densidades de transformaciones multivariadas, los cuales son
cálculos directos que requieren trabajo.
AT
3.3.6. Otras medidas en la esfera y el toro

La idea de la construcción de la distribución uniforme en Sd−1 puede generalizarse a
la construcción de otras medidas en Sd−1 a partir de una medida de probabilidad µ en
(Rd , B(Rd )) diferente a la medida de Lebesgue; es decir, si µ(B1 (0)) > 0
µ(Ă)
ν µ : B(Sd−1 ) −→ [0, 1], A 7−→
µ(B1 (0))
es una medida de probabilidad en (Sd−1 , B(Sd−1 ))

Igualmente, como veremos en el Capı́tulo 4, dado cualquier vector aleatorio Xd = (X1 , . . . , Xd )
con distribución µ en (Rd , B(Rd )) tal que µ(||Xd ||| = 0) = 0, es decir µ(X1 = 0, . . . , Xd | =
0) = 0, entonces
X1 Xd
R= ,...,
||Xd || ||Xd ||
es una variable aleatoria en (Sd−1 , B(Sd−1 )) cuya distribución es la medida inducida
µR (A) = µ(R−1 (A)), A ∈ B(Sd−1 ).
Del Teorema 3.3.15 se tiene que si µ en (Rd , B(Rd )) es invariante bajo transformaciones
ortogonales por la izquierda, µR =ν µ es la probabilidad uniforme en (Sd−1 , B(Sd−1 )). En
general este no es el caso.
Retomaremos este tema en el Capı́tulo 4 que incluye simulación de variables aleatorias
en la esfera Sd−1 .
16 T
Probabilidades en el toro
20 A
A partir de la probabilidad uniformemente distribuida ωd en (Sd−1 , B(Sd−1 )) y como
lio IM
consecuencia del Teorema 3.3.5, podemos construir medidas de probabilidad uniformemente
distribuidas en los productos cartesianos
T2 = S1 × S1 , Tp = S1
· · × S}1 ,
| × ·{z
d1
· · × Sdn},
|S × ·{z
Ju -C
p n
con di números positivos arbitrarios, con sus correspondientes σ—álgebra producto

D
B(T2 ) = B(S1 ) ⊗ B(S1 ), B(Tp ) = B(S1 ) ⊗ · · · ⊗ B(S1 ), B(Sd1 ) ⊗ · · · ⊗ B(Sdn )) .

AT
| {z } | {z }
p n
Igualmente, podemos realizar elementos aleatorios independientes en estos espacios pro-

ducto, cuyas marginales tienen probabilidad uniformemente distribuida en los respectivos
espacios factores.
Dada cualesquiera medida de probabilidad µi en Sd−1 podemos inducir en B(Tp ) la pro-
babilidad µ1 × · · · × µd y las correspondientes variables aleatorias están en Tp . Retomaremos
este tema en el Capı́tulo 4 de Simulación de variables aleatorias en variedades.
3.4. Integral de Lebesgue

3.4.1. Funciones medibles
Recordemos que (X, A) es un espacio medible si X es un conjunto no-vacı́o y A es una
σ-álgebra y que (X, A, µ) es un espacio de medida si (X, A) es un espacio medible y µ es una
medida en A.
3.4. Integral de Lebesgue 105

Denotemos por B R la σ-álgebra de los reales extendidos, que contiene a B (R) , {−∞}
y {+∞} . Es fácil probar que

B R = B, B ∪ {+∞} , B ∪ {−∞} , B ∪ {+∞} ∪ {−∞} : B ∈ B R .
Definición 3.4.1. Sean (X, A) y (Y, T ) espacios medibles y T : X −→ Y. Se dice que T
es A|T -medible si T −1 T ⊂ A, es decir, T −1 G ∈ A, para todo G ∈ T , es decir “la imagen
inversa de un medible es medible”. En particular si Y = R y f : X −→ R decimos que f es
medible si f es A|B R -medible.
16 T
El siguiente resultado permite probar medibilidad de funciones en clases generadoras.
20 A
Proposición 3.4.2. (a) Sean (X, A) , (Y, T ) espacios medibles y T una transformación de
X en Y. Sea G una clase de subconjuntos de Y tal que σ (G) = T . Entonces T es
A|T -medible si, y sólo si, T −1 G ∈ A, para todo G ∈ G.
lio IM
(b) Sea (X, A) un espacio medible y f : X −→ R. Entonces f es una función medible si, y
sólo si,
Ju -C
f −1 ({−∞}) ∈ A, f −1 ({∞}) ∈ A
y
D
{x ∈ X : −∞ < f (x) ≤ a} = f −1 ((−∞, a]) ∈ A,

AT
para todo a real.
Ejemplos de funciones medibles

(X, A) espacio medible.
1. f (x) = k, para todo x ∈ X es medible: Si a ≥ k, f −1 (a, ∞) = ∅ ∈ A, si a < k,
f −1 (a, ∞) = X ∈ A.
2. La función indicadora o caracterı́stica de un conjunto E ⊂ X.

1, x ∈ E,
χE (x) = 1E (x) =
0, x ∈
/ E.

 ∅, a > 1,
1−1
E (a, ∞) = E, 0 < a < 1,
X, a ≤ 0.

1E es medible si, y sólo si, E ∈ A. Esto nos permite construir una función no medible,
tomando 1E : R −→ R, donde E ⊂ R es no-medible.
3. Si f : X −→ R es continua, entonces f es medible: f −1 (a, ∞) es un abierto ya que

(a, ∞) es abierto y f es continua.
4. En general f −1 (OX ) ⊂ OY si f es continua, f : X −→ Y.
5. Si X = R, A = B (R) , entonces cualquier función monótona es medible.
Las siguientes propiedades de funciones medibles son fáciles de probar.
Proposición 3.4.3. (a) Sea (X, A) un espacio medible y f, g : X −→ R funciones A|B (R)-
16 T
medibles. Entonces las siguientes funciones son medibles:
20 A
(i) cf, para todo c ∈ R, (ii) f 2 , (iii) f + g,
lio IM
(iv) f g, f n para todo n ≥ 1, (v) |f | .
Ju -C
(b) Sean f : X −→ R,
f + (x) = máx {f (x) , 0} ≥ 0
y
D
f − (x) = máx {−f (x) , 0} ≥ 0.

AT
Entonces las siguientes funciones son medibles:
i)f = f + − f − , ii) |f | = f + + f − ,
1 1
iii)f + = (|f | + f ) y iv)f − = (|f | − f ) .
2 2
(c) f + y f − son medibles si, y sólo si, f es medible.
Proposición 3.4.4. Sea fn : X −→ R una sucesión de funciones medibles y
f (x) = ı́nf fn (x) , F (x) = sup fn (x) ,

n n
f ∗ (x) = lı́mfn (x) , F ∗ (x) = lı́mfn (x) .

n n
(a) Entonces f, F, f ∗ , F ∗ : X −→ R son medibles.

(b) Sea fn : X −→ R una sucesión de funciones medibles tal que1 fn −→ f. Entonces f es

medible.
Más general que el concepto de convergencia con probabilidad uno en un espacio de

probabilidad tenemos la convergencia casi donde quiera.
Definición 3.4.5. Sea (X, A, µ) es un espacio de medida. Sean f, f1 , f2 , ..., funciones me-
dibles. Decimos que la sucesión (fn )n converge casi en todas partes (casi donde quiera) µ, y
c.t.p µ
escribimos fn −→ f si existe un conjunto N ∈ A, con µ(N ) = 0 y tal que
16 T
lı́m fn (x) = f (x), ∀x ∈ X\N.
n→∞
3.4.2.
20 A
Construcción de la integral de Lebesgue y propiedades ini-
lio IM
ciales
Consideremos (X, A, µ) un espacio de medida. La integral de Lebesgue de funciones me-
Ju -C
dibles f definidas en X y con valores reales se define por pasos.

Paso 1. Funciones simples no–negativas.
Sea φ : X −→ [0, ∞) una función medible simple no–negativa, es decir φ−1 ((−∞, x]) ∈ A
para cada x ∈ R y
D
X k
φ(x) = aj 1Aj (x);
AT
j=1
donde aj ≥ 0, los Aj ∈ A son ajenos por pares , i = 1, ..., k, para algún k ≥ 1, y 1A es la

función indicadora o caracterı́stica de A

1, x ∈ A;
1A =
0, x ∈ X \ A.
Se define la integral de Lebesgue de φ con respecto a µ como

Z k
X
φdµ = aj µ(Aj ).
j=1
Notar que estamos usando implı́citamente que

Z
µ(A) = 1A dµ.
1
lı́m fn (x) = f (x) , x ∈ R.
n→∞
En particular,
Z Z
m : A −→ [0, ∞), A 7−→ m(A) = φ1A dµ := φdµ,
A
con φ función medible simple no–negativa, es una medida en (X, A).

Se pueden probar las siguientes propiedades para la integral con respecto de µ:
1. Si φ, ϕ son funciones medibles simples no–negativas, entonces
16 T
Z Z Z
(φ + ϕ)dµ = φdµ + ϕdµ.
2. Si c > 0, entonces
20 A
lio IM
Z Z
cφdµ = c φdµ.
Ju -C
3. Si además cada x ∈ X, φ(x) ≤ ϕ(x), entonces

Z Z
φdµ ≤ ϕdµ.
D
Observación 3.4.6. La integral de Lebesgue es un concepto distinto a la integral de Rie-

AT
mann. El ejemplo básico de esto es considerar X = [0, 1], A = B([0, 1]), µ = λ y A = Q∩[0, 1].
En tal caso la integral de Lebesgue de f ≡ 1A se anula pero la integral de Riemann de f no
existe.
Paso 2. Funciones no–negativas.

Para poder definir la integral con respecto a una medida para cualquier función medible
no–negativa f : X −→ [0, ∞), aproximamos la integral de f mediante una sucesión de
funciones simples que convergen a f . En general
Z Z
f dµ := sup φdµ, : 0 ≤ φ ≤ f, φ simple .
Proposición 3.4.7. Si f : X −→ [0, ∞) es medible no–negativa, entonces existe una sucesión

φn de funciones simples no–negativas tal que
1. φn ↑ φ, es decir
φn (x) ≤ φn+1 (x), x ∈ X,
2.
lı́m φn (x) = f (x),
n→∞
3. Z Z
φn dµ −→ f dµ.
Además se presentan las mismas propiedades (1)-(3) arriba, es decir, la integral de fun-
ciones medibles no–negativas es lineal y preserva la monotonı́a de funciones.
16 T
Paso 3. Funciones real valuadas.
Para cualquier función medible f : X −→ R tenemos las funciones medibles no–negativas
20 A
f + (x) = máx(0, f (x)), f − (x) = máx(−f (x), 0),
lio IM
tales que
f = f + − f −, |f | = f + + f − .
Decimos que f es integrable con respecto de µ en el sentido de Lebesgue si ambas
Ju -C
Z Z
+
f dµ < ∞, f − dµ < ∞;
D
o bien, f ∈ L1 (µ). En tal caso escribimos

Z Z Z
AT
I(f ) = f dµ = f dµ − f − dµ.
+
Las propiedades (1)-(3) como antes se satisfacen siempre que consideremos las funciones a
integrar en L1 (µ); esto es, para f, g ∈ L1 (µ) y a ∈ R,
I(af + g) = aI(f ) + I(g),
además, si f (x) ≤ g(x) para cada x ∈ X,
I(f ) ≤ I(g).
Más aún, dado A ∈ A, consideramos

Z Z
IA (f ) = f dµ = f 1A dµ.
A
Luego, para cada A ⊂ B ∈ A se satisface que
IA (f ) ≤ IB (f ).
Observación 3.4.8. (i) Hay una función cuya integral impropia de Riemann existe, pero
no es integrable con respecto a la medida de Lebesgue λ en R:
sin(x)
f (x) = .
x
(ii) En general, si las integrales de Riemann y de Lebesgue con respecto a λ existen, estas
son iguales.
16 T
(iii) Si f es una función integrable en el sentido de Riemann en un intervalo (a, b) entonces
la integral de f 1(a,b) con respecto a la medida de Lebesgue λ en R existe.
20 A
Enunciamos a continuación tres teoremas fundamentales de la integral de Lebesgue los
lio IM
cuales permiten intercambiar la integral de lı́mites de funciones con el lı́mite de las integrales,
para funciones en X con valores en R o posiblemente R.
Teorema 3.4.9 (Lema de Fatou). Si {fn } es una sucesión de funciones medibles no-
Ju -C
negativas, entonces Z Z
lı́m inf fn dµ ≤ lı́m inf fn dµ.
D
Teorema 3.4.10 (Convergencia monótona). Si {fn } es una sucesión de funciones no-

negativas tales que fn ↑ f , entonces
AT
Z Z
lı́m fn dµ = lı́m fn dµ.
n→∞ n→∞
Teorema 3.4.11 (Convergencia dominada). Sean {fn } una sucesión de funciones medibles
y f : X −→ R una función medible tal que para cada x ∈ X, fn (x) −→ f (x) cuando n → ∞.
Si existe una función medible g : X −→ R tal que |fn | ≤ g y g ∈ L1 (µ); entonces, para cada
n ≥ 1, fn ∈ L1 (µ), f ∈ L1 (µ) y
Z Z
f dµ = lı́m fn dµ.
n→∞
Para el caso del producto de medidas tenemos el siguiente resultado que muestra como
se efectúa el intercambio de integrales.
Teorema 3.4.12 (Fubini). Sean (X1 , A1 , µ1 ) y (X2 , A2 , µ2 ) dos espacios de medida σ-finitas
y sea µ1 × µ2 la medida producto en (X1 × X2 , A1 × A2 ).
Si la función f : X1 × X2 → R es integrable con respecto a µ1 × µ2 , entonces

Z Z Z
f d(µ1 × µ2 ) = f (x1 , x2 )µ2 (dx2 ) µ1 (dx1 )
X1 ×X2 X1 X2
Z Z
= f (x1 , x2 )µ1 (dx1 ) µ2 (dx2 ).
X2 X1
En particular, Tonelli demuestra que estas identidades son válidas en el caso de que f
sea una función medible no negativa.
También en el caso de una serie de funciones medibles no negativas tenemos el intercambio
16 T
entre la integral y la suma.
20 A
Teorema 3.4.13 (Beppo–Lévi). Si (fn )n≥1 son funciones medibles no negativas en un es-
pacio de medida (X, A, µ) entonces
lio IM
Z X∞ ∞ Z
X
fn dµ = fn dµ.
n=1 n=1
Ju -C
3.4.3. Espacios Lp
Brevemente presentamos las funciones cuya potencia p es integrable y las desigualdades
D
más importantes. Estos espacios son útiles para estudiar aproximación de funciones, como
se ilustra en el capı́tulo de estadı́stica.
AT
Sea (Ω, A, µ) un espacio de medida. Decimos que dos funciones f y g son µ-equivalentes
(o son iguales µ-c.t.p.) si
µ ({x : f (x) 6= g (x)}) = 0.
Vamos a considerar clases de µ-equivalencia de funciones:
[f ] = {f : f es µ-equivalente} .
A partir de ahora identificaremos [f ] con f.
Definición 3.4.14. Para 0 ≤ p ≤ ∞ se definen los espacios Lp = Lp (Ω, A, µ) como
Z
p p
L = f : |f | dµ < ∞ , 0 ≤ p < ∞;
esto es, Lp (Ω, A, µ) es el espacio que consiste de todas las clases de equivalencia de funciones
f : X −→ R con respecto a µ, tales que |f |p es integrable con respecto de µ. También es
común Lp (µ) = Lp (Ω, A, µ).
Además tenemos
L∞ = L∞ (Ω, A, µ) = {f : µ({|f | > K}) = 0, para algún K > 0}.
En particular, L1 (Ω, A, µ) es el espacio de las funciones integrables con respecto de µ.

Análogos resultados se obtienen para las funciones Lp ; esto es, Lp es un espacio vectorial
sobre R y si definimos la norma
Z 1/p
p
||f ||p ≡ |f | dµ ,
entonces Lp es un espacio lineal normado para 1 ≤ p ≤ ∞. Si µ es la medida de conteo en

R
Lp = `p .
16 T
Resumimos las propiedades más importantes de la norma ||f ||p en el siguiente resultado.
20 A
Proposición 3.4.15. (a) (Desigualdad de Hölder). Sea f ∈ Lp y g ∈ Lq , p > 1, p1 + 1
q
=1
lio IM
(o bien, p y q son ı́ndices conjugados). Entonces f g ∈ L1 y kf gk1 ≤ kf kp kgkq .
(b) (Desigualdad de Minkowski). Si f, h ∈ Lp , p ≥ 1, entonces f + h ∈ Lp y

Ju -C
kf + gkp ≤ kf kp + khkp .
Decimos que una función h es una función escalonada si es de la forma

D
n
X
h= ci 1 A i ,
AT
i=1
con n < ∞, ci ∈ R y los Ai son intervalos acotados disjuntos. El siguiente es un teorema de

aproximación importante en espacios Lp .
Teorema 3.4.16. Sea f ∈ Lp (R, B(R), λ), y 0 < p < ∞. Entonces para cada δ > 0, existen
una función escalonada h y una función continua g con soporte compacto (que se anula fuera
de un conjunto acotado) tales que
Z
|f − h|p dλ < δ,
Z
|f − g|p dλ < δ.
Observación 3.4.17. (a) (Fischer-Riesz) Lp (Ω, A, µ), 1 ≤ p < ∞, es un espacio de Ba-

nach, es decir, es completo con respecto a k·kp ; o bien, toda sucesión de Cauchy es
convergente.
(b) Si p = 2, L2 (Ω, A, µ) es espacio de Hilbert, con producto interno

Z
hf, gi = f gdµ, f, g ∈ L2 ,
donde h·, ·i cumple:

i) hf1 + f2 , gi = hf1 , gi + hf2 , gi , f1 , f2 ∈ L2 .
ii) hαf, gi = α hf, gi , ∀α ∈ R.
iii) hf, gi = hg, f i .
16 T
iv) hf, f i ≥ 0 y hf, f i = 0 ⇐⇒ f = 0.
v) kf k22 = hf, f i .
20 A
Decimos que f, g son ortogonales si:
lio IM
Z
f gdµ = 0.
El producto interno h·, ·i cumple la ley del paralelogramo:

Ju -C
kf + gk22 + kf − gk22 = 2 kf k22 + 2 kgk22 .
(c) El espacio L∞ = L∞ (Ω, A, µ) consiste en todas las clases de equivalencia de funciones

D
reales que son acotadas µ-c.t.p.

Si N ∈ Ω, µ (N ) = 0 definimos S (N ) = sup {|f (x)| : x ∈
/ N} , y
AT
kf k∞ = ı́nf {S (N ) : µ (N ) = 0} .
Decimos que f es esencialmente acotada si además cumple lo siguiente:
i) kf k∞ es norma.
ii) L∞ es espacio de Banach (Dual de L1 ).
iii) Si A < kf k∞ , A > 0, entonces existe E ∈ Ω con µ (E) = 0 tal que |f (x) > a| , para
cada x ∈ E.
Definición 3.4.18 (Convergencia en Lp ). Sean 1 ≤ p < ∞ y f, f1 , f2 , . . . funciones en
Lp
Lp (µ). Decimos que la sucesión (fn )n≥1 converge en Lp (µ) a f , y escribimos fn −→ f si
kfn − f kp −→ 0 cuando n −→ ∞.
Lp Lp
Observamos que si fn −→ f y fn −→ g entonces f = g µ-c.t-p..
Hablaremos de convergencia en Lp de variables aleatorias en la Sección 3.5.1.
En el Apéndice C, sobre variables aleatorias en espacios de Banach, se presentan condi-
ciones para la separabilidad de los espacios Lp .
3.4.4. Construcción de medidas a partir de la integral: la densidad

El siguiente resultado nos permite construir medidas en (X, A) a partir de funciones
integrables con respecto a una medida µ en (X, A).
Teorema 3.4.19. Sea (X, A,µ) un espacio de medida y f : X → [0, ∞) una función medible.
Para cada A ∈ A definimos Z
m(A) = f dµ.
A
Entonces:
16 T
R
1. m es una medida en (X, A). En particular, si f dµ = 1, decimos que f es densidad
20 A
de m con respecto a µ en cuyo caso m es una medida de probabilidad.
2. Si µ(A) = 0 para A ∈ A, entonces m(A) = 0.
lio IM
Una densidad es única µ casi seguramente y en general supp(m) ⊂ supp(µ).
Definición 3.4.20. Sean µ y ν dos medidas.
Ju -C
1. Decimos que ν es absolutamente continua con respecto a µ si µ (A) = 0 ⇒ ν (A) = 0,

y escribimos que ν µ.
D
2. Si ν µ y µ ν, entonces decimos que ν y µ son equivalentes y escribimos µ ∼ ν.

En este caso supp(ν) = supp(µ).
AT
Cuando dos medidas no son equivalentes, es posible que sean singulares en el siguiente
sentido.
Definición 3.4.21. Decimos que una medida µ está concentrada en un conjunto A-
medible E si µ(E c ) = 0.
Dos medidas µ y ν son mutuamente singulares (o simplemente singulares) u ortogo-
nales si existe un conjunto A-medible E tal que µ está concentrado en E y ν está concentrada
en E c .
Uno de los teoremas más relevantes sobre generación de medidas a partir de medidas
σ–finitas es el siguiente.
Teorema 3.4.22 (Radon-Nikodym). Sean ν, µ dos medidas σ-finitas en (X, A) tales que
ν µ. Entonces, existe una función medible f ≥ 0 (es única µ−c.s.) tal que
Z
ν(A) = f dµ
A
se cumple.
3.5. Especificación de modelos de probabilidad usando densidades 115
La función f se conoce como la derivada de Radon-Nikodym de ν con respecto a µ y se

escribe
dν
f= .
dµ
Si se cumple que ν τ y τ µ, entonces ν µ y
dν dν dτ
= ,
dµ dτ dµ
Si µ ∼ ν
16 T
dµ dν
= ( )−1 .
dν dµ
20 A
lio IM
3.5. Especificación de modelos de probabilidad usando
densidades
Ju -C
De ahora en adelante consideraremos (Ω, A, P) un espacio de probabilidad, (X,ρ) un

espacio métrico con σ-álgebra de Borel B(X) y M subconjunto de X con σ-álgebra de Borel
B(M ).
D
3.5.1. Transformación de variables aleatorias, momentos y conver-

AT
gencia
Recordemos varios conceptos y resultados sobre variables aleatorias, algunos de los cuales
se mencionaron anteriormente.
Definición 3.5.1. X : Ω → M es variable aleatoria (v.a.) si
X−1 (B(M )) ⊂ A.
La distribución de X es la probabilidad PX en (M ,B(M )):
PX (A) = P(X−1 (A)), A ∈ B(M ).
Luego, (M ,B(M ), PX ) es otro espacio de probabilidad.
Además podemos definir los momentos de una variable aleatoria como hemos mencionado
antes. Sea X v.a. en (Ω, A, P) con distribución PX en (M ,B(M )) y h : M →R función medible
con Z
|h(x)| PX (dx) < ∞.
M
Se denota la Esperanza o media de h(X), cuando existe como:

Z
E [h(X)] = h(x)PX (dx).
M
Tres de las desigualdades en probabilidad más usadas en donde aparece la esperanza son
las siguientes. Las primeras dos son ejemplos de las llamadas desigualdades de concentración
Lema 3.5.2 (Desigualdad de Markov). Sea h : M → [0, ∞) función medible.
16 T
(a) (Cálculo de esperanza de variables nonegativas) Se cumple que
20 A
Z ∞
P (h(X) > x) dx = E [h(X)] . (3.5.1)
lio IM
0
(b) ∀ > 0
1
P (h(X) > ) ≤ E [h(X)] . (3.5.2)
Ju -C
Será común tener θ ∈ Θ, con (Θ, dΘ ) espacio métrico, g : M n → Θ, p conveniente y

D
entonces
1
P (dΘ (g(X1 , ..., Xn ), θ) > ) ≤ E [(dΘ (g(X1 , ..., Xn ), θ))p ] ,
AT

y es usual tratar de probar que el lado derecho tiende a cero si n → ∞ por lo que la
probabilidad también tenderı́a a cero.
Lema 3.5.3 (Desigualdad de Chebyshev). Sea X una variable aleatoria con media E(X) y
varianza Var(X) finitas. Entonces para todo > 0
1
P (|X−E(X)| > ) ≤ Var(X).
2
Lema 3.5.4 (Desigualdad de Jensen). Sea X una variable aleatoria con E |X| < ∞. Si
ϕ : R → R es una función convexa entonces
E [ϕ(X)] ≥ ϕ(EX).
De la teorı́a de espacios Lp de la Sección 3.4.3, tenemos como caso especial cuando el

espacio de medida es un espacio de probabilidad.
Definición 3.5.5 (Convergencia Lp de variables aleatorias). Cuando (Ω, A, µ = P) el corres-

pondiente espacio Lp (Ω, A, µ), 1≤ p < ∞ consiste de las variables aleatorias X con norma
1/p
||X||p ≡ (E |X|p ) < ∞.
Esto nos permite definir convergencia de variables aleatorias en Lp (Ω, A, µ), como la con-
vergencia con respecto a esta norma, e identificando variables aleatorias que difieren en un
conjunto de probabilidad cero. Ası́, decimos que la sucesión de variables aleatorias (Xn )n≥1
Lp
converge a la variable aleatoria X en p-media, y escribimos Xn −→ X, si kXn − Xkp −→ 0
16 T
cuando n −→ 0.
20 A
Las principales relaciones con otros tipos de convergencia vistos anteriormente se resumen
de la siguiente manera.
lio IM
Lp Lq
Propiedades 3.5.6. 1. Si 1 ≤ q < p < ∞ y Xn −→ X, entonces Xn −→ X.
Lp Pr
2. Si Xn −→ X, entonces Xn −→ X, para 1 ≤ p < ∞.
Ju -C
Pr
3. Sea 1 ≤ p < ∞ y Xn ∈ Lp , n ≥ 1. Si Xn −→ X y existe Y ∈ Lp tal que
D
|Xn | ≤ Y µ − c.s.
Lp
AT
Entonces X ∈ Lp y Xn −→ X.
Sean (X, A, µ) un espacio de medida, (Y, C) otro espacio medible y g : X → Y una función
A/C− medible. La medida en (Y, C) inducida por g, denotada por µg −1 , se define como
µg −1 (A) = µ(g −1 (A)), A ∈ C.
Teorema 3.5.7 (De la Transformación). Sea h : Y → [0, ∞] una función Borel medible.
Entonces h es µg −1 –integrable, si y sólo si h ◦ g es µ-integrable, en cuyo caso
Z Z
−1
hd(µg ) = h ◦ gdµ.
Y X
Este teorema, junto con la medida de Lebesgue o la de conteo permiten calcular espe-
ranzas de funciones para distribuciones que son absolutamente continuas con respecto a la
medida de Lebesgue o de conteo.
Nos remitimos a la Definición 3.1.8 para los conceptos de distribuciones absolutamente
continuas y discretas.
Proposición 3.5.8 (Fórmulas de cálculo para esperanzas). Sea X una variable aleatoria
con función de distribución F y sea h : R → [0, ∞] una función Borel medible.
1. Si F es absolutamente continua con densidad f , µF es absolutamente continua con

respecto a la medida de Lebesgue y cuando existe, la esperanza de h(X) está dada por
Z Z
Eh(X) = h(x)µF (dx) = h(x)f (x)dx.
R R
16 T
2. Si F es una distribución discreta dada por {pn }n≥0 , µF es absolutamente continua con
respecto a la medida de conteo c y, cuando existe, la esperanza de h(X) está dada por
20 A Z ∞
lio IM
X
Eh(X) = h(x)µF (dx) = h(n)pn .
R n=0
Ju -C
3.5.2. Medidas de referencia universales, ejemplos y su contexto

D
Generalmente µ será una medida de referencia “universal” en (M, B(M )), usualmente una
medida uniformemente distribuida o una distribución uniforme, f : M −→ [0, ∞) será una
AT
función de densidad con respecto a µ:

Z
f (x)µ(dx) = 1
M
y la probabilidad de interés está dada de la siguiente manera:

Z
ν(A) = PX (A) = f (x)µ(dx), A ∈ B(M ).
A
De esta manera se proponen modelos de probabilidad especificando una familia de densi-

dades {fθ (x) : θ ∈ Θ} , con Θ un espacio de parámetros, con respecto a la misma medida de
referencia µ. Si Θ ⊂ Rp para algún p, el modelo es paramétrico. De otra forma el modelo
es no-paramétrico.
Veamos algunos ejemplos de modelos paramétricos.
1. Ω = R, A = B(R) y P dada por una densidad f , con λ como medida de referencia

a) Modelo exponencial, θ ∈ Θ = [0, ∞) (m := E [X] = θ)

1
fθ (x) = e−x/θ 1{x≥0} .
θ
b) Modelo uniforme en [0, θ], θ ∈ Θ = [0, ∞) (m = θ/2)

1
fθ (x) = 1{0≤x≤θ} .
θ
16 T
20 A
c) Modelo gaussiano, θ = (m, σ 2 ) ∈ Θ = R × [0, ∞)
lio IM

1 1 2
fθ (x) = √ exp − 2 (x − m) , x ∈ R,
σ 2π 2σ
Ju -C
con σ 2 = EX2 − (m)2 la varianza.
2. Espacio de probabilidad en Rd : Ω = Rd , A = B(Rd ), f = Rd → [0, ∞) densidad

D
multivariada Z
f (x)dx = 1.
AT
Rd
Para A ∈ B(Rd ) Z Z
P(A) = f (x)dx = f (x)λd (dx).
A A
La medida de referencia es la de Lebesgue λd en Rd .
a) Modelo normal multivariado en Rd , Nd (m, Σ),
θ = (m, Σ) ∈ Θ = Rd × {matriz d × d definida positiva} ,

1 > −1 1
fθ (x) = c (d, Σ) exp − (x − m) Σ (x − m) , x ∈ Rd ,
2 2
con c (d, Σ) = (2π)−d/2 det(Σ)−1/2 .
b) Σ = Id , m = 0 es la distribución normal multivariada estándar Nd (0, Id ).
Para el caso de modelos no–paramétricos tenemos los siguientes ejemplos.

1. Cuando el parámetro a estimar es una probabilidad en (M ,B(M ))
Θ = { Q | medidas de probabilidad en (M, B(M ))} .
2. Cuando el parámetro a estimar es una densidad en (M ,B(M ))

Z
p
Θ = f densidad : kD f (x)ks ν(dx) < ∞
16 T
M
20 A
en donde Dp denota la p-ésima derivada de la función f . Este es el caso de estimación
de densidades, tema que se verá en el Capı́tulo 5.
lio IM
3. Cuando el parámetro a estimar es el soporte (compacto) de una medida (probabilidad)
µ.
Ju -C
Una herramienta importante en inferencia estadı́stica es la “distancia de Kullback-Leibler”

entre densidades.
D
Definición 3.5.9 (Distancia de Kullback-Leibler). Sean f, g densidades con respecto a una

medida de referencia µ en una variedad M . Se define la distancia de Kullback-Leibler entre
AT
f y g como Z
f (x)
DKL (f, g) = f (x) log µ(dx). (3.5.3)
M g(x)
En realidad DKL no es una distancia, ya que sólo se cumple que DKL (f, g) ≥ 0 y
DKL (f, f ) = 0, pero es una herramienta útil.
Ejemplos de medidas de referencia y su contexto

En general, se especificamos modelos de probabilidad haciendo énfasis en ejemplos de
medidas de referencia en (M ,B(M )) y su contexto como sigue:
M = N, Zd , medida de conteo c o cd .
• Modelos discretos clásicos, redes, gráficas.
M = R, medida de Lebesgue en R.
• Modelos continuos clásicos.
M = Rd , medida de Lebesgue en Rd .
• Estadı́stica multivariada clásica.
M = Rd×d , medida de Lebesgue en Rp , p ≤ d.
• Matrices aleatorias.
16 T
M ⊂ Rd variedad con distribución geométrica (uniforme) en M (Sd−1 , Td ).
20 A
• Datos con dirección.
lio IM
M espacio métrico compacto con distribución uniforme en M .
• Propiedades geométricas y topológicas.

Ju -C
3.5.3. Densidades conjuntas, marginales, condicionales e indepen-

D
dencia
AT
Usando densidades podemos caracterizar la independencia de variables aleatorias. Sea

(M ,B(M )) con distribución de referencia µ uniforme. Además, sean νi medidas de proba-
bilidad en (M ,B(M )), con i = 1, ..., d; tales que, νi << µ con función de densidad fi ,
i = 1, ..., d.
Consideramos el espacio producto (M × · · · × M, B(M ) ⊗ · · · ⊗ B(M), ν1 × · · · × νd ), con
la medida ν1 × · · · × νd << µd = µ × · · · × µ y función de densidad f : M × · · · × M → [0, ∞).
Si Xi son variables aleatorias en M con distribución νi , i = 1, ..., d. decimos que X1 , ..., Xd
son independientes si y sólo si,
f (x1 , ..., xd ) = f1 (x1 ) · · · fd (xd ), µd –c.s.
La prueba de este resultado usa el teorema de Fubini.
En general, incluyendo el caso cuando las variables aleatorias no son independientes, las
densidades marginales se obtienen a partir de la densidad conjunta f (x1 , ..., xd ): Una función
no-negativa f : M d → [0, ∞) es densidad conjunta de las variables aleatorias X1 , ..., Xd si
Z
f (x1 , ..., xd )µ(dx1 ) · · · µ(dxd ) = 1
Md
y la distribución de X = (X1 , ..., Xd ) (Definición 3.2.15) se puede escribir como

Z
PX (A) = f (x1 , ..., xd )µ(dx1 ) · · · µ(dxd ), A ∈ B(M d ).
A
Para i = 1, ..., d las distribuciones marginales PXi en (M, B(M )), (ver Sección 3.2.3),
tienen densidad fi con respecto a µ dada por la expresión
Z
fi (xi ) = f (x1 , ..., xd )µ(dx1 ) · · · µ(dxi−1 )µ(dxi+1 ) · · · µ(dxd ).
16 T
M
| × · ·
{z · × M}
d−1 veces
20 A
Finalmente, dadas las variables aleatorias X1 y X2 la distribución condicional PX1 |X2 de
X1 dado X2 (ver Sección 3.2.3) es tal que PX1 |X2 es absolutamente continua con respecto a
lio IM
µ con densidad (llamada densidad condicional) fX1 |X2 dada por
f(X1 X2 ) (x, y)
fX1 |X2 (x, y) =
Ju -C
fX2 (y)
suponiendo que fX2 (y) > 0. Además
D
Z
P (X1 |X2 = y ) = fX1 |X2 (x, y)µ(dx).
A
AT
Reiteramos la observación de que en cursos de probabilidad avanzada es posible dar

sentido a la expresión P (X1 |X2 = y ) aún cuando P (X2 = y) = 0.
3.5.4. Ejemplos de densidades en algunas variedades

Densidades en el cı́rculo y otras variedades aparecen de manera natural en el análisis
estadı́stica de datos circulares o direccionales. Referencias sobre el tema son los libros de
Bhattacharya y Bhattacharya [12], Fisher [54], Mardia y Jupp [92]. Se recomienda también
la tesis de maestrı́a de Lilia Karen Rivera [114].
En Rd
Distribución normal multivariada En primer lugar consideramos la densidad Isotrópi-
ca normal en M = Rd ,

2 −d/2 1 2
exp − 2 kx − mk , x ∈ Rd ,

fθ (x) = 2πσ
2σ
θ = (m,σ 2 ) ∈ Θ = Rd × [0, ∞) . En este caso

Z
ν(A) = fθ (x)dx, A ∈ B(Rd )
A
corresponde a la distribución normal Nd (m, σ 2 Id ). Observar que ν no es medida uniforme-

mente distribuida en (Rd , B(Rd )), es equivalente a la medida de Lebesgue λd en Rd y es
invariante bajo transformaciones ortogonales por la izquierda si m = 0.
También podemos considerar la densidad Normal multivariada (o multidimensio-
nal) en M = Rd , Nd (m, Σ), θ = (m,Σ) ∈ Θ = Rd × {Σ > 0} . Si Z es Nd (0, Id ),
16 T
X = Σ1/2 Z + m ∼ Nd (m, Σ)
20 A
y viceversa. La prueba de este hecho usa el siguiente teorema.
Teorema 3.5.10 (Cambio lineal de variables de la integral de Lebesgue en Rd ). Sea T una
lio IM
matriz d × d invertible. Para cualquier función medible g en Rd , la función g ◦ T (x) = g(T x)
es medible y si g ≥ 0 Z Z
g(x)dx = |det T | g(T x)dx.
Ju -C
Si g es integrable con respecto a λd entonces g ◦ T también lo es y la igualdad anterior se

cumple.
D
El método anterior es útil para simular v.a. Nd (m, Σ) y el teorema prueba la invarianza
bajo transformaciones ortogonales por la izquierda de Nd (0, σ 2 Id ) tomando g como la densi-
AT
dad f(0,σ2 ) (x) ya que kOxk2 = kxk2 para cualquier matriz ortogonal O ∈ O(d) y |det O| = 1.
Un teorema más general de transformación es el siguiente resultado, el cual es útil para
construir medidas de volumen en variedades.
Teorema 3.5.11. Sea T : Rk → Rd un mapeo lineal inyectivo con k ≤ d y X = T (Rk ). Para
cualquier función medible g : Rd → R, la función g ◦ T (x) = g(T x) es medible y si g ≥ 0
Z Z
> 1/2
d

g(x)λ (dx) = det T T
g(T x)λk (dx).
X Rk
La prueba de este resultado se encuentra en la Sección 3.2 del libro de Tjur [125].
Con el Teorema 3.5.10 también se encuentra la función de densidad (multivariada) de la
distribución Nd (m, Σ):

−d/2 −1/2 1 > −1
f (x) = (2π) (det Σ) exp − (x − m) Σ (x − m) , x ∈ Rd . (3.5.4)
2
La matriz de covarianza Σ = (σij ) es tal que σij = Cov(Xi , Xj ) donde X = (X1 , ..., Xd ) tiene
esta distribución.
Distribuciones en la esfera
Uno de los ejemplos

pioneros
de
densidades para variedades es el de von Mises-Fisher
d−1 d
en M = S = x ∈ R kxk = 1 , con distribución de referencia uniforme ωd
fθ (x) = c1 (κ) exp κx> m , x ∈ Sd−1 ,

θ = (m,κ) ∈ Θ = Sd−1 × [0, ∞) y c1 (κ) constante. Dicha densidad fue especificada para
d = 2 por von Mises en 1918, y para d ≥ 3 por R. Fisher en 1953. Esta distribución se usa
en el estudio de datos direccionales y juega un papel similar al de la distribución normal en
16 T
datos lineales.
Ası́, la medida inducida en (Sd−1 , B(Sd−1 )) es
20 A
Z Z
ν(A) = fθ (x)dx = fθ (x)ωd (dx), A ∈ B(Sd−1 ).
lio IM
A A
El caso en que κ = 0 nos da la distribución uniforme en Sd−1 , f (x) = 1Sd−1 (x).

Este ejemplo se puede generalizar a un von Mises-Fisher matricial en M = SO(d),
Ju -C
fθ (x) = c2 (κ) exp κtr x> m , x ∈ SO(d),

θ ∈ Θ = SO(d) × [0, ∞), con respecto a la distribución uniforme dada por la medida de
Haar.
D
Watson propone además el ejemplo en M = Sd−1 :

AT
h 2 i
>
fθ (x) = c3 (κ) exp κ x m , x ∈ Sd−1 ,
θ = (m,κ) ∈ Θ = Sd−1 × [0, ∞) .
Distribuciones en el toro
Mardia en 1975 estudia el caso de una distribución von Mises bivariada en S1 × S1
como sigue. La densidad fθ (φ, ψ) : [0, 2π] × [0, 2π] → [0, ∞)
fθ (φ, ψ) ≈ exp [κ1 cos(φ − µφ ) + κ2 cos(φ − µψ ) + gΣ (φ, ψ)]
gΣ (φ, ψ) = (cos(φ − µφ ), sin(ψ − µψ ))Σ(cos(φ − µφ ), sin(ψ − µψ ))> ;

donde φ, ψ ∈ [0, 2π] , Σ es una matriz 2 × 2 (matriz de correlaciones), µφ , µψ son medias
marginales y
θ = (κ1 , κ2 , Σ) ∈ Θ = [0, ∞) × [0, ∞) × M2×2 .
La medida de referencia es la distribución uniforme.
3.6. Probabilidad en variedades II: medida geométrica 125
3.6. Probabilidad en variedades II: medida geométrica
3.6.1. Medidas definidas por restricción a una cubierta abierta

En esta sección presentamos un resultado de interés general, el cual es especialmente útil
para construir la medida geométrica. Dado un espacio de medida (X, A, µ) y un conjunto
A ∈ A se define la medida restricción de µ a A como µ|A (·) = µ(A ∩ ·). El Apéndice B tiene
información sobre medidas en espacios métricos polacos.
16 T
Teorema 3.6.1. Sea X un espacio métrico polaco con σ−álgebra de Borel B(X) y sea
20 A
{Xi : i ∈ I} una familia de subconjuntos abiertos de X tal que X = ∪i∈I Xi . Supongamos
que para cada Xi hay una medida de Radon µi tal que la siguiente condición de consistencia
lio IM
se cumple
∀i, j ∈ I, µi |Xi ∩Xj = µj |Xi ∩Xj . (3.6.1)
Entonces, existe una única medida de Radon µ en B(X) tal que µi |Xi = µ para cada i ∈ I.
Ju -C
Este resultado se cumple para espacios localmente compactos, ver Teorema 2.61 en [125].
D
3.6.2. La medida geométrica (distribución uniforme)

AT
Vamos ahora a explicar como definir la medida geométrica en una variedad M de di-
mensión k en Rd . Siguiendo las ideas en la Sección 3.4 del libro de [125], intuitivamente, la
medida geométrica es el análogo k−dimensional de las medidas de longitud en una curva de
R2 o R3 y el área de una superficie de dimensión dos en R3 . La idea intuitiva es la siguiente:
Como vimos en el Capı́tulo 2, una variedad de dimensión k en Rd es localmente casi isomorfa
a un espacio euclidiano k−dimensional; es decir, una parametrización local puede ser apro-
ximada por una transformación lineal afı́n de un conjunto abierto de un espacio tangente
k−dimensional. Entonces la medida geométrica es la medida que es localmente casi igual a
la medida de Lebesgue en Rk .
Demos una definición precisa de la medida geométrica en una variedad. Para ello usaremos
el lenguaje de variedades parametrizadas visto en la Sección 1.6.1.
Consideremos p : M 0 −→ Rd una parametrización de una variedad k–dimensional Mp =
p(M 0 ). Esto es, M 0 ⊂ Rk es un subconjunto abierto y p es una aplicación inyectivamente
regular. Luego, para poder usar el Teorema 3.5.11 necesitarı́amos que p fuera un mapeo
inyectivo lineal, en tal caso la medida geométrica (o medida de Lebesgue) serı́a proporcional
a la medida de Lebesgue transformada en M 0 .
En el caso general, p es una aplicación “localmente casi lineal” con lo cual definimos la
medida geométrica en Mp como la medida que es “localmente proporcional” a la medida de
p(M 0 ) con factor de proporcionalidad | det Dp> Dp|1/2 . Recordamos que Dp es la matriz de
la aplicación lineal que aproxima p localmente. Por lo tanto tenemos el siguiente resultado,
consecuencia del Teorema 3.5.11.
Teorema 3.6.2 (Medida geométrica en variedades). Sea p : M 0 −→ Rd una parametrización
de una variedad k–dimensional Mp = p(M 0 ), con k ≤ d. Para cualquier función medible
g : Rd −→ R+ se cumple que
16 T
Z Z
d
>
1/2
g(x)λ (dx) = det Dp Dp
g(px)λk (dx).
20 A
Mp M0
Estamos sobreentendiendo que p : M 0 −→ Mp , por lo que esto define una medida sobre
lio IM
Mp no sobre Rd . En [125] puede observarse con cuidado la demostración de que esta definición
es independiente de la parametrización que elijamos.
Ası́, ya que M puede ser cubierta por variedades parametrizadas, y cada una de esas
Ju -C
variedades tiene una medida geométrica, se puede comprobar que esas medidas en conjuntos
abiertos de M , satisfacen la condición de consistencia (3.6.1) del Teorema 3.6.1. Por lo tanto
existe una única medida en (M, B(M )), tal que la restricción a cualquier variedad parametri-
D
zada es la medida geométrica. Esta construcción es independiente de la reparametrización.

Esta medida se llama la medida geométrica o de volumen de M y la denotaremos
AT
por λM . El soporte de λM es M .
Observación 3.6.3. 1. La mayorı́a de los trabajos en la literatura en análisis topológico
y geométrico de datos, se refieren a distribución uniforme en el sentido de medida
geométrica o de volumen, a la medida de probabilidad
Z
dλM
P(·) = .
· λM (M )
No siempre se tiene que λM sea la probabilidad uniformemente distribuida en el sentido

que lo hemos estado usando. Para que se dé esta igualdad, la variedad M tiene que
tener cierta “simetrı́a” y depende de la curvatura, como el caso de la esfera.
2. En general no es fácil integrar con respecto a la integral geométrica, ver por ejemplo el
Capı́tulo 3 del libro de Chavel [29], para una explicación rápida en el caso de variedades
orientables, el Apéndice B del libro de Bhattacharya y Bhattacharya [12], o el libro
clásico de Santaló [118]. Un estudio sistemático de medida geométrica, incluyendo el
caso de variedades Riemannianas, se encuentra en el libro de Federer [53].
3. Más adelante, en la sección 3.6.4, se presentan las fórmulas para el cálculo de la medida
de volumen e integrales con respecto a ella.
4. El trabajo de Small ([122]), presenta con detalle la construcción de la medida geométri-
ca, en el contexto de estadı́sticas sobre variedades y formas.
3.6.3. Distribución uniforme vs probabilidad uniformemente dis-

tribuida
16 T
Como se mencionó en la Sección 3.6.4 y en la Observación 3.6.3, el término distribución
20 A
o medida uniforme se emplea en la literatura de análisis topológico y geométrico de datos
para referirse a la medida de volumen definida en la sección anterior. No siempre se cumple
lio IM
que esta medida es la misma que la probabilidad uniformemente distribuida en el sentido de
la definición 3.3.2.
El siguiente resultado nos da condiciones para que un conjunto sea el soporte de una
medida uniformemente distribuida en Rd ; ver detalles en [38] o [84].
Ju -C
Teorema 3.6.4. 1. Un subconjunto compacto A de Rd con probabilidad uniformemente

distribuida µ está contenido en una esfera con centro en el centro de masa.
D
2. Si µ es una probabilidad uniformemente distribuida en Rk , entonces supp(µ) = {H = 0},

donde H : Rk → R es una función analı́tica ( i.e. supp(µ) es variedad analı́tica real).
AT
3. El soporte de una probabilidad uniformemente distribuida en R es R, un conjunto

discreto.
4. Hay tres clases de distribuciones uniformes con soporte acotado en R2 :
i) El soporte de la medida es una esfera.
ii) El soporte está formado por los vértices de un polı́gono regular.
iii) El soporte está formado por los vértices de dos n−polı́gonos regulares teniendo el
mismo centro y radio.
Hasta donde sabemos, resultados análogos a los incisos (c) y (d) no se conocen para
Rd , d ≥ 3.
Finalmente, una propiedad interesante de una medida uniformemente distribuida en Rd
es la integración de funciones radiales: Sea f una función Borel medible no-negativa y y, z
en supp(µ), entonces
Z Z
f (kx − ykd )µ(dx) = f (kx − zkd )µ(dx);
Rd Rd
ver [104].
3.6.4. Medida de Hausdorff

En esta sección veremos brevemente como definir una medida más general en Rd que la
medida de Lebesgue λd la cual es de utilidad para simular variables aleatorias en variedades
con respecto a la distribución uniforme de volumen. Tres referencias sugeridas para este
material son el reciente trabajo de Diaconis et al. [43], el libro de Morvan [96] y el trabajo
de Federer [53].
16 T
Para poder definir la medida de Hausdorff ocupamos la métrica euclidiana y el volumen
de la bola unitaria en Rm :
20 A ωm = λm (B1 (0)) =
Γ( 21 )m
.
lio IM
Γ(( m2 ) + 1)
Definición 3.6.5. Sea A ⊆ Rd , se define la medida Hausdorff de dimensión m de A
mediante
Ju -C
m
m
X diam(Bi )
H (A) = lı́m ı́nf ωm ;
δ−→0 A⊆∪Bi , diam(Bi )≤δ 2
esto es, el ı́nfimo se toma sobre todas las cubiertas numerables {Bi } de A con diámetro
D
menor que δ.
A diferencia de la medida de Lebesgue, la medida de Hausdorff no es fácil de comprender.
AT
Un hecho no trivial es que λd y Hd coinciden en B(Rd ) en el sentido de que existe una

constante kd > 0 tal que Hd = kd λd Además, si γ es una curva suave compacta inmersa en
Rd , su longitud desde el punto de vista de Lebesgue, es igual a la medida 1–Hausdorff; lo
cual puede generalizarse como medida de área para subvariedades o subconjuntos de Rd .
Una observación importante es que esta medida puede definirse para cualquier m ∈ R,
siendo el caso particular en que m no es entero conocido como medida fractal de Hausdorff.
3.6.5. Jacobianos, cambio de variable y áreas

En primer lugar, daremos las nociones básicas de geometrı́a diferencial que ocuparemos
en lo sucesivo.
Definición 3.6.6. Dada una aplicación f : Rk −→ Rd , si f es diferenciable en x ∈ Rk ,
definimos el jacobiano de dimensión m de f en x, Jm f (x), como el máximo volumen
de dimensión m de la imagen de Df (x) de un cubo unitario de dimensión m en Rk ; esto es
Jm f (x) = máx Vol(Df (x)(C));
C
donde C es un cubo unitario de dimensión m.

En particular, si el rango de Df (x) es menor que m, entonces Jm f (x) = 0. Además, si
k = d = m tenemos que
Jm f (x) = | det Df (x)|.
En general omitiremos el uso de los subı́ndices y escribiremos simplemente Jf (x). Enun-

ciamos entonces el teorema de cambio de variable para (Rd , B(Rd ), λd ), el cual es una rees-
critura con jacobianos de los teoremas presentados anteriormente.
Teorema 3.6.7 (Cambio de variables). Sean U ⊂ Rd abierto y V ⊂ Rd abierto acotado.
16 T
Si f : U −→ V es una función inyectiva diferenciable y f −1 : f (V ) −→ U es continua,
entonces:
20 A
1. Para cualquier función Borel–medible g : Rd −→ R, la función φ(x) = g(f (x))Jf (x)
lio IM
es Borel–medible.
2. Además, tenemos el cálculo respectivo en integrales:

Ju -C
Z Z
d
g(y)λ (dy) = g(f (x))Jf (x)λd (dx).
V U
D
Para cualquier A ⊂ Rk y y ∈ Rd escribimos N (f |A , y) para la cardinalidad de la fibra en

y:
AT
f −1 (y) = {x ∈ A : f (x) = y}.

Usando la expresión de la integral en el resultado anterior podemos dar la siguiente fórmula
de área.
Teorema 3.6.8 (Fórmula de área). Si f : Rk −→ Rd es una función Lipschitz con k ≤ d.

Entonces:
1. Si A ∈ B(Rk ): Z Z
k
Jk f (x)λ (dx) = N (f |A , y)Hk (dy).
A Rd
2. Si además g : Rk −→ R es cualquier función integrable:

Z Z Z X
k k
g(f (x))Jk f (x)λ (dx) = g(y)N (f |A , y)H (dy) = g(x)Hk (dy).
A Rd Rd x∈f −1 (y)
3.7. Ejercicios
Ejercicio 3.7.1. Demuestra que la σ–álgebra generada por
S(R) = {∅, (a, b], (b, ∞) : −∞ ≤ a < b < ∞}
es igual a la σ–álgebra de Borel B(R).
Ejercicio 3.7.2. Si X1 = X2 = R y A1 = A2 = B(R), demuestra que
16 T
σ(S 2 (R)) = B(R2 ).
20 A
Ejercicio 3.7.3. Dado un subespacio métrico (X, B(X)) de (Rd , B(Rd )), si A ∈ B(X) de-
lio IM
muestra que
OA = {Ox : x ∈ A} ∈ B(Rd )
para cualquier matriz ortogonal O ∈ O(d).
Ju -C
Ejercicio 3.7.4. Considera la medida de Lebesgue λd en (Rd , B(Rd )). Verifica los siguientes:
1. λd es σ–finita.
D
2. λd es invariante bajo traslaciones.

AT
3. λd (Sd−1 ) = 0.
Ejercicio 3.7.5. Prueba el Teorema 3.3.5.
Ejercicio 3.7.6. Demuestra que
π d/2
λd (Dd ) = λd (B1 (x)) = .
Γ(d/2 + 1)
Más aún, para cualquier radio r > 0 se tiene que
π d/2 rd
λd (Br (x)) = .
Γ(d/2 + 1)
Capı́tulo 4
Simulación de variables aleatorias en
16 T
20 A
variedades
lio IM
En la literatura de ATD, cada vez son más los trabajos, especialmente los de estadı́sti-
Ju -C
ca, que hacen estudios de simulación para obtener intuición sobre los modelos y métodos
propuestos, ası́ como evaluar su comportamiento ante diversas situaciones. Ello requiere de
poder simular variables aleatorias con distribuciones de probabilidad en una variedad.
D
La simulación estocástica fue creada por John von Neumann hace ya más de 65 años
y consiste en la generación en la computadora de pseudo datos en base a un modelo de
AT
probabilidad, o el uso de un modelo a partir de una base de datos. También se conoce como el
Método Monte Carlo y actualmente es una herramienta importante en matemáticas, ası́ como
en finanzas, ciencias naturales, ciencias de la computación, ingenierı́a y ciencias sociales. Para
aplicaciones contemporáneas en probabilidad, estadı́stica y matemáticas en general se pueden
consultar los libros de Devroye [41], Jones [72], Roberts y Casella [115] y Thompson [124].
Un aspecto primario en la simulación estocástica es la generación de variables pseudo
aleatorias con una distribución de probabilidad dada, para lo cual es esencial un algoritmo
generador de una variable aleatoria U con distribución uniforme en [0, 1]. El método mas
usual, conocido como método de congruencias (propuesto inicialmente por G. Marsaglia),
se construye usando teorı́a de congruencias de números y diseñando y aplicando pruebas ad
hoc de “aleatoriedad”. Una excelente exposición para estos fundamentos se encuentra en el
libro de Knuth [86]. Con ello, dada una función de distribución F en R y su función cuantil
F −1 , F −1 (U ) tiene distribución F. En forma más general, a partir del generador de variables
con distribución uniforme se puede usar el llamado método de aceptación-rechazo para
generar variables aleatorias en modelos más generales de probabilidad, el cual, si bien es de
aplicación general, no siempre es eficiente; ver [72], [115], [124].
Hoy en dı́a los softwares comerciales y libres incluyen rutinas para generar variables
131
132 Capı́tulo 4. Simulación de variables aleatorias en variedades
aleatorias con diversas distribuciones, en particular la paqueterı́a de R, la cual es usada en

los libros [72], [115].
En el caso de ATD, los modelos de probabilidad a generar son, por ejemplo, variables
aleatorias en variedades más un error aleatorio, como se menciona en los Capı́tulos 3 y 5. La
paqueterı́a de ATD en R incluye (a la fecha de hoy) la generación de variables aleatorias con
distribución uniforme en la esfera y el toro. El tema de generación de variables aleatorias
con distribución uniforme en variedades (usando la construcción de la medida de Hausdorff
en la Sección 3.6.4 y el método de aceptación-rechazo) ha sido expuesto recientemente en
Diaconis et al. [43], en donde se ejemplifica el caso de la esfera y el toro inmerso en R3 .
16 T
El proyecto de los alumnos Gilberto Flores y Yair Hernández al final de estas notas
20 A
ejemplifican el método en [43] también en el caso del toro. Incluyen además los casos de la
botella de Klein -usando una parametrización en Franzoni [56]- y la banda de Moebius.
lio IM
El trabajo reciente de Kent et al. [80] hace una revisión de los mejores métodos de
simulación de distribuciones paramétricas de datos direccionales en variedades, incluyendo
el caso de la esfera, el plano proyectivo, la variedad de Stiefel, el grupo ortogonal especial,
Ju -C
entre otras. Entre las distribuciones paramétricas consideradas en [80] se incluyen algunas
de las presentadas en la Sección 3.5.4.
En este capı́tulo se exponen algoritmos distintos para generar variables aleatorias en
D
variedades los cuales tienen la ventaja de ser fácilmente adaptables cuando se consideran
distribuciones diferentes a la uniforme y las familias paramétricas. El caso de la distribución
uniforme en Sd fue propuesto por Muller [97] en 1959 y popularizado por Marsaglia [93] y se
AT
sabe que es un método lento. El objetivo, sin embargo, es contar con modelos de probabilidad
sencillos que hagan énfasis en el soporte no uniforme de la variedad, lo cual tiene dos ventajas.
La primera es que se trata de distribuciones que permiten una interpretación a la realización
de variables aleatorias con esa distribución las cuales están sujetas a efectos de repulsión,
correlaciones o colas pesadas. La segunda es que son alternativas fáciles de implementar
que permiten analizar y comparar los diversos métodos de ATD ante supuestos distintos a la
distribución uniforme y explorar acerca de la robusticidad de estos métodos ante desviaciones
de las suposiciones.
Esto último se muestra en el Proyecto del alumno Jesús Pérez Angulo, al final de estas
notas, en donde también se exponen los algoritmos Mapper y complejos testigos para ATD. El
proyecto incluye un estudio de simulación amplio para analizar caracterı́sticas homológicas,
geométricas y de costo computacional para comparar éstos y los métodos usuales de ATD
ante diversos escenarios de distribuciones, consideraciones de error y tamaño de muestra, en
los casos de las variedades S1 , S2 y T2 .
4.1. Variables aleatorias en la esfera 133
4.1. Variables aleatorias en la esfera

El método usual
para generar variables aleatorias con distribución uniforme en S1 es
considerar S1 = eiθ : 0 ≤ θ ≤ 2π y generar a θ como una variable aleatoria con distribu-
ción uniforme en [0, 2π]. Distribuciones alternativas sugieren usar una distribución en [0, 2π]
distinta a la uniforme.
Esto es equivalente a considerar la parametrización de la esfera (cos θ, sin θ), con θ ∈
[0, 2π]. Sin embargo no siempre se cumple que considerar distribución uniforme en los paráme-
tros de una variedad nos dará la distribución uniforme en la variedad.
16 T
En esta sección presentamos un método diferente para generar variables aleatorias con
distintas distribuciones en Sd−1 y sus productos cartesianos, lo cual permite considerar as-
20 A
pectos alternativos de modelación con distribuciones de fácil interpretación a la realización
de variables aleatorias con estas distribuciones. Recordemos de la Sección 3.3.6, que dado
lio IM
cualquier vector aleatorio Xd = (X1 , . . . , Xd ) con distribución µ en (Rd , B(Rd )) y tal que
P(| kXd k = 0) = 0 se tiene que

X1 Xd
Ju -C
R= ,..., (4.1.1)
||Xd || ||Xd ||
es una variable aleatoria en (Sd−1 , B(Sd−1 )) cuya distribución es la medida inducida

D
µR (A) = µ(R−1 (A)), A ∈ B(Sd−1 ).

AT
En particular, como se mencionó en la Sección 3.3.5, si Xd = (X1 , . . . , Xd ) tiene distribu-

ción normal N(0, Id ), R tiene probabilidad uniformemente distribuida en Sd−1 .
Nos referimos a esta construcción como distribución cociente Rd /Sd−1 de variables alea-
torias o simplemente distribución cociente.
Estamos interesados en distribuciones alternativas a la uniforme que ofrezcan posibili-
dades diversas de modelación y permitan una interpretación a la realización de variables
aleatorias con estas distribuciones. En particular en las siguientes secciones describimos ca-
sos de modelación con variables aleatorias que exhiben correlación, fuerza de repulsión y
colas pesadas.
4.1.1. Distribución cociente de una normal multivariada

Consideremos el vector aleatorio Xd = (X1 , . . . , Xd ) con distribución normal multivariada
Nd (m, Σ) y función de densidad (3.5.4) y tomemos m = 0. Cuando Σ = Id , R tiene la
probabilidad uniformemente distribuida en Sd−1 .
En la siguiente figura se muestra una simulación de mil variables aleatorias con distribu-
ción uniforme en S2 .
16 T
20 A
lio IM
Figura 4.1: Simulación 1000 variables aleatorias con distribución uniforme en S2 .
Ju -C
Si la matriz de covarianza Σ = (σij ) no es un múltiplo de la identidad, la distribución

tiende a concentrarse en partes de la esfera dependiendo de las correlaciones σij . En las
siguientes gráficas se muestran nubes de puntos para diversas posibilidades de elección de
D
Σ y los correspondientes efectos en la distribución de puntos en S1 y S2 . Existen zonas que

tienen una mayor concentración de puntos.
AT
Figura 4.2: Simulación 300 variables aleatorias con distribución cociente de una distribución
normal bivariada con dependencia en S1 .
16 T
20 A
lio IM
Figura 4.3: Simulación 1000 variables aleatorias con distribución cociente de una distribución
normal trivariada con dependencia en S2 .
Ju -CD
4.1.2. Distribución cociente con fuerzas de repulsión en la esfera

El modelo de esta sección es útil para describir fenómenos en donde las observaciones
AT
en la nube de puntos están sujetos a una fuerza de repulsión. El modelo está basado en el
comportamiento de valores propios de matrices aleatorias.
Consideremos la matriz aleatoria simétrica Z = (Zij ) d × d, donde Zij , 1 ≤ i ≤ j ≤ d son
variables aleatorias independientes y cada Zij tiene distribución normal N(0, 1 + δij ). Se dice
que Z es una matriz GOE (Gaussian Orthogonal Ensemble).
La densidad multivariada f de los eigenvectores X1 , ..., Xd de la matriz Z es bien conocida
en la teorı́a de matrices aleatorias; ver por ejemplo el Teorema 2.5.2 y la Observación 2.5.3
en el libro [3]. Su fórmula explı́cita es
1 Y
f (x) = cd exp(− kxk2 ) |xj − xi | , x = (x1 , ...xd ) ∈ Rd (4.1.2)
4 i<j
donde cd > 0 es una constante que sólo depende de la dimensión d.

Observe que esta densidad es estrictamente positiva, por lo que no sólo los eigenvectores
no coinciden, sino que estos se repelen. Además, debido a la caracterización de independencia
en términos de densidades que se presentó en la Sección 3.5.3, los eigenvectores X1 , ..., Xd no
son independientes. Esto último era de esperarse, pero de (4.1.2) observamos que estos son
fuertemente dependientes y tienen una fuerza de repulsión.
De hecho, una dependencia más fuerte se observa en los valores propios de una matriz
GUE (Gaussian Unitary Ensemble): Sea Z = (Zij ) una matriz hermitiana d × d , donde
ReZij , ImZij , 1 ≤ i, j ≤ d son variables aleatorias independientes y ReZij , ImZij tienen dis-
tribución normal N(0, 21 (1 + δij )). En este caso la densidad conjunta de los valores propios
X1 , ..., Xd de la matriz Z es
1 Y
cd exp(− kxk2 )
f (x) = e |xj − xi |2 , x = (x1 , ...xd ) ∈ Rd (4.1.3)
16 T
2 i<j
20 A
donde e
cd es una constante positiva que sólo depende de d.
Es de esperarse que en ambos casos la distribución de puntos inducida por
lio IM
R = (X1 , . . . , Xd ) /| kXd k
en Sd−1 refleje esta fuerza de repulsión.

Ju -C
A continuación se muestran gráficas de nubes de puntos generados con estas distribucio-

nes, donde se observa el fenómeno de repulsión en el caso de las correspondientes distribu-
ciones en S1 y S2 , partiéndose en semiesferas y cuartos de esferas que se repelen.
D
AT
Figura 4.4: Simulación 300 variables aleatorias con distribución cociente GOE en S1 .
16 T
20 A
lio IM
Figura 4.5: Simulación 300 variables aleatorias con distribución cociente GUE en S1 .
Ju -CD
AT
Figura 4.6: Simulación 1000 variables aleatorias con distribución cociente GOE en S2 .
16 T
20 A
lio IM
Figura 4.7: Simulación 1000 variables aleatorias con distribución cociente GUE en S2 .
Cuando se consideran los valores propios ordenados X1 < . . . < Xd la densidad corres-
Ju -C
pondiente es d! veces (4.1.2) (o 4.1.3) considerada sobre la cámara de Wely −∞ < x1 <
· · · < xd < ∞.
En general, los modelos de repulsión no son particulares de los eigenvectores de una
D
matriz con entradas gaussianas. Numerosos modelos de las matrices aleatorias presentan
este fenómeno, pero la densidad tiene una expresión amigable en el caso GOE y GUE.
AT
4.1.3. Distribución cociente de colas pesadas

Finalizamos con un modelo que es útil cuando se consideran fenómenos con colas pesadas,
es decir la probabilidad de observaciones mayores que un número grande es alta.
Consideremos la densidad de Cauchy univariada
1 1
f (x) = , x ∈ R.
π 1 + x2
Esta es una densidad con colas pesadas, en el sentido de que si X es una variable aleatoria
con esta distribución, entonces P(X > r) no decae rápidamente cuando r → ∞. Por ejemplo
la distribución normal no tiene colas pesadas, pues estas decaen exponencialmente. Sea Xd =
(X1 , . . . , Xd ) con X1 , . . . , Xd variables aleatorias independientes con la misma distribución de
Cauchy. En este caso la distribución de kXd k también tiene colas pesadas y el efecto en la
distribución de puntos de R = (X1 , . . . , Xd ) /| kXd k en S1 es que los puntos tienen mayor
concentración en los puntos cardinales, y en el caso de S2 ocurre un fenómeno similar. Esto
se ilustra en la siguientes figuras.
4.2. Variables aleatorias en el toro 139
16 T
20 A
Figura 4.8: Simulación 300 variables aleatorias con distribución cociente Cauchy en S1 .
lio IM
Ju -CD
AT
Figura 4.9: Simulación 1000 variables aleatorias con distribución cociente Cauchy en S2 .
4.2. Variables aleatorias en el toro

Recordemos que por el Teorema de medida producto y la construcción de variables alea-
torias independientes de la Sección 3.3.6, el construir distribuciones en la esfera Sd−1 nos
permite construir variables aleatorias con distribución la medida de probabilidad producto
en espacios de productos cartesianos de la esfera, en particular en el toro T2 = S1 × S1 , o

mas generalmente en Td = S1 × · · · × S1 .
De esta manera, si R1 , ..., Rd son variables independientes con cierta distribución µ en
1
S , el vector aleatorio
Td = (R1 , ..., Rd ) (4.2.1)
tiene distribución µd = µ × · · · × µ en Td como elemento de R2d .

| {z }
d
16 T
4.2.1.
20 A
Distribución uniforme como elemento en R2d y R3
lio IM
En particular, Td tiene distribución uniforme en Td (la cual el uniformemente distribuida
por el Teorema 3.3.5) si cada Ri tiene distribución uniforme en S1 .
Ju -C
Como se aprecia en la siguiente gráfica, la medida inducida por la inmersión de T2 en

3
R es ligeramente distinta de la distribución uniforme. Una pregunta natural es ¿qué distri-
bución deben tener las variables aleatorias T2 = (R1 , R2 ) para que esta inmersión tenga la
D
distribución uniforme? La respuesta en el caso del toro se encuentra en el trabajo de Diaconis

et al. [43].
AT
Figura 4.10: Simulación 1000 variables aleatorias con distribución inducida por la uniforme
en la inmersion de T2 en R3 .
16 T
20 A
lio IM
Ju -CD
Figura 4.11: Nube de puntos en el toro con distribución uniforme.

AT
Usando un método directo en Diaconis et al. [43], el proyecto de los alumnos Gilberto
Flores y Yair Hernández muestra como generar variables aleatorias directamente en el toro
en R3 . Este es el método que usa la librerı́a de R. La siguiente imagen muestra una nube
de puntos en el toro con distribución uniforme, generada con este método.
4.2.2. Fuerza de repulsión en el toro
Si R1 , ..., Rd son variables independientes con distribución con fuerza de repulsión µ en

S1 , como en la Sección 4.1.2, el vector Td dado por (4.2.1) tiene una distribución µd que
presenta también fuerzas de repulsión. En el caso d = 2, esta repulsión se observa en la
distribución inducida por la inmersión de T2 en R3 , como se puede apreciar en las siguientes
imágenes.
16 T
20 A
lio IM
Figura 4.12: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal GOE en S1 .
Ju -CD
AT
marginal GUE en S1 .
4.2.3. Otras distribuciones

Con la misma idea se pueden generar variables aleatorias Td en el toro Td a partir de
cualquier distribución µ en S1 . A continuación se pueden apreciar los casos T2 cuando µ es
una distribución cociente multivariada y de Cauchy en S1 como en las Secciones 4.1.1 y 4.1.3
respectivamente.
16 T
20 A
lio IM
Ju -C
marginal cociente bivariada en S1 .
D
AT
marginal Cauchy en S1 .
4.3. Variables aleatorias en la botella de Klein y la ban-

da de Moebius
Como se mencionó anteriormente, cuando se tiene una variedad parametrizada, no siem-
pre se cumple que considerar distribución uniforme en los parámetros nos dará la distribución
uniforme en la variedad. Un método general para generar variables aleatorias con distribu-
ción uniforme en una variedad se presenta en Diaconis et al. [43], el cual se basa en la medida
de Hausdorff y el método de aceptación-rechazo. Esto es el tema del proyecto de los alumnos
Gilberto Flores y Yair Hernández, quienes presentan los casos de la botella de Klein y la
16 T
banda de Moebius.
Con respecto a generación de variables aleatorias con otras distribuciones en estas varie-
20 A
dades, en la dirección de las distribuciones alternativas consideradas en la esfera y el toro en
lio IM
las secciones anteriores, es un tema en el que estamos trabajando y pensamos incluirlo en
estas notas en un futuro.
Ju -C
4.4. Variables aleatorias en otras variedades

D
Queda por explorar la generación de variables aleatorias en el plano proyectivo, en pega-

dos de variedades y en variedades 2-estratificadas. Abordaremos este tema en un futuro.
AT
Capı́tulo 5
Inferencia Estadı́stica
16 T
20 A
lio IM
El objetivo de este capı́tulo es definir los elementos básicos y establecer notación y no-
menclatura de inferencia estadı́stica. Todo ello es pertinente en el contexto de ATD, debido a
que la razón de ser de ATD es de facto el descubrimiento de propiedades desconocidas de un
Ju -C
objeto con base en el análisis de una nube de puntos. Veremos que esto plantea de entrada
un problema formal de inferencia, y que el reto principal de esta parte será cómo cuantificar
la incertidumbre de la aseveración que se hace respecto a dicha propiedad desconocida. En
D
efecto, los diagramas de persistencia (o los códigos de barras) son instrumentos de inferencia,
y será deseable poder complementar su cálculo con nociones que informen sobre la calidad
o precisión del resultado, o bien de la incertidumbre en la que se incurre cuando se utilicen
AT
para hacer alguna afirmación. En la práctica esto equivale a reconocer que un diagrama
de persistencia incluye ruido e incertidumbre, y éste es el objeto de estudio de inferencia
estadı́stica. La teorı́a de probabilidad del capı́tulo anterior será fundamental.
Para exposiciones introductorias de estadı́stica matemática, puede consultarse Roussas
[117] y Wasserman [128].
5.1. Premisa principal de un problema de inferencia

estadı́stica
Se observa una realización de un fenómeno aleatorio, digamos X. Este puede ser un
elemento aleatorio de varios tipos: número (variable aleatoria), un vector de dimensión finita
(vector aleatorio), una función, etc.
La premisa principal es que el carácter aleatorio de X se concibe como una realización de
un fenómeno aleatorio que tiene una distribución de probabilidad P, donde la distribución P
145
146 Capı́tulo 5. Inferencia Estadı́stica
es desconocida ya sea en su totalidad o en algún detalle especı́fico (por ejemplo, su soporte,

su media, etc.). Es de interés conocer P. Si la medida de probabilidad P fuese conocida,
entonces no hay problema estadı́stico propiamente, pues el problema estadı́stico tiene que
ver con inferir la propiedad desconocida de P con base en X.
La observación X está dada, por lo que no hay incertidumbre tal como la hay en la teorı́a
de probabilidad desarrollada anteriormente en el curso. Antes, fue concebida una estructura
(Ω, F, P) para enfrentar el que haya incertidumbre acerca del valor de X. En el problema
estadı́stico, el valor de X ha sido observado, y la incertidumbre radica en otro punto: Radica
en que existe duda acerca de cuál P es la que produjo el valor X. En algunas ocasiones
16 T
se utilizan los términos incertidumbre estocástica e incertidumbre inductiva para distinguir
estos dos tipos. Es común que estos se confundan entre sı́, porque en estadı́stica matemática
20 A
la teorı́a de probabilidad constituye también una de las maneras naturales de afrontar la
cuantificación de incertidumbre inductiva. En cualquier caso, el concebir a P como medida
lio IM
de probabilidad es la base para formular soluciones a la incertidumbre inductiva. Con este
lenguaje, probabilidad y estadı́stica son problemas diferentes y de cierta manera inversos.
Teorı́a de probabilidad tiene que ver con cuantificar incertidumbre acerca de X y teorı́a
Ju -C
estadı́stica con cuantificar incertidumbre acerca de P a la luz de haber ya observado X.

D
5.2. Conceptos básicos de estadı́stica matemática

AT
5.2.1. Modelos estadı́sticos

El primer paso para abordar un problema estadı́stico es concebir el conjunto de medidas
de probabilidad que pudieran contener a P. Pudiera decirse que se trata de identificar un
conjunto de medidas “sospechosas” o “posibles”. Tiene analogı́as directas con concebir un
conjunto de causas que producen los sı́ntomas X en medicina, o concebir un conjunto de
sospechosos que hayan podido producir las pruebas X en una investigación policial. En
ambos casos, el problema planteado es de inferencia.
Definición 5.2.1. Un modelo estadı́stico M es un conjunto de medidas de probabilidad.
Como una medida de probabilidad puede especificarse por diversos dispositivos, es común
denotar un modelo estadı́stico como un conjunto de funciones de densidad, funciones de
distribución, funciones generadoras de probabilidad, u otros medios por aparte de medidas
de probabilidad propiamente dichas. Matemáticamente un modelo estadı́stico no es más que
un subconjunto de medidas de probabilidad, pero en la práctica la elección de M puede no
ser inmediata. La idea es seleccionar M de tal manera que sea lo más chico posible pero
5.2. Conceptos básicos de estadı́stica matemática 147
que el riesgo de excluir a la medida desconocida P es muy bajo. En lo general, esta elección
es arte-ciencia, como lo es la formulación de cualquier modelo matemático en la práctica.
(En la práctica médica, la noción análoga a modelo se llama diagnóstico diferencial, y en la
investigación judicial el conjunto análogo suele llamarse lı́neas de investigación). La elección
M como todas las medidas de probabilidad posibles, es posible pero no conveniente. La razón
heurı́stica es que la incertidumbre inductiva tiende a ser mayor entre mayor o más complejo
sea M.
Definición
5.2.2. Se dicek
que un modelo estadı́stico es paramétrico si puede escribirse co-
16 T
mo M = Pθ | θ ∈ Θ ⊂ R . En este caso, θ recibe el nombre de parámetro y Θ el de espacio
paramétrico. Notar que si el modelo es correctamente especificado, entonces la presunción
20 A
es que existe un valor de θ tal que P = Pθ . En caso de no ser posible esta representación,
entonces se dice que el modelo es no-paramétrico. Se dice que el modelo paramétrico es
lio IM
identificable, si θ 6= θ0 implica Pθ 6= Pθ0 .
Algunos ejemplos de modelos paramétricos son modelos tı́picamente introducidos aun en

cursos elementales de probabilidad: Ber(p), N(µ, σ 2 ), Poisson(λ), etc. Por otro lado, dentro
Ju -C
de los modelos no-paramétricos tenemos como ejemplos {f | f (x) es simétrica} ,

{f | f tiene media µ} , etc.
En ocasiones suele utilizarse el término semi-paramétrico para denotar un modelo que po-
D
see componentes paramétricas y no-paramétricas. Un ejemplo de un modelos semi-paramétri-

co es {f | f (x) es simétrica con media µ} . El modelo de un vector aleatorio
AT
X = αM + (1 − α)N(0, I)
vista en el módulo anterior, es también semi-paramétrico en este sentido, ya que no hay

especificación paramétrica para la probabilidad sobre M pero sı́ la hay para la componente
mezclante, N(0, I).
Ejemplo 5.2.3 (Ejemplo paramétrico de juguete). Se observa X = (X1 , X2 , . . . , Xn ), donde

las entradas son observaciones independientes cada una con distribución Ber(p). El valor de
p se presupone desconocido. La densidad para el vector aleatorio X está dada por
n
Y P P
f (x1 , x2 , . . . , xn ; p) = pxi (1 − p)1−xi = p xi
(1 − p)n− xi
.
i=1
El parámetro es p, y el espacio paramétrico (unidimensional) es Θ = (0, 1). El modelo

estadı́stico es P P
M = p xi (1 − p)n− xi | p ∈ (0, 1) .

Como se ha escrito, el modelo paramétrico es identificable. Si se describiera como

n P o
2 xi P
2 n− xi
M= q (1 − q ) | q ∈ (−1, 1) ,
el modelo no serı́a identificable.

Este modelo se identifica con la situación del lanzamiento de una moneda n veces, o con
la encuesta electoral con respuesta binaria aplicada a n personas. Debido a ello, el ejemplo
es muy fácil de interpretar y entender, y por lo mismo será utilizado en lo subsiguiente para
ilustrar diversos conceptos a propósito de estadı́stica matemática.
16 T
20 A
5.2.2. Estadı́sticas y distribuciones muestrales
Definición 5.2.4. Una función (medible) T de X con valores en Rd recibe el nombre de
lio IM
estadı́stica.
La idea es que T (X) es una cantidad observable y calculable con los datos observados X,
pues no depende de cantidades desconocidas tales como θ. Otro modo de pensar en T (X) es
Ju -C
que es un resumen de los datos. Como X es elemento aleatorio, entonces T (X) también lo
es. Tiene sentido entonces hablar de la distribución de T (X).
D
Definición 5.2.5. La distribución de T (X) recibe el nombre de distribución muestral de

la estadı́stica T.
AT
Es claro que la distribución muestral de T en general depende de la distribución que rige

a X, digamos P, y que en general también pudiera ser desconocida. En el caso de un modelo
paramétrico para X dado por {Pθ } , la distribución muestral de T dependerı́a de θ. Hay
ocasiones en que una función de X y θ posee una distribución que no depende de θ. Esto
motiva la definición de una cantidad pivotal; ejemplos de esta noción y su importancia serán
señalados en lo que sigue.
Definición 5.2.6. Sea X un vector aleatorio y {Pθ } un modelo paramétrico que lo descri-
be. Una función C(X,θ) cuya distribución no depende de θ recibe el nombre de cantidad
pivotal.
P
Ejemplo 5.2.7. En el ejemplo juguete, T (X) = Xi es una estadı́stica con valores en R,
y su distribución muestral es Bin(n, p).
q
Ejemplo 5.2.8. En el ejemplo juguete, sea C(X,p) = ( Xi − p) / p(1−p)
P
n
. Por el teorema
central del lı́mite, si n es grande, entonces la distribución de C(X,p) es aproximadamente
N(0, 1). Esto no es más que decir que C(X,p), si bien no es una estadı́stica, sı́ es un pivotal
asintótico.
5.2. Conceptos básicos de estadı́stica matemática 149
Ejemplo 5.2.9. Con esta nomenclatura, y adelantándonos a una concepción que se hará más
adelante, si X es una nube de puntos, y T (X) es el diagrama de persistencia, entonces T (X)
es una estadı́stica. En la literatura de ATD, de hecho es usual referirse a tal diagrama como
un resumen topológico, y el significado de la palabra resumen es idéntico a la acepción que
se acaba de mencionar. La única diferencia es que el valor de T (X) no radica en Rd sino en
un espacio de mayor complejidad.
5.2.3. Función de verosimilitud
16 T
Definición 5.2.10 (Verosimilitud). Sea X la observación, y el modelo estadı́stico paramétri-
20 A
co dado por la familia de densidades {f (x; θ)} . La función de verosimilitud es la función
lio IM
L : Θ −→ R
dada por L(θ; X) = f (X; θ).

Ju -C
Como X es aleatorio, la función de verosimilitud de facto es un proceso estocástico indexa-

do por θ. En estadı́stica matemática la función de verosimilitud juega un rol muy importante,
y explica la razón por la cual la densidad de probabilidad en el capı́tulo anterior ocupa un
D
lugar destacado. Uno de los empleos de la función de verosimilitud es definir estadı́sticas con
buenas propiedades.
AT
Definición 5.2.11. El estimador máximo verosı́mil de θ, denotado por θ̂MV está dado
por
θ̂MV = arg sup L(θ; X).
θ
Notar que θ̂MV es una estadı́stica, pues es una función medible de X. En ocasiones, hay
fórmulas explı́citas para θ̂MV , y en ocasiones el máximo es calculable sólo numéricamente
(pero sigue siendo de cualquier forma estadı́stica en el sentido de que no depende de θ sino
de X exclusivamente).
Ejemplo 5.2.12. En el ejemplo juguete, la función de verosimilitud es

P P
Xi
L(p; X) = p (1 − p)n− Xi
, para 0 ≤ p ≤ 1;
esto es, un polinomio en p. Para maximizar esta función, notar que

X X
log [L(p; X)] = Xi log p + n − Xi log(1 − p)
y que
P P
∂ X i n − Xi X X
log L(p) = − = 0 ⇒ (1 − p) Xi − p n − Xi = 0
∂p p 1−p
X X X
⇒ Xi − p Xi − pn + p Xi = 0
P
Xi
⇒ θ̂MV = .
n
Se trata de un máximo, y coincide con la llamada proporción muestral.
16 T
La estadı́stica T (X) constituye un resumen de datos. Sin embargo, ¿Cuándo es efectivo
un resumen de los datos? Existen nociones diseñadas para poder establecer con precisión si
20 A
existe alguna pérdida de información por el hecho de utilizar T en lugar de la información
completa, X.
lio IM
Definición 5.2.13. Sea {f (x; θ) | θ ∈ Θ} un modelo estadı́stico paramétrico. Decimos que
una estadı́stica T es suficiente para el parámetro θ si existen dos funciones h, g ≥ 0 tales
que f (x; θ) = h(T (x), θ)g(x).
Ju -C
Una observación inmediata es que el estimador máximo verosı́mil es función de la es-

tadı́stica suficiente. Para ayudar a entender el significado ulterior de suficiencia, es interesante
D
señalar el siguiente resultado, que da una condición equivalente que dota de una interpreta-
ción alternativa y probabilı́stica a T.
AT
Teorema 5.2.14 (Fisher-Neyman). T es suficiente para θ ⇐⇒ P(X | T ) no depende de θ.

P
Ejemplo 5.2.15. En el ejemplo juguete, la estadı́stica T (X1 , . . . , Xn ) = Xi es suficiente
T n−T
para p. En efecto, poniendo h(t, p) = p (1 − p) y g(x) ≡ 1 se verifica la definición.
P
También se verifica, para x = (x1 , x2 , . . . , xn ) tal que xi = t :
P
P(X1 = x1 , . . . Xn = xn , Xi = t)
P(X = x | T = t) = P
P( Xi = t)
P(X1 = x1 , . . . Xn−1 = xn−1 , Xn = t − n−1
P
i=1 xi )
=
P(T = t)
t n−t
p (1 − p)
= n t
t
p (1 − p)n−t
1
= n ,
t
lo cual no depende de p. Notar, de paso, que en este caso se trata de la distribución uniforme
sobre valores posibles de x.
5.3. Tipos de problemas estadı́sticos 151
La interpretación coloquial es que si T es suficiente para θ, entonces el conocimiento de

X no aporta mayor información sobre θ que la que ya aporta por sı́ misma la estadı́stica T .
En el contexto de ATD, una pregunta interesante es la siguiente: el diagrama de persistencia,
visto como una estadı́stica T (X), función de una nube de datos, X, ¿es suficiente para algún
parámetro θ? Similarmente, los números de Betti calculados para el elemento t de una
filtración, ¿son suficientes para algún parámetro θ?
5.3. Tipos de problemas estadı́sticos
16 T
La premisa principal de las secciones anteriores es que se observa X ∼ P, y que la medida
20 A
de probabilidad P es desconocida. Antes de comenzar a plantear conceptos (y soluciones)
lio IM
a problemas de estadı́stica, es importante reconocer que puede haber distintos grados de
desconocimiento acerca de P, ası́ como distintas caracterı́sticas de P que son de interés bajo
distintas circunstancias. Existen, correspondientemente, varios tipos de problemas estadı́sti-
cos. En este módulo se abordarán dos problemas especı́ficos concretos: El problema conocido
Ju -C
como de estimación, y el llamado problema de prueba de hipótesis. Existen varios otros

problemas (clasificación, predicción, ordenamiento, agrupamiento, de diseño experimental,
y otros), pero nos limitaremos a estimación y pruebas de hipótesis en virtud de que una
D
gran mayorı́a de las aplicaciones de estadı́stica abarcan estos dos grandes tipos—incluyendo
problemas de inferencia estadı́stica que figuran en la literatura actual de ATD.
AT
5.3.1. Estimación
El problema de estimación es aquel en el cual el interés radica en usar X para inferir
el valor de alguna cantidad numérica que se quiere conocer para algún contexto dado. Di-
cha cantidad numérica pudiera ser el valor θ tal que P es la distribución Pθ en un modelo
paramétrico, o el valor (desconocido) de algún funcional estadı́stico τ (P) (detalles sobre fun-
cionales estadı́sticos más adelante). En cualquier caso, la incertidumbre inductiva radica en
el valor numérico que posee el valor desconocido.
Ejemplo 5.3.1. Un ejemplo de estimación en el ejemplo juguete. Supongamos que el interés
radica en inferir el valor numérico de p. Se trata de un problema de estimación paramétrica.
Ejemplo 5.3.2. Supongamos que el interés radica en estimar la función de distribución
F (x) para un valor fijo de x. Se plantea entonces un problema de estimación. Si el modelo
a considerar es paramétrico, dado por {F (x; θ)}, entonces esto se parafrasea en términos de
una estimación de θ, pues θ determina F (x; θ).
Ejemplo 5.3.3. Un ejemplo en ATD. Supongamos que el interés radica en inferir el valor
numérico de números de Betti β0 , β1 , y β2 . Se trata de un problema de estimación. Los
números de Betti serı́an caracterı́sticas numéricas que corresponden a la medida de probabi-
lidad P que está dando lugar a la nube de datos observada, X. En particular, tendrı́an que
ver con el soporte de P.
5.3.2. Pruebas de hipótesis
16 T
Ahora, para describir el llamado problema de pruebas de hipótesis, supongamos que existe
un modelo estadı́stico H predeterminado y con un significado notable bajo el contexto dado.
20 A
Si el interés se limita a inferir acerca del hecho (desconocido) P ∈ H con base en X, se plantea
un problema de prueba de hipótesis. La incertidumbre inductiva radica en las posibilidades
lio IM
P ∈ H (sı́ o no). El el contexto de modelos paramétricos, las hipótesis se pueden parafrasear
en términos de subconjuntos del espacio paramétrico Θ. En este último caso es común usar
la notación “dos puntos”, consistente en anotar el subconjunto concreto de valores de θ que
integran la hipótesis. Ejemplos de esta notación son H : θ ≤ 2, H : 1 ≤ θ < 2, y H : θ = 2.
Ju -C
Ejemplo 5.3.4. En el ejemplo juguete (visto como encuesta electoral). Si un partido no logra
2.5 % pierde su registro. El interés radica en inferir si p < 0.025. La pregunta previa a la
D
elección no es “¿Cuánta votación obtendremos?” sino más bien “¿Perderemos el registro?”.

En términos del modelo paramétrico, la hipótesis es
AT
P P
H = p Xi (1 − p)n− Xi : p ∈ (0, 0.025) ,

lo cual es más sucinto representar en términos del subconjunto (0, 0.025) ⊂ Θ, y la notación
H : 0 < p < 0.025. Algo muy importante en este ejemplo es destacar que la hipótesis
(0, 0.025) es “predeterminada y con un significado notable”.
Ejemplo 5.3.5. Ejemplo en ATD. Se observa un diagrama de persistencia D. Una pregunta
de prueba hipótesis serı́a “¿D proviene de un objeto que posee diagrama diagonal?”. Notar
que esta pregunta difiere de “¿Cuál es D?”.
Ejemplo 5.3.6. Otro ejemplo en ATD. “¿El objeto tiene más de una componente conexa?, o
equivalentemente ¿β0 > 1?” Quien haya planteado tal pregunta, otorga un significado notable
a esa condición.
Ejemplo 5.3.7. Otro ejemplo en ATD. Se obtienen diagramas D1 , D2 , . . . , DN vı́a muestras
independientes de varios individuos. Si la pregunta es “¿Todos los diagramas provienen del
mismo objeto topológico?” se plantea una pregunta de prueba de hipótesis. Tendrı́a significado
notable por ejemplo, si se trata de pacientes sanos y la topologı́a se está utilizando para
detectar cambios de formas de órganos para cierta patologı́a.
5.4. Estimación 153
Los dos problemas mencionados son fundamentalmente diferentes en estadı́stica ma-

temática en virtud de que la incertidumbre inductiva reside en espacios diferentes. La re-
levancia de ello será que para cuantificar incertidumbre inductiva—de lo cual no hemos
hablado todavı́a—los conceptos y los métodos serán ad hoc para cada situación. Es común
razonar que si se resuelve un problema de estimación, que entonces la solución al problema
de hipótesis vendrı́a dada de manera gratuita. El razonamiento es que si infiero el valor de θ
entonces sabrı́a si Pθ ∈ H es cierto o no lo es. Este razonamiento es falaz debido a una razón
muy sutil: Que la respuesta a la pregunta de estimación no es determinı́stica, o 100 % certera.
Se trata de una inferencia que contiene posible error ineludible, que serı́a retransmitido hacia
16 T
el intento de responder en el segundo paso la pregunta de prueba de hipótesis.
5.4. Estimación
20 A
lio IM
5.4.1. Estimación paramétrica puntual
Ju -C
Asumiremos por el momento que el objetivo legı́timo es estimación de θ en un modelo

paramétrico, para fines de motivar e ilustrar conceptos, resultados matemáticos, y ejemplos.
Hay varias propuestas en estadı́stica matemática para abordar el problema de estimación.
D
Nos limitaremos a dos ideas primordiales (por ser ideas que ya aparecen empleadas en lite-
ratura de ATD): estimación puntual y estimación vı́a intervalos de confianza.
AT
Definición 5.4.1. Un estimador puntual para el parámetro θ es una estadı́stica T (X)

con valores en Θ. Es una función general de X. Si T (X) es un estimador de θ, es usual que
se emplee la notación θ̂ en lugar de T (X).
Cuando se calcula T (X) para la muestra especı́fica observada, su valor numérico se de-
nomina estimación puntual. En tal caso, se suele utilizar la notación T (x) para reforzar el
que se trata de una observación numérica especı́fica de X. De esta manera, T (X) es un
vector aleatorio en Rd , mientras que T (x) es un vector en Rd . Similarmente, esta notación
“mayúscula vs. minúscula” se aplica a la función de verosimilitud: L(θ; X) es un proceso
estocástico indexado por θ, mientras que L(θ; x) es una función fija de θ.
A un estimador puntual se le pueden requerir una o varias propiedades deseables. Debido
a que algunas de estas propiedades involucran un tamaño de muestra, n, es también usual
que se denote un estimador puntual como Tn o como θ̂n .
Definición 5.4.2 (Propiedades clásicas de estimadores). Decimos que la estadı́stica Tn ba-
sada en n observaciones es consistente si
Pr
Tn −→ θ, ∀θ ∈ Θ.
Decimos que la estadı́stica Tn es insesgada para θ si
E(Tn ) = θ, ∀θ ∈ Θ.
Decimos que Tn es asintóticamente normal si

√ Tn − θ L
n −→ N(0, 1)
sn (θ)
para alguna función sn > 0.
16 T
P
Ejemplo 5.4.3. En el ejemplo juguete, la estadı́stica Xi /n, obtenida en su momento como
20 A
el llamado estimador máximo verosı́mil para p, es insesgada, consistente, y asintóticamente
normal. En efecto:
lio IM
P
Xi
E = p,
n
P
Xi Pr
Ju -C
−→ p
n
por la ley de los grandes números y
D
P
Xi
√ n
− p L
np −→ N(0, 1)
AT
p(1 − p)
por el teorema central del lı́mite.
De hecho, en estadı́stica matemática las propiedades de consistencia y asintoticidad nor-

mal que se han verificado para el estimador máximo verosı́mil no son privativas de este ejem-
plo en particular. Uno de los resultados importantes para el estimador máximo verosı́mil es
el siguiente.
Proposición 5.4.4. Para una muestra aleatoria i.i.d. de tamaño n proveniente de un modelo
estadı́stico {f (x; θ) | θ ∈ Θ} con ciertas condiciones técnicas de regularidad (que incluyen
que el soporte de f (x; θ) no dependa de θ, e intercambialidad entre diferenciación yvalor
Pr √ L
esperado), sea θ̂n el estimador máximo verosı́mil. Entonces θ̂n −→ θ y n θ̂n − θ −→
2
N(0, I −1 [θ]), donde I (θ) = −E ∂∂2 θ log f [X; θ] .
La cantidad I (θ) recibe el nombre de Información de Fisher. La demostración del resul-

tado recurre a expansiones de Taylor y resultados de convergencia tales como la ley de los
grandes números, el teorema central

del lı́mite, y el teorema de Slutsky. El resultado indica
√ p
como consecuencia que n θ̂n − θ / I −1 [θ] es asintóticamente una cantidad pivotal.
Con relación a este ejemplo
P juguete, puede enunciarse un resultado adicional interesante
respecto al estimador p̂n = Xi /n :
Proposición 5.4.5. Si S(X1 , . . . , Xn ) es cualquier otra estadı́stica que dé lugar a un esti-
mador insesgado para p (por ejemplo X1 o (X1 + X2 )/2), entonces
P
Xi
16 T
Var ≤ Var(S).
n
20 A
P
Se dice entonces que Xi /n es un estimador insesgado de varianza mı́nima, y esto cons-
tituye un ejemplo del concepto de optimalidad en estadı́stica matemática. El significado de
lio IM
ello es que p̂n tiene la menor variabilidad teóricamente posible, o bien la menor incertidumbre
inductiva. El resultado se sigue de un teorema conocido como cota inferior de Cramer-Rao
(ver Roussas [117] o Wasserman [128]), y en su formulación matemática precisa juega un rol
Ju -C
también la misma Información de Fisher antes mencionada.

El valor T (X) invocado como estimación de θ tiene necesariamente incertidumbre induc-
tiva, debido a la aleatoriedad de X. Es decir, T (X) puede bien ser distinto a θ. Un asunto
D
importante es cómo poder cuantificar la magnitud de esta incertidumbre, o bien la “cali-

dad” del valor T (X). El reto es poderlo hacer sin tener que recurrir al valor desconocido
AT
de θ (porque si se conociera θ no tendrı́a interés en inferir su valor, y si lo conociera uno

pudiera simplemente calcular |T (X) − θ| para cuantificar de manera retrospectiva el error
cometido). El comentario anterior acerca de estimación insesgada de varianza mı́nima sirve
también para ilustrar que la varianza es en sı́ misma un criterio para evaluar la precisión del
estimador puntual T . A menor varianza, mayor precisión.
5.4.2. Estimación por subconjuntos

El concepto de estimar θ con un solo valor T (X) (estimación puntual) es en ocasiones
útil y necesario. Sin embargo, a la luz de que hay presente incertidumbre inductiva, es más
interpretable un concepto de estimación por intervalos (o más generalmente en dimensiones
mayores que uno, por regiones). En lugar de desarrollar la teorı́a general, procederemos por
vı́a de ilustración en el ejemplo de juguete.
Teorema 5.4.6.P Sean X1 , X2 , . . . , Xn observaciones independientes con distribución Ber(p).

Sea p̂ = (1/n) Xi (el estimador máximo verosı́mil para p). Sea α ∈ (0, 1) fijo, Φ la función
Rx
de distribución normal estándar dada por Φ(x) = −∞ √12π exp(−u2 /2) du y sea zα/2 tal que
Φ(zα/2 ) = 1 − α/2. Definir el intervalo (aleatorio) dado por
r r !
p̂(1 − p̂) p̂(1 − p̂)
In = p̂ − zα/2 , p̂ + zα/2 .
n n
Entonces
P(In 3 p) −→ 1 − α, ∀p.
n→∞
16 T
Pr
Demostración. Por consistencia sabemos ya que p̂ −→ p y por asintoticidad normal sabemos
20 A
que para todo p, r
p(1 − p) L
lio IM
(p̂ − p)/ −→ Φ.
n
Por un teorema de Slutsky obtenemos también que para cada p,
Ju -C
r
p̂(1 − p̂) L
(p̂ − p)/ −→ Φ.
n
D
Esto lo que quiere decir es que

AT
r !
p̂(1 − p̂)
P −zα/2 < (p̂ − p)/ < zα/2 −→ 1 − α.
n
q
Pero el evento −zα/2 < (p̂ − p)/ p̂(1−p̂)
n
< zα/2 es equivalente a
r r
p̂(1 − p̂) p̂(1 − p̂)
p̂ − zα/2 < p < p̂ + zα/2 .
n n
Al intervalo In , que depende sólo de X, se le llama intervalo (asintótico, en este caso)

de confianza 1 − α. La idea primordial es que uno puede fijar α, y provocar cobertura
(es decir, que suceda el evento {In 3 p}) con probabilidad 1 − α no importa cuál sea el
valor (desconocido) de p. Es muy importante destacar la importancia de que la aseveración
de cobertura se establece ∀p en la proposición. La razón es que si fuese válida sólo para un
subconjunto de valores en (0, 1) y no para los demás, entonces el resultado serı́a inútil porque
estamos bajo la premisa de que el valor de p es desconocido. Tras repasar la demostración,

uno se dará cuenta que estuvo basada en una importante noción: Que
P
Xi
√ n
− p
np
p(1 − p)
es asintóticamente una cantidad pivotal.
La interpretación correcta es que de repetir muchas veces la obtención de X, el intervalo
In cubre el verdadero valor de p con probabilidad 1 − α. Todo junto, este dispositivo cumple
la función de cuantificar incertidumbre acerca de p: El ancho del intervalo tiene que ver con la
16 T
precisión de la estimación, y la confianza tiene que ver con la seguridad que se tiene de haber
20 A
estimado p dentro de esos lı́mites de precisión. No es posible lograr muy alta seguridad y gran
precisión simultáneamente, porque ambos se encuentran relacionados entre sı́. El intervalo
lio IM
formado por I = [0, 1] darı́a lugar a un intervalo de confianza 100 % pero la precisión que
resulta de tomarlo no es útil ni informativa. En el otro extremo estarı́a un intervalo muy
angosto, digamos de semiancho 0.00001, con lo cual la confianza resultarı́a ser muy baja.
La forma en que se utilizó la asintoticidad normal para hacer una aseveración acerca de p
Ju -C
da cuenta de porqué dicha asintoticidad es una propiedad deseable en un estimador puntual,

que en este caso fue para habilitar la construcción de un intervalo de confianza. En general,
una región de confianza es un conjunto aleatorio, que depende sólo de X, que cumple la
D
condición de cobertura. Lo que hemos ilustrado con el ejemplo de juguete es una región de
confianza en dimensión uno; de allı́ que lo hayamos denominado apropiadamente intervalo
AT
de confianza.
Observación 5.4.7. Una observación sutil, pero importante para la plena comprensión de
este instrumento conocido como intervalo de confianza. Para describir la propiedad de co-
bertura, se ha escrito con toda intención In 3 p en lugar de p ∈ In . Lo primero se lee “el
intervalo In cubre a p” y lo segundo “p cae en In ”. Lo segundo no es del todo correcto, debido
a que p es una constante fija, desconocida, que no tiene la capacidad de “caer” en ninguna
parte. Más bien, In contiene o no contiene a p, y es el sujeto gramatical en la aseveración
In 3 p.
En estadı́stica matemática existe el llamado enfoque bayesiano, que con ciertas premisas
produce interpretaciones muy distintas para los instrumentos de inferencia. La metodologı́a
bayesiana no será abordada en el presente módulo. A la fecha no ha sido desarrollada para
abordar problemas en ATD.
Definición 5.4.8. Si θ ∈ Θ ⊂ Rd es un parámetro d-dimensional, decimos que un subcon-
junto R(X) de Θ es una región de confianza 1 − α si para todo θ se cumple
P(θ 3 R) = 1 − α.
Si se cumple sólo P(θ 3 R) −→ 1 − α cuando n → ∞ decimos que es una región asintótica

de confianza. La notación R(X) enfatiza que la región sólo depende de X y que no depende
de cantidades desconocidas.
5.4.3. Estimación de otras cantidades: funcionales estadı́sticos

Lo expuesto respecto a estimación está fraseado en términos de una cantidad de interés
16 T
que es el parámetro real, θ, de un modelo paramétrico. Las nociones de estimación también
se aplican para cantidades que son de otra ı́ndole.
20 A
Definición 5.4.9. Sea P una medida de probabilidad. Un funcional estadı́stico τ es una
lio IM
función de P en R. Escribimos τ (P), y si la medida P está caracterizada por una función
de distribución F, escribimos τ (F ) abusando de notación (de la misma manera en que nos
referimos a un modelo estadı́stico M como un conjunto de medidas de probabilidad o un
Ju -C
conjunto de funciones de distribución).
Ejemplos de funcionales estadı́sticos:

D
R
τ (F ) = x dF (x) (la media asociada a F ).
AT
R
Más generalmente, τ (F ) = xk dF (x) (el k-ésimo momento).
R R k
τ (F ) = x − xdF (x) dF (x) (el k-ésimo momento central).
τ (F ) = F (x) para x ∈ R fijo.
τ (F ) = F −1 (p) para p ∈ (0, 1) fijo (el p-ésimo cuantil).
En ocasiones, un parámetro θ es ya directamente un funcional estadı́stico. Por ejemplo,

si el modelo estadı́stico es {Poisson(λ) | λ > 0} , entonces λ es el primer momento (ası́ como
el segundo momento central) de la distribución que corresponde al valor paramétrico λ.
La pertinencia de haber hecho hincapié en funcionales en un contexto de ATD viene de lo
siguiente: Que los números de Betti, βi , a la resolución t (i.e. los ingredientes fundamentales
de un diagrama de barras) no son parámetros, sino funcionales. El diagrama de persistencia
teórico es algo similar a un funcional, aunque con valores en un espacio de diagramas de
persistencia.
Definición 5.4.10. Si X1 , X2 , . . . , Xn es una muestra de variables aleatorias, definimos la

función de distribución empı́rica como
n
1X
F̂n (x) = 1(Xi ≤x)
n i=1
para x ∈ R.
Existe una definición más general para cuando la muestra es de vectores aleatorios y
16 T
x ∈ Rd . Se relaciona con la llamada distribución empı́rica, y tiene que ver con la medida de
probabilidad que asigna probabilidad 1/n a cada uno de los valores contenidos en la muestra.
20 A
(Este concepto de distribución empı́rica sı́ aparece en literatura de ATD, como en Chazal
[35]). En lo que sigue, continuamos con la restricción al caso d = 1 por facilidad.
lio IM
Teorema 5.4.11. Sean X1 , X2 , . . . , Xn variables aleatorias independientes, cada una con
función de distribución F. Entonces:
Ju -C
1. Para todo x ∈ R y n ∈ N fijos,
nF̂n (x) ∼ Bin [n, F (x)] ,

D
y por consiguiente
AT
h i
E F̂n (x) = F (x)
y
h i F (x) [1 − F (x)]
Var F̂n (x) = .
n
Pr
2. Para todo x ∈ R, F̂n (x) −→ F (x), y
√ F̂n (x) − F (x) L

np −→ N(0, 1).
F (x) [1 − F (x)]
Un resultado de convergencia, mucho más fuerte que el anterior formulado para cada
x fija, es el siguiente. Algunos autores se refieren a él como el teorema fundamental de
estadı́stica matemática. La razón es que muestra que el problema de inferir una función de
distribución desconocida siempre posee solución. Ver Shorack & Wellner para formulaciones
aun más generales que la que se enuncia enseguida.
Teorema 5.4.12 (Glivenko-Cantelli). Si X1 , X2 , . . . , Xn son variables aleatorias indepen-

dientes, cada una con función de distribución F , entonces

c.s.
sup F̂n (x) − F (x) −→ 0.

x
Si F̂n (x) estima de alguna manera a F (x), y el interés radicara en realizar estimación de
una cantidad τ = τ (F ), entonces la siguiente definición es natural para producir un estimador
de τ. Serı́a posible preguntarse por nociones de consistencia, insesgadez, y asintoticidad
normal que fueron discutidas para estimación de un parámetro θ.
16 T
Un resultado interesante que da un detalle acerca de la velocidad con la que se consigue
20 A
la convergencia en probabilidad implicada por el resultado anterior es el siguiente. En Was-
serman (2005) se explica su relevancia para la construcción de bandas de confianza para la
lio IM
función de distribución F (x), que son conceptualmente similares a la estimación por vı́a de
subconjuntos descrita—los subconjuntos son de funciones.
Teorema 5.4.13 (Dvoretzky-Kiefer-Wolfowitz). Si X1 , X2 , . . . , Xn son variables aleatorias

Ju -C
independientes, cada una con función de distribución F , entonces para cualquier ε > 0,

2
P sup F̂n (x) − F (x) > ε ≤ 2e−2nε .

D
x
AT
Definición 5.4.14. Sea τ = τ (F ) un funcional estadı́stico. El estimador de τ definido por

τ̂ = τ (F̂n ) recibe el nombre de estimador bootstrap de τ .
1. Si τ (F ) = x dF (x), entonces τ̂ = n1
R P
Ejemplo 5.4.15. Xi = X̄n . Este estimador
se llama media muestral.
2. Más generalmente, si τ (F ) = xk dF (x), entonces τ̂ = n1

R P k
Xi . Este estimador se
llama k-ésimo momento empı́rico.
2
x − x dF (x) dF (x), entonces τ̂ = n1 (Xi − X¯n )2 , estadı́stica conocida
R R P
3. Si τ (F ) =
como varianza muestral.
4. Si τ (F ) = F −1 (p), τ̂ se llama el p-ésimo cuantil empı́rico. Nota: Si F no es una función

invertible, de cualquier forma se define F −1 (p) como ı́nf {x ∈ R | F (x) ≥ p} .
R
5. Si τ (F ) = etx dF (x) para t en una vecindad de 0, τ̂ se llama función generadora de
momentos empı́rica en t.
6. Si τ (F ) = var(X̄n ) y X1 , X2 , . . . , Xn son i.i.d. entonces se calcula por teorı́a de proba-

(F ) = σ 2 /n, donde σ 2 = Var(Xi ). El estimador bootstrap de esta cantidad
bilidad que τ P
1
serı́a τ̂ = n2 (Xi − X̄n )2 .

7. Si τ (F ) = Var sen X̄n + máx [X1 , . . . , Xn ] , entonces no serı́a fácil dar con una ex-
presión analı́tica cerrada para τ . ¿Cómo calcular entonces τ (F̂n )?
Se esperarı́a que τ (F̂n ) fuera consistente para τ (F ) si el funcional τ es lo suficientemente
bien comportado. Esto constituye el objeto de estudio de una disciplina conocida como teorı́a
de procesos empı́ricos (ver Shorack & Wellner [119]).
16 T
Uno generalmente relaciona la noción de bootstrap con la computadora. En su concepción
básica, la computadora no juega rol alguno si es que el funcional τ (F̂n ) es conocido, como lo
20 A
fue para algunos de los ejemplos anteriores, en los que el cálculo de τ (F̂n ) se reduce a una
simple sustitución. La conexión cultural con la computadora viene en casos en los que τ (F̂n )
lio IM
no es conocido analı́ticamente, o su cálculo representa gran dificultad, como en el último de
los ejemplos anteriores.
Ju -C
5.4.4. Bootstrap computacional

D
El método conocido como bootstrap (ver Efron & Tibshirani [49]) viene motivado por
el siguiente problema: Se cuenta con una muestra X, con distribución F (desconocida), y el
AT
interés radica en estimación de la cantidad τ (F ) para algún τ de interés primordial. Si la

forma analı́tica de τ fuese conocida, entonces un estimador de τ (F ) se obtendrı́a sencillamente
evaluando τ (F̂n ) para algún estimador de la función de distribución F que fuese consistente
en algún sentido. (Para muestreo i.i.d. F, la función de distribución empı́rica es un ejemplo
de tal estimador de F ). Sin embargo, si la forma de τ no es accesible ni conocida, el problema
se convierte en cómo calcular τ (F̂n ).
Supongamos, para fines de ilustración, que el interés radica en estimar
τ (F ) = Var [T (X1 , . . . , Xn )] ,
donde T es una estadı́stica. También pudiera ser tal cantidad de interés E(T ), o FT (x), o
FT−1 (p), o cualquier otra, pero para el discurso que sigue usaremos Var(T ).
Antes de postular el llamado proceso de bootstrap, hagamos una conexión entre el con-
cepto de simulación de Monte Carlo para calcular τ (F ) = Var(F ), suponiendo que X1 , . . . , Xn
son observaciones i.i.d. con función de distribución fija (conocida) F . Un ejercicio académico
de simulación consistirı́a de realizar el siguiente algoritmo:
1. Simular X∗1 , . . . , X∗n i.i.d. F, y calcular T ∗ = T (X∗1 , . . . , X∗n ).

2. Repetir el Paso 1 un número grande de veces, M, para conseguir T1∗ , . . . , TM

∗
.
= (1/M ) M
∗
P ∗ 2
PM ∗
3. Calcular τ̂M i=1 (Ti − T̄M ) , donde T̄M = (1/M ) i=1 Ti .
Por la ley de los grandes números y convergencia de momentos empı́ricos se tiene que
M
1 X ∗ Pr
(T − T̄M )2 −→ Var(T ) = τ (F ).
M i=1 i
La convergencia se cumple no obstante el valor τ (F ) sea desconocido.
16 T
Para calcular aproximadamente τ (F̂n ) basta sustituir F por F̂n en el algoritmo anterior
en el Paso 1, para obtener el llamado bootstrap no-paramétrico:
20 A
1. Simular X∗1 , . . . , X∗n i.i.d. F̂n , y calcular T ∗ = T (X∗1 , . . . , X∗n ).
lio IM
∗
2. Repetir el Paso 1 un número grande de veces, M, para conseguir T1∗ , . . . , TM .
∗
= (1/M ) M ∗ 2 M ∗
P P
Ju -C
La clave radica en simular en la computadora muestras i.i.d. de tamaño n de la distri-

bución empı́rica F̂n . Tras pensar un poco, uno se da cuenta que esto es equivalente a que
D
cada X∗i se obtiene de muestrar con distribución uniforme y con reemplazo sobre los valores
observados {X1 , X2 , . . . , Xn } . Esto es como “muestrear de la muestra” y por ello el méto-
AT
do bootstrap es un método contenido en una metodologı́a general llamada re-muestreo (ver

Lunneborg [91]).
La idea pareciera ser paradójica, pues aparentemente se obtiene más información que la
muestra original X1 , X2 , . . . , Xn conlleva por medio de un proceso de obtención de muestras
artificiales en la computadora. La paradoja se explica notando que no se trata más que de un
método numérico para aproximar τ (F̂n ). Se invoca a τ (F̂n ) como un estimador consistente
Pr ∗
de τ (F ), lo cual significa que τ (F̂n ) −→ τ (F ). Por otra parte, la cantidad τ̂M aproxima a
n→∞
∗ Pr
τ (F̂n ) en el sentido τ̂M −→ τ (F̂n ) para todo n fijo. La paradoja nace del malentendido
M →∞
∗ Pr
τ̂M −→ τ (F ).
M →∞
Existe también la idea de bootstrap paramétrico. Aplica cuando se tiene un modelo es-
tadı́stico {F (x; θ) | θ ∈ Θ} , y la muestra original da lugar a un estimador consistente de θ
dado por θ̂ (por ejemplo, el estimador máximo verosı́mil de θ). El algoritmo se modifica
nuevamente en el Paso 1, generando muestras artificiales con la distribución F (x; θ̂) en lugar
de F̂n :
1. Simular X∗1 , . . . , X∗n i.i.d. F (x; θ̂), y calcular T ∗ = T (X∗1 , . . . , X∗n ).

∗
2. Repetir el Paso 1 un número grande de veces, M, para conseguir T1∗ , . . . , TM .
= (1/M ) M
∗
P ∗ 2
PM ∗
Ejemplo 5.4.16. En el ejemplo que hemos llamado juguete, supongamos que T = p̂ y

que el interés radica en estimar Var(p̂). Por razones teóricas hemos ya visto que Var(p̂) =
p(1 − p)/n. Sin embargo, por motivos didácticos podemos suponer que tal fórmula no fuese
conocida. Los métodos bootstrap aplicarı́an para obtener estimaciones de Var(p̂) con base
16 T
en una muestra X1 , . . . , Xn . El no-paramétrico conlleva simular mediante remuestreo de la
20 A
muestra original, mientras que el paramétrico simuları́a variables Bernoulli independientes
con probabilidades p̂. En ambos casos, se obtendrı́an cantidades que aproximan a p̂(1 − p̂)/n.
lio IM
Más aun, en esta situación ambos métodos (paramétrico y no-paramétrico) consisten de
mecanismos equivalentes para generar observaciones X∗1 , . . . , X∗n .
Si la caracterı́stica de interés fuese otra diferente a la varianza utilizada en la ilustración,

Ju -C
entonces en el Paso 3 habrı́a que sustituir por un estimador consistente de esa caracterı́stica.
Por ejemplo, si el interés fuese E(T ) se podrı́a utilizar la media muestral de las Ti∗ .
La noción general de bootstrap será utilizada por Chazal [35], y Fasy et al. [52] para
D
obtener estimaciones numéricas de cantidades relacionadas con diagramas de persistencia en

ATD. La caracterı́stica de interés en aquella situación será un cuantil de la distribución de
AT
cierta estadı́stica T en el contexto de ATD y en el Paso 3 se utilizarı́a un cuantil empı́rico

∗
de los valores T1∗ , . . . , TM . Algunos de esos detalles se verán en una sección más adelante.
5.4.5. Estimación de densidades

Cambiamos a un problema estadı́stico de estimación que tiene aplicaciones en ATD muy
directas, especialmente para la construcción de filtraciones. Supongamos que X1 , . . . , Xn es
una muestra de puntos que tienen alguna densidad f (x) absolutamente continua que es
desconocida. El objetivo de la disciplina llamada estimación de densidades (ver Silverman
[121]), consiste del estudio de estadı́sticas que sean estimadores fˆ(x) de f (x) para todo x.
Un histograma es de facto un estimador de densidad formal, no obstante su primera
introducción suele ocurrir aun en educación elemental. En efecto, el estimador histograma
no es más que una función escalonada fˆ(x) tal que si n → ∞ y el número de clases con la
Pr
cual se construye también va a infinito, entonces fˆ(x) −→ f (x) ∀x.
n→∞
La clase de estimadores kernel (o núcleo, en español) es una clase general muy útil y
conveniente de estimadores de densidad. Se describe a continuación para dimensión uno.
RDefinición 5.4.17. Una función K : R → R simétrica alrededor de cero, y tal que

K(u) du = 1 recibe el nombre de kernel (o núcleo). Notar que no necesariamente se pide
K ≥ 0, por lo que no necesariamente es una función de densidad absolutamente continua.
Sea X1 , . . . , Xn una muestra de variables aleatorias. Para toda x ∈ R se define el esti-
mador de densidad tipo kernel por
n
ˆ 1 X Xi − x
fK,h (x) = K ,
nh i=1 h
16 T
donde h > 0 es una constante llamada ancho de banda.
La heurı́stica de este estimador es poner una masa de probabilidad de ancho h sobre cada
20 A
uno de los puntos obtenidos en la muestra. Si K es continua, entonces el estimador kernel es
una función continua de x (cosa que no sucede con el estimador histograma). El parámetro
lio IM
h juega el papel de un parámetro de suavizamiento, en el sentido de que su valor controla
el grado de rugosidad de la función fˆK,h (x) (valor alto de h corresponde a función suave, y
valor pequeño a función rugosa).
Ju -C
Una primera caracterı́stica que puede analizarse fácilmente es la noción de consistencia:

Proposición 5.4.18. Sean X1 , . . . , Xn observaciones independientes e idénticamente dis-
tribuidas con función de densidad absolutamente continua f (x) y x ∈ R fijo. Bajo ciertas
D
condiciones sobre K y f se cumple que

AT
Pr
fˆK,h (x) −→ f (x),
n→∞, h↓0
es decir, el estimador kernel es consistente para la densidad f (x).

Demostración. Para x fijo, y h > 0 fijo, por la ley de los grandes números se cumple
n Z ∞
1 X Xi − x Pr 1 X−x 1 u−x
K −→ E K = K f (u) du
nh i=1 h n−→∞ h h −∞ h h
Z ∞
= K(y)f (x + hy) dy.
−∞
Tomando ahora el lı́mite cuando h ↓ 0, se obtiene que

Z ∞ Z ∞ Z ∞
K(y)f (x + hy) dy −→ K(y)f (x) dy = f (x) K(y) dy = f (x)
−∞ h↓0 −∞ −∞
por ser K un kernel. (Entre las premisas del resultado se ponen condiciones que permitan
realizar el intercambio entre integral y lı́mite aludido).
5.5. Pruebas de hipótesis 165
En la teorı́a de estimación de densidades se estudian también métodos óptimos para la

selección del ancho de banda h, para la selección del kernel K, ası́ como modificaciones para
tomar en cuenta diversas complicaciones.
La generalización a mayores dimensiones de un estimador kernel basado en una muestra
de vectores aleatorios X1 , . . . , Xn de dimensión d está dada por
n
1 X
fˆK,H (x) = K H −1/2 [x − Xi ] ,

n |H|1/2 i=1
16 T
donde H es una matriz cuadrada, R Rsimétrica y definida positiva, y K es un kernel simétrico
multivariado (lo cual significa · · · K(x1 , . . . , xd )dx1 · · · dxd = 1). Cuando H toma la forma
20 A
diag(h21 , . . . , h2d ), y K la forma K1 (x1 ) · · · Kd (xd ), con cada Ki un kernel univariado, se obtiene
una forma frecuentemente utilizada dada por
lio IM
n
1 X X i1 − x 1 X id − x d
fˆK,h (x) = K1 · · · Kd .
nh1 h2 · · · hd i=1 h1 hd
Ju -C
La noción de una densidad estimada con una nube de puntos ha sido invocada para
asuntos de ATD (ver Chazal, y Fasy et al.). Sea fˆ(x) un estimador de densidad multivariada
basado en observaciones de una nube de datos P. Se definen los conjuntos de subnivel dados
D
por
AT
n o
Lu = x ∈ P | fˆ(x) ≤ u .
Claramente, Lu ⊆ Lu0 si u < u0 , lo cual es afı́n con la noción de filtración. Luego, el estimador
de densidad es instrumental para construir filtraciones alternativas a las filtraciones obtenidas
por incrementar radios de bolas alrededor de puntos x ∈ P.
5.5. Pruebas de hipótesis
5.5.1. Consideraciones básicas

Pasamos ahora a considerar soluciones para el problema de cuantificar incertidumbre
inductiva para el problema denominado prueba de hipótesis. Al igual que para estimación,
es un asunto controversial en teorı́a estadı́stica el establecer una forma correcta y única para
hacerlo. Existen diversas propuestas para abordarlo, y la razón inherente es debida a que
pueden proponerse diversas filosofı́as para realizar un razonamiento inductivo. Esto contrasta
con un razonamiento deductivo, en el cual no se suscita polémica porque el resultado de una

deducción permanece invariante; lo único que puede cambiar es la vı́a de la deducción. (Por
ejemplo, dos maneras diferentes para demostrar un mismo teorema.)
No es el propósito en este momento despertar ni atender dicha controversia. En estadı́stica
matemática ello da lugar a debates entre la escuela de Neyman-Pearson y la escuela baye-
siana, por mencionar un ejemplo notable, histórico y actual. En este módulo se abordarán
nociones con el objeto de ilustrar los tipos de razonamientos a la luz de incertidumbre in-
ductiva, procurando cubrir conceptos que ya están siendo utilizados en la literatura de ATD.
En Robinson & Turner [116], esta metodologı́a es referida como NHST (null hypothesis
16 T
significance testing) y las ideas generales serán expuestas a continuación.
Supongamos que se ha planteado un problema legı́timo de prueba de hipótesis en el senti-
20 A
do descrito con anterioridad en la Sección 5.3. En esa ocasión, definimos una hipótesis como
un subconjunto de modelos estadı́sticos. Ahora nos restringiremos al caso llamado hipóte-
lio IM
sis simple, que consiste en una hipótesis integrada por un solo elemento. La nomenclatura
histórica es hipótesis nula, para esta hipótesis simple. La nomenclatura proviene de hipótesis
históricamente formuladas para comparar dos tratamientos entre sı́; la hipótesis de que am-
Ju -C
bos tratamientos son iguales se traduce a que la diferencia entre ellos es cero (de allı́ hipótesis
nula). El objetivo general es evaluar la plausibilidad de la hipótesis nula a la luz de datos
observados, X.
D
Ejemplo 5.5.1. En el ejemplo juguete, la hipótesis formada por el único valor, p = 1/2 es
una hipótesis simple. La hipótesis formada por modelos indexados por el conjunto [0, 1/2]
AT
no serı́a simple. Para entender la intención de la palabra plausibilidad, podemos aprovechar

también este mismo ejemplo. Si la muestra observada resulta en
X = (1, 1, 1, 1, 0, 1, 1, 1, 1, 1)
entonces la plausibilidad de la hipótesis p = 1/2 es baja, mientras que si la muestra hubiera

sido
X = (1, 0, 1, 1, 1, 0, 0, 1, 0, 1),
entonces la hipótesis p = 1/2 pasarı́a a ser más plausible. El punto de la teorı́a estadı́stica
es formalizar y cuantificar este razonamiento heurı́stico.
Ejemplo 5.5.2. En el contexto de ATD, Robinson & Turner [116] formulan hipótesis en
el lenguaje de diagramas de persistencia. La hipótesis formada por identidad entre dos o
más grupos de diagramas de persistencia es una hipótesis simple porque contiene un solo
elemento: la topologı́a es la misma entre grupos. Nótese el significado especial que tiene la
identidad entre grupos: que no hay diferencias entre pacientes sanos y enfermos, por ejemplo.
Sea H una hipótesis nula simple. Los elementos básicos para realizar una prueba de
significancia son dos (ver Sprott [123], Capı́tulo 6, o Wasserman [128]):
Una estadı́stica D(X) ≥ 0, que cumple tener la propiedad de ordenar muestras por
grado de evidencia en contra de la hipótesis nula. Esto significa, que si D(X1 ) ≥ D(X2 )
entonces la muestra X1 tiene más evidencia en contra de H que la muestra X2 .
Una función de distribución de probabilidad para D bajo la presunción de H. Esta

distribución se llama la distribución nula de D, denotada por F0 .
16 T
Cabe notar que el segundo ingrediente, la distribución F0 , no es más que la llamada
20 A
distribución muestral de D bajo H, según la nomenclatura establecida en la Definición 5.2.5.
lio IM
Ejemplo 5.5.3. En el ejemplo juguete, supongamos que la hipótesis nula de interés es
H : p = 1/2. Un ejemplo de una estadı́stica D que ordena muestras serı́a
Ju -C
X n
D(X) = Xi − .

2
Otro ejemplo serı́a
D
D(X) = |p̂ − 1/2| .

AT
En palabras: D mide la discrepancia en el número de águilas respecto al valor n/2, el esperado

bajo la hipótesis nula. La distribución nula serı́a la distribución de D bajo la presunción de
que p = 1/2. El cálculo de la distribución nula
X n
Xi − ≤ x

P1/2
2
puede hacerse utilizando la distribución Bin(n, 1/2), o bien utilizando aproximaciones a la
distribución binomial por vı́a de la distribución normal.
Ejemplo 5.5.4. En ATD, sea la hipótesis nula el diagrama trivial y sea D(X) la distancia
cuello de botella entre el diagrama de persistencia obtenido y la diagonal. La estadı́stica
cumple la noción de ordenar nubes de puntos en términos de su grado de separación de la
hipótesis nula. ¿Cuál serı́a la distribución de D bajo la premisa de que la nube de datos
proviene de un objeto que no tiene más que la homologı́a trivial? Ello no es un problema
teórico accesible y por ello serán pertinentes las ideas de bootstrap, en su momento.
5.5.2. El concepto de p-valor

Ante una hipótesis nula H, y definidos dos elementos constitutivos, una estadı́stica D, y
una distribución nula F0 , el siguiente paso es definir alguna manera de cuantificar el concepto
de plausibilidad de H a la luz de datos observados X.
Definición 5.5.5. Ante la hipótesis nula H, para una observación X, y estadı́stica de prueba
D con distribución nula F0 definimos el p-valor como
p := 1 − F0 [D(X)] = P0 [D > D(X)] .
16 T
En palabras: Es la probabilidad bajo la hipótesis nula de que la estadı́stica resulte mayor al
20 A
valor observado.
lio IM
Se trata de cuantificar el lugar en el que se encuentra el valor obtenido de D(X) en la
escala de valores de D que se obtendrı́an bajo la premisa de que H es cierta. Siendo una
probabilidad, el resultado es un número entre cero y uno; también se ilustra la noción de que
Ju -C
la incertidumbre inductiva está siendo abordada con un instrumento basado en probabilidad.

La interpretación es que entre más pequeño sea el p-valor, más evidencia representa X en
contra de la hipótesis H. Es una cuantificación de qué tan extremo es el valor observado de D
respecto a los valores tı́picos que se obtendrı́an para D si la hipótesis H fuese verdadera. Por
D
razones de lógica, no es correcto la interpretación contraria: Que un p-valor grande represente

evidencia a favor de H (ver Sprott [123], Capı́tulo 6).
AT
A la luz de su popularidad, el concepto de p-valor ha sido sujeto a escrutinio y crı́tica a

lo largo de los años (fue introducido por R. Fisher en 1925). Las crı́ticas se dividen en dos
grupos: Crı́ticas de orden filosófico, respecto a su interpretación matemática y contextual
(por ejemplo, no representa “la probabilidad de que H sea verdadera”), y crı́ticas de orden
práctico. Las crı́ticas de orden práctico versan sobre algunos asuntos primordiales:
Que usuarios de estadı́stica en ciencias exactas y ciencias sociales recurren a un p-valor

aun cuando el problema entre manos no es de prueba de hipótesis sino de estimación (o
algún otro problema). Se trata de un uso y costumbre fuertemente establecido, siendo
que significa la solución a un problema incorrectamente planteado.
Que aún en el caso de que sı́ sea un problema legı́timo de prueba de hipótesis, se recurre
al p-valor de manera obcecada, sin la consideración de otras posibilidades para afrontar
el mismo problema.
Que históricamente se ha transminado la noción de que en la escala de p-valores, el

valor 0.05 es un valor de referencia universal, de tal forma que si p < 0.05 entonces la
conclusión es “la hipótesis H es falsa” y en caso contrario “la hipótesis es verdadera”. El

valor 0.05 se ha constituido de manera perniciosa y equivocada en la literatura cientı́fica
en otras disciplinas, como un valor de referencia bajo el cual se toman decisiones
(inclusive existen ejemplos de polı́tica editorial en revistas cientı́ficas en las que se
instruye que si el p-valor no es menor a 0.05, que entonces ni siquiera será considerado
un manuscrito para su revisión).
La Sociedad Estadı́stica de Estados Unidos recientemente ha publicado una declaratoria

respecto a la postura frente al p-valor (ver [130]) debido a estas razones.
16 T
Ejemplo 5.5.6. En el ejemplo de juguete, supongamos que la hipótesis de interés es H :
20 A
p = 1/2, que la estadı́stica D está dada por D(X) = |p̂ − 1/2| , y que el valor observado de
D es d. El p-valor serı́a P0 (|p̂ − 1/2| > d), donde la notación P0 indica que el cálculo de
lio IM
probabilidad se realiza bajo la presunción p = 1/2.
En lugar de operar con la distribución binomial en este ejemplo, aprovecharemos la apro-
ximación que implica la asintoticidad normal de la estadı́stica p̂ que hemos verificado en un
Ju -C
ejemplo anterior. En efecto, sabemos que

p̂ − p
q
p(1−p)
D
para n grande tiene aproximadamente distribución normal estándar para cualquier valor de
AT
p, y en particular, si p = 1/2. Luego podemos realizar la siguiente aproximación:
P0 (|p̂ − 1/2| > d) = 1 − P0 (−d ≤ p̂ − 1/2 ≤ d)

 
−d p̂ − 1/2 d
= 1 − P0  q ≤ q ≤q 
1 1 1
4n 4n 4n
   
d −d
≈ 1 − Φ q  + Φ q  .
1 1
4n 4n
Si n = 100 y se observan 48 águilas entonces d = |48/100 − 1/2| = 0,02 y el p-valor serı́a

0.689, mientras que si se observan 8 águilas entonces d = |8/100 − 1/2| = 0.42 y el p-valor
serı́a 2,2 × 10−17 .
Ejemplo 5.5.7. En contexto ATD y diagramas de persistencia, supongamos que la hipótesis

nula es que la nube de datos proviene de un objeto con un diagrama trivial, y que la estadı́stica
de prueba es D = dB [d, dgm0 ] , donde dB es la distancia cuello de botella entre dos diagramas
de persistencia, d = D(X) es el diagrama calculado con la muestra observada X y dgm0 es
el diagrama trivial.
Para implementar el concepto de p-valor se requiere la distribución de D bajo la presun-
ción de que la nube de datos sı́ proviene de un objeto donde no hay persistencia alguna. El
reto es entonces encontrar P0 (D > d). El gran problema es que aquı́, no hay un resultado
análogo al ejemplo anterior en el cual se conoce o se aproxima dicha probabilidad de manera
analı́tica. Por ello ingresarán al escenario otro tipo de métodos, incluyendo algunos basados
en el bootstrap.
16 T
Proposición 5.5.8. Si la distribución de D(X) bajo la hipótesis nula H es invertible, en-
20 A
tonces la distribución del p-valor es uniforme sobre (0, 1).
lio IM
Demostración. Sea F0 (x) la función de distribución de la estadı́stica D(X) bajo la hipótesis
nula. Primero notemos que F0 [D(X)] tiene distribución uniforme en (0, 1).En efecto, para
0 ≤ t ≤ 1,
Ju -C
F0 (t) = P0 [D(X) ≤ t] = P0 [F0 {D(X)} ≤ F0 (t)] .
Ahora, por definición p = 1 − F0 [T (X)] , y si F0 [T (X)] es uniforme, también lo es 1 −

D
F0 [T (X)].
AT
Este es un resultado sorprendente en un principio. Lo que dice es que cualquier desviación

de uniformidad en la distribución del p-valor serı́a interpretable como que la hipótesis H no
es plausible. Un p-valor chico (especialmente si tiende a ocurrir en experimientos repetidos)
es una de las maneras en que se rompe tal uniformidad. Tiene interpretación clara el sentido
en que H no es plausible (D(X) es inusualmente alto para la muestra X). Otras maneras de
violación a la distribución uniforme no tienen interpretación tan transparente (ver Sprott,
Capı́tulo 6 [123]).
5.5.3. Pruebas de hipótesis acerca de la media

El siguiente es un problema clásico en inferencia estadı́stica: Se cuenta con una muestra
aleatoria i.i.d. X1 , . . . , Xn , bajo la suposición de un modelo N(µ, σ 2 ), y la hipótesis nula de
interés está dada por H0 : µ = µ0 , donde la constante µ0 es conocida. Enunciaremos las
técnicas para abordar este problema no sólo porque representa un ejemplo adicional para
ilustrar conceptos fundamentales (estadı́stica de prueba y distribución nula), sino porque
serán invocadas de primera mano para construir ciertos campos aleatorios en el Capı́tulo 6.
Definición 5.5.9. La estadı́stica dada por
X̄n − µ0
T (X) = √ ,
Sn−1 / n
P 2
P 2
donde X̄n = Xi /n y Sn−1 = Xi − X̄n / (n − 1), recibe el nombre de estadı́stica de
prueba t de Student para la hipótesis µ = µ0 .
Notar que en efecto, se trata de una estadı́stica, en virtud de que el valor µ0 es conocido
16 T
2
porque la hipótesis nula de interés preexiste y se conoce. La notación Sn−1 se emplea para
2
P 2
hacer una distinción con la varianza muestral Sn = Xi − X̄n /n. No obstante existen
20 A
maneras de deducir o justificar la estadı́stica t con base en optimalidad y otras consideracio-
nes, no es ese el aspecto importante que aquı́ se desea resaltar. Basta notar que |T (X)| es una
lio IM
estadı́stica que efectivamente ordena muestras según la evidencia en contra de H0 : µ = µ0 ,
pues valores mayores de T se asocian con mayor contradicción con H0 . El ingrediente que
falta para poder implementar un p-valor como se ha visto, es la distribución de T bajo la
Ju -C
nula, es decir, su distribución muestral. En este sentido, el siguiente resultado es conducente.
Definición 5.5.10. Si X1 , . . . , Xn son i.i.d. N(µ, σ 2 ), con n > 1, entonces la distribución de

D
X̄n − µ
T (X) = √
AT
Sn−1 / n
se conoce como la distribución t con n − 1 grados de libertad. La notación a emplear

será T (X) ∼ t(n − 1).
Cabe notar que la distribución de T (X) no depende de µ ni de σ 2 , esto es, T (X) es una
cantidad pivotal. Es posible mostrar que la distribución t con ν > 1 grados de libertad tiene
soporte (−∞, ∞) y una función de densidad, dada por
− ν+1
Γ ν+1

2 x2 2
fν (x) = √ 1 + .
νπΓ ν2

ν
Se trata de una densidad simétrica, con forma de campana, aunque con colas más pesa-
das que una densidad normal estándar. El valor esperado (y la mediana) de esta densidad
es 0, para todo ν > 1, y la varianza está dada por ν/ (ν − 2) para ν > 2. Si ν = 2,la
varianza es ∞. Cuando ν → ∞ la densidad t con ν grados de libertad converge a la
densidad normal estándar. La relevancia inmediata de conocer esta distribución nula es
que para todo µ0 , el cálculo

√ de un p-valor basado en un valor observado de la estadı́stica
t(x) = X̄n − µ0 / (Sn−1 / n) para la hipótesis H0 : µ = µ0 se calcula como
Z |t(x)|
p = Pµ0 (|T (X)| > |t(x)|) = 1 − 2 fn−1 (x) dx.
0
También existe un resultado para explicitar la distribución muestral de la varianza mues-
tral, que aparece en el denominador de la estadı́stica t. Su formulación requiere de la distri-
bución conocida como χ2 .
Definición 5.5.11. Para k = 1, 2, . . . la función de densidad dada por
16 T
1
gk (x) = k/2 xk/2−1 e−x/2
20 A
2 Γ (k/2)
para x > 0 recibe el nombre de densidad ji-cuadrada con k grados de libertad. La
lio IM
notación a emplear para la distribución de probabilidad que se induce con esta densidad
será χ2k .
El valor esperado de χ2k es k, y su varianza es 2k.
Ju -C
Proposición 5.5.12. Si X1 , . . . , Xn son i.i.d. N(µ, σ 2 ), con n > 1, entonces se cumple

2
(n − 1) Sn−1
∼ χ2n−1 .
D
σ2
2
Además, las estadı́sticas Sn−1 y X̄n son independientes.
AT
En en lenguaje de la Definición 5.2.6, esto no es más que decir que

2
(n − 1) Sn−1
σ2
es también una cantidad pivotal. Ello tiene implicaciones si el interés fuese formular pruebas
de hipótesis e intervalos de confianza para el parámetro σ 2 .
5.6. Aplicación de principios de inferencia en literatura

de ATD
A continuación veremos cómo los principios generales de inferencia estadı́stica expuestos
se han invocado para abordar problemas de inferencia estadı́stica en el contexto de ATD.
Se hace una selección de artı́culos en la literatura. Los materiales de inferencia estadı́stica
que se han elegido para presentar en secciones anteriores, en gran parte fueron ası́ definidos
porque en esta literatura se está presuponiendo cierta familiaridad con ellos.
5.6. Aplicación de principios de inferencia en literatura de ATD 173
5.6.1. Pruebas de hipótesis para homogeneidad entre grupos de

diagramas de persistencia
La hipótesis que plantean Robinson & Turner ([116]) es la de homogeneidad de grupos
(dos o más) de diagramas de persistencia. La motivación radica en la observación de nubes
de datos, digamos de individuos sanos y enfermos, para investigar si provienen de la misma
estructura. Motiva con la consideración de n diagramas de persistencia divididos en dos
grupos de tamaños n1 y n2 : X1,1 , X1,2 , . . . , X1,n1 y Y2,1 , Y2,2 , . . . , Y2,n2 . La hipótesis nula es
que todos estos diagramas provienen del mismo objeto.
16 T
El trabajo recurre a la distancia 2–Wasserstein entre dos diagramas de persistencia, dada
por
20 A
!1/2
X 2
W2 (X, Y ) = ı́nf kx − φ(x)k2 ,
lio IM
φ:X→Y
x∈X
aunque el método aplica para cualquier otra distancia k–Wasserstein, en particular para la
distancia cuello de botella,
Ju -C
dB (C, D) := W∞ (C, D) = ı́nf sup kx − φ(x)k∞ .

φ:C→D x∈C
D
Recordar que bajo el paradigma de la prueba de significancia de una hipótesis simple

utilizando un p-valor, lo primero que se requiere es una estadı́stica D, una función de los
AT
diagramas observados, que ordene muestras en el sentido de medir apartamiento de la hipóte-

sis nula. Con una motivación basada en pruebas convencionales en estadı́stica (pruebas t,
pruebas F en modelos lineales), se propone la siguiente estadı́stica. Sea L un rotulamiento
de los n diagramas, una partición de los ı́ndices {1, . . . n} en dos grupos. El agrupamiento
originalmente observado da lugar a un rotulamiento especı́fico LO , pero L será en lo que
sigue un rotulamiento arbitrario.
Para un k fijo en la distancia de Wasserstein, se define
2 n
m X m n
X 1 X
σχ2 1,2 (L) = Wk (Xm,i , Xm,j ).
m=1
2nm (nm − 1) i=1 j=1
La motivación o génesis de esta fórmula para la estadı́stica de prueba es interesante,

aunque no indispensable. Como nota para estadı́sticos, proviene de la comparación de dos
2 1 2
P
grupos mediante varianzas muestrales. Es sabido que la expresión σχ = n−1 (xi − x̄) puede
1
escribirse de manera alternativa como σχ2 = 2n(n−1) (xi − xj )2 , lo cual no depende de
PP
un concepto de media muestral x̄ sino solamente de comparaciones por pares. Como nota
adicional para estadı́sticos, esta forma de escribir la varianza muestral constituye un caso
particular de una llamada U-estadı́stica (originalmente Hoeffding [67]; resumido de manera

introductoria en Serfling [120]), basada en un kernel (simétrico) de orden 2, que en general
se escribe como
1 X
U = n k(xi , xj ).
2 i6=j
Para el caso de la varianza muestral el kernel es k(x, y) = (1/2)(x − y)2 .

La estadı́stica propuesta, de manera heurı́stica, es la suma de varianzas por grupo. Lo
que es relevante reconocer en términos de su posible utilización para calcular un p-valor
es que en efecto, un valor grande de σχ2 1,2 (L) denota mayor heterogeneidad entre los dos
16 T
grupos divididos según L, es decir, que la hipótesis nula no se cumple. Una vez adoptada tal
estadı́stica de prueba, es necesario calcular o aproximar P0 (σχ2 1,2 (L) > l), donde l denota el
20 A
valor de la estadı́stica observada σχ2 1,2 (LO ), y P0 denota la medida de probabilidad bajo la
lio IM
presunción de la hipótesis de que los grupos son homogéneos.
A falta de una distribución teórica para P0 , lo que se propone es un concepto llamado
prueba de permutaciones (ver [61]), que tiene por objeto calcular empı́ricamente PO bajo
una distribución hipotética generada. El algoritmo consiste de lo siguiente, tomando como
Ju -C
entradas n1 + n2 diagramas de persistencia con rotulamiento LO :

1. Calcular σχ2 1,2 (LO ).
D
2. Clasificar al azar los diagramas en dos grupos de tamaños n1 y n2 para obtener el

rotulamiento L.
AT
3. Calcular σχ2 1,2 (L) y tomar nota acerca del hecho σχ2 1,2 (L) ≤ σχ2 1,2 (LO ).
4. Repetir Pasos 2–3 N veces y calcular la proporción de veces que se cumplió σχ2 1,2 (L) ≤
σχ2 1,2 (LO ).
El artı́culo después procede a ilustrar diversos ejemplos de datos simulados, para fines
de verificar que en efecto, se obtienen p-valores pequeños en situaciones bajo las cuales se
sabe que los grupos son heterogéneos. Varios resultados son congruentes con lo esperado.
Por ejemplo, se inyecta ruido (normal), llega el momento en que el ruido no permite que el
p-valor perciba diferencias. Complementa con un ejemplo de análisis de datos de referencia,
acerca de formas (siluetas), y otro sobre datos de resonancia magnética funcional. En ambos
casos se ilustra que el concepto de p-valor es útil para detectar diferencias entre grupos.
Para el caso de K > 2 grupos, la generalización natural de la estadı́stica de prueba
está dado por
K nm Xnm
X 1 X
σχ2 K (L) = Wk (Xm,i , Xm,j ).
m=1
2n m (nm − 1) i=1 j=1
En la discusión del artı́culo, se menciona que serı́an posibles otras posibilidades para la
estadı́stica de prueba, incluyendo la varianza de Frèchet, cuya definición se menciona más
adelante.
5.6.2. Subconjuntos de confianza para diagramas de persistencia

El objetivo propuesto en Fasy et al. ([52]) es aplicar razonamientos estadı́sticos para
diferenciar puntos en el diagrama de persistencia que pudieran considerarse como “ruido
topológico”, en contraste con “señal topológica”. Como veremos, la solución radica en la
16 T
construcción de subconjuntos de confianza para diagramas de persistencia.
El planteamiento comienza con ver los diagramas de persistencia como asociados a una
20 A
función de distancia. Si A es un subconjunto de RD , un ejemplo de tal función de distancia es
dA (x) = ı́nf y∈A ky − xk2 . A su vez, la distancia da lugar a los llamados conjuntos de subnivel,
lio IM
dados por Lt = {x | dA (x) ≤ t}. Cuando el conjunto A es una nube de puntos observada
S, entonces los subconjuntos de nivel son Lt = ∪x∈S B(x, t), dando lugar a una filtración
común a la cual se aplica la noción de homologı́a persistente. La notación dgm(f ) se emplea
Ju -C
para denotar el diagrama de persistencia construido con la distancia f , y la distancia L∞ se

invoca también, dada por kf − gk∞ = supx |f (x) − g(x)|.
Se repasan varias nociones que fueron tratadas durante el primer módulo. La llamada
D
estabilidad de la distancia cuello de botella se cumple para funciones continuas f ,g y se

escribe como
AT
W∞ [dgm(f ), dgm(g)] ≤ kf − gk∞ . (5.6.1)

La distancia de Hausdorff, dH entre dos subconjuntos compactos de RD se define de varias
maneras equivalentes (ver Sección 1.2.2). Si M es una d-variedad encajada en un subconjunto
compacto X de RD , y S ⊂ M , entonces
W∞ [dgmS , dgmM ] ≤ kdS − dM k∞ = dH (S, M ). (5.6.2)
Sea dgm0 el diagrama de persistencia teórico (desconocido) y sea dgm d el diagrama de

persistencia construido con la nube de datos observada Sn = {X1 , . . . , Xn }. Para una cons-
tante α ∈ (0, 1) predeterminada, la clave de la propuesta es encontrar una estadı́stica, cn =
cn (X1 , . . . , Xn ) tal que que se cumpla
h i
d dgm ) > cn ≤ α
P W∞ (dgm, 0
para todo dgm0 . La relevancia es que si ello es cierto, entonces se cumple que
h i
P W∞ (dgm, dgm0 ) ≤ cn > 1 − α.
d
Implı́citamente en esta última relación, se encuentra un concepto generalizado de “región

de confianza” mencionado en una sección anterior. En efecto, si uno define
n o
Cn = dgm | W∞ (dgm,
d dgm) ≤ cn ,
lo que se obtiene es un conjunto de confianza para el diagrama de persistencia dgm0 , en el

siguiente sentido: P [Cn 3 dgm0 ] > 1 − α, sin importar quién sea dgm0 .
Notar que no se escribe igualdad con 1 − α, sino mayor que 1 − α. Esto es lo que se conoce
16 T
como un intervalo conservador. Uno quisiera especificar α para construir un conjunto con
probabilidad de cobertura exactamente 1 − α, pero en ocasiones es difı́cil encontrarlo ası́ y
20 A
uno se conforma con que sea mayor que 1 − α. Muy malo serı́a que uno pretenda 1 − α y que
la probabilidad de cobertura pudiese ser en realidad menor que 1 − α para algunos valores
lio IM
de dgm. Esto último no serı́a nada sensato, pues no ofrecerı́a garantı́a alguna sobre el control
de incertidumbre inductiva respecto a dgm que uno pretende ejercer.
Una parte importante y conveniente que se aporta en el artı́culo es la manera de repre-
Ju -C
sentar gráficamente parte de la información contenida en el conjunto de confianza Cn . Dicho

conjunto radica, en efecto, en el espacio de diagramas de persistencia, D, y serı́a difı́cil de
visualizar. Para entender una interpretación, es útil concebir el diagrama de persistencia
D
vacı́o, denotado aquı́ por dgm∅ . El diagrama vacı́o consiste de un diagrama diagonal, con la
interpretación de que no hay homologı́a interesante. En la Figura ?? se muestra de manera
abstracta lo que el conjunto Cn cumple en términos de cobertura. También se ilustra la per-
AT
tinencia de la distancia cuello de botella, en el sentido de que las vecindades de radio cn de

un punto z en el plano cartesiano son cuadrados de lado 2cn .
En lugar de intentar graficar el conjunto Cn , lo que se hace es identificar los puntos del
diagrama de persistencia observado dgm d tales que provocan W∞ (dgm, d dgm ) > cn . En la
∅
distancia cuello de botella participa la noción de apareamientos óptimos (biyecciones) entre
los puntos de dgm
d y de dgm . Los puntos z de dgm
∅
d causantes de que W∞ (dgm, d dgm ) > cn
∅
son exactamente aquellos cuya vecindad cuadrada de √ radio c n no intersectan la diagonal.
Esto sugiere que si se traza una franja con distancia 2cn perpendicular a la diagonal, que
entonces los puntos z causantes de que W∞ (dgm, d dgm ) > cn corresponden exactamente
∅
con aquellos que están fuera de esa franja (ver Figura ??). Con este dispositivo, en lugar de
buscar graficar Cn , lo que se representa es el conjunto de puntos z del diagrama de persistencia
que producirı́an que el diagrama dgm∅ no sea cubierto por el conjunto de confianza Cn . A
estos puntos z se les denomina como portadores de una señal topológica, y los puntos que se
encuentran dentro de la franja como ruido topológico (principio de la Sección 4 del artı́culo).
Es importante señalar que este rotulamiento de señal vs. ruido está subordinado a la confianza
(1 − α) × 100 %. No se trata de una aseveración determinı́stica, sino probabilı́stica.
16 T
20 A
lio IM
Ju -CD
AT
Figura 5.1: Interpretación de franja de confianza para un diagrama de persistencia. Los

diagramas de Venn ilustran como universo el conjunto de todos los diagramas de persistencia,
D. El punto dgm
d representa el diagrama construido con la nube de datos observada; dgm0 es
el diagrama real desconocido; y dgm∅ el diagrama vacı́o, cuya
n gráfica consiste exclusivamente
o
de una diagonal. El conjunto de confianza definido por Cn = dgm | W∞ (dgm, d dgm) ≤ cn se
denota por el subconjunto delineado con trazo punteado. Los páneles (a) y (b) representan
casos en los que el conjunto Cn ha sido existoso para cubrir a dgm0 . La constante cn ha
sido seleccionada para que esto último ocurra con probabilidad 1 − α. Sin embargo, existe
una probabilidad α de que no se logre cobertura, como ha ocurrido por azar en el pánel
(c). Si se quisiera hacer disminuir α, entonces los conjuntos Cn tendrı́an que ser de mayor
extensión, produciendo mayor grado de incertidumbre.
√ En el pánel (d) se muestra que una
franja dibujada a distancia perpendicular 2cn de la diagonal funciona como dispositivo
gráfico para rotular puntos que son una señal, en el sentido de que la posición de un punto
d dgm ) > cn . En tal caso Cn resulta no cubrir al diagrama vacı́o dgm ,
provoca que W∞ (dgm, ∅ ∅
como ocurre en los páneles (b) y (c). Por lo tanto, los puntos localizados por dentro de dicha
franja diagonal pueden interpretarse con confianza (1 − α) × 100 % como que no representan
una caracterı́stica relevante, debido a que no son causales de una diferencia significativa con
relación al diagrama vacı́o, dgm∅ . Correspondientemente, a estos puntos en la franja se les
atribuye una variación debida sólo a ruido provocado por muestreo.
Ası́, un punto fuera de la franja descrita deberá ser interpretado meramente como sos-
pechoso de ser una cualidad real sugerida por la nube de datos, más no una aseveración
con certeza absoluta. La noción de cualidad real en este sentido, se entiende como algo que
difiere del diagrama vacı́o dgm∅ .
Ahora bien, con base en la desigualdad 5.6.2, de hecho lo que se aborda en el artı́culo es
una estadı́stica cn tal que P [dH (Sn , M ) > cn ] ≤ α, o equivalentemente P [dH (Sn , M ) ≤ cn ] >
1 − α. Esto se debe a que dH (Sn , M ) ≤ cn implica W∞ (dgm, d dgm ) ≤ cn , de donde se
0
obtendrı́a la desigualdad
16 T
h i
d dgm ) ≤ cn ≥ P [dH (Sn , M ) ≤ cn ] > 1 − α.
P W∞ (dgm, 0
20 A
El artı́culo de facto considera cuatro estadı́sticas cn (X1 , . . . , Xn ) y demuestra para ellos
que asintóticamente P [dH (Sn , M ) > cn ] ≤ α. Lo hace con base en suposiciones técnicas rigu-
lio IM
rosas sobre la medida de probabilidad P (Sección 3 del artı́culo). Los métodos están basado
en diversas propuestas de aproximación (remuestreo, concentración de medida, método de
shells, y estimación de densidades), y el artı́culo contiene detalles técnicos para demostrar
Ju -C
que cada propuesta produce un cn que en efecto cumple la cota de probabilidad de cobertura
(Sección 4 del artı́culo y apéndices). Las técnicas probabilı́sticas para establecer la proba-
bilidad de cobertura están basadas en resultados variados que versan sobre propiedades de
D
dH (Sn , M ). El acceso a estos resultados, y la estabilidad, permitieron trabajar propiedades

de dH (Sn , M ) en lugar de W∞ (dgm,
d dgm ).
h 0 i
AT
El hecho de que la desigualdad P W∞ (dgm, d dgm0 ) ≤ cn > 1−α puede no ser “ajustada”
(ver Definición B.1.14 en Apéndice B), es un asunto mencionado en Chazal et al. (2014), del
cual se deriva una idea basada en bootstrap directamente sobre valores de W∞ en lugar de dH .
Ver la Sección 6 (“Bottleneck bootstrap”, de ese artı́culo). La librerı́a TDA de R contiene
una
√ función para realizar bootstrap, y graficar la lı́nea paralela a distancia perpendicular
2cn aquı́ expuesta. Un comentario interesante en Chazal es que este esquema de bootstrap
permite tomar en cuenta diagramas de persistencia de una dimensión de interés, en lugar
de todas las dimensiones juntas, lo cual darı́a lugar a valores de cn mejor sintonizados y que
corresponden a cotas más “ajustadas” para la cobertura.
5.6.3. Inferencia estadı́stica basada en panoramas de persistencia
Bubenik ([22]) presenta y desarrolla la idea de un resumen topológico alternativo a los

diagramas de barras y diagramas de persistencia. Se trata del panorama de persistencia
(persistence landscape), presentado en la Sección 2.6. En lo que sigue se hará énfasis en las
ventajas que ello ofrece, y en particular, en cómo se explotan para abordar algunos problemas
de inferencia estadı́stica utilizando principios generales expuestos con anterioridad.
El panorama de persistencia λn (t) = λ(n, t) es una función aleatoria, de N × R+ a
R (ver Sección 2.6) o bien de R2 × R+ a R si se extiende el valor n a todo R mediante
dne. Este concepto contrasta fuertemente con el diagrama de persistencia, que es un objeto
aleatorio con valores en el espacio de diagramas de persistencia. Este último espacio es
geométricamente engorroso; es un espacio métrico (con la métrica Wasserstein, o cuello de
botella), pero no es espacio lineal ni espacio completo (Mileyko et al. [94]). La información
codificada en un diagrama de barras, uno de persistencia, o uno de panoramas es equivalente.
16 T
En el diagrama de persistencia, el diagrama de barras se relaciona con las bases de los
triángulos isósceles, el diagrama de persistencia con las cúspides de las “montañas”.
20 A
Cuando se recurre al diagrama de persistencia (o el diagrama de barras), el primer defecto
desde una perspectiva de estadı́stica es la carencia de una noción operativa de media. Como
lio IM
hemos visto, la noción de media es crucial para que muchos problemas de inferencia estén
bien definidos. Por ejemplo, hemos visto ya que los problemas de estimación y de pruebas
de hipótesis pueden parafrasearse en términos de conceptos de medias. La definición misma
Ju -C
de una observación aberrante (outlier) tiene que ver con una discrepancia respecto a la
media de una distribución de probabilidad. También, que la consistencia de un estimador
puntual inherentemente presupone que el lı́mite al cual se converge es único; de otra manera
D
no serı́a claro qué significa que “un estimador es consistente”. En el espacio de diagramas
de persistencia no existe la noción de “diagrama medio” como caracterı́stica probabilı́stica.
AT
Sı́ existe en un sentido de media de Fréchet, como sigue.
Definición 5.6.1 (Media y varianza total de Fréchet). Sea M un espacio métrico con métrica
d, y X1 , X2 , . . . , Xn una colección de puntos sobre M. Definimos la función
n
X
G(x) = d2 (x, Xi ).
i=1
Una media de Fréchet se define por
m = arg mı́n G(x).

x∈M
La varianza total de Fréchet se define por v = G(m).
Como comentario, en estadı́stica elemental, cuando el espacio métrico es R, se obtienen

medias comunes:
1. Si d(x, y) = |x − y| , la media de Fréchet es la media aritmética.

p
2. Si d(x, y) = |x − y| se obtiene una mediana muestral.
+
3. Si M = R√ y d(x, y) = |log(x) − log(y)| se obtiene la llamada media geométrica dada
por m = n X1 · · · Xn .
P
4. Con la métrica d(x, y) = |1/x − 1/y| se obtiene la media armónica, m = n/ (1/Xi ) .
Es importante notar que la media de Fréchet puede no ser única, ni en ejemplos cuando
M = R ni cuando M es el espacio de diagramas de persistencia (En Bubenik, Figura 3, se
muestran dos ejemplos simples y especı́ficos para ilustrarlo). Por ello, la media de Fréchet
16 T
no es un buen candidato para formalizar nociones de consistencia.
El hecho de que el panorama de persistencia habita en un espacio de funciones, permite
20 A
de inmediato recurrir a la noción de norma. Para habilitar un enfoque probabilı́stico, se
concibe que λ es un elemento aleatorio sobre el espacio (S, A, µ), con λ : S −→ R y S o
lio IM
N × R o R × R. Para 1 ≤ p < ∞ se define
Z 1/p
p
kλkp = |f | dµ
Ju -C
Usando la medida producto de conteo (sobre N) y Lebesgue (sobre R), se obtiene

D
∞
!1/p
X
kλkp = kλ(k, t)kpp
AT
k=1
si λ es un panorama de persistencia, λ : N × R → R.
Esto a su vez da lugar a que los panoramas tengan una estructura de espacio de Banach,
Lp (S), para lo cual es factible desarrollar teorı́a de probabilidad (Ledoux & Talagrand [89]).
La nube de datos se concibe como un elemento aleatorio de un espacio de probabilidad
(Ω, F, P ) y el panorama de persistencia como un valor aleatorio en Lp (S). Si X1 , X2 , . . . , Xn
son nubes de datos aleatorios i.i.d., y λ1 , λ2 , . . . , λn los correspondientes panoramas, entonces
el panorama medio tiene una definición muy natural:
n
1X
λ̄n = λ̄n (k, t) = λi (k, t).
n i=1
Serı́a deseable que este concepto de media tuviera convergencia en algún sentido. Ello darı́a
mucha claridad a lo que significarı́a “consistencia”.
La teorı́a de probabilidad sobre espacios de Banach establece con claridad el significado
de E (λ) (integral de Pettis), ası́ como lo que significa convergencia (en probabilidad, y casi
segura). En el Apéndice C, se incluyen algunos elementos primordiales de probabilidad en

espacios de Banach. Se derivan dos resultados ulteriores importantes, que generalizan lo
que sucede sobre Rk para variables aleatorias i.i.d. y que son explotados de manera crucial
para asuntos de inferencia estadı́stica: una ley de los grandes números, y un teorema central
del lı́mite. Parafraseados en términos de panoramas, lo que estos resultados establecen son
propiedades de convergencia. Consistencia significa
c.p,1
Λ̂n (k, t) −→ E(Λ),
16 T
y asintoticidad normal que
√ h n i
n Λ̂ − E (Λ)
20 A
converge en distribución a cierto proceso gaussiano. Nota: El artı́culo está recurriendo a la
lio IM
convención de que una letra mayúscula denota un elemento aleatorio (Λ) mientras que una
letra minúscula (λ) denota un valor observado calculado con la muestra observada.
También es aplicable la noción de funcionales del panorama, que son de la forma
Ju -C
Z
Y = f Λ.
D
Para tales funcionales pueden construirse intervalos de confianza (asintóticos) para E(Y ) de
la forma
AT
Sn
Ȳn ± zα/2 √
n
1 n
donde Sn2 = n−1 2
P
i=1 (Yi − Ȳn ) . La construcción es idéntica a la presentada a propósito
del ejemplo juguete (Teorema 5.4.6), en el cual la consistencia y la asintoticidad normal del
estimador p̂ fueron utilizadas para obtener un intervalo de confianza asintótico para p.
Estos resultados también habilitan algunas pruebas de hipótesis de manera inmediata.
Como ejemplo, si se observan nubes de puntos sobre dos poblaciones y el interés radicara en
investigar si es cierto que f Λ = f Λ0 para un funcional dado, entonces las ideas de p-valores
asintóticos basados en la estadı́stica
Ȳ − Ȳ 0
q
SY2 S2
n
+ nX0
es aplicable. La asintoticidad normal permitirı́a aproximar los p-valores, exactamente como se

hizo para el ejemplo juguete. Nota para estadı́sticos: Se trata de la generalización inmediata
del tema de pruebas t para comparar las medias de dos poblaciones.
Como ejemplo de un funcional concreto, Bubenik ofrece el siguiente, tras mencionar que
la selección de funcional obedece al entendimiento que se tenga acerca de los datos ası́ como
el objetivo especı́fico. Suponer que el soporte del panorama es
{1, 2, . . . , K} × [−B, B].
Definiendo
f (k, t) = 1, (t ∈ [−B, B] y k ≤ K)
se obtiene
16 T
K
X
kf Λk1 = kΛk k1 ,
20 A
k=1
lo cual es imaginar que hay K componentes topológicas dominantes que juntas son capaces
lio IM
de distinguir diferencias entre una población y otra.
El artı́culo procede a mostrar ejemplos con datos simulados sobre anillos enlazados, toros
vs esferas, etc. para fines de ilustrar que el panorama promedio se aproxima con promedios
Ju -C
empı́ricos, y que el funcional anteriormente mencionado en efecto, es eficaz para detectar

diferencias entre grupos de nubes de puntos.
Finalmente, el artı́culo postula y demuestra en su Sección 5 resultados de estabilidad.
D
Se define la métrica entre dos diagramas de persistencia dgm y dgm0 con panoramas λ y λ0
como
AT
Λp (dgm, dgm0 ) = kλ − λ0 kp .
También se demuestra una cota inferior para la distancia cuello de botella:
Λ∞ (dgm, dgm0 ) ≤ W∞ (dgm, dgm0 ).
5.6.4. Inferencia estadı́stica robusta para diagramas de persisten-

cia
Chazal et al. ([35]) comienza por destacar que la construcción de diagramas de persis-
tencia en general tienen el defecto de no ser robustos. Por ello se refiere a que una pequeña
modificación en la nube de datos puede resultar en un diagrama de persistencia muy diferen-
te. Literalmente, se menciona que un solo punto modificado—denominado valor aberrante
o outlier —puede alterar radicalmente el resultado. En este sentido, la robusticidad es un
subtema de inferencia estadı́stica que tiene que ver con el estudio de procedimientos que no
sean en extremo sensibles a valores aberrantes (ver Huber & Ronchetti, 2009).
En su parte introductoria, el artı́culo recurre a la asociación de un diagrama de persisten-

cia con una función de distancia (al igual que lo hacen Fasy et al.) entre un conjunto S ⊂ Rd
y un punto x ∈ Rd , con la notación ∆S (x) = supy∈S kx − yk . Ası́ mismo, se recuerdan las
ideas de subconjuntos de nivel Lt = {x | ∆S (x) ≤ t} , la distancia cuello de botella W∞ entre
diagramas de persistencia, y la estabilidad
W∞ (dgm1 , dgm2 ) ≤ sup k∆S1 (x) − ∆S2 (x)k .

x
Cuando el conjunto S consta de una nube de puntos observada, {X1 , . . . , Xn } , como
16 T
arranque para analizarse con ATD, la notación se convierte en
20 A
ˆ
∆(x) = mı́n kx − Xi k ,
Xi
lio IM
y se denomina función de distancia empı́rica. Esta notación “gorro” es congruente con las
ideas de parámetro y estimador señaladas en la Sección 5.4.1, y el calificativo “empı́rica”
tiene el mismo empleo al aludido para la función de distribución empı́rica. De hecho, se
Ju -C
procede a formular el siguiente resultado de consistencia, en un lenguaje muy propio de

estadı́stica:
D

ˆ
P sup ∆(x) − ∆S (x) > ε −→ 0, ∀ε > 0.

x n→∞
AT
Los subconjuntos de subnivel basados en la distancia empı́rica se vuelven

n o [n
ˆ
Lt = x | ∆(x) ≤ t = B(Xi t).
i=1
El artı́culo reconoce explı́citamente un modelo para la distribución de puntos contenidos

en la nube observada. Es de la forma
P = πR + (1 − π)(Q + Φσ ),
donde π ∈ (0, 1) es una proporción de mezcla, R es una distribución para aberrantes, Q es

una distribución con soporte S, y Φσ es una distribución con ruido con escala σ (tı́picamente,
y por ejemplo, Nd (0, σ 2 I)). Se trata de modelos de probabilidad del tipo explorado en estas
notas, y en el lenguaje de la Sección 5.2.1 se trata de un modelo semi-paramétrico.
Chazal et al., para fines de evitar la falta de robusticidad, proceden a la propuesta de
distintas funciones de distancia (que a la postre definen los conjuntos de subnivel para fines
de calcular homologı́a en ATD). La primera distancia alternativa es la DTM (distance to

measure, de Chazal et al. [34]), denotada por δP,m . Se define como
1 m −1
Z
2
δP,m (x) = Fx (u) du,
m 0
donde 0 < m < 1 y Fx (t) = P(kX − xk2 ≤ t), y X es un vector aleatorio con distribución
P. Esta distancia posee varias propiedades (ver Chazal et al. [34], [35]). Aquı́, bastará notar
que una idea fundamental es que un solo punto en la nube no es por sı́ mismo un valor
16 T
aberrante, sino que tiene que ocurrir con alta probabilidad para tener un efecto sobre la
distancia (y por ende, sobre el diagrama de persistencia que corresponde). La selección de
20 A
la constante m es arbitraria, pero más adelante en el artı́culo se discuten algunos criterios
para su elección. Recurriendo a la distribución empı́rica Pn , que asigna probabilidad 1/n a
lio IM
cada punto observado Xi , se obtiene la distancia DTM empı́rica, dada por
1 X
δ̂ 2 (x) := δP2 n ,m (x) = kXi − xk2 ,
k
Ju -C
Xi ∈Nk (x)
donde k = dmne y Nk (x) = {k vecinos más cercanos a x de entre X1 , . . . , Xn } . Se demues-

tran propiedades de asintoticidad normal para la estadı́stica δ̂ 2 (x).
D
Con ideas similares a las aplicadas por Fasy et al. [52], se desarrolla una manera de
obtener bandas de confianza para δ. Fijando α ∈ (0, 1), se define cα por
AT
√
P n||δ̂ − δ||∞ > cα = α.
Pr
Supongamos que hay una estadı́stica ĉα = ĉα (X1 , . . . , Xn ) tal que ĉα −→ cα . Entonces se
obtendrı́a
ĉα
P ||δ̂ − δ||∞ ≤ √ → 1 − α,
n
y debido a estabilidad, se deriva un conjunto de confianza conservador (Ver Sección 5.6.2)
para la distancia cuello de botella entre el diagrama real y el diagrama estimado, en virtud
de que
ˆ dgm) ≤ √ c α ĉ α
P W∞ (dgm, ≥ P ||δ̂ − δ||∞ ≤ √ −→ 1 − α.
n n
Para ĉn , Chazal et al. proponen el bootstrap no-paramétrico, consistente en simular
pseudo-obervaciones de la distribución Pn (como vimos en la Sección 5.4.4, se
trata de
muestrear con reemplazo de la muestra observada) y calcular las cantidades δ̂ ∗ − δ .

∞
La propuesta de bootstrap se acompaña de la demostración formal de que el procedimiento

bootstrap funciona. Para referencia, esto quiere decir que para todo ε > 0
√ ∗ 2 h i2 √ 2
h i h i
2

P P n δ̂ − δ̂ ≤ t | X1 , . . . , Xn − P n δ̂ − [δ] ≤ t > ε −→ 0,
∞ ∞
lo cual recoge de que el método numérico dictado por el bootstrap posee propiedades de
convergencia, condicional a la muestra original que se ha observado. En el artı́culo también
se propone un esquema diferente de bootstrap, denominado bootstrap cuello de botella, bajo
∗

∗
el cual en lugar de calcular y guardar valores de δ̂ − δ , se realiza con W∞ (dgm
ˆ , dgm).
ˆ
16 T
∞
Con esto último, la esperanza es obtener un intervalo menos conservador, con una cota más
20 A
cercana a 1 − α.
En cuanto a la selección de la constante m, se propone una idea basada en “cantidad de
lio IM
información significativa” (Guibas, et al. [62]). Para estadı́sticos, se presenta un fenómeno
similar al estira y afloje que hay con un parámetro de suavizamiento: El valor óptimo de m
no resulta ser ni muy chico ni muy grande.
Chazal et al. también proponen una segunda distancia alternativa, basada en la noción
Ju -C
de un estimador de densidades tipo kernel (ver Sección 5.4.5). El análogo de la distancia

empı́rica basada en esta idea está dada por
D
v
u1 n X n n
u X
2X
D̂K (x) = t Kh (Xi , Xj ) + K h (x, x) − Kh (x, Xi ),
n2 i=1 j=1 n i=1
AT
donde la elección más común para el kernel es

!
kx − yk2
Kh (x, y) = exp − .
2h2
Se demuestra que los conjuntos de subnivel son aproximadamente {x | p̂h (x) ≤ t} , donde p̂h
es el estimador de densidad tipo kernel para X dado por
n
1 X
p̂h (x) = √ d Kh (x, Xi ).
n 2πh i=1
Esto reitera el papel que juega el tema de estimación de densidades en ATD. De nuevo, no
basta que un solo dato aislado sea aberrante, sino que la distancia reacciona a un grupo
de ellos. Por ello se hereda una noción de robusticidad tras esta propuesta. En el artı́culo
también se demuestran propiedades analı́ticas que posee esta distancia basada en estimación
de densidades.
5.7. Ejercicios
Ejercicio 5.7.1. Si X1 , . . . , Xn son observaciones independientes cada una con distribución
N (µ, σ 2 ), entonces una estadı́stica suficiente para θ = (µ, σ 2 ) está dada por
X X
T = Xi , X2i .
Ejercicio 5.7.2. Utiliza el teorema de factorización de Neyman-Fisher para demostrar que

si T es una estadı́stica suficiente para θ, que entonces una función de T también lo es. Por
16 T
otra parte, si g es una función uno a uno, entonces T es suficiente para g(θ).
Ejercicio 5.7.3. Si τ (F ) = xdF (x), entonces τ̂ = τ (F̂n ) = n1
R P
20 A
Xi = X̄n .
2
Ejercicio 5.7.4. Si X1 , . . . , Xn son variables aleatorias
i.i.d.√N(µ, σ ) entonces la distribu-
lio IM
2
ción de Xn es N(µ, σ /n) y la distribución de Xn − µ / (σ/ n) es N(0, 1).
√
Esto último es como decir que Xn − µ / (σ/ n) es una cantidad pivotal. Nota: Otra
manera de percibir el teorema central del lı́mite es notando que√hay condiciones, aunque no
Ju -C
se trate de muestreo normal, para concluir que Xn − µ / (σ/ n) es asintóticamente una

cantidad pivotal.
Ejercicio 5.7.5. En el ejemplo que hemos llamado juguete, supongamos que T = p̂ y que el
D
interés radica en estimar Var(p̂). Verifica que en esta situación el remuestreo bootstrap pa-
ramétrico y no-paramétrico da lugar a procesos equivalentes, y que ambos aproximan numéri-
AT
camente a la cantidad p̂(1−p̂)

n
.
Ejercicio 5.7.6. En el ejemplo juguete, demuestra que
2
∂
I (p) = −E log f [X; p] = p(1 − p),
∂ 2p
con lo cual se verifica el teorema de asintoticidad normal para el estimador máximo verosı́mil.
Ejercicio 5.7.7. Para el caso de muestro i.i.d. bajo el modelo N(µ, σ 2 ) verifica que
X 2
Sn2 = Xi − Xn /n
es el estimador máximo verosı́mil para el parámetro σ 2 y que no es insesgado, mientras que

2
X 2
Sn−1 = Xi − Xn / (n − 1)
es insesgado para σ 2 .
5.7. Ejercicios 187
Ejercicio 5.7.8. Sean X1 , . . . , Xn observaciones i.i.d. con varianza σ 2 (no necesariamente

2
normal). Demuestra que Sn−1 es insesgado para σ 2 .
Ejercicio 5.7.9. Sean X1 , . . . , Xn observaciones i.i.d. N(µ, σ 2 ). Sea fν (x) la densidad t con
n − 1 grados de libertad. Define la contante tα/2 > 0 por aquella que cumple
Z ∞
alpha
fn−1 (x) dx = .
tα/2 2
Demuestra que
16 T
√ √
Xn − tα/2 Sn−1 / n, Xn + tα/2 Sn−1 / n
20 A
es un intervalo de confianza (1 − α) × 100 % para µ.
lio IM
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 6
Persistencia de campos aleatorios
16 T
20 A
lio IM
6.1. Introducción
Ju -C
Utilizando la teorı́a desarrollada hasta el momento, conceptualizaremos las ideas relativas

a campos aleatorios y su relación con persistencia.
En primer lugar, tenemos la siguiente tendencia a diversificar el espacio muestral.
D
Definición 6.1.1. Una variable aleatoria X es una función medible

AT
X : (Ω, A, P) −→ (X, µσ ),
donde (X, µσ ) es cualquier espacio medible y (Ω, A, P) es cualquier espacio de probabilidad.
Observar que a diferencia de la definición de la Sección 3.1, el espacio X puede ser cual-
quier espacio con una medida asociada µσ . Tenemos entonces incluidos en esta definición una
gran cantidad de ejemplos como variables aleatorias discretas, escalares, vectores aleatorios
de dimensión finita o matrices aleatorias. En estos casos, los espacios medibles van desde los
discretos N, Z hasta los continuos R, Rq , Rm×n .
Un poco más general, tenemos sucesiones aleatorias con espacio medible RN , funciones
aleatorias con espacio muestral R[0,1] ; o bien, procesos a tiempo continuo X = (Xt )t∈[0,1] . Para
los casos más particulares del análisis de datos tenemos las gráficas aleatorias con espacio
muestral el conjunto potencia de {1, . . . , n}2 .
Más aún, podemos considerar que las variables aleatorias tienen valores en una variedad
M . Esto da pie a la noción de objetos geométricos aleatorios en general como por ejemplo
curvas aleatorias con espacio muestral (R3 )[0,1] .
189
190 Capı́tulo 6. Persistencia de campos aleatorios
Hasta este punto no estamos considerado la fuente de tales datos, cómo es que se toman las
muestras o con qué tipo de equipos de registro, etc. Además, también tenemos que considerar
el aumento de complejidad al obtener los datos, en tales casos la información tiene un peso
computacional y en ocasiones con cierta estructura. Todos estos ejemplos muestran que la
idea de variable aleatoria y más generalmente, la de campo aleatorio, están en la base de
todo tipo de procesamiento de datos. Dicha complejidad es notoria en el problema de la
dimensionalidad de los objetos geométricos asociados.
Si tomamos el marco teórico visto hasta ahora en ATD, tenemos una nube de puntos
aleatorios Pn = {X1 , . . . , Xn } con Xi variable aleatoria con valores en Rd . Luego, construimos
16 T
un complejo simplicial aleatorio, por ejemplo para > 0 tenemos los complejos de Rips
R(Pn , ) o los complejos de Cech C(Pn , ). Recordar que el caso del complejo de Rips es un
20 A
complejo bandera, o bien, que su 1–esqueleto determina completamente el complejo. Esto
es, volvemos a la noción de gráfica aleatoria.
lio IM
Luego, el espacio muestral serı́a la familia Cn de complejos simpliciales con n nodos. La
pregunta estriba en quién serı́a la σ–álgebra asociada a dicho conjunto, la cual se especifica
usando las funciones indicadoras y medibles 1||Xj −Xk ||< para cada Xj , Xk en la muestra. Esto
Ju -C
es, la preimágen de cada vértice, cada cara y cada simplejo de un complejo simplicial son
medibles en (Rd )n . Por lo tanto, Cn es un espacio de medida con la topologı́a discreta.
Observación 6.1.2. En general, la observación anterior está presente en cada trabajo de
D
ATD que lo requiera sin hacer mención al hecho “trivial” de que la topologı́a de Cn es la
topologı́a asociada a la colección de todos los subconjuntos de Cn .
AT
Podemos concluir que tenemos un proceso aleatorio (K )>0 indexado por R y con valores
en Cn .
Para esta sección queremos remarcar que trabajaremos con el mecanismo especı́fico ge-
nerador de datos ATD aleatorios usando superniveles de campos aleatorios.
6.2. Teorı́a fundamental

En este apartado consideraremos como mecanismo generador de persistencia los campos
aleatorios. Formalmente tenemos la siguiente definición.
Definición 6.2.1. Dado un conjunto compacto U ⊂ Rd , un campo aleatorio sobre U es
una familia de variables aleatorias
(Xu )u∈U = (X(u))U ,
sobre un mismo espacio de probabilidad (Ω, A, P).
6.2. Teorı́a fundamental 191
Un campo aleatorio puede ser pensado como una variable aleatoria con valores trayecto-
rias del tipo
ω ∈ Ω 7−→ (X(·)(w))U .
Para poder manejar este concepto utilizamos lo siguiente. Sean Fu1 ,...,um distribuciones
sobre Rm con m ∈ N, y u1 , . . . , um ∈ U . Esta familia es consistente si
Fu1 ,...,um (x1 , . . . , xm ) = Fuσ(1) ,...,uσ(m) (xσ(1) , . . . , xσ(m) ),
con (x1 , . . . , xm ) ∈ Rm y σ una permutación de m–elementos {1, . . . , m}.
16 T
De tal forma que si consideramos una toma ω ∈ Ω y para cada u ∈ U , Xu (ω) es una
función en RU . Ası́, usando el Teorema de Extensión queremos encontrar una familia de
20 A
distribuciones consistentes que sea compatible con el modelo requerido. En general, conside-
ramos la σ–álgebra generada por conjuntos del tipo
lio IM
{g ∈ RU : (g(u1 ), . . . , g(um )) ∈ B};
donde u1 , . . . , um ∈ U , m ∈ N y B ∈ B(Rm ).
Ju -C
Con estas nociones, podemos enunciar ahora la versión más general del Teorema de
Extensión de Kolmogorov, uno de los teoremas más importantes de la matemática del siglo
XX.
D
Teorema 6.2.2 (Extensión de Kolmogorov). Sea U un espacio Polaco, Fu1 ,...,um una familia
de distribuciones consistente sobre U y m ∈ N. Entonces, existe un espacio de probabilidad
AT
(Ω, A, P), un campo aleatorio

Xu : (Ω, A, P) −→ R
y una medida Q sobre (RU , σ(RU )) tales que, la aplicación
(Ω, A, P) −→ (RU , σ(RU ), Q)
ω 7−→ (Xu (ω))U
es medible y (Xu1 , . . . , Xum ) tiene distribución Fu1 ,...,um .
En particular, se puede tomar (Ω, A, P) = (RU , σ(RU ), Q) con P = Q. Si C ∈ σ(RU ) es
tal que P(C) = 1, trabajamos en lugar del espacio (RU , σ(RU ), P) con el espacio
(C, σ(RU )|C , PC ),
con σ–álgebra inducida
σ(RU ) = {A ∩ C : A ∈ σ(RU )}.
Tenemos pues con estos conceptos varias generalizaciones de conceptos previamente tra-
tados.
Definición 6.2.3. Sea (Xu )U un campo aleatorio sobre U . Definimos la función de valor
medio µ : U −→ R como
µ(u) = E(Xu ).
La función de covarianza σ : U × U −→ R se define como
σ(u, v) = Cov(Xu , Xv ) = E[(Xu − µ(u))(Xv − µ(v))].
También consideramos la función de correlación ρ : U × U −→ R dada por

Cov(Xu , Xv )
16 T
ρ(u, v) = Corr(Xu , Xv ) = .
Var(Xu )Var(Xv )
20 A
Teorema 6.2.4 (Caracterización). Una función σ : U 2 −→ R de un campo aleatorio sobre
U , es de convarianza, si y sólo si, σ es función simétrica y la matriz que define es degenerada
lio IM
no-negativa; esto es
m
X
βi βj σ(ui , uj ) ≥ 0, u1 , . . . , um ∈ U, β1 , . . . , βm ∈ R.
Ju -C
i,j=1
Demostración. La primera implicación es inmediata de la definición de una función de co-

varianza σ.
D
Para el otro caso consideremos la familia de distribuciones

AT
Fu1 ,...,um = Nm (0, (σ(ui , uj )1≤i,j≤m )) ,
la cual es consistente. Luego, por el Teorema de Extensión, existe un campo aleatoro Xu con
tales distribuciones, de dimensión finita y por tanto con tal función de covarianza σ.
Para la construcción de funciones de covarianza tenemos varios casos:
1. Para el caso multivariado Z ∼ N(0, hI), con h > 0,

1 2
σ(u, v) = e h2 ||u−v|| .
2. Si tenemos una función (tipo kernel) K : U × U −→ R con

Z
K 2 (u, s)ds < ∞,
U
entonces Z
σ(u, v) = K(u, s)K(u, v)dv.
U
6.2. Teorı́a fundamental 193
3. Sean gj : U −→ R una familia numerable de funciones y αj > 0, entonces definimos la

función de covarianza ∞
X
σ(u, v) = αj gj (u)gj (v).
j=1
Vamos a considerar el espacio de funciones cuadrado integrables en U :

Z
2
L2 (U ) = g : U −→ R : g (u)du < ∞ .
16 T
U
El cual como hemos visto anteriormente (Sección 3.4.3) es un espacio de Hilbert con el
20 A
producto punto Z
hf, gi = f gdλ,
lio IM
U
con λ la medida de Lebesgue. De hecho podemos considerar también el espacio de Hilbert
(aleatorio) L2 (Xu ) como sigue.
Ju -C
Definición 6.2.5. Sea (Xu )U un campo aleatorio sobre U ⊂ RD , con E(Xu ) = 0 y E(X2u ) <
∞. Definimos
D
L2 = {ai Xu1 + · · · + am Xum : a1 , . . . am ∈ R, u1 , . . . , um ∈ U } ,

AT
con el producto interno

hψ, ηi = E(ψ, η), ψ, η ∈ L2
y norma p
||η|| = E(η 2 ), η ∈ L2 .
Entonces, (L, h , i) es un espacio euclidiano y su completación L2 (X) es el espacio de
Hilbert asociado al campo Xu .
Teorema 6.2.6 (Mercer). Sea U ⊂ Rd compacto y σ : U 2 −→ R función de covarianza
continua. Entonces, existen funciones {gj }j∈N ortonormales en L2 (U ) y constantes λj ≥ 0
tales que
X∞
σ(u, v) = λj gj (u)gj (v)
j=1
donde la convergencia es absoluta y uniforme sobre U 2 . Además,

Z
σ(u, v)gj (v)dv = λj gj (u).
U
La demostración de este resultado usa la descomposición espectral de un operador lineal

compacto sobre L2 (U ).
Usando este resultado se obtiene el teorema de desarrollo de Karhunen–Loeve.
Teorema 6.2.7 (Karhunen–Loeve). Bajo las mismas hipótesis tenemos que

∞
X
Xu = Zj gj (u),
j=1
16 T
donde la convergencia es en media cuadrática (L2 ), las funciones gj son de Mercer y las
variables
20 A
Z
Zj = Xu gj (u)du, u ∈ U,
lio IM
son no correlacionadas, E(Zj ) = 0 y Var(Zj ) = λj .
En el resultado anterior las integrales de las variables Zj son en el sentido de convergencia

en media cuadrática de sumas de Riemann. Llamamos a las funciones gj y a los escalares λj ,
Ju -C
autofunciones y autovalores de la covarianza σ respectivamente.
Observación 6.2.8. El resultado anterior lo que quiere decir es que para generar un campo
D
aleatorio, basta generar las variables aleatorias Zj con las propiedades del teorema.
Más aún, dicho resultado funciona para el sistema coordenado cartesiano actual asociado
AT
a Rd , e incluso para el sistema coordenado asociado a espacios de Hilbert de dimensión

infinita. La diferencia importante es que en este caso los coordenadas obtenidas son aleatorias
y son no correlacionadas.
Enunciamos ahora el caso particular en que estas componentes aleatorias se distribuyen

de manera normal.
Definición 6.2.9. Un campo aleatorio (Xu )U se dice gaussiano si para cada u1 , . . . , um en

U y m ∈ N, se satisface:
(Xu1 , . . . , Xum ) ∼ Nm (·, ·).
De tal forma que usando los resultados anteriores, podemos definir campos aleatorios
gaussianos de una manera muy peculiar.
Proposición 6.2.10. Si tenemos funciones ϕj : U −→ R y αj ≥ 0 tales que

∞
X √
αj |ϕj (u)| < ∞, ∀u ∈ U.
j=1
6.3. Campos aleatorios motivados por neuroimágenes 195
Si además las variables Zj ∼ N(0, αj ) son independientes, entonces

∞
X
Xu = Zj ϕj (u)
j=1
define un campo aleatorio gaussiano.
En general y dependiendo del contexto, usaremos las notaciones
16 T
(Xu )u∈U = (X(u))u∈U
20 A
para denotar a un campo aleatorio X sobre U ⊂ RD .
lio IM
6.3. Campos aleatorios motivados por neuroimágenes
Ju -C
Un ejemplo de campo aleatorio lo tenemos con el concepto de “imágenes funcionales”.

Dado cualquier dominio U y Xi campos independientes e idénticamente distribuidos, o bien
réplicas aleatorias de un mismo campo X,
D
(Xi (u))u∈U
AT
se llaman (neuro)imágenes funcionales independientes.

Supongamos además que los campos {Xi } son gaussianos con media µ(u) = E(Xi (u)) y
covarianza σ(u, v) = cov(X(u), X(v)). Para cada u ∈ U escribimos
n
1X
X(u) := Xi (u)
n i=1
y si además u está fijo, un estimador consistente de la varianza del campo está dado por
n
1 X
S 2 (u) = Var(X(u))
d =σ
b(u, u) = (Xi (u) − X(u))2 .
n − 1 i=1
De tal forma que

(n − 1)S 2 (u) ∼ χ2(n−1) ;
esto es, (n − 1)S 2 (u) se distribuye como una variable aleatoria χ cuadrada con n − 1 grados
de libertad (ver Sección 5.5.3).
Precisando, consideramos los campos aleatorios
ηj (u) = LTj (X1 (u), . . . , Xn (u)),
tal que los {Lj } son ortonormales. Entonces, usando el Teorema de Extensión de Kolmogorov
{ηj (u)}U es una familia de campos gaussianos indepedientes y además
E(ηj (u)) = 0 y Var(ηj (u)) = 1.
Definición 6.3.1. Un campo (Y(u))U se dice χ–cuadrado con l grados de libertad si
16 T
l
20 A
X
Yj (u) = ηj2 (u),
j=1
lio IM
donde los campos (ηj (u))U son campos aleatorios gaussianos independientes y estándar.
Definición 6.3.2. Un campo del tipo

Ju -C
X(u) √
T (u) = n
S(u)
D
se dice un campo t–student (con n − 1 grados de libertad). Ver la distribución t–student en

AT
la Sección 5.5.3.
Entonces podemos motivar con dos tipos de preguntas que provienen de estadı́stica en
neuroimágenes (campos) (X(u)):
1. (Activación) ¿ Cómo es la función media µ(u) = E(X(u)) ?
2. (Conectividad) ¿ Cómo es la función de correlación ρ(u, v) = Corr(X(u), X(v)) ?
En este módulo daremos una respuesta a la pregunta de cómo son topológicamente o en

su forma. Tenemos la siguiente proposición.
Proposición 6.3.3. Sean X1 , . . . , Xn son réplicas de un campo aleatorio X : U −→ R, U

subconjunto compacto de RD , con media µ y función de covarianza σ : U 2 −→ R. Entonces
se satisfacen:
1.
Pr
X(u) −→ µ(u), u ∈ U.
6.4. Aproximación de homologı́a persistente de campos aleatorios 197
2. n
1X Pr
σ
b(u, v) = (Xi (u) − X(u))(Xi (v) − X(v)) −→ σ(u, v), u, v ∈ U.
n i=1
3. Si los autovalores λj asociados a σ son distintos, entonces

Pr
bj (u) −→ Pr
λ λj y bj (u) −→ γj (u),
γ u ∈ U.
La demostración de este resultado se encuentra en la literatura de análisis de datos
16 T
funcionales (FDA por sus siglas en inglés).
20 A
También podemos preguntaros por el nivel de significación 0 < α < 1 para determinar
un estimador Â para el conjunto de activación; es decir, queremos calcular
lio IM
n o
P ∃u ∈ Â : µ(u) = 0 ≤ α
utilizando
Ju -C
Â = {u ∈ U : |T (u)| > c(α)}

donde los c(α) satisfacen la definición de la t–student anterior.
D
Observar que esto ya nos da una conexión con la persistencia de subconjuntos (o supra-
conjuntos) de nivel y la teorı́a de Morse. Además, estamos pensando que el dominio de un
campo aleatorio es continuo y que quizás nuestros estimadores en este caso pueden requerir
AT
cierta suavidad sobre sus formas. Sin embargo, usando ciertas propiedades sobre la con-
volución podremos obviar estas consideraciones ya que las funciones serán infinitamente
diferenciables.
6.4. Aproximación de homologı́a persistente de cam-

pos aleatorios
Dada f : U −→ R función con U compacto de Rd , usando las ideas anteriores definimos
las filtraciones por subcojuntos de nivel (o de Morse) asociadas como sigue,
Ur = {u ∈ U : f (u) ≤ r}
y las inclusiones entre subconjuntos de nivel
Ur ⊂ Ur0 (r ≤ r0 ).
La problemática general en homologı́a persistente de campos aleatorios es considerar una

aproximación de f como un campo aleatorio fˆ : U −→ R y construir
Ûr = {u ∈ U : fˆ(u) ≤ r}.
Por lo tanto el problema es inferir la homologı́a persistente de f sobre la base de homologı́a

persistente de fˆ.
En particular, algunos ejemplos anteriormente vistos caen en este contexto, como es el
caso de una muestra aleatoria distribuida con cierta densidad, la cual está soportada sobre
16 T
una variedad M ⊂ Rd . También el caso de funciónes tipo distancia asociadas a nubes de
puntos sobre conjuntos compactos o variedades (muestreo discreto de objetos 3D o 2D y
20 A
reconstrucción de variedades donde vivan vectores de rasgos Xi ∈ Rp . Otro ejemplo es el
de neuroimágenes funcionales con alta resolución espacial (fMRI) y la activación (usando la
lio IM
media) o la conectividad (usando la correlación).
Ju -C
6.4.1. Aproximación de la media de un campo aleatorio

El modelo probabilı́stico a considerar es el siguiente: Sean X1 , . . . , Xn réplicas de un
D
campo aleatorio
X : U −→ R, U ⊂ RD compacto.
AT
Además, para cada u ∈ U escribimos,
f (u) = µ(u) = E(X(u))
y
n
1X
fˆ(u) = Xi (u) = X̄(u).
n i=1
Luego, usando el teorema de estabilidad para diagramas de persistencia asociados a subcon-
juntos de nivel de funciones, y con la misma notación e hipótesis que hasta ahora, tenemos
el siguiente resultado.
Teorema 6.4.1. Supongamos que la convarianza σ del campo X es continua y que las apli-
caciones respectivas f , fˆ son mansas (con probabilidad 1). Si además
!
|X(u) − f (u)|
E máx p ≤L<∞
u∈U σ(u, u)
6.4. Aproximación de homologı́a persistente de campos aleatorios 199
y los campos Xi son gaussianos. Entonces:
C
E(dB (dgm(fˆ), dgm(f ))) ≤ √ ;
n
p
donde C = L máxU σ(u, u).
Demostración.
16 T
E(dB (dgm(fˆ), dgm(f ))) ≤ E(||f − fˆ||) = E(máx |X̄(u) − f (u)|)
U
20 A
p !
σ(u, u) √ p
= E máx √ | n/ σ(u, u)(X̄(u) − f (u))|
U n
lio IM
1 √ p
= √ máx E máx | n/ σ(u, u)(X̄(u) − f (u))|
n U U
1
Ju -C
p
= √ L máx σ(u, u).
n U
D
Observación 6.4.2. Usando además teorı́a de máximos de campos aleatorios tenemos una
AT
cota de tipo exponencial, lo cual aproxima las probabilidades y por tanto nos dice que, con
probabilidad 1, el diagrama de persistencia de fˆ converge al diagrama de persistencia de f .
En la tesis doctoral y el trabajo posterior de O. Bobrowski con R. Adler, se ofrecen

condiciones suficientes para que una función sea mansa.
Para la gente que trabaja en estadı́stica uno de los estimadores importantes es el de
log–verosı́mil :
n
1 1X
fˆ(u) = ln(u) = ln g(Yi , u);
n n i=1
donde g es la densidad y las Yi se toman de una muestra aleatoria con respecto a g. Ası́:
Z
Efˆ(u) = g(x, u) ln(g(s, u))ds = −K(·, ·).
6.4.2. Aproximación de función de regresión sobre una variedad

En este apartado revisamos algunas partes del artı́culo de Bubenik [23], en el cual se
considera el modelo probabilı́stico siguiente: Sea f : M −→ R una función suave y M una
variedad compacta de dimensión d < D. Sean (Xi , Yi ) ∈ M × R con i = 1, . . . , n, tales que
Yi = f (Xi ) + i ; E(i ) = 0, Var(i ) = σ 2
y las variables {i } independientes.

Consideramos
16 T
f ∈ Λ(β, L) = g : M −→ R : |g(x) − g(x0 )| ≤ Lρ(x, x0β ) ;

20 A
con ρ la distancia geodésica sobre la variedad M . (Observar que esto generaliza las nociones
lio IM
de Hölder continuidad para variedades).
Definimos β
2β+d
ln(n)
Ju -C
ψn :=
n
y decimos que {xi1 , . . . , xim } un conjunto de puntos asintóticamente equidistantes si
D
λd (M )1/d
ı́nf ρ(xij , xik ) ∼
m
AT
j6=k
cuando m −→ ∞. Sea λ(m) el mayor entero tal que

n
[
B(xij , 1/λ(m)) = U.
j=1
Lema 6.4.3. Existe C1 tal que

lı́mλ(m)−d ≤ C1 .
Tomemos d/β
L(2β + d)m

m = m(n) = C1 ,
δC0 dψn
donde δ > 0 y
σ 2 λd (M )(β + d)d2

d/(2β+d)
C0 = L ,
ωd−1 β 2
con ωd−1 el volumen de la esfera Sd−1 .
6.5. Caracterı́stica de Euler de códigos de barras de campos gaussianos estándar 201
Definimos X
fˆ(x) = abj 1Aj (x),
Aj = {x ∈ M : dg (x, xij ) = mı́n dg (x, xik )}

1≤k≤m
y Pn
K(xi , xij )Yi
abj = Pi=1
n ;
i=1 K(xi , xij )
con !
C0 ψn −1/β
16 T
K(x, x0 ) = (1 − τ dg (x, x0β ), τ= .
L
20 A
En particular, se saben los siguientes resultados.
lio IM
Lema 6.4.4.
E(||fˆ − f ||∞ ) = O(C0 ψn ).
Ju -C
Teorema 6.4.5 (Bubenik). Con la notación e hipótesis en esta sección se satisface:

β/2β+d
ln n
lı́mE(dB (fˆ, f )) ≤ C ,
D
n n
y
AT
d2
C = Ld/2β+d σ 2 λd (M ) .
β 2 ωd−1
6.5. Caracterı́stica de Euler de códigos de barras de

campos gaussianos estándar
Por último, vamos a analizar un caso más del trabajo de Adler et al. El escenario proba-
bilı́stico es el siguiente.
Sea f : U −→ R un campo aleatorio gaussiano estándar, esto es f (u) ∼ N(0, 1) para
cada u ∈ U . Más aún, requerimos que f sea de clase C 2 casi seguramente. Consideramos
además la distribución conjunta de f y f 00 tal que sea no degenerada y C la covarianza de
f 00 . Supongamos también que existen K, α > 0 tal que
|C(t, t) + C(s, s) − 2C(t, s)| ≤ K| ln dg (t, x)|−(1+α) .

Del primer capı́tulo sabemos que si U0 es una variedad de dimensión d, una de las formas
de definir la caracterı́stica de Euler de U0 es:
d
X
χ(U0 ) = (−1)k βk .
k=0
Para el caso de los códigos de barras también podemos definir la caracterı́stica de Euler.
Definición 6.5.1 (Adler–Bobrowski). Sea P H∗ el código de barras asociado a una filtración.
16 T
Para cada barra B ∈ P H∗ , sean b(B) el nivel en que nace la barra y d(b) el nivel en que
20 A
muere la barra. La caracterı́stica de Euler del código de barras P H∗ se define como
X
lio IM
χ(P H∗ ) := (−1)µ(B) `(B);
B∈P H∗
donde µ(B) es la dimensión del grupo de homologı́a asociado a la barra B y

Ju -C
`(B) = d(B) − b(B).

D
Dicha caracterı́stica de Euler para códigos de barras está vinculada a la distribución de

máximos de campos aleatorios, con el propósito de estudiar estimadores adecuados para χ
AT
de una filtración cualquiera.

Enunciaremos algunas fórmulas que se obtienen de resultados asociados a caracterı́stica
de Euler.
En primer lugar, tenemos la fórmula gaussiana cinética (Adler–Taylor 2007). Sea U una
variedad de clase C 2 y ciertos supuestos adicionales débiles sobre U (i.e. U es una variedad
estratificada).
Teorema 6.5.2. Usando la notación y supuestos anteriores
d
X
E(χ(f −1 (D)) = (2π)−j/2 Lj (U )Mγj (D),
i=1
con D = (−∞, a].
En el resultado anterior tenemos que Lj (U ) es la curvatura “Lipschitz Killing” de U y

Mγj (D)es el funcional de Gauss–Minkowski de D.
6.5. Caracterı́stica de Euler de códigos de barras de campos gaussianos estándar 203
Teorema 6.5.3 (Bobrowski). Consideramos para cada a ∈ R los códigos de barras a nivel
a, P H∗ (f, a) = P H∗ (f −1 (−∞, a]). Se tiene que:
d
X
E(χ(P H∗ (f, a))) = χ(U )[ϕ(a) + aΦ(a)] + ϕ(a) (2π)−j/2 Lj (U )Hj−2 (a),
j=1
con ϕ la densidad, Φ es la función de distribución gaussiana estándar y Hj−2 es una función

de Hermite de orden j − 2.
16 T
Para la demostración de este teorema se desarrolla una teorı́a de integración de funciones
(reales) sobre una variedad con respecto a la “medida” dada por la caracterı́stica de Euler
20 A
Z
f ddχe.
lio IM
U
Ju -CD
AT
6.6. Ejercicios
Ejercicio 6.6.1. Definir otras medidas de probabilidad sobre Cn no generadas sobre nodos
i.i.d. Xi , i = 1, . . . n.
Ejercicio 6.6.2. Hacer un análisis similar para v.a. con valores en complejos simpliciales
de Cech con n nodos.
Ejercicio 6.6.3. Probar que el espacio subyacente o polı́topo |K| a un complejo simplicial
es medible considerándolo en la familia de conjuntos compactos en Rd con la topologı́a de
16 T
Borel asociada a la métrica dH .
20 A
Ejercicio 6.6.4. Si Z es una variable aleatoria con valores en U y Z = −Z en ley, entonces
lio IM
σ(u, v) = E(eihu−v,Zi )
es simétrica no–negativa.
Ju -CD
AT
Capı́tulo 7
16 T
Estimación de números de Betti y
topologı́a estocástica
20 A
lio IM
Ju -C
7.1. Topologı́a de densidades paramétricas

D
El objetivo de esta sección es describir los códigos de barra teóricos para los números de
AT
Betti de algunas densidades paramétricas en la esfera que se presentaron en la Sección 3.5.4.

Estos códigos dependen de los parámetros de la densidad. Se incluye el cálculo de algunos
valores esperados de números de Betti, y la estimación de máxima verosimilitud de ellos y
los códigos de barra. El material de esta sección se tomó del artı́culo de Bubenik y Kim [24],
presentando varios cálculos que en dicho artı́culo se dan por hecho.
En concreto, primero se establecen las filtraciones a tratar, Čech y Morse, y se define
la función β0 (x, θ), los cuales constituirán la base de los cálculos siguientes, especialmente
al enfocarnos en los códigos de barra Betti-0. De ahı́ se procede a trabajar con un ejemplo
de juguete, la distribución uniforme en S1 , aprovechando su sencillez para efectuar varios
cálculos explı́citos y dar un sabor un poco más concreto de la idea de calcular códigos de
barra teóricamente sin necesidad de recurrir a cálculos computacionales.
A partir de ahı́ se trabajarán dos ejemplos concretos, siendo las distribuciones von Mises
y von Mises-Fisher en S1 y Sd−1 respectivamente. En ambos casos se calcularán sus códigos
de barra y sus funciones β0 para el código de barra Betti-0. Finalmente, esto se utilizará para
acotar la distancia entre el código de barras actual teórico de la distribución, y el código de
barras obtenido a través de la estimación de parámetros de la misma distribución.
205
206 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
Definiciones preliminares
Sea fθ , θ ∈ Θ una función de densidad en una variedad M con respecto a la distribución
uniforme µ. Para poder calcular la persistencia topológica como antes, consideramos dos
filtraciones particulares:
Filtración de Morse: dada por conjuntos de excursión de subniveles,
M≤r = {x ∈ M | fθ (x) ≤ r} , r ∈ R.
16 T
Filtración de Čech: dada por conjuntos de excursión de superniveles,
20 A

1
M≥ 1 = x ∈ M | fθ (x) ≥ , r ∈ R.
lio IM
r r
La filtración de Morse ya fue tratada en la Sección 6.4, mientras que en la filtración de

Čech vemos que cuando r → 0, M≥ 1 → ∅, y cuando r → ∞, M≥ 1 → M . Notando que
Ju -C
r r
a medida que r crece, M≥ 1 se va conformando de los puntos de mayor densidad. Es decir,
r
las filtraciones consideran primero los conjuntos de puntos más aglomerados (con mayor
D
densidad en la variedad) y a medida que el tiempo r transcurre, va agregando puntos más

dispersos. Esto coincide con la filtración de Čech tratada en estas notas, pues en ella vimos
que los subconjuntos de puntos con menor distancia entre ellos tienden a formar rápidamente
AT
complejos simpliciales, mientras que los puntos lejanos del resto tienden a ser los últimos en
ser absorbidos por el complejo simplicial principal.
Sea X una muestra aleatoria de puntos con densidad fθ en una variedad M . El objetivo
principal de nuestro trabajo será deducir teóricamente el comportamiento de los códigos de
barra si efectuásemos los cálculos habituales de homologı́a persistente a la nube de puntos
X usando la filtración de Morse o de Čech. Para ello nos será de mucha utilidad hallar la
función Betti-0 β0
Para definirla, primero definimos la función gθ : [0, ∞] → [0, 1] como
Z
gθ (r) = fθ dθ.
M≥1/r
Como fθ es una densidad, gθ es no decreciente para cada θ ∈ Θ, donde gθ (0) = 0 y

gθ (∞) = 1. Definimos entonces la función Betti-0 β0 : (0, 1] × Θ → [0, ∞] como el cuantil de
gθ :
β0 (x, θ) := ı́nf r.
gθ (r)≥x
7.1. Topologı́a de densidades paramétricas 207
Si gθ es continua y creciente, notemos β0 (x, θ) = gθ−1 (x).

Intuitivamente, si efectuásemos nuestro cálculo de persistencia usual y ordenamos los
intervalos de persistencia de Betti-0 de manera vertical (en lugar de horizontal como se
acostumbra) de menor a mayor, β0 describe la función determinada por las puntas superiores
de cada intervalo. De ahı́ que estudiar el comportamiento asintótico de β0 (x, θ) para θ fijo
y x −→ 1 dirá el comportamiento de los números Betti-0 a lo largo del tiempo dada una
filtración (de Čech o de Morse). En otras palabras, la función nos indica la rapidez con la
cual los puntos de X conforman un único complejo simplicial conexo.
Para motivar las virtudes de este enfoque analı́tico al momento de enfrentarnos a los
16 T
cálculos de persistencia, desarrollaremos un ejemplo bastante sencillo pero ilustrativo.
20 A
Densidad uniforme en S1
lio IM
Sea f la densidad uniforme en S1 . Sea X = {X1 , . . . , Xn } una muestra aleatoria con esta
densidad. Antes de proseguir con nuestro acercamiento teórico, debemos de desarrollar cierto
vocabulario.
Sea α ∈ [0, 1) tal que X1 = e2πiα . Ası́, para k = 2, . . . , n sea Uk ∈ [0, 1) tal que
Ju -C
Xk = exp(2πi(α + Uk )). Notemos que Uk ∼ Unif[0, 1). Éstos son reordenados de modo que
0 := Un:0 < Un:1 < . . . < Un:n−1 < Un:n := 1.

D
Ası́, reordenamos las {Xk } como {Xn:k } en correspondencia con las {Un:k } y para cada
AT
k = 1, . . . , n definimos Sk = Un:k − Un:k−1 , siendo S = {S1 , . . . , Sn } el conjunto de espaciados

entre cada par de puntos Xk , Xk+1 vecinos, los cuales finalmente ordenamos
0 := Sn:0 < Sn:1 < . . . < Sn:n−1 < Sn:n = 1.
7.1.1. Intervalos de persistencia y esperanza de códigos de barra

Consideremos la filtración de Vietoris-Rips y la métrica de longitud de arco más corta
1
multiplicada por 2π de modo que S1 tiene circunferencia 1. Recordemos que R(X, r) denota
el complejo Vietoris-Rips construido a partir del contrapeso de radio r para cada punto de
X, como se detalló en la sección 1.3.1.
Consideremos primero el comportamiento de los números Betti-0; es decir, el compor-
tamiento de las componentes conexas en el complejo de Rips. Cuando r = 0, vemos que
R(X, r) = X, teniéndose n componentes conexas distintas. A medida que r incrementa, los
primeros dos puntos a unir (formar un 1-simplejo) en X serán los dos puntos más cercanos
entre sı́, digamos Xk1 , Xk2 . Puesto que la distancia entre dichos puntos es Sn:1 , vemos que
cuando Sn:1 ≤ r < Sn:2 , R(X, r) es el complejo simplicial con cada Xi como 0-simplejo,
además de único 1-simplejo [Xk1 , Xk2 ]. En este caso, ahora sólo se tienen n − 1 componentes
conexas distintas.
Ahora supongamos que la distancia entre Xl1 , Xl2 es Sn:2 , de modo que si Sn:2 ≤ r < Sn:3 ,
R(X, r) es el complejo simplicial tendrá a cada Xi como 0-simplejo, además de 1-simplejos
[Xk1 , Xk2 ], [Xl1 , Xl2 ]. Ası́, se tendrán n − 2 componentes conexas distintas. Al proseguir, no-
tamos que r ∈ [Sn:k , Sn:k+1 ] ⇒ β0 (R(X, r)) = n − k. En particular, cuando r ≥ Sn:n−1 , vemos
que R(X, r) consiste de una única componente conexa. Entonces los intervalos de persistencia
Betti-0 son la colección
{[0, Sn:i )}n−1
i=1 ∪ {[0, ∞]}.
16 T
Examinemos ahora el caso de los intervalos de persistencia Betti-1, en particular, quere-
mos hallar el intervalo de persistencia Iτ donde τ es la 1-cadena dada por
20 A
τ := (Xn:1 , Xn:2 ) + . . . + (Xn:n−1 , Xn:n ) + (Xn:n , Xn:1 ),
lio IM
el polı́gono convexo circunscrito por S1 . Más aún, notemos que para cualquier otra 1-cadena
σ que se forma mientras r crece, al momento en que ésta aparece, también aparece una
2-cadena que la tiene como frontera. Es decir, el intervalo de persistencia de σ es trivial.
Ju -C
Para resumir el comportamiento de los intervalos Betti-1, tenemos un lema:

Lema 7.1.1. Si Sn:n < 12 , el código de barras de Betti-1 es un único intervalo de persistencia
D
Iα = [Sn:n , s) con s ∈ [ 13 , 12 ).
Observación: Notemos que la mayor distancia posible entre dos puntos en S1 es 12 . Si Sn:n ≥ 21 ,
AT
entonces X se concentra en un semicı́rculo. Vemos que cuando r ≥ 12 , todos los puntos se

unen con todos, formando instantáneamente un n-simplejo completo, el cual ciertamente no
tendrá 1-ciclos. De ahı́ que exigimos Sn:n < 12 .
Demostración. Notemos que τ no se forma sino hasta que r ≥ Sn:n . Por la observación
previa, vemos que r ≥ 12 implica la desaparición de τ .
Como Sn:n < 12 , la realización geométrica de τ es un n-ágono que contiene al centro de
1
S . Si r ≥ Sn:n , debe de existir una 2-cadena
X
σ := [Xi , Xj , Xk ]
i,j,k
tal que ∂σ = τ al triangular dicho n-ágono.

Debe de existir entonce un 2-simplejo [Xi , Xj , Xk ] cuya realización geométrica contiene
al centro. Vemos que el r más pequeo posible para que [Xi , Xj , Xk ] pueda ser 2-simplejo en
primer lugar es r = 13 , en el caso que [Xi , Xj , Xk ] forma un triángulo equilátero.
Por ende, τ se vuelve una frontera cuando r = s, para algún s ∈ [ 13 , 12 ).
Observación: Si Sn:n ≥ 31 es posible que s = Sn:n de modo que Iτ también es trivial. Por
ejemplo, consideremos X = {X1 , X2 , X3 } distribuidos como un triángulo equilátero.
Para saber que tan probable es que ocurran casos degenerados como los planteados en
ambas observaciones previas, recurrimos a un teorema clásico
Teorema 7.1.2 (Whitworth, 1897). Si S es un conjunto de n espaciados en S1 distribuidos
de manera uniforme en [0, 1], entonces

n−1 n
X
k+1
P(Sn:n > x) = (−1) (1 − kx) , ∀ x > 0.
k
16 T
k≥1
kx<1
20 A
n−1
Usando Whitworth, vemos que P(Sn:n > 21 ) = 2n−1n
y P(Sn:n > 13 ) < n 23 , las cuales
en ambos casos tienden a 0 muy rápidamente a medida que n crece, por lo que casi siempre
lio IM
podremos ignorar ambas observaciones.
Continuando con la notación anterior, ahora usaremos otro resultado
Ju -C
Teorema 7.1.3. Para 1 ≤ i ≤ n, el valor esperado de los espaciados es dado por

i n
1X 1 X 1
E(Sn:i ) = = .
D
n j=1 n + 1 − j j=n+1−i j
Ası́, el código de barras Betti-0 esperado consiste de los intervalos

AT
(" i
!)n−1
1X 1
0, ∪ {[0, ∞]}.
n j=1 n + 1 − j
i=1
La función Betti-0
Para calcular la función Betti-0 a partir del código de barras consideremos
n β̃0 := ESn:d(n−1)xe .
La función
R1 Betti-0(n) es una versión normalizada de n β0 (x, 0) = cnn β̃0 (x, 0) de manera tal
que 0 n β0 (x, 0)dx = 1. A partir de aquı́ haremos varias observaciones.
Calculamos
d(n−1)xe n
cn X 1 cn X 1
n β0 (x, 0) = = .
n j=1
n+1−j n j
j=n+1−d(n−1)xe
R1 1 1
Como 0 ESn:d(n−1)xe dx = n−1
ESn:1 + ... + n−1
ESn:n−1 al ser la integral de una función
escalonada, vemos
P −1
ESn:i n−1
cn = = ,
n−1 1 − ESn:n
pues
n
X n
X n−1
X
Sn:i = 1 ⇒ ESn:i = 1 ⇒ ESn:n = 1 − ESn:1 .
16 T
i=1 i=1 i=1
20 A
cn
Nótese que lı́mn→∞ ESn:n = 0, por lo que lı́m = 1.
n→∞ n
lio IM
Además, cuando n es grande, d(n − 1)xe es muy parecido a (n − 1)x. Usando L’Hôpital
calculamos

n 1
Ju -C
lı́m log = log lı́m = − log(1 − x).

n→∞ n + 1 − d(n − 1)xe n→∞ 1 − x
D
Finalmente, observemos a partir de la definición de integral que para todo 1 ≤ k ≤ n se

tiene:
AT
n 1 Z n dx X n Z n
1 1 1 dx 1 n
+ log = + < < + = + log .
n k n k x j=k
j k k x k k
Tomando k = n + 1 − d(n − 1)xe y combinándola con todas estas observaciones previas

podemos enunciar:
Teorema 7.1.4. Para 0 < x < 1, n → ∞, obtenemos n β0 (x, 0) → − log(1 − x).
Por último graficamos n β0 (x, 0) para n = 10 y n = 100 junto con f (x) = − log(1 − x)
y corroboramos que en efecto, − log(1 − x) refleja el comportamiento asintótico de los picos
de cada intervalo de persistencia Betti-0, donde los intervalos fueron ordenados de menor a
mayor colocados verticalmente como se muestra en la figura 1 .
1
Imagen tomada directamente de [24]
16 T
20 A
lio IM
Figura 7.1: n β0 (x, 0) para n = 10 y n = 100 junto con f (x) = − log(1 − x)
Ju -C
7.1.2. Códigos de barra de ciertas densidades paramétricas

D
Una vez motivados por el ejemplo de juguete expuesto, procedemos a tratar de calcular
teóricamente los códigos de barra de densidades un poco más elaboradas y en otras varie-
AT
dades. En concreto, trataremos las densidades von Mises y von Mises-Fisher en S1 y Sp

respectivamente, y sus códigos de barras bajo las filtraciones de Čech y Morse.
La distribución von Mises

Sea M = S1 = {eiθ | x ∈ [−π, π)} el cı́rculo unitario y consideremos la densidad von Mises
de parámetros (m, κ) ∈ [−π, π) × [0, ∞) dada por
1
fm,κ = exp[κ cos(θ − m)], x ∈ [−π, π),
I0 (κ)
con I0 (κ) la función de Bessel modificada de primer tipo y orden 0, donde

Z 1
(κ/2)α
Iα (κ) = eκt (1 − t2 )α−1/2 dt
Γ(α + 1/2)Γ(1/2) −1
y Γ es la función Gama. Supondremos además que m = 0 para simplificar el modelo, siendo
ası́ κ el único parámetro.
Recordemos que S1≥ 1 = {θ ∈ S1 | fκ (θ) ≥ 1r }. Consideremos para r > 0

r

1 r
αr,κ = arc cos log ,
κ c(κ)
1
donde c(κ) es un constante dada por c(κ) = I0 (κ)
. Vemos que αr,κ cumple fκ (αr,κ ) = r.
Como | cos θ| ≤ 1, vemos que
eκ 1
máx fκ = , mı́n fκ = .
I0 (κ) eκ I0 (κ)
16 T
Aprovechando la forma de la gráfica de arc cos, obtenemos fácilmente el siguiente resul-
20 A
tado que resume el comportamiento de S≥ 1 , S≤r a lo largo del tiempo.
r
lio IM
Ju -CD
AT
Figura 7.2: arc cos con rango [−π, π)
Figura 7.3: arc cos con rango [π, 3π)

1
Lema 7.1.5. 1. Para 0 ≤ r < máx fκ
, S1≥ 1 = ∅ y para r < mı́n fκ , S1≤r = ∅.
r
1 1
2. ≤r< , S1 1 = {θ : −α 1 ,κ ≤ θ ≤ α 1 ,κ }.
máx fκ mı́n fκ ≥ r r r
3. mı́n fκ ≤ r < máx fκ , S1≤r = {θ : αr,κ ≤ θ ≤ 2π − αr,κ }.

1
4. r ≥ mı́n fκ
, S1≥ 1 = S1 y r ≥ máx fκ , S1≤r = S1 .
r
16 T
Demostración. 1. Si 0 ≤ r < máx1 fκ , vemos que fκ (θ) ≥ 1r ⇒ fκ (θ) > máx fκ . Si r <
mı́n fκ , ; fκ (θ) ≤ r ⇒ fκ (θ) < mı́n fκ . En ambos casos, es imposible que exista tal θ.
20 A eκ
lio IM
2. Notemos que fκ (0) = = máx fκ y que mı́n fκ < f (α 1 ,κ ) = f (−α 1 ,κ ) = 1r ≤
I0 (κ) r r
1
máx fκ . Por la geometrı́a de arc cos, vemos que S≥ 1 son en efecto todos los puntos
r
entre α 1 ,κ y −α 1 ,κ (como los marcados en la lı́nea azul en la figura 7.2)
Ju -C
r r
3. Análogo al anterior, fκ (π) = [eκ I0 (κ)]−1 = mı́n fκ y mı́n fκ ≤ fκ (αr,κ ) = fκ (2π−αr,κ ) =

r < máx fκ de modo que S1≤r consta de todos los puntos entre αr,κ y 2π − αr,κ (como
D
los marcados en la lı́nea naranja en la figura 7.3)

AT
4. Observación análoga al primer inciso de este lema.
Filtración de Morse
Primero estudiemos los intervalos de persistencia bajo la filtración de Morse. Del lema
anterior vemos que
1. r < mı́n fκ ⇒ S1≤r = ∅.
2. mı́n fκ ≤ r < máx fκ ⇒ S1≤r es contraı́ble, pues el segmento naranja de figura 7.3 es
un segmento de arco de un cı́rculo, como en figura 7.4. Al ser contraı́ble su grupo de
homologı́a de dimensión 1 es trivial.
3. r ≥ máx fκ ⇒ S1≤r = S1 .
De ahı́ que el código de barras Betti-0 para la filtración de

Morse consiste de un único intervalo

1
[mı́n fκ , ∞] = κ ,∞
e I0 (κ)
y el código de Betti-1 es un único intervalo

κ
e
[máx fκ , ∞] = ,∞ , Figura 7.4: Arco de cı́rculo
I0 (κ)
16 T
mientras que el resto de códigos de barra son triviales, pues lo
20 A
son en S1 .
lio IM
Filtración de Čech y la función Betti-0
Ju -C
Ahora consideremos la filtración de Čech. Para ello dividimos el análisis en dos casos:
κ = 0 y κ > 0.
1 0
D
Si κ = 0, el caso de distribución uniforme, entonces f0 (θ) = e = 1 pues

I0 (0)
AT
Z 1
1 2 −1/2 1 t=1 1 π −π
I0 (0) = (1 − t ) dt = [arcsin(t)]t=−1 = − = 1,
Γ(1/2)2 −1 π π 2 2
por lo que máx fκ = mı́n fκ = 1. Aunando al lema anterior, vemos que

1 1
r< ⇒ S1≥ 1 = ∅ y r ≥ ⇒ S1≥ 1 = S1 .
1 r 1 r
Volviendo a la definición de la función β0 , vemos que

Z (
0, r < 1
g0 (r) = f0 (θ) dθ =
S11 1, r ≥ 1
r
por lo que β0 (x, 0) = ı́nf r = 1 ∀ x ∈ (0, 1].

g0 (r)≥x
Si κ > 0, primero calculamos los intervalos de persistencia.

1
1. r < máx fκ
⇒ S1≥ 1 = ∅.
r
1 1
2. ≤r< ⇒ S1≥ 1 es contraı́ble, y su grupo de homologı́a de dimensión 1
máx fκ mı́n fκ r
es trivial.
1
3. r ≥ ⇒ S1≥ 1 = S1 .
mı́n fκ r
De ahı́ que el código de barras Betti-0 para la filtración de Morse consiste de un único
16 T
intervalo
1 I0 (κ)
,∞ = ,∞
20 A
máx fκ eκ
y el código de Betti-1 es un único intervalo
lio IM

1
, ∞ = [eκ I0 (κ), ∞] ,
mı́n fκ
Ju -C
mientras que el resto de códigos de barra son triviales, pues lo son en S1 .

D
R
Sea x ∈ [0, 1] y supongamos β0 (x, κ) = r. Como κ > 0, gκ (r) = S1
fκ (θ) dθ es continua
1
≥r
y creciente. Ası́,
AT
Z
x= fκ (θ) dθ.
S11
≥r
Redefinimos ahora αr,κ ∈ [0, π] tal que fκ (ακ,r ) = 1r . Entonces

1
r= .
fκ (αr,κ )
Rψ
Para ψ ∈ [0, π], sea Fκ (ψ) = 0
fκ (θ) dθ, la cual es creciente pues fκ es no negativa. Como
fκ es par,
Z Z αr,κ
x= fκ (θ)dθ = fκ (θ)dθ = 2Fκ (αr,κ ).
S1 ≥ r1 −αr,κ
Entonces αr,κ = Fκ−1 ( x2 ) y por ende

1
β0 (x, κ) = r = .
fκ (Fκ−1 ( x2 ))
Como fκ , Fκ son suaves, por Teorema de la Función Inversa, Fκ−1 también lo es, de modo
que x
β0 (x, κ) = (Fκ−1 )0 .
2
Para corroborar, vemos que fκ → 1 cuando κ → 0, de modo que en particular fκ (Fκ−1 ( x2 )) →

1 también. Entonces β0 (x, κ) → 1 = β0 (x, 0) cuando κ → 0.
También podemos describir la gráfica de r = β0 (x, κ) paramétricamente como
16 T

1
20 A
hκ (t) = 2Fκ (t), , t ∈ [0, π].
fκ (t)
lio IM
la cual al graficarse luce como se ve en la figura siguiente.2
Ju -CD
AT
La distribución von Mises-Fisher

Sea ahora M = Sd−1 , para d ≥ 3 y consideremos la densidad unimodal von Mises-Fisher
dada por
>
fm,κ = c(κ)eκx m , x ∈ Sd−1 ,
con parámetros (κ, m) ∈ [0, ∞) × Sd−1 y
κ d/2−1 1
c(κ) =
2 Γ(d/2)Id/2−1 (κ)
2
Imagen tomada directamente de [24]
una constante normalizadora respecto a la medida uniforme.

Una simple manipulación algebraica
Z Z d/2−1
> > 2 1
c(κ) exp(κx m) dx = 1 ⇒ exp(κx m) dx = Γ Id/2−1 (κ),
Sd−1 Sd−1 κ 2
donde
d/2−1 Z 1
(κ/2)d/2−1
Z
> 2 1
exp(κx m) dx = Γ eκt (1 − t2 )d/2−3/2 dt
d−1 κ 2 Γ((d − 1)/2))Γ(1/2) −1
16 T
S
Γ( d−1 + 1 Z 1
)
= d−1 2 2
eκt (1 − t2 )(d/2−1)−1/2 dt,
20 A
1
Γ( 2 )Γ( 2 ) −1
y nos permite reescribir c(κ) como

lio IM
−1
B( d−1 , 12 )−1
Z
> 2
c(κ) = exp(κx m) dx = R1 ,
Sd−1 eκt (1 − t2 )(d/2−1)−1/2 dt
Ju -C
−1
donde B(·, ·) es la función Beta, la cual es dada por:

Z 1
D
Γ(x)Γ(y)
B(x, y) = tx−1 (1 − t)y−1 dt =
0 Γ(x + y)
AT
cuando Re(x), Re(y) > 0.

En particular, dado que en general si w tal que Re(w) > − 12 , entonces
Z 1 √
2 w−1/2 πΓ(w + 1/2)
(1 − t ) dt = ,
−1 Γ(w + 1)
de modo que
−1 √ "√ #−1
Γ( d−1 )Γ( 12 ) 1
Γ( d−1 d
− 1
Z
d−3 ) π πΓ( )
c(0) = 2
(1 − t2 ) 2 dt = d−12 2 2
= 1.
Γ( d−1
2
+ 12 ) −1 Γ( 2 + 12 ) Γ( d2 )
Por otro lado, de la desigualdad de Cauchy-Schwarz vemos que |xT m| = |hx> mi| ≤
||x||||m|| ≤ 1, por lo que
máx fκ = c(κ)eκ , mı́n fκ = c(κ)e−κ .

Notemos que el máximo y el mı́nimo no dependen de m. De hecho, por simetrı́a, las

homologı́as no dependen de m. De ahı́ que nos preocuparemos únicamente por el parámetro
κ.
Al igual que en la densidad von Mises, dado mı́n fκ ≤ r ≤ máx fκ fijo, consideremos

1 r
αr,κ = log ∈ [−1, 1]
κ c(κ)
la cual es creciente al fijar el parámetro κ y además cumple
16 T
c(κ) exp(καr,κ ) = r.
Filtración de Morse
20 A
lio IM
Similar al lema 7.1.5, establecemos
Lema 7.1.6. 1. r < mı́n fκ ⇒ Sd−1

≤r = ∅.
Ju -C
2. r ≥ máx fκ ⇒ Sd−1
≤r = S
d−1
.
D
3. mı́n fκ ≤ r < máx fκ ⇒ Sp−1

≤r = {x ∈ S
d−1
| x> m ≤ αr,κ }.
AT
Observación: En el segundo caso, Sd−1

≤r es la cerradura de S
d−1
menos un cono circular recto
d−1
con vértice 0 centrado en m. En particular, S≤r es contraı́ble, de modo que su grupo de
homologı́a de dimensión 1 es trivial.
Combinando este último lema junto con la observación vemos que bajo la filtración de
Morse, el código de barras Betti-0 es un único intervalo [mı́n fκ , ∞), el código de barras
Betti-(p − 1) es [máx fκ , ∞), mientras que el resto son vacı́os, pues lo son en Sd−1 .
Filtración de Čech y la función Betti-0

Al igual que en la sección anterior, deducimos fácilmente el siguiente lema:
Lema 7.1.7. 1. 0 ≤ r < 1

máx fκ
⇒ Sd−1
≥1
= ∅.
r
1 1
2. ≤r< ⇒ Sd−1
≥ r1
= {x ∈ Sd−1 | x> m ≥ α 1 ,κ }.
máx fκ mı́n fκ r
3. r ≥ 1
mı́n fκ
⇒ Sd−1
≥1
= Sd−1 .
r
Observación: En el segundo caso notemos que Sd−1 ≥ r1

es la intersección de Sd−1 con un cono
circular de vértice 0 centrado en m. En particular, es contraı́ble por lo que su homologı́a de
dimensión 1 es trivial.
Combinando este último lema junto con la observación vemos que bajo la filtración de
Čech, el código de barras Betti-0 es un único intervalo [ máx1 fκ , ∞), el código de barras Betti-
(p − 1) es [ mı́n1 fκ , ∞), mientras que el resto son vacı́os.
Continuando de manera análoga al caso von Mises, consideremos dos casos para deducir
16 T
la función Betti-0.
20 A
Si κ = 0, entonces f0 = c(0) = 1 de modo que
(
lio IM
∅, r<1
Sd−1
≥1
= d−1
.
r S , r≥1
Ju -C
Entonces (
Z
0, r < 1
gκ (r) = f0 (x)dx =
Sd−1
1
1, r ≥ 1
≥r
D
y por ende
AT
β0 (x, 0) = ı́nf r = 1,
gκ (r)≥x
lo cual coincide con nuestros cálculos con la densidad von Mises.
Si κ > 0, mediante coordenadas polares, obtenemos
Z
x = gκ (r) = fκ (ξ)dξ
Sd−1
1≥r
log(rc(κ))
Z arc cos(− )
sp−2 κ
= c(κ) eκ cos θ sinp−2 θdθ
sp−1 0
p
donde sp−1 = 2π 2
Γ( p2 )
. Si κ > 0, gκ (r) es creciente de modo que β0 (x, κ) = gκ−1 (x) para x ∈ [0, 1].
También podemos describir la gráfica de β0 en términos paramétricos como

log(rc(κ))
!
sp−2 arc cos(− κ ) κ cos θ p−2 e−κ cos t
Z
hκ (t) = c(κ) e sin θdθ,
sp−1 0 c(κ)
con t ∈ [0, π].
7.1.3. Estimación estadı́stica de códigos de barra

En esta última sección daremos un par de resultados del comportamiento de los códigos de
16 T
barra reales versus un código de barra estimado. Daremos cotas a las diferencias absolutas
20 A
en los casos particulares cuando estamos trabajando con las densidades von Mises y von
Mises-Fisher.
lio IM
Estimando con la densidad von Mises-Fisher
Sean X1 , . . . , Xn variables aleatorias en Sd−1 independientes idénticamente distribuidas
Ju -C
con densidad von Mises-Fisher f de parámetros m, κ desconocidos. Si tenemos una muestra

X = {x1 , . . . , xn }, nos interesa estimar los parámetros de la densidad. Para ello, consideremos
la función de verosimilitud obtenida a partir de X,
D
n n
>
Y Y
L(m, κ; X) = f (xi ; m, κ) = c(κ)eκxi m .
AT
i=1 i=1
Pn
Considerando el estadı́stico r = i=1 xi , tenemos la función de log verosimilitud
n
X
l(m, κ; X) = [log c(κ) + κx> >
i m] = n log c(κ) + κr m.
i=1
Para obtener los estimadores de máxima verosimilitud, consideremos el multiplicador de

Lagrange
L(m, κ, λ) = n log c(κ) + κr> m + λ(1 − m> m)
y suponiendo que µ̂, κ̂ son los máximos, obtenemos el sistema de ecuaciones
∂L κ̂
= κ̂r − λ(2m̂) = 0 ⇒ m̂ = r. (7.1.1a)
∂m 2λ
∂L c0 (κ̂) c0 (κ̂)
=n + r> m̂ = 0 ⇒ n = −r> m̂. (7.1.1b)
∂κ c(κ̂) c(κ̂)
∂L
= 1 − m̂> m̂ = 0 ⇒ m̂> m̂ = 1. (7.1.1c)
∂λ
Tomando norma al cuadrado en ambos lados de la primera ecuación

2
2 κ̂ κ̂ κ̂
||m̂|| = ) ||r||2 ⇒ 1 = ||r|| ⇒ λ = ||r||.
2λ 2λ 2
Sustituyéndolo en la primera ecuación
κ̂ r
r= = m̂
2(κ̂/2||r||) ||r||
de modo que al sustituir en la segunda ecuación
16 T
c0 (κ̂) ||r||
=−
20 A
.
c(κ̂) n
lio IM
d
Por otro lado, para facilitar la notación, sean s := 2
− 1, ξ = 2s Γ( d2 ), de modo que
κs
c(κ) = .
ξIs (κ)
Ju -C
Derivando respecto a κ,
sκs−1 ξIs (κ) − ξκs Is0 (κ) κ2 κIs0 (κ) κIs0 (κ)

0 s s
− −
D
c (κ) = = = c(κ) ,
[ξIs (κ)]2 ξIs (κ) κ ξIs (κ)2 κ ξIs (κ)2
es decir,
AT
c0 (κ) I 0 (κ) s
− = s − .
c(κ) Is (κ) κ
Ahora bien, aprovechando la igualdad (ver [1])
κIs+1 (κ) = κIs0 (κ) − sIs (κ)
obtenemos
c0 (κ) Is+1 (κ) s s Is+1 (κ) Id/2 (κ)
− = + − = = =: Ad (κ)
c(κ) Is (κ) κ κ Is (κ) Id/2−1 (κ)
concluyendo ası́ en particular,
c0 (κ̂) ||r||
− = Ad (κ̂) =
c(κ̂) n
siendo ası́ los estimadores de máxima verosimilitud dados por
||r|| r
κ̂ = A−1
d , m̂ = .
n ||r||
Al ser estimadores de máxima verosimilitud, tenemos el comportamiento asintótico (ver

Proposición 5.4.4)
√ L
n(κ̂ − κ) → N (0, A0−1
p )
donde N (µ, σ 2 ) denota a la distribución normal de media µ y varianza σ 2 y A0p es la infor-

mación de Fisher.
Si βiM , βiČ denotan los códigos de barra para Betti-i bajo las filtraciones de Morse y Čech
16 T
respectivamente, enunciamos
20 A
Teorema 7.1.8. Para la distribución von Mises-Fisher en Sd−1 y κ ∈ [κ0 , κ1 ] con 0 < κ0 ≤
lio IM
κ1 < ∞ fijos,
1
E(D[βiM (fκ̂ ), βiM (fκ )]) ≤ C(κ)n− 2 , n→∞ ∀ i,
Ju -C
1
E(D[βiČ (fκ̂ ), βiČ (fκ )]) ≤ C(κ)n− 2 , n→∞ ∀ i ≥ 1,
para alguna constante C(κ).

D
Observación: Aprovechando que los intervalos en los códigos de barra de la distribución von
AT
Mises-Fisher son sencillos, de la definición de distancia D vemos que
D([a, ∞), [b, ∞)) = |a − b|.
Demostración. Recordemos que los únicos códigos de barra no necesariamente triviales ocu-
rren en las dimensiones i = 1 e i = d − 1. De la observación anterior y aprovechando nuestras
construcciones teóricas de códigos de barra en la sección anterior, vemos que
1. d[β0M (fκ̂ ), β0M (fκ )] = |c(κ̂)e−κ̂ − c(κ)e−κ |.
M M
2. d[βp−1 (fκ̂ ), βp−1 (fκ )] = |c(κ̂)eκ̂ − c(κ)eκ |.
Č
3. d[βp−1 Č
(fκ̂ ), βp−1 (fκ )] = |c(κ̂)−1 eκ̂ − c(κ)−1 eκ |.
Enfoquémonos únicamente en la primera igualdad. Por teorema del valor medio, existe
κ∗ entre κ y κ̂ tal que

∗
E|c(κ̂)eκ̂ − c(κ)eκ | = E|(c(κ∗ ) + c0 (κ∗ ))eκ (κ̂ − κ)|
Z
∗
= [(c(κ∗ ) − c0 (κ∗ )eκ (κ̂ − κ)]κdf ]
Z 21 Z 12
∗ 0 ∗ κ∗ 2 2
≤ [(c(κ ) − c (κ )e ] df ] ((κ̂ − κ)κ) df
1
≤ C ∗ (κ)(E|κ̂ − κ|2 ) 2
16 T
1
≤ C(κ)n− 2 .
20 A
Para las otras dos igualdades el resultado es completamente análogo.
lio IM
Caso particular d = 3
Enfoquémonos ahora en el caso particular cuando d = 3 en la variedad S2 . En este caso,
muchos cálculos pueden hacerse de manera explı́cita.
Ju -C
Calculamos
B(1, 21 )−1 1
2 κ
c(κ) = R 1 = = ,
exp(κt) dt 2 sinh κ/κ sinh κ
−1
D
p
1 x −x 2π 2
pues sinh x = 2
(e − e ). Por otro lado, si sp−1 = p , vemos que
Γ( 2 )
AT
2π 2π 3/2
s1 = = 2π, s2 = = 4π.
Γ(1) Γ( 23 )
s1
de modo que s2
= 12 . Además,
Z
exp(κ cos θ)
eκ cos θ sinp−2 θdθ = − ,
κ
por lo que
log(rc(κ))
s1 arc cos(− κ ) κ cos θ
Z
gκ (r) = c(κ) e sin θdθ
s2 0

1 exp(κ) 1
= c(κ) −
2 κ κrc(κ)
exp(κ) 1
= − .
2 sinh κ 2rκ
Como β0 (x, κ) = gκ−1 (x) para x ∈ [0, 1], al invertir

exp(κ) 1
gκ (r) = x = −
2 sinh κ 2rκ
1 2 sinh κ
⇒ exp(κ) = = 2rκ
−x exp(κ) − 2x sinh κ
2 sinh κ
2 sinh κ
⇒r=
2κ[exp(κ) − x[exp(κ) − exp(−κ)]
exp(κ) − exp(−κ)
= ,
16 T
2κ[(1 − x) exp(κ) + x exp(−κ)]
20 A
y ası́
exp(2κ) − 1
β0 (x, κ) = .
2κ[(1 − x) exp(2κ) + x]
lio IM
Notemos que β0 (x, κ) → 1 cuando κ → 0 como era de esperar, pues por L’Hôpital
exp(2κ) 1
→ = 1.
Ju -C
[(1 − x) exp(2κ) + x] + κ[2(1 − x) exp(2κ) + x] 1+0

Finalmente, también notamos que β0 (x, κ) → 0 cuando κ → ∞ para toda x ∈ (0, 1).
D
AT
Figura 7.5: Gráfica de β0 cuando d = 3
Y en este caso en particular podemos enunciar

Teorema 7.1.9. Para la distribución von Mises-Fisher en S2 y κ > 0 fijo
E||β0 (x, κ̂) − β0 (x, κ)||∞ ≤ C(κ)n−1
cuando n → ∞.
Demostración. Por Teorema del valor medio, existe κ∗ entre κ y κ̂ tal que
∂
β0 (x, κ̂) − β0 (x, κ) = β0 (x, κ∗ )(κ̂ − κ),
∂κ
con
∂ −(1 − x)e4κ + (1 + 2κ − 2x)e2κ + x
= .
∂κ 2κ2 [(1 − x)e2κ + x]2
Para x ∈ (0, 1], vemos que la derivada es acotada por
e4κ + (1 + 2κ)e2κ + 1
16 T
.
2κ2
20 A
Aprovechando que podemos calcular explı́citamente A3 (κ) = coth κ − κ1 , se sigue un
razonamiento análogo al teorema previo.
lio IM
Observaciones
Ju -C
El enfoque estadı́stico a la persistencia ofrecido por [24] brinda una nueva manera de
entender objetos vitales en el análisis topológico de datos, como lo son los intervalos de
persistencia y los códigos de barra de números Betti. Es especialmente ilustrativo, como
D
se reflejó en el ejemplo de la distribución uniforme en el cı́rculo, pues a lo largo de su

desarrollo no depende de herramientas fuertes de topologı́a o computación, sino que brinda
una perspectiva más orientada a nociones de probabilidad y estadı́stica. De ahı́ que este
AT
enfoque pueda ser usado en conjunto al enfoque topológico-computacional usual para ampliar
el público potencial interesado en este tema.
El ejemplo de juguete presentado es sumamente didáctico, pues permite los cálculos
explı́citos de intervalos de persistencia y la esperanza de éstos, permitiendo el posterior
desarrollo de la función β0 y compararla con su comportamiento asintótico. Esto es relevante,
pues provee cierta intuición de como enfrentarse a densidades menos sencillas en variedades
menos simples, como lo es la von Mises-Fisher en Sd−1 . Son estas construcciones teóricas las
que posteriormente nos dan material concreto para plantear una comparación entre códigos
de barra teóricos y códigos de barra obtenidos al estimar con máximos verosı́miles. Esto
último es relevante, pues ofrece una manera de resolver el problema de que objeto concreto
usar para determinar si una estimación de códigos de barra es adecuada o no.
El trabajo [24] desarrolla otros ejemplos no tratados aquı́, como lo son las densidades
Bingham y Watson en Sd−1 , y la densidad von Mises matricial en el grupo de Lie de ro-
taciones en R3 . Por ejemplo, serı́a interesante tratar explı́citamente densidades en el toro,
aprovechando quizá la medida producto de dos cı́rculos; o incluso podrı́amos intentar den-
sidades en otras superficies como la botella de Klein. Ello implicarı́a también una revisión
quizá profunda en las propiedades analı́ticas y fórmulas útiles derivadas de cada densidad pa-
ra deducir todos los cálculos necesarios, que pueden ponerse pesados en una primera lectura,
tal como se reflejó en el caso de la densidad von Mises-Fisher.
7.2. Topologı́a de densidades no–paramétricas en va-

riedades
16 T
El propósito de esta sección es presentar algunos ejemplos de procesos puntuales sobre
variedades y estudiar la topologı́a de las funciones de densidad (distribución) asociadas a
20 A
dichos procesos. Nos referimos al trabajo de Bobrowski y Mukherjee ([18]).
Dada una nube finita de puntos P en un espacio euclidiano Rd , recordamos la función
lio IM
distancia a P ,
dP : Rd −→ R
x 7−→ ı́nf ||p − x||.
Ju -C
p∈P
Además, tenemos el –contrapeso o nervio

[
C(P, ) = d−1
P ([0, ]) = B(p, ).
D
p∈P
AT
En este apartado nos preguntamos cómo cambia la topologı́a de dicha unión de bolas y al
mismo tiempo como varı́an los puntos crı́ticos de la función dP , conforme escojamos el tipo
de proceso puntual asociado a P , o bien al cambiar el tamaño de la muestra.
7.2.1. La nube de puntos como un proceso puntual y su topologı́a

Los procesos puntuales que estudiaremos a continuación serán de dos tipos y estarán
soportados sobre una variedad m–dimensional cerrada
M ⊂ Rd , (m < d).
Consideremos f : M 7−→ R una función de densidad de probabilidad (acotada y medible).

Si X es una variable aleatoria en Rd con densidad f :
Z
F (A) := P(X ∈ A) = f (x)dx (∀A ⊂ Rd ).
A∩M
Los modelos son los siguientes:

7.2. Topologı́a de densidades no–paramétricas en variedades 227
1. Muestra aleatoria: Escogemos n puntos distribuidos a través de f :

i.i.d
χn = {X1 , . . . , Xn } ∼ f.
2. Proceso espacial de Poisson con intensidad λn := nf : Para cualquier región A ⊂ M, el

número de puntos en la región NA := |Pn ∩A| se distribuye como una variable aleatoria
Poisson,
NA := |Pn ∩ A| ∼ Poisson(nF (A)).
16 T
Además, dadas cualesquiera dos regiones disjuntas A, B ⊂ M , las variables aleatorias
NA y NB son independientes.
20 A
Ambos modelos son muy similares, salvo que en el primer caso tenemos exactamente
lio IM
n puntos y en el segundo se distribuyen como Poisson(n). Dado que además los procesos
de Poisson tienen ventajas computacionales, se enunciarán los resultados para este caso
particular. Sin embargo, bajo ligeros ajustes los resultados siguen siendo ciertos en el caso de
Ju -C
χn . Más aún, también se tienen resultados análogos para el caso en que la muestra se tome
sobre un espacio euclidiano Rd (ver [15]).
Por lo tanto, los objetos estocásticos a estudiar serán las uniones de bolas C(Pn , ) y la
función distancia dPn . Recordemos que al final del primer capı́tulo vimos cómo definir puntos
D
crı́ticos de cierto ı́ndice para la función distancia a una nube de puntos. Dada una sucesión
rn de enteros positivos (radios), analizaremos dos tipos de variables aleatorias:
AT
1. Números de Betti aleatorios: Para cada 0 ≤ k ≤ d − 1 consideramos el k–ésimo

número de Betti de C(Pn , rn ),
βk,n := βk (C(Pn , rn )).
2. Puntos crı́ticos locales aleatorios: Para cada 0 ≤ k ≤ d, sea Ck,n el conjunto de

puntos crı́ticos de ı́ndice k para la función dPn . Definimos el conjunto de puntos crı́ticos
locales
L
Ck,n := {c ∈ Ck,n : dPn (c) < rn } = Ck,n ∩ C(Pn , rn )
y su tamaño
L
Nk,n = |Ck,n |.
Sabemos que gracias a la teorı́a de Morse las familias
{βk,n }d−1
k=0 y {Nk,n }dk=0
están estrechamente relacionadas. En particular, queremos ver cuál es su comportamiento

conforme n −→ ∞ y rn −→ 0. Para el caso de los puntos crı́ticos de la función distancia en
espacios euclidianos tenemos el trabajo de Bobrowski y Adler (ver [16]).
Recordamos que un punto p ∈ Pn es crı́tico de ı́ndice k si existe un conjunto Y de k + 1

puntos, tal que, en una vecindad pequeña de p, dPn ≡ dY . Además, Y vive en una única
esfera de dimensión k − 1. Escribiremos:
• S(Y) para la (k − 1)–esfera que contiene a Y,
16 T
• r(Y) para el radio de dicha esfera y
20 A
• B(Y) para la bola abierta en Rd con centro p y radio r(Y).
lio IM
Para el caso de puntos crı́ticos locales, la condición a considerar serı́a
r(Y) ≤ .
Ju -C
Para poder enunciar los resultados a continuación, usaremos las siguientes funciones
indicadoras:
D
•
hc (Y) := 1{p ∈ conv◦ (Y)},
AT
•
hc (Y) := hc (Y)1[0,] (r(Y)),
•
gc (Y, Pn ) := hc 1{Pn ∩ B(Y) = ∅}.
Observamos que la primer función nos indica si el punto p está en el interior de la

envolvente convexa de los puntos en Y y por lo tanto es candidato a ser punto crı́tico. La
segunda nos indica la localidad y la última función nos indica si el punto p es un punto
crı́tico local de ı́ndice k.
Además de estas funciones, tendremos una función indicadora en subconjuntos Y de
tamaño k + 2, la cual prueba si un subconjunto forma un k–cIclo:
hb (Y) := 1{βk (C(Y, )) = 1}.

7.2.2. Teoremas lı́mite: Casos subcrı́tico, crı́tico y supercrı́tico

Similarmente al trabajo de Kahle sobre complejos geométricos aleatorios (ver [76]), el
comportamiento al lı́mite de las variables aleatorias se divide en tres regı́menes, dependiendo
del comportamiento sobre el número esperado de puntos en una bola geodésica de radio rn
sobre la variedad M . Esto es, dependiendo de qué valores tome el lı́mite de nrnm , donde m es la
dimensión de M . Los casos son: subcrı́tico cuando nrnm −→ 0, crı́tico cuando nrnm −→ λ > 0
y supercrı́tico cuando nrnm −→ ∞.
En primer lugar, unas observaciones comúnes:
16 T
• Los puntos crı́ticos de ı́ndice 0, o mı́nimos, de dPn son precisamente los puntos de Pn . O
20 A
bien,
N0,n = |Pn | ∼ Poisson(n).
lio IM
• Si el radio rn es suficientemente pequeño el nervio C(Pn , rn ) es homotópicamente equiva-
lente a un subconjunto M 0 ⊂ M , vı́a un retracto por deformación. Luego βm (M 0 ) = 0,
ası́ como βk (M ) = 0 para k > m. Por lo tanto,
Ju -C
βk,n = 0, (k ≥ m).
D
Por la teorı́a de Morse, también tenemos que
Nk,n = 0, (k > m).

AT
Caso subcrı́tico.
En el caso en que nrnm −→ 0 tenemos que el radio rn se va a cero con tanta rapidez,
que es muy improbable para los puntos conectarse y C(Pn , rn ) está muy esparcido. Ésta es
la llamada “fase de polvo”. Veremos que β0,n domina los otros números de Betti, los cuales
aparecen en órdenes descendente de magnitud.
Teorema 7.2.1. Si nrnm −→ 0, entonces:
1. Para 1 ≤ k ≤ m − 1:
E{βk,n } Var(βk,n )
lı́m = lı́m = µbk ;
n−→∞ nk+2 r m(k+1) n→∞ m(k+1)
nk+2 rn
n
donde
Z Z
1
µbk = f k+2
(x)dx hb1 (0, y)dy.
(k + 2)! M (Rm )k+1
Además,
E{β0,n }
lı́m = 1.
n−→∞ n
2. Para 1 ≤ k ≤ m:
E{Nk,n } Var(Nk,n )
16 T
lı́m k+1 mk
= lı́m = µck ;
n−→∞ n rn n→∞ nk+1 rn
mk
20 A
donde
lio IM
Z Z
1
µck = f k+1
(x)dx hc1 (0, y)dy.
(k + 1)! M (Rm )k+1
Ju -C
En el resultado anterior estamos usando la notación y = (y1 , . . . , yk+1 ) ∈ (Rd )k+1 , y
hb (0, y) = hb (0, y1 , . . . , yk+1 ).

D
Como es usual en estos casos, encontrar una expresión más nı́tida de la integral anterior
es una tarea complicada.
AT
Observación 7.2.2. Como nrnm −→ 0, tenemos que
E{N0,n } >> E{N1,n } >> E{N2,n } >> · · · >> E{Nm,n }
E{β0,n } >> E{β1,n } >> · · · >> E{βm−1,n }

y
E{βk,n } ≈ E{Nk+1,n }, (k ≥ 1).
Donde an >> bn significa que an /bn −→ ∞ y an ≈ bn significa que an /bn −→ c > 0.
En otras palabras C(Pn , rn ) consiste principalmente de pequeñas partı́culas disconexas
con relativamente pocos vacı́os. Mientras el número de puntos crece es muy improbable ver
un ciclo y lo es menos si la dimensión aumenta.
De acuerdo al término de control nk+1 rnmk , la distribución en el lı́mite de Nk,n será la
siguiente.
Teorema 7.2.3 (Distribución lı́mite). Supongamos que nrnm −→ 0 y sea 1 ≤ k ≤ m,
1. Si lı́m nk+1 rnk = 0, entonces

L2
Nk,n −→ 0.
nk+1 rnk < ∞, entonces
P
Si además,
c.s.
Nk,n −→ 0.
2. Si lı́m nk+1 rnk = α > 0, entonces

L
Nk,n −→ Poisson(αµck ).
16 T
20 A
3. Si lı́m nk+1 rnk = ∞, entonces
lio IM
Nk,n − E(Nk,n ) L
−→ N (0, µck ).
(nk+1 rnmk )1/2
m(k+1)
Ju -C
Observación 7.2.4. El mismo teorema es cierto para βk,n , con el término de ajuste nk+2 rn
y la varianza lı́mite µbk . Además, para el caso del TCL en el tercer apartado se requiere que
nrnm ≤ n− , (para algún > 0).

D
AT
Caso crı́tico
En el caso anterior observamos que el número de componentes conexas β0,n es de orden
n. En este caso tendremos que para cada k, este será el caso y el cálculo de números de Betti
se vuelve complicado. Aún ası́, tenemos lo ya mencionado.
Teorema 7.2.5. Si nrnm −→ λ ∈ (0, ∞) y 1 ≤ k ≤ m − 1:
E{βk,n } E{βk,n }
0 < lı́m inf ≤ lı́m sup < ∞.
n−→∞ n n−→∞ n
Por otro lado, como un punto crı́tico de ı́ndice k está siempre generado por k + 1 puntos,
podemos seguir aplicando técnicas similares al caso anterior para concluir.
Teorema 7.2.6. Si nrnm −→ λ ∈ (0, ∞) y 1 ≤ k ≤ m:
E{Nk,n }
lı́m = γk (λ),
n−→∞ n
Var{Nk,n }
lı́m = σk2 (λ),
n−→∞ n
Nk,n − E{Nk,n } L
√ −→ N (0, σk2 (λ));
n
donde
λk
Z Z
m (0,y)f (x)
γk (λ) := f k+1 (x)hc1 (0, y)e−λωm r dydx
(k + 1)! M (Rm )k
y tenemos una expresión similar para σk2 (λ).
16 T
Donde ωm denota el volumen de la bola unitaria en Rm y r(0, y) es la función que asigna
20 A
el radio de la única esfera que contiene a (0, y).
Para este caso no podemos dar lı́mites exactos para los números de Betti. Sin embargo,
lio IM
usando los puntos crı́ticos de la función distancia, podremos encontrar teoremas lı́mite para
la caracterı́stica de Euler de C(Pn , rn ). Como hemos visto anteriormente, es un invariante
topológico muy simple y puede ser definido de varias maneras. Para nuestro caso tenemos
Ju -C
que
Xm
χn = χ(C(Pn , rn )) = (−1)k βk,n .
D
i=1
Luego, usando la teorı́a de Morse, también podemos calcular χn mediante los puntos crı́ticos
AT
de la función distancia,
Xm
χn = (−1)k Nk,n .
i=1
Podemos concluir el siguiente resultado.
Corolario 7.2.7. Si nrnm −→ λ > 0, entonces
m
E(χn ) X
lı́m =1+ γk (λ).
n−→∞ n k=1
Esto nos da una respuesta parcial, pues aunque no da lı́mites precisos para los números
de Betti en particular, si lo hace para el “resumen” hecho por la caracterı́stica de Euler. Más
aún, usando el teorema anterior se pueden obtener resultados para otro tipo de funcionales
distintos a la esperanza.
Experimentos numéricos ([79]) parecen sugerir que a diferentes rangos del radio existe a
lo más un solo grado de homologı́a que domina los otros:
χn ≈ (−1)k βk,n .
Si este resulta ser el caso, el resultado anterior podrı́a darnos lı́mites para la esperanza de
los números de Betti al menos en el grado dominante.
Caso supercrı́tico
En cuanto λ del caso anterior va tendiendo a infinito, el complejo C(Pn , rn ) se vuelve
más y más conexo y menos poroso. Ya no sucede que encontremos más y más vacı́os de cada
posible dimensión, la escala a la cual mayores cambios ocurren es
16 T
nrnm ∝ log n.
20 A
Para este caso tendremos que suponer
lio IM
fmin = ı́nf f (x) > 0.
x∈M
Intuitivamente si f (x) = 0, en una vecindad de x deberá haber relativamente pocos puntos

Ju -C
de Pn y quizás podrı́a verse como en los casos anteriores. Como veremos, para cierto radio
βk,n = βk (M )
Los lı́mites para los puntos crı́ticos siguen siendo muy similares.
D
Teorema 7.2.8. Si rn −→ 0 y nrnm −→ ∞, entonces para 1 ≤ k ≤ m:

AT
E{Nk,n }
lı́m = γk (∞),
n−→∞ n
Var{Nk,n }
lı́m = σk2 (∞)
n−→∞ n
y
Nk,n − E{Nk,n } L
√ −→ N (0, σk2 (∞));
n
donde Z
1 m (0,y)
γk (∞) := lı́m γk (λ) = hc (0, y)e−ωm r dydx.
λ−→∞ (k + 1)! (Rm )k
El estudio de los números de Betti se vuelve igual de complicado que antes. Sin embargo,
veremos que podemos encontrar un umbral para el cual βk,n = βk (M ) para todo k ≥ 0. Este
umbral estará dado por
nrnm = (ωm fmin )−1 log n.
Usaremos los siguientes resultados.
Proposición 7.2.9 (Cobertura). Si nrnm ≥ C log n, entonces:
1. Si C > (ωm fmin )−1 , entonces
lı́m P(M ⊂ C(Pn , rn )) = 1.

n−→∞
2. Si C > 2(ωm fmin )−1 , entonces casi seguramente existe L > 0 (posiblemente aleatoria),
tal que para cada n > L tenemos que M ⊂ C(Pn , rn ).
16 T
Usando rn apropiadamente podemos observar que M es un retracto por deformación de
C(Pn , rn ) y con un poco más de maquinaria sobre los puntos crı́ticos de la función distancia
20 A
a Pn tenemos el resultado deseado.
lio IM
Teorema 7.2.10 (Convergencia de los números de Betti). Si rn −→ 0 y nrnm ≥ C log n,
entonces:
1. Si C > (ωm fmin )−1 , entonces

Ju -C
lı́m P(βk,n = βk (M ), ∀0 ≤ k ≤ m) = 1.
n−→∞
D
2. Si C > 2(ωm fmin )−1 , entonces casi seguramente existe L > 0, tal que para n > L,
AT
βk,n = βk (M ), ∀0 ≤ k ≤ m.
Es importante notar que en el resultado anterior el punto exacto de convergencia L es

aleatorio.
Con este teorema se da una respuesta a como inferir las propiedades topológicas de una
variedad M , a partir de una muestra aleatoria P tomada con cierta distribución sobre M .
7.3. Topologı́a de complejos aleatorios geométricos

En capı́tulos anteriores los complejos simpliciales se han utilizado para dotar a una nu-
be de puntos de una estructura topológica y algebraica para tratar de inferir propiedades
subyacentes del objeto geométrico o topológico del que se han tomado los datos. En par-
ticular, para esta construcción se han utilizado los complejos de Čech y de Vietoris-Rips.
Ambos complejos se pueden construir de manera abstracta o sobre puntos contenidos en un
espacio métrico. En esta sección puntualizaremos las diferencias y similitudes entre estas dos
7.3. Topologı́a de complejos aleatorios geométricos 235
maneras de construir estas estructuras y daremos algunas referencias para profundizar en el

estudio de ambas.
En el Capı́tulo 1 se dieron las definiciones de complejo simplicial y de complejo simplicial
abstracto. En los resultados y artı́culos que vamos a discutir en ésta y la siguiente sección
se utiliza otra convención, que comúnmente se usa en la literatura de ATD y topologı́a
estocástica, para llamar a estas dos estructuras. Para facilitar la lectura de las referencias
a los lectores interesados, adoptaremos en estas dos secciones la siguiente convención: A
los complejos simpliciales, contenidos en un espacio métrico especı́fico, por ejemplo Rn , les
llamaremos complejos simpliciales geométricos; y a los complejos simpliciales abstractos se
16 T
les llamará simplemente complejos simpliciales.
En estas notas, las estructuras de complejos que se han estudiado hasta este punto, siem-
20 A
pre han estado contenidas en un espacio métrico por lo que han sido complejos simpliciales
geométricos. Sin embargo, fueron los complejos simpliciales (abstractos) los primeros que se
lio IM
estudiaron desde un punto de vista estocástico o probabilista por lo que es de suma impor-
tancia conocer las diferencias y similitudes entre ambas estructuras y saber qué ingredientes
se necesitan al definir una estructura estocástica sobre complejos simpliciales (abstractos) o
Ju -C
sobre complejos simpliciales geométricos.
Complejos simpliciales aleatorios

D
El primer artı́culo en el que se estudian y definen los complejos aleatorios dos dimen-
sionales fue publicado en el año 2006 bajo el tı́tulo Homological connectivity of random
AT
2-complexes por Linial y Meshulam [102] . Posteriormente, en el 2009, Meshulam y Wallach

publican un artı́culo [100] en el que se hace la generalización a complejos aleatorios de cual-
quier dimensión. En estos dos artı́culos, tomaron como coeficientes para formar los grupos
de homologı́a (y cohomologı́a) a Z2 y Zl (para cualquier número primo l), respectivamente.
El principal resultado del artı́culo del 2006 y el primero que se conoce referente a complejos
simpliciales aleatorios es el siguiente.
Teorema 7.3.1 (Linial–Meshulam 2003-6). Si ω : N → R+ es una función tal que
lı́mn→∞ ω(n) = ∞ y tal que para toda n ∈ N se tiene 2 log n ≥ ω(n), entonces
(
0 p = 2 log n−ω(n)
lı́m P[{Y ∈ Y (n, p) | H 1 (Y ; Z2 ) = 0}] = n
.
n→∞ 1 p = 2 log n+ω(n)
n
En este teorema, Y (n, p) representa al espacio de probabilidad que tiene como posibles
resultados todos los complejos simpliciales 2 dimensionales en n puntos tales que su cero
esqueleto y uno esqueleto están completos, es decir, son los complejos simpliciales 2 di-
mensionales construidos sobre la gráfica completa Kn . Observar que el modelo Y (n, p) es
el análogo al modelo de Erdös-Renyi G(n, p) (en el que cada arista estará presente en la
gráfica, de manera independiente respecto a las otras, con una probabilidad p y ausente
con una probabilidad de 1 − p, salvo que Y (n, p) está definido para complejos simpliciales 2
dimensionales).
Este resultado nos dice que para la estructura estocástica Y (n, p), hay un umbral fuerte o
bien definido para la propiedad de tener grupo de homologı́a de dimensión 2 (o β2,n ) distinto
del trivial; es decir, que para el cambio del caso subcrı́tico al crı́tico, la estructura Y (n, p)
tiene un umbral fuerte. En general, es deseable tener resultados asintóticos en el que se
encuentre un umbral fuerte o bien definido. Daremos enseguida una definición precisa de lo
16 T
que es un umbral fuerte o bien definido.
Una función f es un umbral fuerte, o bien definido, para una propiedad Q, de una
20 A
estructura estocástica X(n, p), dependiente de los parámetros n y p , si existe una función
g ≡ o(f ) tal que
lio IM

1 :p≥f +g
P[X(n, p) ∈ Q] →
0 : p ≤ f + g.
No sólo se ha estudiado la homologı́a de la estructura estocástica Y (n, p); en el 2011
Ju -C
Babson et al. publicaron un resultado que involucra al primer grupo de homotopı́a (para
conocer la definición y algunos resultados elementales del grupo de homotopı́a de un espacio
topológico, se puede consultar [98]).
D
Teorema 7.3.2. Sea > 0 fijo, entonces

AT
(
n
1 p≥ √
n
lı́m P[{Y ∈ Y (n, p) | π1 (Y ; Z2 ) = 0}] = n√−
.
n→∞ 0 p≤ n
Como ya mencionamos, la generalización del modelo de Linial-Meshulam a dimensiones

mayores es el modelo de Meshulam-Wallach [100]. En este modelo, para dimensión d, se
define Y d (n, p) como el conjunto que contiene a todos los complejos simpliciales sobre n
puntos, con el (d − 1)-esqueleto completo y cada simplejo de dimensión d estará presente
en el complejo con una probabilidad de exito p y ausente con una probabilidad de 1 − p.
Representaremos al complejo simplicial en n puntos con el (d − 1)-esqueleto completo como
(d−1) (d)
∆n y al complejo simplicial en n puntos con el (d)-esqueleto completo como ∆n . El
principal resultado de [100] es el siguiente.
Teorema 7.3.3 (Meshulam–Wallach, 2009). Sea n ∈ N y l un número primo (esto permi-
(d−1) (d)
tirá que Zl tenga estructura de campo). Si ∆n ⊂ Y ⊂ ∆n , entonces
(
0 p = d log n−ω(n)
n
lı́m P[Hd (Y ; Zl ) = 0] = d log n+ω(n) .
n→∞ 1 p= n
Observar que en este resultado no sólo se generaliza la dimensión de los complejos simpli-
ciales sino que también se construyen los grupos de homologı́a sobre cualquier campo Zl con
l un número primo. Este resultado aún se desconoce para el grupo de los enteros Z y no es
posible deducirlo directamente del teorema de R. Meshulam y N. Wallach pues el problema
es que podrı́a haber l-torsión si se deja crecer l respecto de n.
Como caso particular en el que d = 1, de este resultado recuperamos el resultado clásico
de Erdös-Renyi [50] para el caso del modelo estocástico G(n, p), en el que la conectividad
de una gráfica coincide con que el grupo de homologı́a de dimensión cero tenga un sólo
generador, que en este caso es Z2 .
16 T
Teorema 7.3.4 ( Erdös y Renyi, 1959). Si ω : N → R+ es una función tal que lı́mn→∞ ω(n) =
20 A
∞ y tal que para toda n ∈ N se tiene log n ≥ ω(n), entonces
(
lio IM
0 p = log n−ω(n)
n
lı́m P[{G ∈ G(n, p) | G es conexa}] = ;
n→∞ 1 p = log n+ω(n)
n
(
Ju -C
log n−ω(n)
0 p= n
lı́m P[{G ∈ G(n, p) | G sin vértices aislados}] = log n+ω(n) ;
n→∞ 1 p= n
(
log n−ω(n)
D
0 p= n
lı́m P[{G ∈ G(n, p) | H0 (G; Z2 ) = Z2 }] = log n+ω(n) .
n→∞ 1 p= n
AT
La cualidad del modelo Y (n, p) de que tiene su uno esqueleto completo (y en general en el
modelo de Meshulam-Wallach que tiene su (d−1)-esqueleto completo), es una particularidad
que no es necesaria que se cumpla en un modelo más general de complejos aleatorios. Un
modelo más general de complejos simpliciales abstractos aleatorios se puede construir sobre
gráficas aleatorias, que por lo general pertenecen al modelo binomial (modelo de Erdös-
Renyi) G(n, p), o al modelo uniforme G(n, m) (en el que cada gráfica se elige de manera
n
uniforme de todas las (m2 ) gráfica en n vértices y m aristas). Definiremos en seguida una
estructura estocástica con estas caracterı́sticas que resulta en una generalización del modelo
Linial-Meshulam-Wallach.
Un complejo bandera sobre una gráfica H, denotado por X(H) se define como el complejo
maximal que tiene a la gráfica H como su uno esqueleto, es decir, las caras i-dimensionales de
X(H) corresponderán a las subgráficas completas contenidas en H con i+1 puntos. Observar
que este modelo usa una definición parecida a la definición del complejo de Vietoris-Rips,
dada en el Capı́tulo 1, salvo que no hay necesidad en este caso de determinar los elemen-
tos del complejo mediante una función de distancia pues se está trabajando con complejos
simpliciales abstractos.
Una vez que ya se sabe cómo se van a construir los complejos sobre una gráfica determi-
nada, podemos definir la estructura estocástica utilizando el modelo de Erdös-Renyi G(n, p).
Definimos el complejo bandera aleatorio X(n, p) como el complejo bandera asociado a la
estructura de gráficas aleatorias G(n, p). Es decir, sobre cada gráfica G obtenida con el mo-
delo G(n, p) se construye un complejo bandera X(G). Como cualquier complejo simplicial es
homeomorfo a un complejo bandera (invitamos al lector a verificar por qué se cumple esto),
entonces con el modelo estocástico X(n, p) se logra tener un espacio de probabilidad que
abarca muchas estructuras topológicas dependiendo de la n que se elija, en particular si se
hace n → ∞.
16 T
Los siguientes tres teoremas referentes a la estructura X(n, p), fueron tomados de los
artı́culos de Kahle [75], [77] y [79], este último en coautoria con Meckes. El primer resultado
20 A
da un umbral para pasar del caso subcrı́tico al crı́tico; el segundo teorema establece una
función de crecimiento para la esperanza de los números de Betti en el caso crı́tico (existe un
lio IM
resultado análogo que involucra la varianza de los números de Betti); y el tercer resultado
es un teorema de lı́mite central que caracteriza la distribución al lı́mite de los números de
Betti. Recomendamos, como ejercicio, comparar los siguientes resultados con los resultados
Ju -C
que se encuentran en las secciones anteriores en este capı́tulo.

Teorema 7.3.5. Sea k ≥ 1 y α > 0 fija. Si p = n−α y X ∈ X(n, p), entonces
D
(
1
0 α < (2k+1)
lı́m P[Hk (X; Z) = 0] = .
n→∞ 1 α > k1
AT
Teorema 7.3.6. Sea k ≥ 1 y 1

k+1
<α< 1
k
fija. Si p = n−α y X ∈ X(n, p), entonces
E[βk ]
lı́m (k+1) = 1.
n→∞ n
k+1
p 2
1
Teorema 7.3.7 (Kahle–Meckes). Sea k ≥ 1 y k+1 <α< 1
k
fija. Si p = n−α y X ∈ X(n, p),
entonces
βk − E[βk ] L
p −→ N (0, 1).
Var[βk ]
Antes de pasar a analizar lo complejos simpliciales aleatorios geométricos, vamos a resu-
mir las caracterı́sticas de los complejos simpliciales (abstractos) aleatorios desde un punto
de vista estructural.
Para definir una estructura estocástica, sobre conjuntos de complejos simpliciales abs-
tractos, es necesario primero determinar qué caracterı́sticas tendrán los complejos sobre los
que se quiere definir el espacio de probabilidad.
Una de estas caracterı́sticas que hay que definir es el número de puntos que tendrá el cero
esqueleto (que se ha estado denotando por n). Para el caso de complejos aleatorios abstractos
para determinar su cero esqueleto no es necesario dar más información que su cardinalidad.
Queremos hacer énfasis en que, como ya se dijo, en el caso de complejos simpliciales abstractos
únicamente es necesario elegir una n y el cero esqueleto quedará totalmente determinado
por este número; en cambio, en los complejos simpliciales geométricos esto no basta pues
además hay que determinar la posición de los n puntos en el espacio métrico sobre el que se
esté trabajando.
Una vez que se tiene definido el cero esqueleto, se tiene que establecer una forma de
16 T
determinar qué simplejos formarán parte del complejo. Por ejemplo, en el caso del mode-
lo Linial-Meshulam-Wallach d-dimensional se trabaja con complejos que tengan el (d − 1)
20 A
esqueleto completo y que estén contenidos en el d-esqueleto; en el caso de los complejos ban-
dera que se construyen sobre una gráfica, a los cuales no se les limita respecto a la dimensión
lio IM
máxima que puedan alcanzar sus simplejos, su estructura queda totalmente determinada por
la gráfica subyacente que se elija.
El siguiente ingrediente que necesitamos es determinar el espacio de probabilidad adecua-
Ju -C
do dependiendo del modelo que se quiera definir sobre el conjunto de complejos simpliciales
que ya elegimos. Comúnmente éste dependerá de dos parámetros: de una variable que deter-
mina el número de puntos que habrá en el cero esqueleto del complejo y una probabilidad p
D
que determinará los simplejos que conformarán al complejo simplicial. Por ejemplo, en el ca-
so del modelo Linial-Meshulam-Wallach d-dimensional, la probabilidad de éxito p determina
AT
qué simplejos de dimensión d estarán presentes en el complejo simplicial.

Una referencia para estudiar otros resultados importantes en torno a los complejos sim-
pliciales abstractos es el artı́culo de Kahle [78]. Para estudiar a los complejos simpliciales
aleatorios 1-dimensionales, es decir, las gráficas aleatorias, recomendamos el libro de Bollobás
[21] y para conocer otras estructuras estocásticas definidas sobre estructuras de combinatoria
y matemáticas discretas recomendamos el libro de Alon y Spencer [2]. Ahora continuaremos
analizando el tipo de estructuras estocásticas que se pueden construir sobre complejos sim-
pliciales geométricos.
Complejos simpliciales geométricos aleatorios

Primero veremos un ejemplo de complejos geométricos aleatorios (1-dimensionales) y
después, analizando este ejemplo, se determinarán los ingredientes esenciales que permiten
crear una estructura estocástica sobre complejos simpliciales geométricos.
La estructura estocástica que vamos a definir será sobre las gráficas geométricas; comen-
cemos por definir lo que es una gráfica geométrica. Para un conjunto de puntos X ∈ Rd
y un real positivo r definimos la gráfica geométrica G(X, r) como la gráfica con vértices
V (G) = X y aristas E(G) = {{x, y} | d(x, y) ≤ r}. Observar que en esta definición, para la
construcción de la gráfica geométrica, se parte de un conjunto de puntos X contenido en un
espacio métrico y las aristas (o uno simplejos) que conformarán a la gráfica (o al comple-
jo simplicial 1-dimensional) se determinan por medio de la función distancia en el espacio
métrico en el que se encuentren los puntos (en este caso es Rd ).
En el caso de complejos aleatorios geométricos, para introducir la parte estocástica, en

comparación con los complejos simpliciales (abstractos), ya no hay una probabilidad de
éxito p que permita determinar qué simplejos formarán parte del complejo. Como se ve en la
16 T
definición anterior de gráficas geométricas, lo que determina si un simplejo forma parte del
complejo es únicamente la posición que los puntos guarden entre sı́ respecto a la distancia
20 A
del espacio métrico, y por supuesto, el parámetro r que uno elija.
lio IM
Pero entonces, ¿en dónde está la parte estocástica en estas estructuras geométricas?
Aunque el lector ya conoce la respuesta (porque todas las estructuras que se han visto
en secciones anteriores son estructuras estocásticas definidas sobre complejos simpliciales
Ju -C
geométricos o sobre espacios más generales como lo son los campos aleatorios estudiados en
el Capı́tulo 6), en lo que resta de la sección, analizaremos con cuidado cómo es que se dota de
la parte estocástica a una estructura de complejos geométricos que se quiera estudiar desde
D
un punto de vista probabilista. La intensión de este estudio detallado (y en algún sentido

repetitivo con respecto al contenido previo de estas notas), es que se conozcan a detalle las
AT
partes que conforman estas estructuras estocásticas y que en un momento dado, si alguna
aplicación en ATD ası́ lo requiere o por curiosidad matemática, el lector pueda crear sus
propias estructuras estocásticas sobre complejos geométricos en los que esté interesado en
modelar y entender.
Para responder a la pregunta que se hizo en el párrafo anterior en el caso particular

de gráficas geométricas, cuando los puntos se toman en R, necesitamos como ingrediente
estocástico, elegir una función de densidad de probabilidad f : Rd → R y una sucesión
de variables aleatorias que tomen valores en Rd y que sean independientes e idénticamente
distribuidas {x1 , x2 , ...} con función de distribución común f . Ahora sı́ podemos definir una
estructura estocástica sobre las gráficas geométricas. Para una n ∈ N y un real positivo r, la
gráfica geométrica aleatoria G(Xn , r) es la gráfica geométrica construida sobre los vértices
Xn . Observar que por la manera en la que definimos gráfica geométrica, cada par de vértices
x, y de G(Xn , r) estarán conectados mediante una arista si y sólo si d(x, y) ≤ r. Es importante
mencionar que (de forma análoga a las estructuras estocásticas sobre complejos aleatorios
geométricos que se han estudiado en otros capı́tulos de estas notas) la función de densidad f
con la que determinamos la nube de puntos sobre la que se va a construir la gráfica aleatoria,
es una función Lebesgue medible, no–negativa, acotada y que cumple

Z
f (x)dx = 1.
Rd
De manera esquemática y resumida, las gráficas geométricas aleatorias las construimos

determinando los siguientes tres elementos:
1. Se eligió un entorno geométrico, es decir, un espacio métrico que en este caso fue Rd .
16 T
2. Se decidió generar al conjunto de vértices (0-esqueleto) mediante una sucesión de {xi }
variables i.i.d. en Rd con función de densidad f acotada y medible y para un n ∈ N se
20 A
toma el conjunto Xn = {x1 , ..., xn } como el conjunto de vértices.
lio IM
3. Establecimos condiciones geométricas para poder decidir cuáles aristas se incluirán en
la gráfica. Se eligió incluir aquellas cuyos vértices u, v cumplan d(u, v) ≤ r en donde r
es un número positivo que se fija en la construcción de la gráfica aleatoria.
Ju -C
La familia de espacios de probabilidad definidos sobre gráficas geométricas que obtenemos

son G(Xn ; r). Es una familia de espacios de probabilidad porque se tendrá un espacio para
cada r ≥ 0 y cada n que se elija.
D
En general, ¿cómo se construye una estructura estocástica sobre un conjunto de complejos

simpliciales geométricos?
AT
1. Se elige el entorno geométrico. Por lo general un espacio métrico.
2. El conjunto de puntos (0-esqueleto) es generado con un proceso aleatorio definido en

el espacio métrico elegido en 1. Aquı́ es necesario por supuesto tener una medida de
probabilidad o función de probabilidad definida en el espacio métrico. Este proceso
aleatorio puede ser, por ejemplo, una sucesión de variables aleatorias i.i.d. definidas en
el espacio métrico en el que va a vivir el complejo simplicial, o un proceso de Poisson
definido en dicho espacio. Estas dos estructuras se estudiaron en las primeras dos
secciones de este capı́tulo y se puede consultar también el Apéndice D para conocer
más a detalle los procesos de Poisson.
3. Se establecen condiciones geométricas para poder decidir cuáles de los posibles sim-
plejos que se pueden construir sobre el 0-esqueleto, ya elegido como en 2, se incluirán
en el complejo simplicial. Aquı́ se utiliza por lo general la métrica del espacio (en la
sección anterior esta elección se hacia al fijar una radio r o rn ) en combinación con
alguna manera de decidir cuáles simplejos estarán contenidos en el complejo simplicial.
Por ejemplo el complejo de Vietoris-Rips o el complejo de Čech.
Esto permite construir espacios de probabilidad basados en conjuntos de complejos geométri-

cos. Los casos que más se han estudiado a lo largo de estas notas son los complejos geométri-
cos aleatorios de Vietoris-Rips y de C̆ech, es decir, las familias de espacios de probabilidad
R(Xn ; r) y C(Xn ; r).
Hacemos notar que uno de los objetivos principales del contenido estudiado en el Capı́tulo
3 y Capı́tulo 4 fue construir medidas de probabilidad en algunas superficies o variedades en
las cuales se tiene una métrica. Esto dota al lector con un amplio catálogo de posibilidades
para definir el punto 2 al momento de construir una estructura estocástica en un conjunto
de complejos simpliciales geométricos.
16 T
Es importante puntualizar que al resolver problemas planteados en ATD provenientes de
una nube de puntos, por lo general, se desconoce cómo se han elegido los tres puntos en la
20 A
lista anterior. Por ejemplo, se puede desconocer el entorno geométrico del cual proviene el 0-
esqueleto; en este caso, se busca hacer inferencia para determinar en qué espacio métrico vive
lio IM
la nube de puntos que se tiene. Las herramientas más usadas para inferir el espacio métrico
del que se ha tomado el cero esqueleto fueron estudiadas en el Capı́tulo 5 (por ejemplo, los
diagramas de persistencia). También existe la posibilidad de desconocer la manera en la que
Ju -C
se ha elegido el punto 2, es decir, desconocer la medida de probabilidad definida sobre el

espacio métrico con la cual se genera el 0-esqueleto; en este caso la inferencia se harı́a para
determinar dicha distribución.
D
En esto radica la importancia de explorar de manera teórica estructuras de complejos

simpliciales geométricos variando cualquiera de los tres puntos de la lista anterior, para
AT
contar con hipótesis nulas que permitan hacer inferencia sobre una gran gama de posibles
espacios métricos con alguna medida de probabilidad definida sobre ellos.
Para aquellos interesados en profundizar en el tema de gráficas geométricas aleatorias,
recomendamos el libro de Penrose [109]. En él se puede estudiar a detalle algunas carac-
terı́sticas de gráficas geométricas aleatorias que también se han generalizado a los complejos
geométricos aleatorios. Por ejemplo, la conexidad (medida en homologı́a con β0 ) y los cuatro
posibles casos, que son cualitativamente diferentes, que se mencionaron en la sección anterior:
caso subcrı́tico, caso crı́tico, caso supercrı́tico y el régimen conectado. Consideramos que mu-
chos otros de los resultados referentes a gráficas geométricas aleatorias se pueden generalizar
a mayores dimensiones definiendo adecuadamente la estructura de complejos geométricos
aleatorios (o alguna otra estructura estocástica según sea el caso) que se necesite según el
modelo que se quiera explorar.
En la siguiente sección veremos los resultados publicados en un artı́culo de Kahle, Bo-
browsky y Skraba [19], en el que analizan una estructura estocástica, definida sobre complejos
aleatorios geométricos, determinada por:
1. El espacio métrico: [0, 1]d .

7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 243
2. Como proceso probabilista para determinar el cero esqueleto: un proceso de Poisson

definido en [0, 1]d como se definió en este capı́tulo.
3. Las condiciones geométricas para poder decidir cuáles de los posibles simplejos que se
pueden construir sobre el 0-esqueleto: los complejos simpliciales de Vietoris-Rips y el
complejo de Čech.
Esta es justo la estructura que se estudió en la sección anterior. La diferencia con los resul-
tados que ya enunciamos radica en que definiremos una variable aleatoria que nos dará he-
rramientas para entender el comportamiento probabilista de algunas caracterı́sticas de los
16 T
diagramas de persistencia que puedan ser generados con esta estructura estocástica.
20 A
lio IM
7.4. Persistencia maximal en los ciclos de complejos
aleatorios geométricos
Ju -C
Hasta ahora, la manera que más se ha utilizado en estas notas para resumir la información
de una nube de puntos, para poder inferir la estructura topológica o geométrica que pudiera
tener, ha sido mediante los números de Betti. Nos hemos dado cuenta de que no es posible
D
asignar un sólo número de Betti a un diagrama de persistencia ya que su valor varı́a dentro
de un mismo diagrama según el radio que se utilice para calcular los complejos simpliciales.
AT
La elección del radio al que se calculan los números de Betti, para hacer inferencia, se hace
buscando que aquellos elementos que más perduran en el diagrama de persistencia sean
captados por el radio que se elija, es decir, se le da mayor importancia a aquellos elementos
de los grupos de homologı́a que perduran más en el proceso de variar el radio con el cual se
construyen los complejos simpliciales.
Serı́a de gran utilidad poder asignar un sólo valor real a un diagrama de persistencia que
pudiera darnos información suficiente para poder hacer inferencia respecto a la nube de pun-
tos que se esté estudiando. Además, serı́a deseable que este valor reflejara los elementos de los
grupos de homologı́a que perudaran más en el diagrama de persistencia, que tenga estabilidad
probabilistica (que para este valor se cumpliera algún teorema tipo lı́mite central o ley de los
grandes números) y que fuera computacionalmente calculable. En el 2015 Bobrowski, Khale
y Skraba publicaron un artı́culo [19] en el que definen y estudian la persistencia maximal de
los ciclos k-dimensionales en complejos simpliciales aleatorios geométricos. Intuitivamente,
con el valor real positivo que da la persistencia maximal de los ciclos k-dimensionales, se
busca medir el agujero k-dmensional más grande y con esta medida poder hacer inferencia
topológica y geométrica sobre una nube de puntos, basándose en un sólo valor que resume
al diagrama de persistencia k-dimensional.
En esta sección vamos a dar una introducción a la propuesta que hacen Bobrowski, Khale
y Skraba de resumir un diagrama de persistencia mediante persistencia maximal de los ciclos
en complejos simpliciales geométricos aleatorios. Enunciaremos con detalle la definición de
la persistencia maximal de los ciclos y los resultados principales que obtuvieron respecto
a sus propiedades probabilı́sticas. Mencionaremos también la manera en la que se puede
utilizar la persistencia maximal de los ciclos para hacer inferencia tpológica sobre una nube
de puntos y comentaremos brevemente los resultados que se obtuvieron en [19], respecto a la
persistencia maximal de los ciclos, al hacer simulaciones bajo un modelo uniforme de Poisson
de intensidad n definido en el cubo unitario d-dimensional.
16 T
Precisemos el modelo en que estaremos trabajando: vamos a elegir puntos en el cubo
d-dimensional [0, 1]d mediante un proceso aleatorio de Poisson homogéneo con intensidad
20 A
n, que en secciones anteriores hemos estado representando como Pn . Sobre una nube de
puntos ası́ elegida vamos a construir complejos simpliciales geométricos bajo los modelos
lio IM
de Vietoris-Rips y de Čech, los cuales hemos estado denotando por C(Pn , r) y R(Pn , r).
Recordamos también del Capı́tulo 1 que para una nube de puntos Pn , representamos por
U(Pn , r) a la unión de bolas d-dimensionales de radio r centradas sobre cada uno de los
Ju -C
puntos pertenecientes a Pn .
El resultado principal de [19] demuestra que para toda d ≥ 2 y toda 1 ≤ k ≤ d − 1, la
persistencia maximal de los ciclos k-dimensionales (que definiremos más adelante, pero de
D
manera intuitiva mide, como ya se comentó, la persistencia del agujero k-dmensional más
grande ) bajo los modelos C(Pn , r) y R(Pn , r), tiene, con alta probabilidad cuando n → ∞,
AT
persistencia del órden de

k1 !
log n
Θ .
log log n
Recordamos que dos funciones f , g cumplen que f es del orden de Θ(g) si existen n0 ∈ N
y k0 , k1 números reales tales que k0 g(n) ≤ f (n) ≤ k1 g(n) para toda n ≥ n0 .
Antes de enunciar la definición precisa de la persistencia maximal de los ciclos k- di-
mensionales, vamos a recordar las definiciones de diagrama de persistencia y su relación con
la homologı́a persistente; esperamos resaltar con esto la importancia de estudiar de manera
detallada las estructuras algebráicas que se están utilizando al hacer ATD.
Dado un conjunto de puntos P ∈ Rd , los conjuntos C := {C(P, r)}r=∞ r=∞
r=0 , R := {R(P, r)}r=0
r=∞
y U := {U(P, r)}r=0 , son ejemplos de filtraciones. Hemos visto que para cada r que se elija
se pueden definir los grupos de homologı́a asociados a C(P, r), R(P, r) o U(P, r). También
sabemos que al aumentar el parámetro r los grupos de homologı́a que resulten no serán los
mismos para dos valores de r distintos.
En general, la estructura que nos permite tener en un sólo objeto la información ho-
mológica de cada uno de los elementos de una filtración F, es la homologı́a de persistencia

asociada a la filtración F, que denotaremos en lo que resta de esta sección como P H∗ (F).
En nuestros ejemplos, para las filtraciones C, R y U, obtenemos las homologı́as persistentes
respectivas P H∗ (C), P H∗ (R) y P H∗ (U).
Es importante tener en cuenta que dentro de la homologı́a persistente P H∗ (F), asociada
a una filtración F, se tiene toda la información referente a la k-homologı́a (en nuestro caso,
esto se cumple para toda k que tenga sentido dependiendo del espacio métrico en el que
se construyan los complejos simpliciales geométricos) de cada uno de los elementos de la
filtración F; esta información se encuentra en el conjunto de grupos de homologı́a P Hk (F).
16 T
También pertenecen a la estructura P H∗ (F), todas las funciones simpliciales (correspondien-
tes a la inclusión de dos elementos de la filtración) definidas entre los grupos de homotopı́a
20 A
asociados a dos elementos de la filtración. Una de las herramientas que más se han utilizado
y estudiado en estas notas son los diagramas de persistencia cuya relación con la homologı́a
lio IM
persistente P H∗ (F) asociada a una filtración consiste en que para cada 1 ≤ k ≤ d − 1
podemos asociar a P Hk (F) un diagrama de persistencia. Recordamos que en el diagrama
de persistencia asociado a P Hk (F) se encuentra la información del nacimiento y muerte de
Ju -C
cada uno de los k-ciclos pertenecientes a P Hk (F) y es esta información la que jugará un
papel esencial en el concepto de persistencia maximal de los ciclos k- dimensionales.
Con esta notación establecida y en base a la relación que existe entre diagramas de
D
persistencia y la homologı́a persistente, ya podemos definir de forma precisa la persistencia

maximal de los ciclos asociados a complejos simpliciales geométricos. Comenzaremos por
AT
dar la definición de lo que es la persistencia de un k-ciclo contenido en P Hk (C), P Hk (R) o

P Hk (U).
Definición 7.4.1. Sea P Hk (n) el conjunto de los k-grupos de homologı́a asociados a cual-
quiera de las filtraciones C, R o U. Para cada ciclo γ ∈ P Hk (n) denotamos por γbirth y γdeath
los tiempos (es decir el radio r) de nacimiento y muerte asociados al ciclo γ. Definimos la
persistencia de γ como
γdeath
π(γ) = .
γbirth
Observamos que esta manera de definir la persistencia de un ciclo γ, difiere de la definición
usual que consiste en calcular la diferencia entre los tiempos de nacimiento y muerte asociados
al ciclo, es decir, γdeath − γbirth . En el código de barras asociado al diagrama de persistencia,
esta diferencia corresponde a la longitud de la barra asociada al k-ciclo γ. Los motivos que
comentan los autores (de [19]) para definir la persistencia de un ciclo con la razón de su
nacimiento y su muerte en lugar de su diferencia son las siguientes:
Si para alguna k se tiene que para todos los k-ciclos o la mayorı́a de los k-ciclos γ
se cumple que γdead = o(γbirth ), lo cual ocurre para algunos modelos de complejos
aleatorios geométricos, entonces no será posible distinguir aquellos que tienen una
persistencia mayor mediante la diferencia γdeath − γbirth ya que en este caso γdeath −
γbirth ≈ γdead .
La definición de la persistencia de un ciclo dada por π(γ) = γγdeath

birth
, es invariante bajo el
reescalamineto de los datos. Esta es una ventaja respecto a la definición de persistencia
dada por γdeath − γbirth que evidentemente no es invariante bajo reescalamiento. Esto es
importante ya que las propiedades topológicas que pretendemos medir con la homologı́a
persistente nos hablan de la forma de los objetos topológicos y no de su tamaño.
16 T
Las construcciones de los complejos simpliciales que más se utilizan en ATD dependen
20 A
de los complejos de Vietoris-Rips y de Čech que como se vio en el Capı́tulo 2 están
relacionados mediante un factor de proporcionalidad, es decir, su relación se puede
lio IM
dar mediante un factor multiplicativo. Por este motivo, al tomar la definición de la
persistencia de un ciclo γ mediante la razón π(γ) = γγdeath
birth
, se tendrá para ambos
complejos simpliciales (de Vietoris-Rips y Čech) cualquier resultado que se demuestre
Ju -C
para alguno de ellos (modificando las cotas encontradas por un factor multiplicativo
adecuado).
D
Una vez que se tiene la definición de persistencia para un k-ciclo contenido en P Hk (n),
podemos definir la persistencia maximal de los ciclos asociados a complejos simpliciales
geométricos.
AT
Definición 7.4.2. Sea P Hk (n) el conjunto de los k-grupos de homologı́a asociados a cual-
quiera de las filtraciones C, R o U. Definimos la persistencia maximal de los k-ciclos, que
denotaremos por Πk , como el máximo de las persistencias de todos los k-ciclos contenidos
en P Hk (n), es decir,
Πk := máx π(γ).
γ∈P Hk (n)
Es importante notar que pudimos usar en la definición al máximo de todas las persis-
tencias de los k-ciclos porque estamos construyendo a P H∗ (n) sobre un conjunto finito de
puntos que nos da el proceso de Poisson aleatorio Pn . Observar que Πk es un valor real
positivo que resume la homologı́a persistente (y por ende el diagrama de persistencia junto
con el código de barras asociado a éste) ya que toma en cuenta todos los posibles radios r
y en este sentido no es una variable aleatoria que dependa de r; los números de Betti que
hasta el momento se han estudiado como variables aleatorias sı́ dependen del radio que se
elija y por ende no pueden resumir toda la información topológica contenida en P H∗ (n).
Ahora que ya tenemos la definición precisa de lo que es la persistencia maximal en complejos
simpliciales geométricos bajo los modelos C, R y U, podemos explorar un poco más a detalle
el resultado principal que demuestran en [19], que grosso modo afirma lo siguiente:
k1
log n
Πk (n) ∼ .
log log n
Este resultado (según [19] y hasta donde sabemos por nuestra propia investigación bibliográfi-
ca) es el primer resultado que analiza probabilisticamente la homologı́a persistente de com-
plejos aleatorios geométricos.
16 T
Ya se han visto en capı́tulos anteriores resultados probabilistas referentes a la homologı́a
persistente asociada a otras estructuras que no son complejos aleatorios geométricos. Por
20 A
ejemplo, en el Capı́tulo 6 se vieron resultados que estudian la homologı́a persistente (los
diagramas de persistencia) asociados a códigos de barras de campos aleatorios gaussianos
lio IM
estándar en los que se estudia la caracterı́stica persistente de Euler. En el Capı́tulo 5 se vieron
varios resultados referentes a la homologı́a persistente de n puntos elegidos mediante variables
aleatorias i.i.d. en diferentes espacios métricos. Dentro de este esquema se encuentran los
Ju -C
resultados del artı́culo de P. Bubenik y P. Kim [24] (discutidos en la Sección 7.1) en donde
se toman las variables i.i.d en el cı́rculo y usan la estadı́stica de óden para describir la
distribución lı́mite de los diagramas de persistencia. Hasta donde sabemos, este es el primer
D
artı́culo publicado en el que se estudia la homologı́a persistente en un sentido aleatorio.

Invitamos al lector, a manera de ejercicio, a determinar en cada resultado que se ha enunciado
AT
en estas notas si se refieren a la homologı́a persistente o si se refieren a la homologı́a una vez

que se ha fijado un radio para la construcción de los complejos simpliciales.
El teorema principal de la persistencia maximal de los ciclos Πk

Ya que tenemos una idea clara de lo que significa tener resultados probabilistas que se
refieran a la homologı́a persistente de alguna estructura de topologı́a estocástica, vamos a
enunciar el teorema principal de [19] y a bosquejar la demostración sin entrar en detalles
técnicos. Definimos primero
k1
log n
∆k (n) = ;
log log n
que, como comentamos al comienzo de esta sección, cumple que con alta probabilidad Πk =
Θ(∆k (n)). Esto se enuncia con más formalidad en el siguiente teorema:
Teorema 7.4.3. Sea Pn un proceso de Poisson en el cubo unitario [0, 1]d y sea P Hk (n)
el k-ésimo diagrama de persistencia de C(Pn , r) o de R(Pn , r). Entonces existen constantes
positivas Ak y Bk tales que

Πk (n)
lı́m P Ak ≤ ≤ Bk = 1.
n→∞ ∆k (n)
Recordamos que el tema de Procesos de Poisson se explica con detalle en el Apéndice D.

Conjeturan Bobrowski, Kahle y Skraba, en base en evidencias que obtuvieron en las
simulaciones que comentamos más adelante, que Πk cumple algo mucho más fuerte que este
resultado. Ellos conjeturan que se cumple una ley de los grandes números para Πk , es decir,
16 T
que existen Ck tal que Ak ≤ Ck ≤ Bk tales que
20 A
Πk (n)
lı́m = Ck .
n→∞ ∆k (n)
lio IM
La demostración del Teorema 7.4.3 se puede dividir en dos partes principales. En la primer
Πk (n)
parte se demuestra que con alta probabilidad existe la cota superior a la razón ∆ k (n)
. Para
Ju -C
encontrar esta cota superior se demuestra primero un lema que permite acotar los ciclos; este
es un resultado no probabilista en el que sólo intervienen propiedades topológico algebráicas
de los complejos aleatorios geométricos que se están construyendo basados en el proceso de
Poisson homogéneo Pn en el cubo unitario [0, 1]d . Después, en base al resultado obtenido en
D
este primer lema, se usa teorı́a de probabilidad para poder obtener (en un segundo lema) las
cotas en un sentido probabilista. En la segunda parte de la demostración, de forma análoga
AT
a lo que se hizo para la cota superior, se prueba que con alta probabilidad existe la cota
Πk (n)
inferior a la razón ∆ k (n)
.
Encontrando una cota superior para Πk (n)

Encontrar con alta probabilidad una cota superior para Πk (n), equivale a demostrar que
existe una constante Bk > 0 que depende sólo de k y de d, tal que con alta probabilidad se
cumple
k1
log n
Πn (n) ≤ Bk ∆k (n) = Bk .
log log n
Este resultado se sigue de los siguientes dos lemas:
Lema 7.4.4. Sea γ ∈ P Hk (n) con γbirth = r y π(γ) = p. Entonces existe una constante C1
tal que C(n, r) contienne una componente conexa con por lo menos m = C1 pk vértices. La
constante C1 depende de k y d únicamente.
Lema 7.4.5. Sea α > 0 fijo. Entonces existe una constante C2 > 0 que depende sólo de α y
d, tal que si
C2
nrd ≤
(log n)α
y
log n
m ≥ α−1 ,
log log n
entonces con alta probabilidad C(n, r) no contiene componentes conexas con más de m vérti-
ces.
16 T
20 A
Encontrando una cota inferior para Πk (n)
Encontrar con alta probabilidad una cota superior para Πk (n), equivale a demostrar que
lio IM
existe una constante Ak > 0 que depende sólo de k y de d, tal que con alta probabilidad se
cumple
k1
log n
Ju -C
Πn (n) ≥ Ak ∆k (n) = Ak .
log log n
Para demostrar que existe esta cota basta con probar que con alta probabilidad existe un
k-ciclo γ ∈ P Hk (n) tal que π(γ) ≥ Ak ∆k (n). Este resultado se sigue de los siguientes dos
D
lemas:
AT
Lema 7.4.6. Si para cada 1 ≤ j ≤ m se tiene que | Si,j ∩ Pn |= 1, y | Qi ∩ Pn |= m.

Entonces existe un k-ciclo γ ∈ P Hk (n) tal que
1 L
π(γ) ≥ √ × .
4 d l
1
Lema 7.4.7. Sea nld = (log n)−α tal que α > kd y sea L = Ak ∆k (n)l en donde Ak ≤ (C4 α)− k .
Entonces
lı́m P(E) = 1.
n→∞
El teorema principal de la persistencia maximal de los ciclos Πk bajo otras es-

tructuras estocásticas y en otros espacios métricos
Aunque los resultados anteriores se tienen para el modelo de complejos aleatorios geométri-
cos construidos sobre puntos obtenidos mediante un proceso de Poisson homogéneo Pn en el
cubo unitario [0, 1]d , con los respectivos ajustes en las demostraciones de los cuatro lemas
que acabamos de enunciar, es posible obtener los mismos resultados para puntos elegidos
mediante un proceso de Poisson no homogéneo y para espacios métricos compactos que no

sean necesariamente el cubo unitario [0, 1]d . Bajo estos nuevos esquemas la función de compa-
ración ∆k (n) seguirá cumpliendo los resultados anteriores pero las cotas superior e inferior
dependerán del proceso estocástico con el que se obtenga la nube de puntos y el espacio
métrico que se elija.
Simulaciones de Πk en el cubo unitario

En [19], dedican una sección a los resultados que obtuvieron de simulaciones que reali-
16 T
zaron para explorar el comportamiento de Πk (n) para el complejo de Čech en dimensiones
d=2,3 y 4. Para generar el proceso de Poisson Pn , usaron la implementación de Mersenne
20 A
Twister y el cálculo de los diagramas de persistencia lo hicieron con la librerı́a PATH.
En varios proyectos que los alumnos del curso desarrollaron, resultó ser computacional-
lio IM
mente muy costoso o imposible calcular los diagramas de persistencia para dimensiones d=2
o d=3 incluso utilizando los complejos de Vietoris-Rips. Llama la atención entonces que, en
las simulaciones que reportan, pudieran realizar los cálculos de diagramas de persistencia pa-
Ju -C
ra experimentos computacionales que involucraron entre 100 y 1,000,000 puntos. Esto les fue
posible porque en los cálculos de los diagramas de persistencia, para evitar el costo compu-
tacional de calcular el complejo de Čech en dimensiones d=2 y 3, usaron la librerı́a CGAL
para calcular la filtración α y los α-complejos (basados en las triangulaciones de Delaunay,
D
tema abordado en un proyecto que desarrolló un equipo de alumnos que tomaron este curso)
lo cual es homotópicamente equivalente a los complejos de Čech, por lo que se obtienen
AT
grupos de homologı́a isomorfos a los obtenidos con los complejos de Čech y en consecuencia
los diagramas de persistencia no son distintos a los que obtendrı́an al usar los complejos de
Čech.
Referimos al lector a [105] para obtener más información de las librerı́as que hemos
mencionado en los párrafos anteriores y en general para tener un panorama de las librerı́as
que más se utilizan al realizar cálculos computacionales en ATD.
Apéndice A
Análisis de componentes principales
16 T
20 A
(PCA)
lio IM
Este es un tema tı́picamente cubierto en cursos de estadı́stica multivariada. Una referencia
Ju -C
clásica recomendada es Jolliffe [70], para la consulta de mayores detalles. Aquı́ damos un
breve resumen de la técnica aplicada a vectores aleatorios. La idea también se ha extendido
para datos funcionales (Ramsay & Silverman, 2005), y para datos sobre variedades, bajo el
D
nombre de análisis de geodésicas principales (Fletcher [55]). Las técnicas de componentes

principales han sido referidas en la literatura de TDA. Como ejemplo, en Bendich et al. [11],
AT
las componentes principales (funcionales) se correlacionan con puntos crı́ticos de homologı́a

de grados 0 y 1 para entender la estructura del sistema vascular en cerebros humanos.
El contexto elemental es que se cuenta con una muestra i.i.d. de vectores aleatorios de
dimensión d, o nube de datos, digamos X1 , X2 , . . . , Xn , donde Xi = (Xi1 , . . . , Xid )T . El
objetivo es encontrar una base ortogonal de un subespacio de Rd que posea una dimensión
p con p < d, y tal que la nube de datos se concentre mayoritariamente sobre el subespacio
de Rp correspondientemente generado. No siempre puede lograrse lo anterior con éxito, pero
cuando es posible, se dice haber logrado una reducción de dimensionalidad, en el sentido de
que en lugar de estudiar una nube de datos en Rd , se simplifica a una nube de datos en Rp .
Las p coordenadas de los puntos originales de Rd , que no son más que combinaciones lineales
de las entradas de cada Xi , reciben el nombre de componentes principales.
Un ejemplo artificial y sencillo, pero ilustrativo en R2 , es el denotado en la Figura ??. La
nube de datos está formada por puntos de la forma (X1 , √
X2 ) que
√ se concentran
√ alrededor
√ de la
recta x2 = x1 . La base ortonormal en R2 dada por (1/ 2, 1/ 2), (−1/ 2, 1/ 2) da lugar
al sistema de ejes indicados con lı́neas punteadas, rotulados en la figura como Y1 y Y2 . Estos
nuevos ejes cumplen con describir la nube de datos primordialmente a través de la coordenada
Y1 , en el sentido de que las coordenadas Y2 resultan ser casi constantes. En este sentido se dice
251
252 Apéndice A. Análisis de componentes principales (PCA)
que la coordenada Y1 es una reducción de dimensionalidad de (X1 , X2 ). Matemáticamente, lo

anterior se describe como la búsqueda de un cambio de base (o transformación ortonormal),
que cumpla la siguiente condición: Que la primera coordenada posee la mayor variabilidad
posible, la segunda coordenada la segunda variabilidad posible, y ası́ sucesivamente. En la
figura, la orientación de los nuevos ejes es tal que Y1 posee la mayor variabilidad posible.
Haberlo hecho ası́ produjo que la segunda coordenada haya resultado con una variabilidad
muy reducida, debido a la estructura latente en la nube de datos original.
16 T
20 A
lio IM
Ju -CD
Figura A.1: Ejemplo de una nube de datos en R2 , para los cuales una rotación de ejes, de
AT
(X1 , X2 ) a (Y1 , Y2 ), es efectiva para reducción de dimensionalidad. La dirección del eje Y1

produce la mayor varianza posible, mientras que la dirección ortogonal Y2 contiene ya muy
poca variación.
Lo anterior se formaliza y generaliza para cualquier d con la siguiente proposición. La

demostración (ver Jolliffe [70]) está basada en conceptos elementales de álgebra lineal, y en
propiedades generales de matrices de covarianza.
Proposición A.1.8. Sean X = (X1 , . . . , Xd )T un vector aleatorio y Σ = (cov [Xi , Xj ])1≤i,j≤d
su matriz de covarianza. Sean λ1 ≥ λ2 ≥ . . . ≥ λd los valores propios de Σ, y e1 , e2 , . . . , ed
los correspondientes vectores propios, donde ei = (ei1 , . . . , ei1 )T . Sea el vector Y el vector
aleatorio en Rd formado por las combinaciones lineales
Y1 = e11 X1 + · · · + e1d Xd , (A.1.1)
..
.
Yd = ed1 X1 + · · · + edd Xd .
253
Entonces las variables aleatorias Y1 , . . . , Yd cumplen lo siguiente:
1. Var(Yi ) = λi , i = 1, . . . , d.
2. Var(Y1 ) ≥ Var(Y2 ) ≥ · · · ≥ Var(Yd ).
3. Cov(Yi , Yj ) = 0 si i 6= j.
4. Cov (Y) = diag (λ1 , . . . , λd ) .
16 T
En notación matricial, (A.1.1) puede escribirse como Y = V T X, donde V T en cada fila
contiene los vectores propios de Σ. Esto es, las componentes principales resultan ser una
20 A
rotación de X.
lio IM
El problema de componentes principales basado en una nube de datos se topa con la
dificultad de que Σ no es conocida. Por esta razón, el tema de PCA es en el fondo un
problema de inferencia estadı́stica. La idea es reemplazar la matriz Σ por una estimación
consistente, la matriz de covarianza empı́rica, Σ̂. Supongamos que se cuenta con una muestra
Ju -C
observada de vectores aleatorios, x1 , . . . , xn , donde xi = (x1i , . . . , xdi )T . Una aplicación de

PCA en la práctica se afronta con el siguiente algoritmo, radicado por completo en la arena
de cálculos de álgebra lineal:
D
Pn
1. Se calcula la media empı́rica en Rn , dada por x̄ = (1/n) i=1 xi .
AT
2. Se calcula la matriz de covarianza empı́rica. Con notación matricial, está dada por
n
1 X
Σ̂ = (xi − x̄) (xi − x̄)T .
n − 1 i=1
3. Se encuentran los valores propios λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂d de Σ̂, y los correspondientes
vectores propios ê1 , ê2 , . . . , êd .
4. Se calculan los vectores ŷ1 , . . . , ŷn con entradas
ŷ1i = ê11 x1i + · · · + ê1d xdi ,

..
.
ŷdi = êd1 x1i + · · · + êdd xdi ,
para i = 1, . . . , n.
254 Apéndice A. Análisis de componentes principales (PCA)
Las variables ŷi se llaman las componentes principales, y los coeficientes êij las cargas de
la i-ésima componente principal. Por construcción, la primera componente principal recoge
la mayor varianza posible, la segunda componente la segunda varianza, y ası́ sucesivamente.
Puesto que tr(Σ̂) = di=1 λ̂i , el cociente
P
λ̂i
λ̂1 + · · · + λ̂d
posee la interpretación de ser la proporción de varianza explicada por la i-ésima componente
16 T
principal respecto a la variación total. Si la proporción
20 A
λ̂1 + · · · + λ̂p
≈1
λ̂1 + · · · + λ̂d
lio IM
para un valor de p considerablemente menor que d, se dice que se ha reducido la dimensio-
nalidad.
En una aplicación concreta, los valores calculados de las p componentes principales en
Ju -C
caso de haber reducido la dimensión, se utilizan para facilitar el análisis de datos. Mediante la
utilización de los valores yji para j = 1, . . . , p en lugar de xji para j = 1, . . . , d, tı́picamente se
simplifican tareas estadı́sticas de predicción, conglomeración, clasificación, etc. Sin embargo,
D
también es posible buscarle interpretación a los valores de cada vector de cargas, êi . Ası́,
por ejemplo hay veces que resulta que la primera componente principal se relaciona con un
AT
subconjunto especı́fico de variables al que se le puede otorgar una interpretación con acuerdo
en el contexto concreto.
Es muy pertinente mencionar—especialmente en el contexto de ATD que nos ocupa—que
cuando la dimensión d es grande y el número de datos n, es comparativamente pequeño, que
es bien sabido que la técnica de componentes principales no arroja resultados útiles. Esta
situación se conoce en estadı́stica como high dimension low sample size; ver Jung & Marron
[73]. El origen del problema es que la matriz Σ̂ resulta ser un muy mal estimador de la matriz
Σ, aunque también participan razones geométricas que tienen que ver con alta dimensión d,
como se detalló en la Sección 3.1.3.
La técnica de análisis de componentes principales sólo es adecuada para datos que están
en un espacio vectorial, aunque han habido extensiones para datos sobre variedades. La idea
primordial consiste de encontrar subespacios lineales que concentren la nube de datos. Como
hemos visto en el curso, el punto de ATD es analizar estructura sin tener que recurrir a
tal reducción por vı́a de subespacios, sino con herramientas de homologı́a en la dimensión
original.
Apéndice B
Probabilidad en espacios métricos
16 T
20 A
polacos
lio IM
Se presentan brevemente varios conceptos y resultados de probabilidad en espacios métri-
Ju -C
cos y convergencia de variables aleatorias con valores en estos espacios. Si bien en muchas
aplicaciones se trabaja en espacios euclidianos, hay situaciones en donde éste no es el ca-
so. Ponemos énfasis en los tipos de convergencia de las variables aleatorias, similar a los
D
considerados para variables aleatorias reales en la Sección 3.1.2.

En esta sección (X, ρ) es un espacio métrico separable y completo (polaco), con σ–álgebra
de Borel B(X). Como antes, escribimos
AT
Br (x) = {y ∈ X : ρ(x, y) < r}.
Regularidad de medidas
Para un espacio de medida arbitrario tenemos.
Definición B.1.9. Dado un espacio de medida (X, A, µ), un conjunto A ∈ A es un átomo

si
(i) µ (A) > 0, y
(ii) Si B ⊂ A, y µ (B) < µ (A), entonces µ (B) = 0.
Dado un espacio de medida (X, A, µ), decimos que µ es una medida no atómica si no
tiene átomos.
En particular, si µ es una medida no atómica, µ ({x}) = 0, ∀ {x} ∈ A.
255
256 Apéndice B. Probabilidad en espacios métricos polacos
Consideremos el espacio de medida dado por X = {1, . . . , n}, A =2X y µ = # (A).

Entonces µ tiene átomos en {1} , . . . , {n}.
En general, dada una distribución discreta F , la medida de Lebesgue-Stieltjes µF tiene
átomos en el conjunto de puntos donde la variable aleatoria tiene probabilidad positiva. Una
distribución continua F es tal que µF no tiene átomos.
Definición B.1.10. Sea (X, ρ) un espacio métrico Polaco, con σ–álgebra de Borel B(X) y
sea µ una medida σ−finita en (X, B(X)). Se dice que µ es:
(i) Localmente finita o de Borel si para cada x ∈ X existe 0 < r < ∞ tal que
16 T
µ(Br (x)) < ∞.
20 A
(ii) Regular interior si para cada A ∈ B(X)
lio IM
µ(A) = sup {µ(K) : K ⊂ A, K compacto} ,
(iii) Regular exterior si para cada A ∈ B(X)

Ju -C
µ(A) = ı́nf {µ(U ) : A ⊂ U, U abierto} ,

D
(iv) Regular si es regular interior y regular exterior,
(v) Medida de Radon si es regular interior y de Borel.

AT
Definición B.1.11. Consideremos los siguientes espacios de medidas en (X, B(X))
M+ (X) := {medidas de Radon en (X, B(X))} ,
M+
f (X) := {medidas finitas en (X, B(X))} ,
P(X) := {medidas de probabilidad en (X, B(X))} .

Un primer resultado es el siguiente, cuya demostración puede verse en [85].
Teorema B.1.12. Sea (X, ρ) un espacio métrico polaco, con σ–álgebra de Borel B(X) y sea
µ ∈ M+
f (X). Entonces
(a) Para cada > 0, existe un compacto K ⊂ X con µ(X\K) < .
(b) µ es regular.
+
(c) En este caso M+
f (X) ⊂ M (X), es decir, una medida regular finita es de Radon.
257
Corolario B.1.13. Una medida de probabilidad en un espacio métrico polaco es de Radon.
Un concepto que nos encontraremos frecuentemente cuando hablemos de convergencia de

medidas es el siguiente
Definición B.1.14. Una familia de medidas F ⊂M+

f (X) es tensa o apretada (tight) si
para > 0 existe un compacto K ⊂ X con
sup {µ(X\K) : µ ∈ F} < .
16 T
Tipos de convergencia en espacios métricos
20 A
Sea (Ω, A, µ) un espacio de medida σ-finita y (X, ρ) un espacio métrico polaco, con σ–
álgebra de Borel B(X). La desigualdad de Markov se escribe como sigue: Sean X, Y variabes
lio IM
aleatorias con valores en X y 0 < p < ∞. Entonces, para cualquier > 0
1
P (d(X, Y)) > ) ≤ E [(d(X, Y))p ] . (B.1.1)
Ju -C
p
Además Z ∞
P (d(X, Y) > x) dx = E [(d(X, Y))] . (B.1.2)
D
Definiremos los conceptos de convergencia casi donde quiera, convergencia en medida y

AT
convergencia de medidas.
Primero necesitamos asegurar que la función distancia asociada con las transformaciones
medibles es también medible.
Lema B.1.15. Sean f, g : Ω → X transformaciones medibles con respecto a A/B(X). En-

tonces la transformación H : Ω → [0, ∞), ω → d(f (w), g(w)) es A/B([0, ∞))-medible.
Similar al caso real en la Sección 3.1.2, tenemos los siguientes tipos de convergencia. De
hecho, comenzamos con un tipo de convergencia más general que convergencia en probabili-
dad.
Definición B.1.16. Sean {Yi }i≥1 , Y funciones de Ω a X medibles con respecto a A/B(X).
Decimos {Yi }i≥1 , converge a Y
µ
(i) en µ-medida, y escribimos Yn −→ Y, si para cada A ∈ A con µ(A) < ∞ y para cada
>0
µ ({ρ(Yn , Y) > } ∩ A) −→ 0, (n −→ ∞).
258 Apéndice B. Probabilidad en espacios métricos polacos
c.t.p.µ
(ii) µ-casi en todas partes, y escribimos Yn −→ Y, si existe un conjunto N ∈ A, con
µ(N ) = 0 tal que
ρ(Yn (ω), Y(ω)) → 0, (n −→ ∞), ∀ω ∈ Ω \ N.
Si µ es una medida de probabilidad, {Yi }i≥1 , Y son variables aleatorias. En este caso la
Pr
convergencia en medida se llama convergencia en probabilidad y escribimos Yn −→ Y, y la
convergencia casi donde quiera se llama convergencia con probabilidad uno o convergencia
c.p,1
casi segura, y escribimos Yn −→ Y.
16 T
El hecho de que X es un espacio métrico polaco nos da la unicidad módulo funciones casi
20 A
donde quiera de los lı́mites en medida y casi donde quiera.
Convergencia casi donde quiera implica convergencia en medida, pero el recı́proco no es
lio IM
cierto. Recomendamos el Capı́tulo 6 del libro de Klenke [85] para un estudio sistemático de
este tema.
Con respecto a convergencia en distribución o en ley de variables aleatorias y medidas
en espacios métricos, también llamada convergencia débil de medidas, su definición es como
Ju -C
sigue.
Sea Cb (X) como el conjunto de todas las funciones continuas y acotadas de X en R. Re-
cordemos de la Sección 3.5.1 que si Y es una variable aleatoria en un espacio de probabilidad
D
(Ω, A, P) con valores en X, su distribución es la medida PY en (X, B(X)) dada por

AT
PY (A) = P(Y−1 (A)), A ∈ B(R).

Definición B.1.17. Sea X un espacio métrico polaco.
(i) Sean µ, µ1 , µ2 , ...medidas en M+ f (X). Decimos que (µn )n≥1 converge débilmente a µ y
w
escribimos µn −→ µ, si
Z Z
lı́m f dµn = f dµ, ∀f ∈ Cb (X).
n→∞
(ii) Sean Y, Y1 , Y2 ...variables aleatorias con valores en X. Decimos que (Yn )n≥1 converge
L w
en distribución o ley, y escribimos Yn −→ Y, si PYn −→ PY .
El hecho de que X es un espacio métrico polaco asegura la unicidad del lı́mite de conver-
gencia débil y en distribución.
En el estudio de este tipo de convergencia, la propiedad de familia de medidas tensas en
el sentido de la definición B.1.14 es esencial.
Como en el caso real, tenemos las siguientes relaciones entre tipos de convergencia.
259
Proposición B.1.18. (a) Sean Xn , n ≥ 1, X variables aleatorias en X, entonces

c.p,1 Pr L
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.
Pr L
(b) Si X es variable aleatoria degenerada, entonces Xn −→ X ⇔ Xn −→ X.
c.p,1 Pr
(c) Si Xn −→ X (Xn −→ X) y g es una transformación continua de X a otro espacio polaco
c.p,1 Pr
Y, entonces g(Xn ) −→ g(X) (g(Xn ) −→ g(X)).
16 T
Asimismo, tenemos el correspondiente teorema de Slutsky similar al caso real.
20 A
Teorema B.1.19 (Slutsky). Sean Xn , Yn , n ≥ 1, X variables aleatorias con valores en X.
L Pr L
Si Xn −→ X y ρ(Xn , Yn ) −→ 0 entonces Yn −→ X.
lio IM
Para el estudio de convergencia débil de medidas de probabilidad en espacios métricos,
la referencia clásica es el libro de Billingsley [13]. Existen referencias modernas como por
Ju -C
ejemplo el Capı́tulo 13 del libro de Klenke [85].

Para hablar de sumas de variables aleatorias en X se requiere que éste sea un espacio
lineal. Esta es una de las razones del siguiente apéndice.
D
AT
AT
Ju -CD
lio IM
20 A
16 T
Apéndice C
16 T
20 A
Variables aleatorias en espacios de
lio IM
Banach
Ju -C
Este es un tema que pocas veces se presenta en cursos de probabilidad avanzada. En la

D
literatura de ATD se ha usado en el contexto de panoramas de persistencia como se explica

en la Sección 5.6.3. A diferencia del material de probabilidad en espacios métricos vistos
AT
en el Apéndice B, ahora estamos interesados en la estructura de espacio vectorial y poder

considerar resultados asintóticos en probabilidad como ley de grandes números y teorema
central del lı́mite, los cuales se refieren a lı́mites de sumas de variables aleatorias. La principal
dificultad que se encuentra, es que en un espacio de Banach de dimensión infinita la bola
unitaria no es compacta. Esto impacta en el hecho de que no se pueda tener una medida
gaussiana con matriz de covarianza la identidad y por ello el teorema central del lı́mite
considera distribuciones normales con otras covarianzas, las cuales poseen la propiedad de
ser operadores traza, es decir cuya serie de valores propios es finita. Ası́ mismo, en los espacios
de Banach de dimensión infinita no existe una medida de referencia universal, como es el
caso de la medida de Lebesgue y otras presentadas en la Sección 3.5.2. En general, para el
tema de probabilidad en espacios de Banach se recomienda el libro de Ledoux y Talagrand
[89] y otros que mencionamos más adelante.
Recordemos que un espacio de Banach es un espacio vectorial con norma k·k el cual es
completo, es decir, toda sucesión de Cauchy es convergente. Ejemplos de espacios de Banach
son Rd con la norma euclidiana y los espacios Lp (µ), 1 ≤ p ≤ ∞ para una medida µ vistos
en la Sección 3.4.3.
261
262 Apéndice C. Variables aleatorias en espacios de Banach
Variables aleatorias en Rd
Consideremos primero el caso de variables aleatorias en Rd con la métrica euclidiana
kAk = tr(AA> )1/2 .

Sea (Ω, A, P) un espacio de probabilidad y X : Ω → Rd , X(ω) = (X1 (ω), . . . , Xd (ω)). En-

tonces X es una variable (vector) aleatorio si X−1 (A) ∈ A, ∀A ∈ B(Rd ). En cursos de
probabilidad multivariada se prueba que X es variable aleatoria, sı́ y sólo si cada Xi es una
variable aleatoria real, lo cual es también equivalente a que la funcional lineal hX, hi = Xh>
16 T
es una variable aleatoria real para cada h ∈B(Rd ) no aleatoria. La esperanza de X existe si
20 A
y sólo si Z
kXk dP < ∞,
lio IM
Ω
lo cual es equivalente a que E |Xi | < ∞ para cada i = 1, ..., n, en cuyo caso la esperanza de
X es el vector
Ju -C
EX = (EX1 , . . . , EXd ).
Cuando Z
D
2
E kXk = kXk2 dP < ∞,
Ω
AT
se define la matriz de covarianza

h i
Cov(X) = E (X−EX)> (X−EX) ,
la cual es una matriz d × d definida nonegativa y cumple que
Cov(X)(h1 , h2 ) = E [hX−EX, h1 i hX−EX, h2 i] , ∀h1 , h2 ∈ B(Rd ).
Resumimos los teoremas lı́mites clásicos universales para sumas de variables aleatorias
independientes con valores en el espacio euclidiano Rd .
Teorema C.1.20 (Ley Débil de los Grandes Números en Rd ). Sean {Yi }i≥1 variables alea-
torias independientes ePidenticamente distribuidas con valores en Rd y con media EY y
E kYk2 < ∞. Si Sn = nj=1 Yj , entonces
Sn P r
−→ EY.
n
263
Teorema C.1.21 (Ley Fuerte de los Grandes Números en Rd ). Sean {Yi }i≥1 variables
aleatoriasPindependientes e identicamente distribuidas con valores en Rd , y con media EY.
Si Sn = nj=1 Yj , entonces

Sn
P lı́m = EY = 1.
n−→∞ n
Teorema C.1.22 (Teorema del Lı́mite Central en Rd ). Sean {Yi } variables aleatorias in-
d
dependientes
Pn e independientes con valores en R , con media EY y matriz de covarianza Σ.
Sea Sn = j=1 Yj , entonces
16 T
1 L
√ Σ−1/2 (Sn − EY) −→ Z
20 A
n
lio IM
donde Z es una variable aleatoria con distribución gaussiana estándar Nd (0,Id ). Es decir
1 L
√ (Sn − EY) −→ ZΣ
n
Ju -C
donde ZΣ es una variable aleatoria con distribución gaussiana multivariada Nd (0,Σ).

D
Variables aleatorias y momentos en un espacio de Banach

Consideremos ahora un espacio de Banach B de dimensión infinita con norma k·k , σ-
AT
álgebra de Borel B(B) y sea B∗ el espacio topológico dual de B, es decir el espacio de las
funcionales lineales f : B → R continuas. Sea (Ω, A, P) un espacio de probabilidad. En este
caso hablamos de dos tipos de medibilidad y esperanza: débil y fuerte, los cuales no siempre
son los mismos.
Sea X :B → R una función. Decimos que X es medible en el sentido débil si para toda
f ∈ B∗ , f (X) es una variable aleatoria real. Decimos que X es medible en el sentido fuerte si
X−1 (A) ∈ A, ∀A ∈ B(B). Si el espacio de Banach B es separable, los conceptos de medibilidad
débil y fuerte coinciden y decimos que X es variable aleatoria con valores en B. De ahora en
adelante consideramos a B como un espacio de Banach separable. Se sigue fácilmente que
sumas de variables aleatorias en B y multiplicación de escalares por una variable aleatoria
son también variables aleatorias.
Decimos que una variable aleatoria X tiene media o esperanza, si E kXk < ∞ en cuyo
caso se define la esperanza EX como el único elemento de B dado por la integral de Pettis
de X:
Ef (X) = f (EX) para toda f ∈ B∗ .
Se cumple que kEXk ≤ E kXk .
Si E kXk2 < ∞ se define la covarianza de X como la forma simétrica nonegativa bilineal

Cov(X) en B∗ definida por
(Cov(X))(f1 , f2 ) = E [f1 (X−EX)f2 (X−EX)] , f1 , f2 ∈ B∗ .
Se tiene que Cov(X) es una forma bilineal continua y se cumple que si X1 y X2 son inde-
pendientes, entonces Cov(X1 + X2 ) = Cov(X1 ) + Cov(X2 ).
Teoremas lı́mite en un espacio de Banach
16 T
Los conceptos de convergencia casi segura, convergencia en probabilidad y convergencia
débil son los mismos que para elementos aleatorios en un espacio métrico polacos presentados
20 A
en el Apéndice B, con la métrica ρ(·, ·) = k· − ·k . De hecho, dado que tiene sentido hablar
de sumas de variables aleatorias en un espacio de Banach B, tenemos una versión distinta
lio IM
del teorema de Slutsky que para espacios métricos polacos, en el caso en que además B es
una álgebra de Banach, es decir existe una multiplicación en B tal que si A, B están en B,
también AB está en B.
Ju -C
Teorema C.1.23 (Slutsky). Sea B una álgebra de Banach. Sean Xn , Yn , Zn , n ≥ 1, X, Y, Z

variables aleatorias en B y a, c constantes en B. Si se satisfacen:
D
L Pr Pr
Xn −→ X, Yn −→ a, y Zn −→ c;
entonces
AT
L
Xn Yn +Zn −→ aX + c.
La ley de grandes números se cumple para sumas de variables aleatorias con valores en
un espacio de Banach.
Teorema C.1.24 (Ley Débil de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
con valores en B, independientes y con la misma distribución de la variable aleatoria Y en
B, con media EY y E kYk2 < ∞. Si Sn = nj=1 Yj , entonces
P
Sn P r
−→ EY.
n
Teorema C.1.25 (Ley Fuerte de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
con valores en B, independientes
Pn y con la misma distribución de la variable aleatoria Y en
B, con media EY. Si Sn = j=1 Yj , entonces

Sn
P lı́m = EY = 1.
n−→∞ n
265
Un primer problema para el estudio del teorema central del lı́mite en espacios de Banach
de dimensión infinita, es la no existencia de una distribución gaussiana estándar, es decir con
covarianza la identidad. Esto se debe a la no compacidad de la bola unitaria de un espacio
de Banach de dimensión infinita.
Decimos que una variable aleatoria Z con valores en un espacio de Banach separable B
tiene una distribución gaussiana, si para cada f ∈ B∗ , f (Z) tiene una distribución gaussiana
real con media cero. Se tiene que EZ = 0, E kZk2 < ∞ y por lo tanto la covarianza Cov(Z)
existe. En este caso
16 T

1
E exp {if (Z)} = exp − Φ(f, f ) , ∀f ∈ B∗
2
20 A
lio IM
donde Φ(f, f ) = Cov(Z))(f, f ) = E [f 2 (Z))]. Para un estudio sistemático de medidas gaus-
sianas en espacios de Banach se puede consultar el libro de Kuo [88].
La validez de un teorema central del lı́mite en un espacio de Banach separable de dimen-
Ju -C
sión infinita depende del tipo del espacio de Banach, según su comportamiento respecto a
una desigualdad sobre la norma de la suma de variables aleatorias independientes. Esto se
refiere a espacios de Banach de los llamados tipo p y cotipo p. Para un estudio sistemático
y completo del teorema central del lı́mite en espacios de Banach, se recomienda el libro de
D
Araujo y Giné [4].

Para fines de la literatura en estadı́stica en ATD es suficiente el siguiente teorema central
AT
del lı́mite para espacios de Banach Lp (X, A, µ), 2 ≤ p < ∞ donde µ es una medida σ-finita
en X. El espacio de Banach Lp (X, A, µ) es separable si A es numerablemente generada, es
decir, existe una subfamilia numerable C ⊂ A tal que σ(C) = A. Si X es un espacio métrico
separable, entonces A = B(X) es numerablemente generada.
Teorema C.1.26 (Teorema del Lı́mite Central). Sea X un espacio métrico separable, µ una
medida σ-finita en B(X) y B =Lp (X, B(X), µ), 2 ≤ p < ∞. Sean {Yi } variables aleatorias
con valores en B independientes con la misma distribución de P
una variable aleatoria Y en
B con EY = 0, E kYk < ∞ y covarianza Cov(Y). Sea Sn = nj=1 Yj . Entonces
2
1 L
√ Sn −→ Z
n
donde Z es una variable aleatoria en B con distribución gaussiana con covarianza Cov(Z) =
Cov(Y).
Densidades en un espacio de Banach, inferencia estadı́stica y estimación de ho-

mologı́a: algunas preguntas
1. Como se ha visto en los Capı́tulos 5 y 6 de estas notas, el contar con una función de
densidad permite usar métodos de inferencia estadı́stica y construir conjuntos de nivel
para estimar homologı́a persistente.
2. Otra implicación de la no existencia de una medida de referencia universal en un

espacio de Banach separable de dimensión infinita B, es la no existencia de una medida
de referencia y por ello de una densidad natural. Sin embargo, en el caso de medidas
16 T
gaussianas µ y ν en B, se cumple que estas son equivalentes o son singulares en el
sentido de la Definición de 3.4.21. Además, en el primer caso es posible encontrar
20 A
fórmulas explı́citas para las densidades
lio IM
dν du
f= , g= .
dµ dν
Ju -C
Se recomienda el Capı́tulo II del libro de Kuo [88] para este tema.
3. En el caso particular de la medida gaussiana µw (medida de Wiener) inducida por el

proceso de Wiener en el espacio de Banach C[0, T ] de la funciones continuas en [0, T ]
D
con la norma del supremo, es posible considerar medidas equivalentes (de traslaciones
admisibles) a µw y hacer inferencia estadı́stica sobre parámetros de interés usando la
AT
correspondiente densidad y el método de máxima verosimilitud; ver por ejemplo el

libro de Basawa y Rao [10].
4. Hasta donde sabemos no se ha usado la densidad en el modelo en (3) para estimar

homologı́a persistente en el proceso de Wiener y sus traslaciones admisibles.
Apéndice D
Medidas de Poisson para conjuntos
16 T
20 A
aleatorios de puntos
lio IM
El objetivo de este apéndice es resumir algunas de las propiedades de procesos estocásticos
Ju -C
de Poisson en el espacio euclidiano d-dimensional. Estos procesos o medidas aleatorias han

sido ampliamente usados en modelación de puntos aleatorios en tiempo y/o espacio. En
particular en el estudio de formas en geometrı́a estocástica, y en ATD y topologı́a estocástica
D
como se muestra en el Capı́tulo 7 de estas notas. Para un estudio sistemático desde el punto
de vista de probabilidad se recomienda el libro de Kingman [83]. El libro de Small [122]
contiene aplicaciones de procesos de Poisson en teorı́a de formas y geometrı́a estocástica. En
AT
particular, el proceso de Poisson es un modelo útil para generar formas aleatorias debido a
algunas de sus propiedades geométricas, las cuales se presentan al final de este apéndice.
El caso d = 1 es de suma importancia y es presentado en la mayorı́a de los cursos de
probabilidad elemental.
Comenzamos con elementos bien conocidos sobre la distribución de Poisson y la aproxi-
mación de Poisson, los cuales revelan que estos modelos son útiles en el estudio de eventos
raros.
Distribución de Poisson y la Aproximación de Poisson

Recordemos que una variable aleatoria X tiene distribución de Poisson Poiss (µ) si
toma valores enteros no negativos y
e−µ
P (X = k) = πk (µ) = µk k≥0
k!
donde µ puede tomar cualquier valor µ > 0. Tres caracterı́sticas de una variable aleatoria
X ∼ Poiss (µ) son las siguientes:
267
268 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos
1. E (X) = µ.
2. Var (X) = µ.
3. La función generadora de momentos φ (t) = EtX = eµ(e −1) , para cada t ∈ [−1, 1].
t
La génesis de esta distribución es que aparece como una ley de eventos raros, de acuerdo
al siguiente resultado conocido como aproximación de Poisson, el cual es un teorema
lı́mite para sumas de arreglos triangulares.
16 T
Teorema D.1.27. Para cada n ≥ 1, sea 0 < pn < 1, y {ξin }i=1,...n variables independientes
con distribución Bernoulli con probabilidad de éxito pn , es decir P(ξin = 1) = pn = 1−P(ξ ni =
20 A
0). Consideremos la variable aleatoria
n
lio IM
X
Sn = ξin . (D.1.1)
i=1
la cual tiene distribución Binomial B(n, pn ) dada por

Ju -C

n k
P (Sn = k) = p (1 − pn )n−k , k = 0, ..., n (D.1.2)
k n
D
Supongamos que npn → µ > 0 cuando n → ∞. Entonces

AT
lı́m P (Sn = k) = µk e−µ /k!, k = 0, 1, 2, ....

n→∞
L
En otras palabras, Sn −→ X ∼ Poiss (µ) .
Observación D.1.28. (a) Si bien el resultado anterior es usualmente resaltado como una
fórmula de cálculo para aproximar la distribución binomial (D.1.2), su importancia ma-
yor está en la interpretación probabilista como ley de eventos raros: A medida que
n es grande y por lo tanto pn pequeña, en la sumandos ceros en suma aleatoria (D.1.1)
tiene una muy alta probabilidad.
(b) Al igual que la ley de los grandes números y el teorema del lı́mite central vistos en la
Sección 3.1.2, la aproximación de Poisson es un resultado universal bien conocido en el
sentido de su validez más allá de sumas de variables aleatorias Bernoulli. Una explicación
muy sencilla de este fenómeno se encuentra en el artı́culo [110], donde se consideran
sumas (D.1.1) de arreglos triangulares de variables aleatorias en una familia amplia de
distribuciones discretas, con la propiedad que la probabilidad del cero tiene a uno cuando
n → ∞.
269
(c) Un enfoque moderno a la aproximación de Poisson usando el método de Chen-Stein se

expone en el libro de Barbour et al. [8].
En ocasiones es útil extender la definición de Poiss (λ) para incluir los casos extremos 0
e ∞. Poiss (0) serı́a la distribución concentrada en el 0
P (X = 0) = 1,
y Poiss (∞) la distribución concentrada en +∞
16 T
P (X = +∞) = 1.
20 A
Una de las propiedades más importantes de la distribución de Poisson es su aditividad,
cuya prueba es trivial.
lio IM
Teorema D.1.29. Si X y Y son variables aleatorias independientes con distribuciones
Poiss (µ1 ) y Poiss (µ2 ), entonces X + Y ∼ Poiss (µ1 + µ2 ).
Ju -C
Por inducción, podemos ver fácilmente que este resultado es cierto para cualquier suma
finita de variables aleatorias independientes.
Es fácil probar que la distribución de Poisson es infinitamente divisible, esto es, da-
D
da una variable aleatoria X con distribución Poisson Poiss (µ), para toda n > 0 pode-
mos encontrar n variables aleatorias P independientes X1 , . . . , Xn con distribución Poisson
Poiss (µ1 ) , . . . , Poiss (µn ) tales que ni=1 Xi ∼ Poiss (µ).
AT
Teorema D.1.30. Sea {Xj }∞ j=1 una sucesión de variables aleatorias independientes, donde
Xj ∼ Poiss (µj ) j = 1, 2, . . .. Si
X∞
σ= µj
j=1
converge, entonces
∞
X
S= Xj
j=1
P∞
converge con probabilidad 1 y S ∼ Poiss (σ). Por otro lado, si j=1 µj diverge, entonces S
diverge con probabilidad 1.
Luego de este resultado parece más natural haber definido Poiss (0) y Poiss (∞). Con esta
convención, si tenemos variables aleatorias independientes
P Xj con distribuciones Poiss (µj )
respectivamente, su suma tiene distribución Poiss ( µj ), y esto es cierto sin importar que
haya un número infinito de ellas, incluso si algunos µj son 0 o ∞.
Supongamos que X1 , . . . , Xn son variables aleatorias independientes

P con Xj ∼ Poiss (µj ).
Entonces S = PX1 +· · ·+Xn tiene distribución Poiss (σ) con σ = µj , y entonces, si r1 , . . . , rn
son tales que rj = s tenemos que
n r
µj j e−µj
s −σ
Y σ e
P (X1 = r1 , . . . , Xn = rn | S = s) =
j=1
rj ! s!
s! µ1 r1
µ rn
n
= ··· .
r1 ! · · · rn ! σ σ
16 T
Estas son las probabilidades de una distribución multinomial M (s, p1 , . . . , pn ), con pi = µσi .
Para el caso en el que n = 2, tenemos que si X y Y son variables aleatorias Poisson
20 A
independientes (X ∼ Poiss (µ1 ) y Y ∼ Poiss (µ2 )), dado que X + Y = m, la distribución
condicional de X es B (m, p), donde
lio IM
E (X)
p= .
E (X) + E (Y)
Ju -C
Hay un resultado muy útil, que parecerı́a ser el converso del anterior. Supongamos que
N ∼ Poiss (µ) , y que la distribución condicional de M dado N es B (N, p) para alguna
constante p. Esto es
D

s t
P (M = t | N = s) = p (1 − p)s−t .
t
AT
Entonces, para m, k ≥ 0, cálculos directos dan
P (M = m, N − M = k) = P (N = m + k) P (M = m | N = m + k)
e−µ µm+k m + k m

= p (1 − p)k
(m + k)! m
e−µp (µp)m e−µ(1−p) (µ (1 − p))k
= .
m! k!
Ası́, M y N − M son variables aleatorias independientes Poisson con medias µp y µ (1 − p)
respectivamente.
Procesos de Poisson
Motivación: Un Proceso de Poisson con espacio de estados S definido en un espacio de
probabilidad (Ω, A, P), es una función Π : Ω → S ∞ donde S ∞ es el conjunto de todos los
subconjuntos numerables de S.
271
Queremos que algunos de los conjuntos en S ∞ funcionen como conjuntos de prueba en

el siguiente sentido: si A es un conjunto de prueba, el número de puntos de Π en A es
N (A) := # {Π (ω) ∩ A} .
Dado que esta expresión depende de ω, N (A) es una función
N (A) : Ω → {0, 1, . . . , ∞}
y necesitamos que ésta sea una función medible para cada conjunto de prueba A. Esto es,
16 T
supondremos que para cada conjunto de prueba A y para cada n,
20 A
{ω : N (A) = n} = {ω ∈ Ω : N (A) (ω) = n} ∈ A.
lio IM
Entonces las funciones N (A) son variables aleatorias, y podemos imponer condiciones en
sus distribuciones y distribuciones conjuntas. En pocas ocasiones es necesario ser cuidadosos
al elegir los que serán nuestros conjuntos de prueba. Esto porque casi siempre podemos
Ju -C
construir conjuntos de prueba complicados a partir de otros más simples. Por ejemplo, si
S = R, es suficiente pedir que los intervalos abiertos (a, b) sean conjuntos de prueba.
P Todo
conjunto abierto G es la unión numerable de intervalos abiertos Aj , N (G) = j N (Aj ) es
D
una variable aleatoria si las N (Aj ) también lo son. Todo conjunto cerrado F es la intersección
de una sucesión decreciente de conjuntos abiertos Gi , y N (F ) = lı́mi→∞ N (Gi ). De este
AT
modo podemos ver que N (A) es una variable aleatoria bien definida para todo subconjunto
A. Podemos hacer lo mismo para S = R2 e incluso para Rd . Más adelante definiremos
formalmente lo que es un Proceso de Poisson en un espacio de estados S.
El espacio de estados S donde tendremos los puntos de un Proceso de Poisson, usual-
mente será un espacio euclidiano d-dimensional, o más generalmente una variedad en Rd .
Sin embargo, no necesitamos hacer uso de las propiedades de los espacios euclidianos, sólo
es necesario poder encontrar una familia de subconjuntos de S para ser utilizados como
conjuntos de prueba para contar los puntos aleatorios. Esto es, necesitamos una familia de
subconjuntos de S para los que a función
N (A) = # {Π ∩ A}
sea una variable aleatoria bien definida. La forma más natural de hacer esto es suponer
que S es un espacio medible. Esto es, estamos suponiendo que existe un espacio de medida
(S, AS , µ) donde AS es la familia de conjuntos de prueba que queremos. Si A ∈ AS diremos
que A es un conjunto medible. Además necesitamos asegurar que hay suficientes conjuntos
medibles para poder distinguir puntos individuales. Esto se puede hacer suponiendo que la
diagonal D = {(x, y) ; x = y} es un conjunto medible en el espacio S × S (i.e. D ∈ AS × AS ),

o sea que
∀x ∈ S (x, x) ∈ AS ×AS ,
que en particular nos dice que
∀x ∈ S {x} ∈ AS .
Cuando S = Rd , tomaremos como conjuntos medibles a los conjuntos de Borel de Rd .
La condición de que la diagonal D sea medible en S × S = R2d se cumple, pues D es un
conjunto cerrado en R2d .
16 T
Definición D.1.31. Un proceso de Poisson en un espacio de estados S, es un subconjunto
20 A
aleatorio numerable Π de S, tal que
(i)Para cualesquiera A1 , . . . , An ∈ A tales que Ai ∩Aj = ∅ ∀i 6= j, las variables aleatorias
lio IM
N (A1 ) , . . . , N (An ) son independientes, y
(ii) La variable aleatoria N (A) tiene distribución Poisson Poiss (µ), donde µ = µ (A),
con 0 ≤ µ (A) ≤ ∞.
Ju -C
Diremos que Π1 , Π2, . . . son procesos de Poisson independientes, si para cada conjunto
medible A, las variables aleatorias N1 (A) , N2 (A) , . . . son independientes. Ası́, si µ (A) < ∞,
el conjunto Π ∩ A es finito con probabilidad 1, y vacı́o si µ (A) = 0. Si µ (A) = ∞, Π ∩ A es
D
infinito numerable con probabilidad 1. Tenemos que, para A ∈ A, como N (A) ∼ Poiss (µ)
AT
E (N (A)) = µ (A) .
S∞
Si A1 , A2, . . . son disjuntos con n=1 An = A,
∞
X
N (A) = N (An )
n=1
y
∞
!
X
E (N (A)) = E N (An )
n=1
∞
X
µ (A) = µ (An ) .
n=1
Ası́, µ es una medida en S, es decir, con esta µ, (S, AS , µ) es un espacio de medida. Llama-
remos a µ la medida media del proceso de Poisson Π.
273
Observemos que no toda media puede ser una medida media. Supongamos que la medida
µ en S tiene un átomo en x ∈ S, esto es 0 < µ ({x}) = m. Entonces un proceso de Poisson
con medida media µ serı́a tal que
0 −m
m1 e−m

me
P (N ({x}) ≥ 2) = 1 − +
0! 1!
−m −m
= 1 − e − me > 0
lo cual contradice el hecho de que N (A) sea una variable aleatoria bien definida ∀A ∈ AS ,
16 T
pues N ({x}) = # {Π ∩ {x}} ≤ 1. Ası́, una medida media debe ser no atómica, en el sentido
que
20 A
µ ({x}) = 0 ∀x ∈ S.
Cuando S = Rd , la medida media en la mayorı́a de los casos interesantes está dada en
lio IM
términos de una intensidad f , donde f es una función de medida positiva en S, tal que
Ju -C
Z
µ (A) = f (x) dx.
A
Si f es continua en x ∈ S, entonces, para una vecindad pequeña A de x,

D
µ (A) ∼ f (x) |A|

AT
R
donde |A| = A dx es la medida de Lebesgue de A. Ası́ f (x) |A| es la probabilidad aproximada
de un punto de Π de caer en un conjunto pequeño A, y es más grande en regiones donde λ
es grande que en las que λ es pequeña. En el caso en que f = c es constante, de tal modo
que
µ (A) = c |A|
decimos que tenemos un proceso de Poisson homogéneo.
Consideremos el caso cuando S = R, y supongamos que µ es finita en conjuntos acotados.
Entonces la medida µ está determinada de manera única por sus valores en intervalos (a, b].
Definamos una función M : R → R,

µ (0, t] si t ≥ 0
M (t) = .
−µ (t, 0] si t < 0
M es una función creciente y
µ (a, b] = M (b) − M (a) .

Entonces µ está determinada por la función M (µ es la medida de Lebesgue-Stieltjes asociada

a la función creciente M ).
Es fácil checar que µ es no atómica (en el sentido que µ ({x}) = 0 ∀x ∈ S) si y sólo si M
es continua.
Si además M puede escribirse como
Z t
M (t) = f (x) dx,
0
entonces µ se ve como
16 T
Z
µ (A) = f (x) dx,
20 A
A
y en particular, para un proceso de Poisson homogéneo con intensidad f = c tenemos,

lio IM
M (t) = ct.
Ju -C
Teorema de Superposición
D
El teorema de superposición es un corolario casi inmediato del Teorema de Aditividad

AT
Numerable. Basta probar el siguiente lema.
Lema D.1.32. Sean Π1 y Π2 procesos de Poisson independientes en S, y sea A un conjunto

medible con µ1 (A) y µ2 (A) finitas. Entonces Π1 y Π2 son disjuntos en A con probabilidad 1
P (Π1 ∩ Π2 ∩ A = ∅) = 1.
Teorema D.1.33. Sea {Πn }∞ n=1 una familia de procesos de Poisson independientes en S
donde Πn tiene media µn para cada n. Entonces su superposición
∞
[
Π= Πn
n=1
es un proceso de Poisson con media

∞
X
µ= µn .
n=1
275
Teorema D.1.34. Sea Π un proceso de Poisson con medida media µ en S, y sea S1 un

subconjunto medible de S. Entonces el conjunto aleatorio
Π1 = Π ∩ S1
puede ser visto como un proceso de Poisson en S con medida media
µ1 (A) = µ (A ∩ S)
o como un proceso de Poisson en S1 en el que la medida media es la restricción de µ en S1 .
16 T
Teorema de Mapeo
20 A
Si el espacio de estados de un Proceso de Poisson es mapeado en otro espacio de estados,
entonces, los puntos aleatorios transformados por el mapeo también forman un proceso de
lio IM
Poisson. Sólo hay que tener cuidado cuando la función no es inyectiva, y para esto basta
ver cómo se transforma la medida media bajo el mapeo. Sea Π un proceso de Poisson en un
espacio de estados S, con medida media µ, y sea f : S → T una función y T otro espacio de
Ju -C
estados (o el mismo S). Supongamos que f es medible en el sentido de que

f −1 (B) = {x ∈ S ; f (x) ∈ B}
es un subconjunto medible de S para todo subconjunto medible B ⊂ T . Queremos probar
D
que el conjunto aleatorio f (Π) ⊂ T es un proceso de Poisson. Consideremos

N ∗ (B) = # {f (Π) ∩ B}
AT
el número de puntos de f (Π) en un conjunto medible B. En tanto los puntos f (x) , x ∈ Π

sean distintos,
N ∗ (B) = # {x ∈ Π ; f (x) ∈ B} = N f −1 (B)

que tiene distribución Poiss (µ∗ ), donde

µ∗ = µ∗ (B) = µ f −1 (B) .

Más aún, si los conjuntos B1 , . . . , Bk son disjuntos, también lo son sus imágenes inversas, de
tal forma que las variables aleatorias N ∗ (Bi ) son independientes. Ası́ f (Π) es un proceso de
Poisson en T en tanto los puntos f (Π) , X ∈ Π sean distintos. La medida µ∗ es la medida
inducida de µ por la función f . Sin embargo la condición de inyectividad de f |Π no es trivial,
tomemos por ejemplo f constante.
Teorema D.1.35. Sea Π un proceso de Poisson con medida media σ-finita µ en un espacio
de estados S, y sea f : S → T una función medible tal que la medida inducida de µ por f ,
µ∗ es no atómica. Entonces f (Π)es un proceso de Poisson en T , teniendo a µ∗ como medida
media.
Teorema de Existencia
Teorema D.1.36. Sea µ una medida no atómica en un espacio de estados S que puede ser
expresada en la forma
X∞
µ= µn , µn (S) < ∞.
n=1
Entonces existe un proceso de Poisson en S con medida media µ.
Propiedades geométricas de un proceso de Poisson
16 T
Varias propiedades geométricas de un Proceso de Poisson homogéneo Π en un espacio
20 A
euclidiano Rd se cumplen con probabilidad uno; ver [122]. Por ejemplo, cada punto de un
Proceso de Poisson Π tiene un único vecino mas cercano. Recordemos que un vecino más
lio IM
cercano de un punto x en Rd es un elemento de Π que tiene una distancia mı́nima de x entre
todas los puntos de Π. Más aún, con probabilidad uno existe un único k–ésimo vecino más
cercano.
Ju -C
Recordemos que un conjunto de d + 1 puntos de un Proceso de Poisson Π en Rd están

en posición general si el envolvente convexo de los puntos de Π tiene interior no vacı́o. Se
puede probar también que con probabilidad uno para un proceso de Poisson en Rd , todos
D
los conjuntos de d + 1 puntos están simultáneamente en posición general.

Asimismo, con probabilidad uno, los elementos de un proceso de Poisson Π tienen la
AT
propiedad de no esfericidad. Es decir, para cualquier conjunto de d + 1 puntos de un Proceso

de Poisson se puede extraer una esfera (d − 1)-dimensional para d ≥ 2, y además con
probabilidad uno tal esfera no tocará ningún otro elemento del Proceso de Poisson.
En paticular, a partir de un proceso de Poisson podemos generar una descomposición
coherente de Rd en simplejos d–dimensionales, cuyos vértices están en los puntos del proceso
mismo.
Sean X1 , . . . , Xd+1 partı́culas de un proceso de Poisson Π en Rd . Sea ∆ = ∆(X1 , . . . , Xd+1 )
el simplejo d–dimensional cuyos vértices son las d + 1 partı́culas del proceso. Decimos que
∆ es un simplejo de Delaunay del proceso de Poisson si la esfera (d − 1)-dimensional
que pasa a través de X1 , . . . , Xd+1 no abarca ninguna otra partı́cula en su interior.
Se puede probar que con probabilidad uno los simplejos de Delaunay de un proceso de
Poisson en Rd forman una teselación. En el sentido de que la colección de simplejos de
Delaunay {∆j } satisface que los interiores de los simplejos son disjuntos por pares y además
d
S
j ∆j = R . Esto es, la teselación de Delaunay de un proceso de Poisson representa un
modelo generador estocástico de formas simpliciales en dimensiones mayores.
Bibliografı́a
16 T
[1] M. Abramowitz, I.A. Stegun, Handbook of Mathematical Functions. Dover, 1974.
20 A
[2] N. Alon, J. H. Spencer, The Probabilistic Method. Wiley–Interscience, 2008.
lio IM
[3] G. W. Anderson, A. Guionnet, O. Zeitouni, An Introduction to Random Matrices. Cam-
bridge University Press, 2010.
Ju -C
[4] A. Araujo, E. Giné, The Central Limit Theorem for Real and Banach Valued Random
Variables. Wiley, 1980.
[5] J. Arsuaga, T. Borrman, R. Cavalcante, G. Gonzalez, C. Park. Microarrays 4, 339-369,

D
2015.
AT
[6] K. B. Athreya, S. N. Lahiri, Measure Theory and Probability. Springer, 2006.
[7] A. Banerjee, I.S. Dhillon, J. Ghosh, S. Sra,, Clustering on the Unit Hyperspher using
von Mises-Fisher Distributions. Journal of Machine Learning Research 6, 1345-1382,
2005.
[8] A. Barbour, L. Holst, S. Janson, Poisson Approximation. Oxford University Press, 1992.
[9] R. G. Bartle, The Elements of Integration. Wiley & Sons, 1966.
[10] I. V. Basawa, B.L.S. Rao, Statistial Inference for Stochastic Processes. Academic Press,
1981.
[11] P. Bendich, J. S. Marron, E. Miller, A. Pieloch, S. Skwerer, Persistent homology analysis

of brain artery trees. The Annals of Applied Statistics, 10, 198-218, 2016.
[12] A. Bhattacharya, R. Bhattacharya, Nonparametric Inference on Manifolds: With Ap-

plications to Shape Spaces. Cambridge University Press, 2012.
277
278 Bibliografı́a
[13] P. Billingsley, Convergence of Probability Measures. Wiley, 1968.
[14] P. Billingsley, Probability and Measure. Wiley & Sons, 1995.
[15] O. Bobrowski, Algebraic Topology of Random Fields and Complexes. PhD Thesis, Duke
University, 2012.
[16] O. Bobrowski, R. J. Adler, Distance functions, critical points and topology for some
random complexes. arXiv: 1107.4775, 2011.
16 T
[17] O. Bobrowski, M. Kahle, Topology of random geometric complexes: a survey. ar-
Xiv:1409.4734, 2014.
20 A
[18] O. Bobrowski, S. Mukherjee, The topology of probability distributions on manifolds.
lio IM
Probability Theory and Related Fields, 161, 2015.
[19] O. Bobrowski, M. Kahle, P. Skraba, Maximally persistent cycles in random geometric

Ju -C
complexes. arXiv:1509.04347, 2015.
[20] J. Boissonat, F. Chazal, M. Yvinec, Computational Geometry and Topology for Data
Analysis. In progress.
D
[21] B. Bollobás, Random graphs. Modern Graph Theory, 215-252, 1998.

AT
[22] P. Bubenik, Statistical topological data analysis using persistence landscapes. Journal
of Machine Learning Research, 16, 77-102, 2015.
[23] P. Bubenik, G. Carlsson, P. T. Kim, Z. Luo, Statistical topology via Morse theory, per-
sistence and nonparametric estimation. Contemporary Mathematics, 516, 75-92, 2010.
[24] P. Bubenik, P. T. Kim, A statistical approach to persistent homology. Homology, Ho-

motopy and Applications, 9, 337-362, 2007.
[25] G. Carlsson, Topology and data. A M S Bulletin, 46, 2009.
[26] G. Carlsson, T. Ishkhanov, V. De Silva, A. Zomorodian, On the local behavior of spaces

of natural images. International Journal of Computer Vision 76, 1-12, 2008.
[27] G. Carlsson, et al. Topological Data Analysis and Machi-

ne Learning Theory. Birs Final Report, October 15-19, 2012.
http://www.birs.ca/workshops/2012/12w5081/report12w5081.pdf
Bibliografı́a 279
[28] G. Carlsson, A. Zomorodian, A. Collins, L. Guibas, Persistence barcodes for shapes. In

Proccedings of the 2004 Eurographics/ACM SIGGRAPH, ACM Press, 2004.
[29] I. Chavel, Riemannian Geometry, A Modern Introduction. Second Edition, Cambridge

University Press, 2016.
[30] J.M. Chan, Network and Algebraic Topology of Influenza Evolution, PhD Dissertation,
Columbia University, 2013.
[31] J.M. Chan, G. Carlsson, R. Rabadan, Topology of viral evolution. Proceedings of the
16 T
National Academy of Sciences 110, 18566-18571, 2013.
20 A
[32] F. Chazal, D. Cohen–Steiner, L. J. Guibas, M. Glisse, S. Oudot, Proximity of persistent
modules and their diagrams. In Proccedings of the 25th ACM Symposium of Compu-
lio IM
tational Geometry, 2009.
[33] F. Chazal, D. Cohen–Steiner, L. J. Guibas, F. Memoli, S. Oudot, Gromov–Hausdorff

stable signatures for shapes using persistence. Computer Graphics Forum, 2009.
Ju -C
[34] F. Chazal, D. Cohen–Steiner, Q. Mérigot, Geometric inference for probability measures.

Foundations of Computational Mathematics, 11, 733-751, 2011.
D
[35] F. Chazal, B. T. Fasy, F. Lecci, B. Michel, A. Rinaldo, L. Wasserman, Robust topological

inference: Distance to a measure and kernel distance. arXiv:1412.7197v1 [math.ST],
AT
2014.
[36] F. Chazal, V. de Silva, M. Glisse, S. Oudot, The structure and stability of persistence
modules. arXiv:1207.3674 [math.AT], 2012.
[37] J.P.R. Christensen, On some measures analogous to Haar measure. Mathematica Scan-
dinavica, 26, 103-106, 1970.
[38] J.P.R. Christensen, Uniform measures and spherical harmonics. Mathematica Scandi-
navica, 26, 293-302, 1970.
[39] M.K. Chung, P. Bubenik, P.T. Kim, Persistence diagrams of cortical surface data. In
Information in Medical Imaging, 386-397, Springer, 2004.
[40] D. Cohen–Steiner, H. Edelsbrunner, J. Harer, Stability of persistence diagrams. In Proc-

cedings of the 21st ACM Symposium of Computational Geometry, 2005.
[41] L. Devroye, Non-uniform Random Variate Generation. Springer, 1986.

280 Bibliografı́a
[42] P. Diaconis, D. Freedman, A dozen de Finettiy-style results in search of a theory, Annales

de IÍ.H.P. Probabilités et Statistiques, 23, 397-423, 1987.
[43] P. Diaconis, S. Holmes, M. Shahshahani, Sampling from a manifold. Advanced in Modern
Statistical Theory and Applications: A Festschrift in honor of Morris L. Eaton. IMS
Collections, 10, 102-125, 2013.
[44] J. A. Domı́nguez-Molina, V. Pérez Abreu, Notas de Medida e Integración. En prepa-
ración, disponibles por petición.
16 T
[45] M. L. Eaton, Multivariate Statistics: A Vector Space Approach. Wiley, 1983.
20 A
[46] H. Edelsbrunner, John, L. Harer. Computational Topology: An Introduction. American
Mathematical Society, 2010.
lio IM
[47] H. Edelsbrunner, D. Letscher, A. Zomorodian, Topological persistence and simplifica-
tion. Discrete Computation & Geometry, 28, 2002.
Ju -C
[48] B. Efron, Bootstrap methods: another look at the jackknife. The Annals of Statistics,
7, 1-26, doi:10.1214/aos/1176344552, 1979.
[49] B. Efron, Robert Tibshirani, An Introduction to the Bootstrap. Chapman & Hall/CRC,
D
1993.
AT
[50] P. Erdös, A. Rényi. On random graphs. Publicationes Mathematicae Debrechen, 6, 290-

297, 1959.
[51] Espinoza, M. E., Homologı́a persistente. Notas Proyecto ATD-CIMAT, 2015,
http://atd.cimat.mx
[52] B. T. Fasy, F. Lecci, A. Rinaldo, L. Wasserman, S. Balakrishan, A. Singh, Confidence
sets for persistence diagrams. Annals of Statistics, 42, 2301-2339, 2014.
[53] H. Federer, Geometric Measure Theory. Springer, 1996.
[54] N. I. Fisher, Statistical Analysis of Circular Data. Cambridge University Press, 1993.
[55] P.T. Fletcher, C. Lu, S. M. Pizer, S. Joshi, Principal geodesic analysis for the study
of nonlinear statistics of shape. IEEE Transactions on Medical Imaging, 23, 995-1005,
2004.
[56] G. Franzoni, The Klein Bottle: Variations on a Theme. Notices of the American Mat-
hematical Society, 59, 1076-1082.
Bibliografı́a 281
[57] W. Fulton, Algebraic Topology: A First Course. Springer–Verlag, 1995.
[58] R. Ghrist, Elementary Applied Topology. ed. 1.0. Createspace, 2014.
[59] J. A. González, Teorı́a de Morse discreta y gráficas de Reeb aplicadas a ATD, Notas
Proyecto ATD-CIMAT, 2015, http://atd.cimat.mx
[60] V. A. González, Aplicación de análisis topológico de datos a nichos ecológicos. Tesis

de Licenciatura en Matemáticas, Universidad de Guanajuato, 2016. Proyecto ATD-
CIMAT, http://atd.cimat.mx
16 T
[61] P. Good, Permutation, Parametric, and Bootstrap Tests of Hypothesis. Springer, 2005.
20 A
[62] L. Guibas, D. Morozov, D., Q. Mérigot, Witnessed k-distance. Discrete & Computational
lio IM
Geometry, 49, 22–45, 2013.
[63] U. Grenander, Probabilities on Algebraic Structures. Dober, 2008.

Ju -C
[64] U. Grenander, Abstract Inference. Wiley, 1981.
[65] P. R. Halmos, Measure Theory. Springer Verlag, 1974.

D
[66] A. Hatcher, Algebraic Topology. Cambridge University Press, 2002.

AT
[67] W. Hoeffding, A class of statistics with asymptotically normal distribution. The Annals
of Mathematical Statistics, 19, 293-325, 1948.
[68] J.M. Ibarra, Modelos de homologı́a persistente en filogenética. Tesis de Licencia-

tura en Matemáticas, Universidad de Guanajuato, 2016. Proyecto ATD-CIMAT,
http://atd.cimat.mx
[69] A.M. Ibekwe, J. Ma, D.E. Crowley, C.H. Yang, A. M Johnson, T.C. Petrossian, P.Y.
Lum, Topological data analysis of escherichia codi o157:h7 and non-o157 survival in
soils. Frontiers in Cellualr and Infection Microbiology 4, 122, 2014.
[70] I.T. Jolliffe, Principal Component Analysis, Wiley Online Library, 2005.
[71] F. Jones, Lebesgue Integration on Euclidean Space. Jones and Bartlett Books in Mat-
hematics, 1993.
[72] O. Jones, Introduction to Scientific Programming and Simulation Using R. CRC Press,
2014.
282 Bibliografı́a
[73] S. Jung, J.S. Marron, PCA Consistency in High Dimension, Low Sample Size Context.
The Annals of Statistics, 37, 4104–4130, 2009.
[74] M. Kac, Probability Theory and Related Topics in Physical Sciences, Wiley, 1959.
[75] M. Kahle, Topology of random clique complexes. Discrete Mathematics, 309, no. 6,
1658-1671, 2009.
[76] M. Kahle, Random geometric complexes. Discrete & Computational Geometry, 45, no.
3, 553-573, 2011.
16 T
[77] M. Kahle, Sharp vanishing thresholds for cohomology of random flag complexes. ar-
20 A
Xiv:1207.0149, 2012.
lio IM
[78] M. Kahle, Topology of random simplicial complexes: a survey. A M S Contemporary
Mathematics 620, 201-222, 2014.
[79] M. Kahle, E. Meckes, Limit theorems for Betti numbers of random simplicial complexes.
Ju -C
Homology Homotopy and Applications, 15, no. 1, 2013.
[80] J. T. Kent, A. M. Ganaeiber, K. V. Mardia, A new method to simulate the Birgham and
D
related distributions in directional data analysis with applications. arXiv:1310.81110v1,

2013.
AT
[81] D.G. Kendall, D. Barden, T.K. Carne, H. Le, Shape and Shape Theory. Wiley, 1999.
[82] J. F. C. Kingman, Random walks with spherical symmetry. Acta Mathematica, Vol. 109,
11-53, 1963.
[83] J. F. C. Kingman, Poisson Process. Oxford, 1996.
[84] B. Kirchhiem, D. Preiss, Uniformly distributed measures in Euclidean spaces. Mathe-

matica Scandinavica, 90, 152-160, 2002.
[85] A. Klenke, Probability Theory: A Comprehensive Course. Springer, 2008.
[86] D. E. Knuth, The Art of Computer Programming. Second Edition. Addison-Wesley,

1981.
[87] V. Kurlin, A Homologically persistent skeleton is a fast and robust descriptor for a
sparse cloud of inters points and saliency features in noisy 2D images. Lecture Notes in
Computer Science 9256, 606-617, 2015.
Bibliografı́a 283
[88] H. H. Kuo, Gaussian measures in Banach spaces. Lecture Notes in Mathematics 463,
Springer, 1975.
[89] M. Ledoux, M. Talagrand, Probability in Banach Spaces: Isoperimetry and Processes.

Springer, 2011.
[90] M. Lesnick, Studying the shape of data using topology. The Insti-
tute Letter Summer 2013, Institute for Advanced Study, Princeton,
https://www.ias.edu/ideas/2013/lesnick-topological-data-analysis.
16 T
[91] C. Lunneborg, Data Analysis by Resampling. Duxbury Press, 1999.
20 A
[92] K. V. Mardia, P. Jupp, Directional Statistics. Wiley, 2000.
lio IM
[93] G. Marsaglia, Choosing a point from the surface of a sphere. The Annals of Mathematical
Statistics 43, 645-646, 1972.
Ju -C
[94] Y. Mileyko, S. Mukherjee, J. Harer. Probability measures on the space of persistence

diagrams. Inverse Problems 27, No 12, 2011.
[95] J. Milnor, Morse theroy. Based on lecture notes by M. Spivak and R. Wells. Annals of
D
Matemathics Studies, 51, Princeton University Press, 1963.

AT
[96] Jean–Marie Morvan, Generalized Curvatures. Springer, 2008.
[97] M. E. Muller, A note on a method for generating points uniformly on N -dimensional

sphere. Communications of the Association for Computing Machinary 2, 19-20.
[98] J. R. Munkres, Topology. Prentice Hall Inc., 1975.
[99] J. R. Munkres, Elements of Algebraic Topology. Addison–Wesley, Redwood City, Cali-

fornia, 1984.
[100] R. Meshulam, N. Wallach, Homological connectivity of random k–dimensional comple-

xes. Random Structures & Algorithms, 34, no. 3, 408-417, 2009.
[101] E. Munch, Applications of Persistent Homology to Time Varying Systems, PhD Dis-
sertation, Duke University, 2013.
[102] L. Nathan, R. Meshulam, Homological connectivity of random 2-complexes. Combina-

torica, 26, no. 4, 475-487, 2006.
284 Bibliografı́a
[103] M. Nicolau, A. J. Levine, G. Carlsson, Topological based data analysis identifies a

subgroup of breast cancers with a unique mutational profile and excellent survival.
Proceeedings of the National Academy of Sciences 108, 7265-7270, 2011.
[104] A. D. Nimer, Local uniform rectifiability of uniformly distributed measures. ar-

xiv.org/abs/1603.03415, 2016.
[105] N. Otter, M. Porter, U. Tillmann, P. Grindod, H. Harrington, A roadmap for the

computation of persistent homology. arXiv:1506.08903v4 [math.AT], 2016.
16 T
[106] S. Palau C, Medida en grupos topológicos. Tesis de Licenciatura en Matemáticas,
UNAM, 2010. http://132.248.9.195/ptb2010/agosto/0660062/Index.html.
20 A
[107] L. Parida, F. Utro, D. Yorukoglu, A.P. Carrieri, D. Kuhn, S. Basu, Topological signatu-
lio IM
res for population admixture. In Research in Computational Molecular Biology, 261-275,
Springer, 2015.
[108] V. Patrangenaru, L. Ellingson, Nonparametric Statistics on Manifolds and Their Ap-

Ju -C
plications to Object Data Analysis. CRC Press/Chapman & Hall, 2016.
[109] M. Penrose, Random Geometric Graphs. Oxford University Press, 2003.

D
[110] V. Pérez-Abreu, Poisson approximation to power series distributions. American Sta-

tistician, 45, 46-49, 1991.
AT
[111] V. Pérez-Abreu, C. Tudor, Functional limit theorems for traces in the Dyson-Brownian
motion. Communications on Stochastic Analysis 1, 415-428, 2007.
[112] D. Preiss, Geometry of measures in Rn : distribution, rectifiability, and densities. Annals

of Mathematics, 125, 537-643, 1987.
[113] J. Ramsay, B.W. Silverman, Functional Data Analysis. Second Edition, Springer-
Verlag, 2005.
[114] L. K. Rivera E., Análisis estadı́stico de trayectorias sobre la esfera: Un caso de es-
tadı́stica sobre variedades. Tesis de Maestrı́a en Probabilidad y Estadı́stica, CIMAT,
2016. Proyecto ATD-CIMAT, http://atd.cimat.mx
[115] C. P. Robert, G. Casella, Introducing Monte Carlo Methods With R. Springer, 2010.
[116] A. Robinson, K. Turner, Hyphotesis testing for topological data analysis.

http://arxiv.org/abs/1310.7467, 2016.
Bibliografı́a 285
[117] G. Roussas, An Introduction to Probability and Statistical Inference. 2nd Edition, Aca-
demic Press, 2014.
[118] L. Santaló, Integral Geometry and Geometric Probability. 2nd Edition, Cambridge Uni-
versity Press, 2004.
[119] G. R. Shorack, J. A. Wellner, Empirical Processes with Applications to Statistics.

SIAM, 2009.
[120] R. Serfling, Approximation Theorems of Mathematical Statistics. Wiley, 1980.
16 T
[121] B.W. Silverman, Density Estimation for Statistics and Data Analysis. CRC Press,
20 A
1986.
lio IM
[122] C. G. Small, The Statistical Theory of Shape. Springer, 1996.
[123] D. Sprott, Statistical Inference in Science. Springer, 2000.

Ju -C
[124] J. R. Thompson, Simulation: A Modeler’s Approach. Wiley, 2000.
[125] T. Tjur, Probability Based on Radon Measures. Wiley, 1980.

D
[126] L.W. Tu, An Introduction to Manifolds. Springer, Second edition, 2011.

AT
[127] R. van de Weygaert, G. Vegter, H. Edelsbrunner, B. J. T. Jones, P. Pranav, C. Park,

W. A. Hellwing, B. Eldering, N. Kruithof, E. G. P. Box, J. Hidding, J. Feldbrugge, E.
ten Have, M. van Engelen, M. Caroli, M. Teillaud. Alpha, Betti and the megaparsec
Universe: on the topology of the cosmic web. Transactions on Computational Science
XIV, 60-101, 2011.
[128] L. Wasserman, All of Statistics. Springer, 2004.
[129] https://rafaelgonzalez.shinyapps.io/TDA final/
[130] http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108
[131] A. J. Zomorodian, Topology for Computing. Cambridge University Press, 2009.
[132] A. J. Zomorodian, The tidy set: a minimal simplicial set for computing homology of
clique complexes. In Proccedings of the 26th Symposium of Computational Geometry,
257-266, 2010.
Centro de
Investigación en
Matemáticas, A.C.
PERSISTENCIA, PROBABILIDAD
E INFERENCIA ESTADÍSTICA PARA
PROYECTOS FINALES DEL CURSO

Esqueleto de Homología persistente para aproximar fronteras
de objetos en una imagen
María Alejandra Valdez, Omar Radhames Urquídez
Método para simular puntos uniformemente distribuidos

sobre una superfcie en Rn
Gilberto Flores, Yair Hernández
Análisis topológico de datos utilizando Mapper y complejos testigo

Jesús Manuel Pérez Angulo
Julio 2016
P ROYECTO FINAL DE LA C LASE :
P ROBABILIDAD E I NFERENCIA E STADÍSTICA PARA A NÁLISIS T OPOLÓGICO DE D ATOS
ESQUELETO DE HOMOLOGÍA PERSISTENTE PARA

APROXIMAR FRONTERAS DE OBJETOS EN UNA
16 T
IMAGEN
20 A
lio IM
Ju -CD
A LUMNOS :
AT
M ARÍA A LEJANDRA VALDEZ C ABRERA

O MAR R ADHAMES U RQUÍDEZ C ALVO
L ICENCIATURA EN M ATEMÁTICAS
U NIVERSIDAD DE G UANAJUATO
P ROFESORES :
F ERMÍN R EVELES
V ÍCTOR P ÉREZ -A BREU
M IGUEL N AKAMURA
R OLANDO B ISCAY
Resumen
Las imágenes en dos dimensiones normalmente tienen puntos en los cuales se presentan
discontinuidades en el color y brillo. Al conjunto de estos puntos se le conoce como los
bordes de la imagen. La detección de estos bordes es un problema usual en el procesamiento
de imágenes y en visión computacional, además de tener aplicaciones en otras áreas como
medicina y biología.
En el presente proyecto se presenta un método para detectar puntos que pertenecen a los
bordes de una imagen dada, para después crear un grafo que aproxime dichos bordes. Para
esto se siguen los siguientes pasos:
Obtener una versión de la imagen en escala de grises.
16 T
Utilizar un método basado en mezclas gaussianas para segmentar dicha imagen.
20 A
A partir de la imagen segmentada se encuentra una nube de puntos sobre los bordes
lio IM
Utilizar un método basado en homología persistente para crear un grafo que se aproxi-
me a los bordes de la imagen.
Ju -C
El método de segmentación está basado en el artículo de Huang y Chang (2008), mientras

que el método para la creación del grafo está basado en el artículo de Vitaly (2015). Los
D
algoritmos utilizados fueron programados en dos lenguajes de programación, el lenguaje R

AT
para la obtención de la nube de puntos y python para la creación del grafo a partir de esta
nube de puntos.
1
Índice general
1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1. Para el pre-proceso de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . 4
16 T
2.2. Definiciones Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.
2.3. 20 A
Resultados importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obtención de la nube de puntos C . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
8
lio IM
3.1. Segmentación de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Ju -C
3.3. Encontrar puntos cercanos a los bordes . . . . . . . . . . . . . . . . . . . . 15

4. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1. Creación del grafo HoPeS’(C ) . . . . . . . . . . . . . . . . . . . . . . . . . . 15
D
4.2. Suavización del grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

AT
5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7. Cosas por hacer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2
1. INTRODUCCIÓN
1. I NTRODUCCIÓN
El problema de detectar los bordes de un imagen es un problema que actualmente
sigue siendo un tema de investigación en áreas como procesamiento de imágenes y visión
computacional. Para su solución se han planteado varios métodos tales como métodos
basados en la función gradiente, métodos que buscan ajustar funciones a los bordes, métodos
basados en segundas derivadas, métodos de enlace basados en segmentación, entre otros.
Sin embargo ningún método que se ha planteado resuelve cualquier caso de detección, esto
en parte a que los bordes pueden deberse a diferentes razones, por ejemplo discontinuidad
en la profundidad de la imagen, discontinuidad de la orientación de las superficies, cambios
en las propiedades de los materiales o variaciones en la iluminación de la escena mostrada.
16 T
Mientras que algunos métodos funcionan mejor para algunos casos, otros pueden funcionar
mejor para otros casos. Así pues, se sigue en la búsqueda de nuevos métodos que funcionen
de manera más general.
20 A
lio IM
En un caso ideal la detección de bordes devuelve las fronteras de los objetos que se
encuentran sobre la imagen. El problema que se ataca en este proyecto es, dada una nube
de puntos que se suponen sobre las fronteras de los objetos, extraer de esta una estructura
Ju -C
informativa. Esta estructura debe de resumir información topológica de la frontera sobre las
que están dichos puntos, en especial la cantidad de cíclos uno dimensionales debería indicar,
D
en el mejor de los casos, la cantidad de objetos sobre la imagen. Esto podría ser de interés
para varias aplicaciones, por ejemplo la detección de tumores en imágenes cerebrales.
AT
El método tradicional para la construcción de dicha estructura es elegir una escala,

digamos el radio o el número de vecinos, y construir a partir de la nube de puntos un grafo
de vecinos. Sin embargo la manera de elegir dicha escala no siempre es la mejor para todas
las imágenes y procuraremos evitar tener que elegirla de manera manual. Aquí se propone
un método que no necesita elegir un parámentro de escala inicial.
Para este trabajo se supone la existencia de cierto grafo G desconocido que describe
apropiedamente las fronteras de los objetos en la imagen. Supondremos además que la nube
de puntos C dada cumplirá que cada punto que pertenece a ella está lo suficientemente
cerca de dicho grafo. Por medio de esta nube se busca encontrar un grafo que comparta los
primeros grupos de homología de G, de esta forma manteniendo la información importante
de las fronteras.
Además de lograr esto la estructura que se propone en este proyecto presenta ciertas
ventajas:
Si la nube de puntos tiene un total de n puntos, entonces la estructura tiene tamaño
3
2. PRELIMINARES
O(n) y puede ser calculada en un tiempo O(n log(n))
La estructura es invariante a reescalamientos y rotaciones de C.
Es estable bajo perturbaciones de muestras C obtenidas a partir de un grafo desconoci-

do G ⊂ R2 .
2. P RELIMINARES
2.1. Para el pre-proceso de la Imagen

Como se mencionó en el resumen del proyecto, uno de los primeros pasos que se hicieron
16 T
fue segmentar la imagen. Antes de proceder a explicar como funciona el algoritmo, se debe
20 A
tener en claro lo que esto significa. Para esto daremos la definición de segmentar una imagen.
lio IM
Definición: Dada una imagen, se le llamará segmentar dicha imagen al proceso de divi-
dir los pixeles en cierta cantidad de grupos homogéneos y asignar a cada grupo un color
específico.
Ju -C
En particular para este proyecto, cuando se hable de segmentar la imagen, la cantidad de

D
grupos serán únicamente 2, uno blanco y uno negro, puesto que el objeto de interés son los
puntos que están en las orillas de estos dos grupos.
AT
Además también se mencionó que el método que se utiliza para segmentar está basado
en mezclas gaussianas. La siguiente definición será útil al momento de explicar el algoritmo
para segmentar la imagen.
Definición: Se define la función de densidad de k mezclas gaussianas a la función de den-

sidad dada por:
k
f (x|{αi , µi , σi }) = αi G i (x|µi , σi ),
X
i =1
Pk
donde 0 ≤ αi ≤ 1, i =1 αi = 1, y G i es una función de densidad gaussiana con media {µi } y
desviación estándar σi , para todos los valores i ∈ {1, 2, . . . , k}.
2.2. Definiciones Importantes

Algo que se debe notar del algoritmo descrito en el artículo de Vitaly (2015) es que para
implementarlo se deben tener algunas nociones básicas de grafos. Es por esto que en esta
4
2. PRELIMINARES
sección se deberán definir algunas de estas nociones con las que el lector quizás no este
familiarizado.
Uno de los grafos que se utilizan, y de hecho es el primero que se obtiene en el algoritmo,
es el mínimo árbol recubridor, cuya definición se muestra a continuación.
Definición 1: Dada una nube de puntos C , el mínimo árbol recubridor es el árbol que tiene
como vértices los puntos de C y la suma total de las longitudes de las aristas del árbol es
menor o igual a la de cualquier otro árbol con vértices en C . Se denota por MST(C ).
Como se ha mencionado antes, al implementar el algoritmo para la detección de bordes

en la imagen, se está suponiendo la existencia de un grafo desconocido que aproxima los
bordes de la imagen. La nube de puntos con la que trabajamos se supone cercana a los
16 T
bordes, por lo que debe ser cercana también al grafo. Sin embargo es válido preguntarse que
20 A
tan cercana es la nube de puntos al grafo que se busca aproximar. Para esto se tomarán en
cuenta las siguientes dos definiciones.
lio IM
Definición 2: Dada una nube de puntos C ⊂ R2 y un número α > 0, se define al α-Offset,
denotado por C α , como el subconjunto de R2 de todos los puntos que están a una distancia
Ju -C
de a lo más α de algún punto de C .

D
AT
Definición 3: Se dice que la nube de puntos C es una ²-muestra de un grafo G ∈ R2 si G ⊂ C ²

y C ⊂ G ² . Así pues cualquier punto de C es a lo más a una distancia ² de algún punto de G y
cualquier punto de G está a lo más a una distancia ² de algún punto de C .
Los siguientes objetos definidos no son directamente utilizados en el algoritmo. Sin

embargo en la siguiente sección se utilizan para demostrar resultados que son necesarios
para justificar la validez del algoritmo y por esto es necesario conocerlos también.
Definición 4: Dado una nube de puntos C y un valor α > 0, entonces de define el bosque
reducido MST(C , α), como el grafo que se obtiene a partir de MST(C ) al remover todas las
aristas de longitud mayor a 2α.
5
2. PRELIMINARES
Definición 5: Se dice que un grafo G recubre a una nube de puntos C , si el conjunto de los
vértices de G coincide con C .
Definición 6: Un grafo G recubre C α si G tiene vértices en todos los puntos de C y cuales-

quiera vertices de G están en la misma componente conexa de G si y sólo si están en la misma
componente conexa de C α .
Recordando que durante el algoritmo no sólo se construye un grafo que aproxima los
bordes, sino también el primer diagrama de persistencia ([3] Definición 2.3.1) de la nube de
puntos dada, se debe tener en cuenta de qué manera este grafo se relaciona con el diagrama.
La respuesta a esta pregunta proviene de ciertas aristas especiales que tendrá el grafo y cuya
16 T
definición es la siguiente.
20 A
Definición 8: Dada la filtración de los complejos de Vietoris-Rips ([3] Definición 1.3.9)
lio IM
R(C , 0) ⊂ R(C , α0 ) ⊂ R(C , α1 ) ⊂ . . . ⊂ R(C , ∞),
se le llama a e una arista de k crítica si al aparecer esa arista en la filtración, se crea un

Ju -C
nuevo agujero. Esta arista estará relacionada con el punto (b, d ) en el primer diagrama de
persistencia, donde b es el momento de nacimiento del agujero (es decir cuando aparece e),
D
y d corresponde al momento de muerte de dicho agujero.

AT
Al obtener el diagrama de persistencia, el siguiente paso será determinar qué puntos

tienen la suficiente persistencia para considerarse importantes y no descartables. Para realizar
esta tarea, se utilizarán los objetos definidos en la Definición 9.
Definición 9: Para una nube de puntos C y el primer diagrama de persistencia, se define

como una brecha diagonal como a la franja {0 ≤ a < y − x < b} que no tiene ningún punto del
diagrama en su interior. Se llama la brecha diagonal más ancha, denotada por dgap(C ) a la
brecha diagonal con el ancho |dgap(C )| = b −a más grande. Sea dgm’(R(C , α)) el subdiagrama
de persistencia que consiste únicamente en los puntos sobre dgap(C ). La escala crítica,
denotada por α(C ) es el b máximo de todos los puntos (b, d ) ∈ dgm’(R(C , α)).
Hechas ya las definiciones anteriores, se pueden definir ahora los grafos de mayor interés
para el problema. Los grafos que se definen en la Definición 10 son los grafos preliminares que
darán paso al grafo definido en la Definición 11. Este último grafo es aquel que tomaremos
como aproximación para los bordes de la imagen.
6
2. PRELIMINARES
Definición 10: Dada una nube de puntos C , se define el esqueleto de homología persistente,
denotado por HoPeS(C ), como la unión de MST(C ) y todas las aristas críticas. El esqueleto
reducido HoPeS(C , α) es obtenido a partir de HoPeS(C ) al remover todas las aristas de longitud
mayor a 2α y todas las aristas críticas e tales que su punto correspondiente (b e , d e ) cumple
d e ≤ α.
Definición 11: Para una nube de puntos C , el esqueleto derivado, denotado por HoPeS’(C )
es el grafo obtenido a partir de HoPeS(C ) al remover:
(1) Todas las aristas de longitud mayor a 2α(C ).
(2) Todas las aristas críticas con muerte≤ α(C ) o con (nacimiento,muerte) debajo de dgap(C ).
16 T
20 A
Para validar el uso de HoPeS’(C ) como una aproximación de los bordes de la imagen, se
lio IM
requiere probar el Teorema 2 de la siguiente sección. La siguiente definición es necesaria
tanto para entender el teorema como para la demostración del mismo.
Ju -C
Definición 12: Dado un grafo G, un cíclo que no se autointersecta L en el grafo se llama

básico si rodea una región acotada de R2 − G. Cuando α incrementa, el agujero rodeado por
el α-Offset L α nace en α = 0 y muere en la escala α = ρ(L), a la que se le llama el radio del
D
ciclo L. Así que el agujero inicial rodeado por L tiene el tiempo de vida [0, ρ(L)). En general
si α aumenta, se pueden crear nuevos agujeros en algún punto α > 0. Supongase que estos
AT
están rodeados por L 1 , . . . , L k en sus momentos de nacimiento. A θ(G) = max j =1,...,k ρ(L j ) se
le llama el grosor de G.
Finalmente, el algoritmo que se describe en el artículo de Vitaly utiliza una nociones muy
conocidas de geometría computacional que se definen a continuación.
7
2. PRELIMINARES
Definición 13: La triangulación de Delaunay de una nube de puntos C se define como una
triangulación de los puntos que cumple que si p 1 , p 2 , p 3 son vértices de un triángulo en la
triangulación, entonces en el interior del circuncírculo de este triángulo no hay ningún otro
punto de C . Se denota por Del(C ).
Definición 14: Para una nube de puntos C y cierto punto p ∈ C , se tiene que la celda de
Voronoi de p es el conjunto de todos los puntos que están más cerca de p que de cualquier
otro punto en C . Es decir V (p) = {q ∈ R2 : d (p, q) ≤ d (p 0 , q)∀p 0 ∈ C }.
2.3. Resultados importantes
16 T
Un resultado de geometría computacional es que la triangulación de Delaunay contiene
20 A
a todos los triángulos con vertices p, q, r ∈ P tales que V (p) ∩ V (q) ∩ V (r ) 6= ;. Teniendo en
cuenta esto es posible demostrar que el complejo de Vietoris-Rips R(C , ∞) coincide con
lio IM
Del(C ), si consideramos que los triángulos formados por la triángulación son 2-simplejos
en Del(C ). Así pues, la filtración de complejos de Vietoris-Rips es una filtración para la
Ju -C
triángulación de Delaunay.
De esto tenemos que Del(C ) se obtiene al agregar aristas y triángulos en estos puntos
críticos:
D
Una arista entre puntos p i y p j se agrega en α = 12 d (p i , p j ).

AT
Un triángulo acutángulo se agrega en α = r , donde r es el radio del circuncírculo de

dicho triángulo.
Un triángulo no acutángulo se agrega en α = 12 l , donde l es la longitud del lado más

largo del triángulo.
En el resto de esta sección se dedicará a demostrar resultados que ayudan a validar el

por qué HoPeS 0 (C ) es una buena aproximación a los bordes de una imagen. Todos estos
resultados y sus demostraciones correspondientes pueden ser encontrados en el artículo de
Vitaly (2015).
El primer resultado que se verá muestra que MST(C ) es un objeto óptimo para describir
la topología 0-dimensional de C a través de todas las escalas α. Este resultado se utilizará
más adelante para probar una proposición más adelante.
8
2. PRELIMINARES
Lema 1: Dada una nube C y una escala α ≥ 0, el bosque reducido MST(C , α) tiene el mínimo
de longitud total de aristas entre todos los grafos que recubren a C α .
Demostración: Sean e 1 , e 2 , . . . , e m ⊂ MST(C ) todas las aristas que son más largas que 2α.
Entonces MST(C ) = MST(C , α) ∪ e 1 ∪ . . . ∪ e m . Supongamos que existe un grafo G que recubre
a C α y que es más corto que MST(C , α). Entonces G ∪ e 1 ∪ . . . ∪ e m recubre a C y es más corto
que MST(C ), lo que es una contradicción.
ä
El siguiente lema que se presenta es una garantía de que la estructura HoPeS(C ) es

invariante bajo rotaciones y a transformaciones de escalamiento uniforme. Puesto que
HoSeS’(C ) es derivado de esta estructura, también será invariante.
16 T
Lema 2: Dada una nube de puntos C , la estructura HoPeS(C ) es invariante bajo cualquier
20 A
transformación afín cuya matrix 2 × 2 tiene los dos eigenvalores iguales.
Demostración: Sea A : R2 → R2 la transformación afín con los dos eigenvalores iguales a
lio IM
λ. Entonces todos los discos, α-offsets C α y complejos R(C , α) son escalados por el factor λ.
Así que el esqueleto de homología persistente HoPeS(C ) tiene la misma estructura topológica,
Ju -C
pero todos los puntos (nacimiento, muerte) del diagrama de persistencia son multiplicados
por λ.
D
Uno de los requisitos que se busca que se cumpla es que se mantengan las propiedades
AT
topológicas de la filtración en nuestra estructura creada. En particular se busca que se

mantenga el primer grupo de homología, ya que esto está relacionado con la cantidad de
1 cíclos de la imagen, es decir la cantidad de objetos en la imagen en un caso ideal. La
proposición 1 asegura este requisito, y los siguientes tres lemas se utilizan para demostrar
esta proposición.
Lema 3: Dada una nube de puntos C y cualquier escala α ≥ 0, se tiene que HoPeS(C , α) ⊂
R(C , α).
Demostración: Por la definición 10 tenemos que todas las aristas de HoPeS(C , α) tienen
una longitud de a lo más 2α. Por la definición de un complejo de Vietoris-Rips, todas las aristas
de R(C , α) son las aristas de Del(C ) con una longitud de a lo más 2α. De esto HoPeS(C , α) ⊂
R(C , α).
ä
Ahora bien, la función inclusión i : HoPeS(C , α) → R(C , α) induce un homomorfismo
i ∗ : H1 (HoPeS(C , α)) → H1 (R(C , α)).
9
2. PRELIMINARES
Lema 4: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce un
isomorfismo i ∗ : H1 (G) → H1 (S). Si agregamos un arista crítica e tanto a G como a S que crea
una nueva clase de homología γ ∈ H1 (S ∪ e), entonces i ∗ se puede extender a un isomorfismo
H1 (G ∪ e) → H1 (S ∪ e).
Demostración: Sea L ⊂ G ∪ e el cíclo que contiene a la arista e. Entonces H1 (G sup e) ∼
=
H1 (G) ⊕ 〈[L]〉. Considera L como un ciclo i (L) ⊂ S ∪ e. obtenemos que H1 (S ∪ e) ∼
= H1 (S) ⊕
〈[i (L)]〉. Así extendemos i ∗ a un isomorfismo H1 (G) ⊕ 〈[L]〉 → H1 (S) ⊕ 〈[i (L)]〉.
ä
Lema 5: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce
un isomorfismo i ∗ : H1 (G) → H1 (S). Supongamos que γ ∈ H1 (S) muere después de añadir
16 T
un triángulo T al complejo S. Sea e la arista más larga de T . Entonces i ∗ desciende a un
isomorfismo H1 (G − e) → H1 (S ∪ T ).
20 A
Demostración: Añadiendo el triángulo T a S mata a la clase de homología [∂T ], así
lio IM
que H1 (S ∪ T ) ∼
= H1 (S)/〈[∂T ]〉. Al borrar e de ∂T ⊂ G hace al grupo de homología más pe-
queño, haciendo que H1 (G − e) ∼ = H1 (G)/〈[∂T ]〉. Así pues, i ∗ desciende a un isomorfismo
H1 (G)/〈[∂T ]〉 → H1 (S)/〈[∂T ]〉
Ju -C
Proposición 1: Para una nube de puntos C y cualquier escala α, la inclusión i : HoPeS(C , α) →

D
R(C , α) induce un isomorfismo en los primeros grupos de homología.

AT
Demostración: Tomando α0 lo suficientemente pequeña, R(C , α0 ) coincide con la nube

desconectada C , así que H1 (R(C , α0 )) es trivial. Cada vez que una clase de homología nace
o muere en H1 (R(C , α)), por los lemas 4 y 5, el isomorfismo inducido por la inclusión de
HoPeS(C , α) en R(C , α) se mantiene.
ä
Una vez demostrado que en efecto existe un isomorfismo entre H1 HoPeS(C , α) y H1 R(C , α),
el Teorema 1 nos afirma que este grafo es la mejor opción entre los grafos que cumplen esto
basándose en que es el más pequeño en longitud de aristas. La Proposición 2 se utiliza para
demostrar dicho teorema.
Proposición 2: Sea α > 0. Sea G ⊂ R(C , α) un grafo que recubre a R(C , α) y H1 (G) → H1 (R(C , α))
el isomorfismo inducido por la inclusión. Sean (b i , d i ), i = 1, . . . , m todos los puntos de
dgm(R(C , α)), contando multiplicidades, tales que {nacimiento < α < muerte}. Entonces la
longitud de G está acotada por debajo por la longitud total de MST(C , α) más 2 m
P
i =1 b i .
10
2. PRELIMINARES
Demostración: Sea G 1 ⊂ G el subgrafo que consiste en todos las aristas que no desco-
nectan a G y sea e 1 ⊂ G 1 la arista más larga de algún triángulo. Al quitar e 1 de G, tenemos
que H1 (G) es más pequeño. De esto hay un ciclo L 2 ⊂ G que contiene e 1 y que representa a
una clase γ1 ∈ H1 (R(C , α)). Digamos que dicha clase corresponde al punto (b 1 , d 1 ). De esto
tenemos que |e 1 | ≥ 2b 1 , ya que de lo contrario γ1 nacería antes de α = b 1 . Podemos definir
G 2 ⊂ G − e 1 de manera análoga y proceder de la misma manera. De esta manera obtenemos
e 1 , e 2 , . . . , e m tales que m
P Pm
i =1 |e i | ≥ 2 i =1 b i .
Después de remover e 1 , e 2 , . . . , e m , tenemos que G − (e 1 ∪ e 2 ∪ . . . ∪ e m ) aun recubre a
R(C , α), porque siempre elegimos una arista que no desconectaba a G. De esto la longitud de
MST(C , α) aún es más pequeña que la longitud de G − (e 1 ∪ e 2 ∪ . . . ∪ e m ), por el lema 1.
ä
16 T
Teorema 1: Para cualquier nube de puntos C y cualquier escala α > 0, el grafo HoPeS(C , α)
20 A
tiene la mínima longitud total de aristas sobre todos los grafos G ⊂ C α que recubren a C α e
lio IM
inducen un isomorfismo en los primeros grupos de homología H1 (G) → H1 (C α ).
Demostración: HoPeS(C , α) satisface la condición de homología de la proposición 1.
Sean γ1 , . . . , γm clases correspondientes a todos los m puntos (b i , d i ) en dgm(R(C , α)), con-
Ju -C
tando multiplicidades, en {nacimiento ≤ α < muerte}. Entonces γ1 , . . . , γm forman una base

de H1 (R(C , α)) ∼
= H1 (HoPeS(C , α)). Tenemos que la longitud total de HoPeS(C , α) es igual a la
D
longitud total de aristas de MST(C , α) más 2 m

P
i =1 b i . Por la proposición 2, esta longitud es la
menor posible.
AT
Lema 6: Dada una nube de puntos C , el grafo HoPeS’(C ) es un subgrafo de HoPeS(C , α(C )),
donde α(C ) es la escala crítica definida antes.
Demostración: Por definición todas las aristas de HoPeS(C , α(C )) tienen una longitud de
a lo más 2α(C ) y todas las aristas críticas cumplen que su momento de muerte es mayor a α(C ).
La definición de HoPeS’(C ) agrega la restricción de que todas las arístas críticas en HoPeS’(C )
corresponden a puntos sobre dgap(C ). De esto claramente HoPeS’(C ) ⊂ HoPeS(C , α(C )).
ä
Lema 7: La dimensión de H1 (HoPeS’(C )) equivale a la cantidad de puntos (b, d ) en dgm’(R(C , α)),

contando multiplicidades tales que d > α(C ).
Demostración: La dimensión de H1 (HoPes’(C )) equivale al número de clases de homo-
logía cuyo (nacimiento, muerte) en dgm(R(C , α)) están sobre dgap(C ) y muerte> α(C ). Por la
definición de α(C ), cualquier nacimiento l eqα(C ), así que contamos todos los (nacimiento,
11
2. PRELIMINARES
muerte) ∈ dgm’(R(C , α)) con nacimiento≤ α(C ) <muerte. Todos estos m puntos están en una
correspondencia 1-1 con las aristas críticas de HoPeS’(C ). ä
El Teorema 2 es el resultado más importante de esta sección, puesto que es la expli-

cación del por qué, bajo ciertas condiciones, se puede tomar HoPeS’(C ) como una buena
aproximación de los bordes de la imagen.
Teorema 2: Sea C cualquier ²-muestra de un grafo G ⊂ R2 con un grosor θ(G) ≥ 0 y m ≥ 1

ciclos basicos con radios ordenados ρ 1 ≤ . . . ≤ ρ m . Si
ρ 1 > 7² + θ(G) + máx {ρ i −1 − ρ i },

i =1,...,m−1
16 T
entonces la escala crítica α(C ) < ² y el esqueleto HoPeS’(C ) es una 2²-muestra de G, y tiene el
tipo de homotopía de G.
20 A
Demostración: H1 (G) es generado por los m ciclos básicos L 1 , . . . , L m . Estos m ciclos dan
lio IM
puntos (0, ρ i ) en dgm(G α ). Todos los demás puntos de en diagrama vienen de agujeros más
pequeños de G α nacidos después. La máxima persistencia muerte-vida de estos agujeros
está acotado por arriba por θ(G).
Ju -C
La condición dada ρ 1 > 7² + θ(G) + máxi =1,...,m−1 {ρ i −1 − ρ i } garantiza que la brecha más
ancha {θ(G) < y − x < ρ 1 } en dgm(G α ) es más ancha que cualquier otra brecha, incluyendo
D
las brechas con ancho ρ i +1 − ρ i .

Por el teorema de estabilidad ([3] Teorema 2.7.3) cualquier punto (0, ρ i ) ∈ dgm(G α ),
AT
i ≥ 2, no puede saltar más bajo que la lineal y − x = ρ i − 2², ni más alto que y − x = ρ i + ².
Así que la brecha más ancha entre estos puntos perturbados tiene un ancho de a lo más
máxi =1,...,m−1 {ρ i −1 − ρ i } + 3². Todos los puntos cerca de la diagonal tienen brechas diagonales
no más anchas que θ(G) + 2². De esto en todos los casos la segunda brecha más ancha en
dgm(G α ) tienen un ancho más pequeña que ρ 1 − 4² − θ(G). De esto dgap(C ) subre la franja
{θ(G) + 2² < y − x < ρ 1 − 2²} ⊂ dgap(G) ⊂ dgm(G α ).
De esto el subdiagrama dgm’(R(C , α)) sobre la linea y − x = ρ 1 − 2² contiene sólo pertur-
baciones eh los puntos originales (0, ρ i ) en la brecha vertical {0 ≤ x < ²}. Por su definición, la
escala crítica α(C ) es el máximo nacimiento en dgm’(R(C , α)). Estos puntos están a lo más a
una distancia ² de sus puntos correspondientes (0, ρ i ). De esto la escala crítica α(C ) < ².
Todas las muertes de los puntos en dgm’(R(C , α)) son más grandes que ρ 1 − 2² > ² > α(C ).
De esto HoPeS’(C ) contiene todos las aristas críticas correspondientes a los m puntos en
dgm’(R(C , α)). Así pues, H1 (HoPeS’(C )) tiene la dimensión esperada m.
La desigualdad del Teorema significa que los ciclos del grafo G tienen tamaño comparable,
12
3. OBTENCIÓN DE LA NUBE DE PUNTOS C
es decir el radio más pequeño ρ 1 es más grande por un buen margen a cualquier brecha ρ i +1 −
ρ i . De esto la brecha diagonal {θ(G) < muerte − nacimiento < ρ 1 } en el diagrama dgm(G α )
del grafo G permanecerá suficientemente ancha para ser automáticamente reconocida en el
diagrama perturbado de dgm(R(C , α)) para cualquier ²−muestra C de G.
ä
Una vez demostrado este último teorema, se deben aclarar bajo que suposiciones se
puede afirmar que HoPeS’(C ) es una aproximación apropiada de los bordes. Lo que se está
suponiendo es la existencia de un grafo desconocido G que es el descriptor ideal de los bordes
de la imagen. Se debe suponer que G cumple con las condiciones del Teorema 2. Además se
supone también que la nube de puntos C es una ²-muestra de G. De esto el Teorema 2 afirma
16 T
que HoPeS’(C ) y G tienen el mismto tipo de homotopía, y que HoPeS’(C ) es una 2²-muestra
de G, lo que se puede considerar como afirmar que estos dos grafos están cerca el uno del
otro.
20 A
lio IM
3. O BTENCIÓN DE LA NUBE DE PUNTOS C
Ju -C
3.1. Segmentación de la Imagen

D
En nuestro programa se carga la imagen y ésta se convierte a una imagen en escala de

grises. Para esto en cada pixel se suman los tres valores RGB y al final se divide cada suma
AT
entre la suma máxima que resultó. De esta forma se tiene en todos los pixeles de la imagen
una intensidad de gris entre 0 y 1.
Una vez hecha la imagen de intensidades de grises, primero se buscará segmentar la
imagen en dos regiones. Para esto buscamos un valor T entre 0 y 1 que dependerá de los
valores de todos los pixeles y representará el punto de separación entre las dos regiones
¡ ¢
T = T {g (i , j )} ,
donde g (i , j ) representa el valor en escalas de grises del pixel en la posición (i , j ). Para la

segmentación de la imagen a cada pixel en la posición (i , j ) se le asignará un valor p(i , j ) de
tal forma que:

 0, si f (i , j ) < T,
p(i , j ) =
 1, si f (i , j ). ≥ T
Para determinar el valor de T se utilizará el algoritmo EM, descrito más adelante, pa-
13
3. OBTENCIÓN DE LA NUBE DE PUNTOS C
ra ajustar a el histograma de valores de intensidad de grises de la imagen una mezcla de

distribuciones gaussianas.
Lo primero que hace nuestro programa es calcular dicho histograma y ajustar una función
de densidad por medio de la función “density"de R. Para dicha función de densidad se
encuentran los máximos locales y se ordenan de manera decreciente. Llamaremos L a la
cantidad total de máximos locales encontrados para la función de densidad.
En nuestro programa para estimar una mezcla de k gaussianas que se ajuste bien al
histograma de intensidad se utiliza el algoritmo E M . Como valores iniciales para el algoritmo
tomamos a los primeros k máximos locales como las k medias {µi }, los promedios de las
distancias entre estos máximos locales y los mínimos locales que los rodean como las k
desviaciones estándar {σi } y tomamos como valores iniciales para todos los αi a k1 .
16 T
De esta forma se llamará al algoritmo E M un total de L veces, variando el valor de k
20 A
desde 1 hasta la cantidad total de máximos locales. Después de ajustar estas L mezclas
gaussianas, se eligirá la que mejor se ajuste al histograma. Para esto calculamos para cada
lio IM
mezcla gaussiana su log-verosimilitud, que es
N
Ju -C
l ({αi , µi , σi }) = log f (x j |{αi , µi , σi }),

X
j =1
donde N es la cantidad total de intensidades en la imagen (es decir la cantidad de pixeles en

D
la imagen). De esta forma la mezcla gaussiana con la log-verosimilitud más grande es la que
mejor se aproxima a el histograma y es la mezcla elegida.
AT
Finalmente elegida la mezcla gaussiana que mejor se aproxima a el histograma, el valor

de T es
1 Xm
T= µi ,
m i =1
donde m es la cantidad de gaussianas con las que se formó la mezcla gaussiana elegida.
3.2. Algoritmo EM
El algoritmo EM consiste en dos pasos:
1. El paso M: En este paso se calcula para cada valor x i en los pixeles de la imagen la
probabilidad de provenir de cada una de las k distribuciones gaussianas. En la iteración
s esto se calcula con la fórmula
14
4. PROCEDIMIENTO
α(s)
j
G j (x i |µ(s)
j
, σ(s)
j
)
(s)
ω j (x i ) =P (s) (s) (s)
.
k
r =1 αr G r (x i |µr , σ j )
2. El paso E: En este paso se estiman mejores parámetros {α j , µ j , σ j } utilizando los valores

calculados en el paso anterior y con el método de estimador de máxima verosimilitud.
De esta forma los nuevos parámetros se calculan por
1 X N
α(s+1)
j
= ω j (x i )(s) ,
N i =1
16 T
1
µ(s+1) ω j (x i )(s) x i ,
X
j
=
N α(s+1)
j i =1
20 A 1 N
lio IM
[σ(s+1) ]2 = ω j (x i )(s) (x i − µ(s+1)
X
j j
).
N α(s+1)
j i =1
Ju -C
3.3. Encontrar puntos cercanos a los bordes

Teniendo ya la imagen segmentada en dos regiones, debemos encontrar una nube de
D
puntos cercanos a las fronteras de los objetos, es decir puntos que esten cerca de la frontera
entre las dos regiones. Por motivos de complejidad computacional para el resto del proyecto,
AT
buscamos que la cantidad de puntos en nuestra nube sean a lo más un 6 % de la cantidad

total de pixeles en la imagen.
Para cada pixel x encontramos el promedio de intensidades en el recuadro de 5 × 5 que
rodea a dicho pixel en la imagen segmentada, sea Avg(x) dicho promedio. Determinamos
que x pertenece a nuestra nube de puntos si y sólo si p(x) < a · Avg(x), donde p(x) es el valor
de intensidad en el pixel x y a ≥ 1 es un factor que elegimos de tal manera que la cantidad de
puntos elegidos para nuestra nube de puntos no supere el 6 % de la cantidad total de pixeles.
Esta nube de puntos la guardamos en una nueva matriz.
4. P ROCEDIMIENTO
4.1. Creación del grafo HoPeS’(C )

Una vez obtenida la nube de puntos C, lo primero que hacemos es construir la trián-
gulación de Delaunay Del(C), que coincidirá con el complejo de Vietoris-Rips R(C , ∞). En
15
4. PROCEDIMIENTO
nuestro algoritmo recorreremos las filtración
C = R(C , 0) ⊂ R(C , ²1 ) ⊂ R(C , ²2 ) ⊂ . . . ⊂ R(C , ∞) = Del(C ),
empezando con ² = ∞ y disminuyendo ² de manera continua. Hay que determinar en qué

momento aparecieron los simplejos en Del(C) en nuestra filtración.
Tenemos que en la filtración el momento en que el simplejo aparece depende de la forma
del simplejo. Se presentan las siguientes reglas, ya descritas anteriormente:
Si el simplejo es un triángulo acutángulo, el momento en el que aparece es igual a la

longitud del radio del circuncírculo. Es decir en la filtración un 2-simplejo acutángulo
aparece cuando ² = r , donde r es el radio del circuncírculo.
16 T
20 A
lio IM
Ju -CD
AT
Si el simplejo es un triángulo no acutángulo, el momento en el que aparece es igual

a la mitad de la longitud del lado más largo. Es decir en la filtración un 2-simplejo no
acutángulo aparece cuando ² = 2l , donde l es la mitad de la longitud del lado más largo
del triángulo.
16
4. PROCEDIMIENTO
Si el simplejo es un segmente, el momento en el que aparece es igual a la mitad de su

longitud. Es decir en la filtración un 1-simplejo aparece cuando ² = 2l , donde l es la
mitad de la longitud.
Ahora bien, en nuestro algoritmo quitamos estos simplejos de la triángulación de De-
16 T
launay precisamente en los momentos antes descritos, puesto que vamos retrocediendo
en la filtración. Nótese que cuando quitamos un triángulo, aparece una nueva región en
20 A
R2 − R(C , ²) y cuando quitamos una arista se unen dos regiones. Durante nuestro algoritmo
lio IM
mantenemos una estructura de bosque de búsqueda con nodos abstractos que están en una
correspondencia 1-1 con las regiones de cada triángulo y la región exterior a la triángulación.
Inicialmente en esta estructura hay un único nodo que corresponde a la región externa.
Ju -C
Cuando se quita un triángulo aparece un nuevo árbol con un único nodo y cuando se quita
una arista se unen dos árboles. Es necesario aclarar que cuando varios simplejos se quitan en
D
el mismo momento, primero quitaremos todos los 2-simplejos y luego todos los 1-simplejos.
A continuación se muestra una imagen donde se aprecia la manera en la que avanza el
AT
algoritmo en cada momento en el que se debe quitar un simplejo.
p
p 10
R(C , ∞) R(C , 5) R(C , 2
)
17
4. PROCEDIMIENTO
p p
5
R(C , 1,5) R(C , 2) R(C , 2
)
16 T
20 A
lio IM
p
R(C , 1) R(C , 22 )
Nótese que en las filtraciones generalmente cuando aparece una arista que forma un
ciclo se toma ese momento como el nacimiento del agujero que rodea este ciclo y cuando
Ju -C
aparece un 2-simplejo que cierra este agujero, este momento se toma como la muerte de
éste.
D
De esa forma en nuestro algoritmo cuando se quita un triángulo en el tiempo ²t , guar-

damos el momento como la muerte de una región. Cuando se unen dos regiones al quitar
AT
una arista, se conserva como momento de muerte de esa región fusionada el momento más
grande ²t 1 de muerte entre las dos regiones. Además se compara el momento de muerte de la
otra región ²t 2 con el momento ²e en que quitamos esta arista, ya que el momento en que
quitamos esta arista coincide con el nacimiento de esta región. De esta forma definimos dos
tipos de aristas especiales:
Arista crítica: Una arista que al momento de quitarse, este ²e es estrictamente menor
que el momento de muerte de la región más jóven ²t 2 . Por ejemplo en nuestra figura e
es una arista crítica. Esta arista estará asociada con el punto (²e , ²t 2 ) en el diagrama de
persistencia.
Arista externa: Una arista que al momento de quitarse, las dos regiones que "fusiona.eran
ya en ese momento la misma región. Por ejemplo en nuestra figura la arista f es una
arista externa. Nótese que al quitar una de estas aristas, nuestro grafo se vuelve un
grafo no conexo. Puesto que nos interesa que el grafo final sea un grafo conexo (ya que
va a ser el MST(C )), estas aristas se guardan para ser agregadas al final en el grafo.
18
5. RESULTADOS
El algoritmo acaba cuando todas las regiones son una sola, es decir cuando ya no hay
ningún cíclo en el grafo. Después de agregar las aristas externas, para asegurarnos que el
grafo coincida con el MST(C ), debemos decidir que aristas críticas agregamos para conseguir
HoPeS’(C ).
Para esto nos fijamos en el diagrama de persistencia formado durante el algoritmo, puesto
que guardamos todos los puntos asociados a aristas críticas.
16 T
20 A
lio IM
En este diagrama buscamos la franja más ancha entre dos puntos tal que no contenga
puntos del diagrama en el interior, es decir dgap(C ). Para formar HoPeS’(C ), tomamos en
Ju -C
cuenta sólo las aristas críticas que corresponden a puntos sobre dgap(C ) y muerte > α(C ) . En
el diagrama mostrado arriba se pueden ver que sólo tres cíclos son considerados importantes.
D
Se agrega al grafo las aristas críticas asociadas a estos puntos, que son por lo tanto las aristas
que cierran estos ciclos.
AT
4.2. Suavización del grafo

Por último se suaviza el grafo resultante de la siguiente manera: se toma la escala crítica
α(C ). Por el teorema 2, esta escala es una cota inferior del ruido ² implícito entre C y G. De
esto 2α(C ) es el estimador más pequeño de la distancia entre ² perturbaciones del mismo
punto. Usando esta distancia, se quitan todos los caminos hacia un vértice de grado 1 que
tengan una longitud menor o igual a 2α. Además simplificamos los caminos entre vértices de
grado distinto a 2 con segmentos de recta que tengan al menos ese tamaño.
5. R ESULTADOS
A continuación se muestran algunos resultados obtenidos con nuestro algoritmo. Para
cada imagen se muestra: La imagen original, el resultado de la segmentación, la nube de
19
5. RESULTADOS
puntos en los bordes y el grafo final. Además se mostrarán las aproximaciones realizadas
sobre el histograma de cada imagen y el diagrama de persistencia utilizado.
Imagen 1:
16 T
20 A
lio IM
Ju -CD
AT
La primera imagen que se muestra tiene bordes muy distinguibles a simple vista, puesto
que el color del fondo es muy distinto al color de los objetos en la imagen (el halcón y la rama
del árbol). Considerando esto se obtiene un resultado final esperado, que tiene una gran
semejanza, visualmente, con lo que se mostraba en la imagen originalmente.
Según el diagrama de persistencia generado por el algoritmo hay dos objetos en la imagen,
ya que sólo hay dos puntos por encima del dgap(C ) correspondientes cada uno a un 1-cíclo
en el grafo. Viendo el resultado se vuelve claro que uno de esos objetos es el halcón, aunque
el resultado mezcló dicho halcón con parte de la rama. Esto es entendible si se observa que el
tono de gris de la rama no cambiar tanto del gris del halcón. El otro .objeto"que existe en la
imagen corresponde al agujero que forma la rama a la derecha. Aunque este no es un objeto
20
5. RESULTADOS
en sí, como está totalmente rodeado por una rama, no sorprende tampoco que este lo tomara
como un objeto en la imagen.
Imagen 2:
16 T
20 A
lio IM
Ju -CD
AT
Al ver esta segunda imagen, en el resultado es claro que parte del grafo generado no
está realmente sobre las orillas de los objetos, sino en el interior, en especial el interior del
sombrero y la pluma. Esto refleja el problema que se comentó en la introducción sobre que
21
5. RESULTADOS
un cambio drástico de luz no necesariamente implica el final de un objeto y el comienzo de

otro. Puede deberse también a cambio de textura, como implica la textura de la pluma en el
sombrero.
El resultado del algoritmo se sigue apreciando, ya que en el resultado final se distinguen
el rostro, la pluma, el cabella, el sombrero, etc. Según el diagrama de persistencia solamente
hay tres objetos importantes en la imagen. Observando el grafo generado podríamos ver que
uno de esos objetos es el cabello y otro de ellos es parte del sombrero, sin considerar la pluma.
Sin embargo el tercer objeto no se determina tan fácilmente, y lástimosamente no señala el
rostro como objeto, lo cual hubiera sido deseable.
Imagen 3:
16 T
20 A
lio IM
Ju -CD
AT
En esta imagen se vuelve a observar el problema que vimos en la segunda imagen. La

textura en el cabello de la mujer provoca que se señalen bordes que realmente no pertenecen
a las orillas de los objetos en la imagen.
El diagrama de persistencia nos dice que hay únicamente dos objetos en la imagen
22
5. RESULTADOS
importantes. Uno de ellos, según se aprecia es el rostro de la mujer. El otro se puede ver que
es la parte del cuello que está más iluminada. Este no es un resultado tan bueno, puesto que
no señala ni el libro ni el cabello de la mujer.
Viendo la segmentación que se obtuvo por nuestro algoritmo, se podría concluir que
la razón por la que parte del cuello fue señalada como un objeto en la imagen es porque
al segmentar quedó un gran espacio en blanco en esa área. Al ser espacios tan grandes los
dos señalados, puede que el libro, siendo un objeto más pequeño, ya no haya sido tomado
en cuenta por el dgap(C ). Esto en especial porque el ancho de dicha franja en esta imágen
es más ancha que las dos anteriores, sugiriendo gran diferencia de tamaño entre los cíclos
tomados en cuenta y los que no se tomaron en cuenta.
Imagen 4:
16 T
20 A
lio IM
Ju -CD
AT
En esta última imagen se tomó una cantidad menor de puntos para la nube C . De esta
forma podemos ver como se comporta el algoritmo con menos información de parte de la
23
6. CONCLUSIONES
nube de puntos. La aproximación que se obtuvo ya no se asemeja de manera tan precisa a la

forma de la imagen original como las imágenes mostradas anteriormente. Sin embargo aún
se logra distinguir la forma de un ave en el grafo generado.
El diagrama de persistencia indica que en la imágen hay dos objetos. Uno de ellos es
el ave sobre la rama. Sin embargo, el otro es un claro error, puesto que donde muestra un
1-cíclo no hay ningún objeto y se ve sobre todo fondo. Este error se explica si se considera
que la imágen original tiene una pequeña hoja al fondo, a la derecha del ave. Al hacer la nube
de puntos, algunos puntos sobre esa hoja se incluyeron, provocando el cíclo errado.
6. C ONCLUSIONES
16 T
A pesar de que los resultados obtenidos muestran grafos que sí se asemejan a lo que
20 A
se mostraba en la imagen original, la utilización de homología persistente por sí sola
no logró arreglar el problema de diferenciar bordes que provienen de las orillas de los
lio IM
objetos y bordes que aparecen por otras razones (texturas, diferentes profundidades,
etc.). Se podría intentar diferentes métodos para la obtención de la nube de punto, para
Ju -C
probar si alguno da mejores resultados.
Para imágenes que muestren objetos cuyo tono sea contrastante con el tono del fondo,
D
el diagrama de persistencia nos da una manera clara de cuantificar la cantidad de

objetos en la imágen. Sin embargo, por lo poco frecuente que son estas imágenes, no se
AT
puede confiar mucho en el diagrama de persistencia para obtener dicha información.
7. C OSAS POR HACER

Un defecto que le podríamos encontrar a este proyecto es el hecho de que la utilización
de la brecha dgap(C ) nos obliga a trabajar bajo suposiciones fuertes que podrían no ser
necesariamente ciercas para alguna imagen. Por ejemplo, podría darse que un grafo
cercano a la frontera de los objetos de cierta imagen no tenga un grosor mayor a 0.
Una mejora que se podría realizar en el proyecto, en vista de esto, es utilizar la idea de
la existencia de el grafo G que buscamos y construir subconjutnos de confianza para
los diagramas de persistencia de C para diferencias ruido de señales topológicas ([3]
sección 5.6.2).
En el presente proyecto la conclusión de si los resultados fueron satisfactorios o no

se realizó de manera visual, lo que puede no ser objetivo. Otra mejora posible para el
24
7. COSAS POR HACER
proyecto podría ser el implementar alguna manera de cuantificar el nivel de confianza

en los resultados, por ejemplo usar un grupo de prueba en el cual ya se tengan grafos
que se consideren buenas aproximaciones.
16 T
20 A
lio IM
Ju -CD
AT
25
8. REFERENCIAS
8. R EFERENCIAS
1. Huang, Zhi-Kai; Chau, Kwok-Wing
A new image thresholding method based on Gaussian mixture model.
Applied Mathematics and Computation 205, p. 899-907, 2008
2. Kurlin, Vitaly.
A Homologically Persistent Skeleton is a fast and robust descriptor for a sparse cloud of
interest points and saliency features in noisy 2D images.
Lecture Notes in Computer Science, v. 9256, p. 606-617 2015
16 T
3. Reveles, Fermín; Pérez- Abreu, Víctor; Nakamura, Miguel; Biscay, Rolando
20 A
Persistencia, Probabilidad e Inferencia Estadística para Análisis Topológico de Datos.
lio IM
Ju -CD
AT
26
AT
Ju -CD
lio IM
20 A
16 T
Método para simular puntos uniformemente distribuidos
sobre una superficie en Rn
Proyecto final de la clase:

Probabilidad e Inferencia Estadı́stica para Análisis Topológico de Datos
Centro de Investigación en Matemáticas, A.C.
16 T
20 A
lio IM
Ju -CD
AT
Alumnos:
Gilberto Flores
Yair Hernández
Licenciatura en Matemáticas
Universidad de Guanajuato
Profesores:
Fermı́n Reveles (Topologı́a)
Vı́ctor Pérez-Abreu (Probabilidad)
Miguel Nakamura (Inferencia Estadı́stica)
Rolando Biscay (Campos Aleatorios)
1
Índice
1. Introducción 3
2. Descripción del método 3
3. Método de aceptación-rechazo 4
4. Algunas observaciones 6
5. Simulaciones 7
6. Estimación de homologı́a persistente 10
7. Conclusiones 13
16 T
20 A
lio IM
Ju -CD
AT
2
1. Introducción
En este proyecto se presenta un algoritmo para simular puntos uniformemente distribuidos
sobre una superficie parametrizada m-dimensional contenida en Rn (m < n). Este trabajo se basa
en gran parte en el artı́culo de Diaconis, et al [2], el cual presenta el ejemplo del toro. Aquı́ se
explica con más detalle el método de aceptación-rechazo para este contexto y se presentan como
ejemplos la banda de Möbius y la botella de Klein, para la cual se utiliza una parametrización que
aparece en el artı́culo de Franzoni [4]. También se presentan estimaciones de los números de Betti
con simulaciones en el toro y la botella de Klein, utilizando la filtración dada por el estimador de
densidad tipo kernel.
El desarrollo del algoritmo consiste de 2 partes. En la primera parte se encuentra una función
de densidad correspondiente a una distribución uniforme sobre la superficie dada. En la segunda
parte se utiliza el método de aceptación-rechazo para simular los puntos a partir de la densidad
obtenida en la primera parte.
16 T
2. Descripción del método
20 A
Una idea que surge cuando se tiene una variedad parametrizada y se desean simular datos
lio IM
uniformemente distribuidos es simular parámetros uniformemente distribuidos (en el dominio) y
mapear estos Q puntos. En eln contexto de superficies parametrizadas se tiene generalmente una
función de m i=1 [ai , bi ] en R , de modo que elegir un punto de manera uniforme en el dominio
equivale a tomar un punto xi con distribución uniforme en el intervalo [ai , bi ], para i = 1, . . . , m
Ju -C
(xi , xj independientes para i 6= j) y ver qué punto corresponde a (x1 , . . . , xm ) en la superficie dada,
mediante la parametrización que se tenga. Por ejemplo, para el toro, con la parametrización que
se da en la sección 4 de este trabajo, el dominio es [0, 2π] × [0, 2π]. Luego elegir un punto con
D
distribución uniforme en el dominio equivale a elegir dos puntos (independientes) con distribución
uniforme en [0, 2π] y utilizar dicha parametrización para ver qué punto le corresponde sobre la
AT
superficie del toro. Posteriormente veremos ejemplos donde esta técnica proporciona resultados
distintos a lo deseado (que regiones con la misma área tengan unaQconcentración similar de puntos).
Es importante notar que si el dominio no es de la forma m i=1 [ai , bi ], distribución uniforme
en el dominio no necesariamente es equivalente a una distribución uniforme en cada uno de los
parámetros; por ejemplo, si el dominio es un cı́rculo (en R2 ), distribuir uniformemente en cada
coordenada dará puntos que pueden estar incluso fuera del dominio.
El método que se presenta es el expuesto en Diaconis et al. [2] y éste se basa en la fórmula
del área y en la medida de Hausdorff, ambas presentadas en las notas del curso (Teorema 3.6.8
y Definición 3.6.5). En la presentación correspondiente a este proyecto se incluyeron éstos re-
sultados y otro material de las secciones [1.6: Variedades] y [3.6: Probabilidades en variedades II:
medida geométrica], al cual aquı́ sólo se hace referencia. Por una parte la medida de Hausdorff nos
permite hablar del volumen de cualquier conjunto y, por otra parte, la fórmula del área
Z Z
m
g(f (x))Jm f (x)λ (dx) = g(y)N (f |A , y)Hn (dy)
A Rn
nos dice cómo obtener una muestra de cierta distribución con respecto a la medida de Hausdorff
desde una distribución en los parámetros. En nuestro caso f es la parametrización de la superficie
M que nos interesa y A es el dominio de f . Ahora bien, en la fórmula del área la integral es sobre
todo Rn , que en nuestro caso es R3 , pero N (f |A , y) = 0 para los y 6∈ f (A) y por lo tanto esta
3
integral es sobre M . Luego el problema se reduce a obtener puntos distribuidos según la densidad
dada por J2 f / vol(M ).
Dado que la función de densidad que resulta en los parámetros puede adquirir una forma muy
general se emplea el método de aceptación-rechazo para simularla.
3. Método de aceptación-rechazo
El método de aceptación-rechazo, mencionado en la introducción del Capı́tulo 4 de las notas
del curso, tiene como objetivo simular variables aleatorias con una densidad dada a partir de
simulaciones con otra densidad. En la presente sección presentamos algunos de los resultados más
relevantes respecto a este método. Se sugiere al lector revisar además el capı́tulo [3: Probabilidad]
de las notas del curso.
Sean f, g : Rm → R densidades tales que existe c > 0 tal que cg(x) ≥ f (x) para todo x ∈ Rm
(integrando ambos lados sobre todo Rm se tiene que si existe tal c se debe tener c ≥ 1). Supongamos
16 T
que se puede simular una variable aleatoria X con densidad g. Consideremos el siguiente algoritmo:
Se genera X con densidad g.
20 A
Se genera U independiente uniforme en [0, 1].
lio IM
Se hace T = c fg(X)
(X)
.
Se repiten los pasos anteriores hasta que U T ≤ 1. Cuando se cumpla la condición anterior
Ju -C
se hace Y = X.
Entonces Y tiene densidad f . Para verificarlo se utilizarán dos teoremas que se enuncian y
D
demuestran en Devroye [1].
Teorema 1. Sean X un vector aleatorio con densidad f en Rm , U independiente con distribución

AT
uniforme en [0, 1], y c > 0. Entonces (X, cU f (X)) se distribuye uniformemente en A = {(x, u) :
x ∈ Rm , 0 ≤ u ≤ cf (x)}. Si (X, V ) ∈ Rm+1 se distribuye uniformemente en A, entonces X tiene
densidad f en Rm .
Demostración. Sea B ⊆ A boreliano y Bx = {u : (x, u) ∈ B}. Aplicando el teorema de Tonelli

(Teorema 3.4.12 de las notas del curso) se tiene
Z Z Z
1 1
P ((X, cU f (X)) ∈ B) = du f (x)dx = du dx.
Rm Bx cf (x) c B
Pero c es igual al volumen de A, ası́ que X se distribuye uniformemente en A.

m
R Veamos ahora la segunda parte. Mostraremos que para todo B ⊂ R boreliano, P (X ∈ B) =
B
f (x)dx. En efecto,
P (X ∈ B) = P ((X, V ) ∈ B1 = {(x, v) : x ∈ B, 0 ≤ v ≤ cf (x)})

RR
dv dx
Z Z
B1 1
= RR = cf (x)dx = f (x)dx.
A
dv dx c B B
4
Teorema 2. Sean X1 , X2 , . . . una sucesión de v.a.i.i.d. con valores en Rm y A ∈ B(Rm ) tal que
P (X1 ∈ A) = p > 0. Sea Y la primera Xi que toma un valor en A. Entonces Y tiene una
distribución dada por
P (X1 ∈ A ∩ B)
P (Y ∈ B) = , B ∈ B(Rm ).
p
En particular, si X1 tiene distribución uniforme en A0 (A0 ⊇ A), entonces Y se distribuye unifor-
memente en A.
Demostración. Para B ⊂ Rm boreliano se tiene
∞
X
P (Y ∈ B) = P (X1 ∈/ A, . . . , Xi−1 ∈
/ A, Xi ∈ B ∩ A)
i=1
X∞
= (1 − p)i−1 P (X1 ∈ A ∩ B)
i=1
16 T
1 1
= P (X1 ∈ A ∩ B) = P (X1 ∈ A ∩ B).
1 − (1 − p) p
20 A
Si X1 se distribuye uniformemente en A0 ,
lio IM
R R R
P (X1 ∈ A ∩ B) dx dx dx
P (Y ∈ B) = = AR0 AB · R A0 = RAB ,
P (X1 ∈ A) A0
dx AA0
dx A
dx
que corresponde a la distribución uniforme en A.
Ju -C
Veamos entonces que Y dada por el método de aceptación rechazo tiene densidad f . Por la
primera parte del teorema 1, los (X, cU g(X)) ∈ Rm+1 generados se distribuyen uniformemente en
D
la región bajo cg. Luego por el teorema 2, (Y, cU g(Y )) se distribuye uniformemente en la región
bajo f , y por la segunda parte del teorema 1, Y tiene densidad f .
AT
En la práctica lo que se desea es minimizar el número de “rechazos”. Observamos que

Z
f (x)
P (f (X) ≥ cU g(X)) = P U≤ dx
Rm cg(x)
Z Z
f (x) 1 1
= dx = f (x)dx = .
Rm cg(x) c Rm c
Entonces si N es el número de iteraciones para obtener Y , tenemos
P (N = i) = (1 − p)i−1 p,
ası́ que el número esperado de iteraciones es 1/p = c. Luego valores de c cercanos a 1 darán
algoritmos más eficientes. Sin embargo no siempre es fácil tener valores de c cercanos a 1, pues eso
requiere que la densidad de g sea similiar a f , que puede tener una forma general.
Las densidades obtenidas en el contexto dado tienen formas muy variadas, ası́ que daremos una
forma general de aplicar el método de aceptación rechazo para simular en base a dichas densidades.
Supongamos que se tienen p, q > 0 fijas (pero desconocidas) tales que se pueden calcular los
valores de pg, qf , y tales que pg(x) ≥ qf (x) para todo x ∈ Rm . Integrando sobre Rm ambos lados
se tiene p ≥ q, de modo que c := p/q ≥ 1. Entonces
g(X) pg(X)
c = ,
f (X) qf (X)
5
ası́ que conocer los valores pg, qf bastan para aplicar el método de aceptación-rechazo. Por ejemplo,
supongamos que se conoce f salvo por una constante de normalización; esto es, se conoce qf .
También supongamos que conocemos una constante k que acota qf en su soporte. Entonces la
función constante k es un múltiplo pg de la densidad uniforme g en el soporte de f . Esta densidad
uniforme es fácil de simular porque usualmente se tendrá que elQsoporte de f será el dominio de
una parametrización de una variedad; esto es, será de la forma m i=1 [ai , bi ]. Conociendo qf y una
constante k tal que k ≥ qf (x) para todo x ∈ Rm la implementación del método aceptación-rechazo
quedarı́a como sigue:
Simulamos X con distribución g; es decir, con distribución uniforme en el soporte de f .
Simulamos U con distribución uniforme en [0, 1].
Hacemos T = c fg(X)
(X)
= pg(X)
qf (X)
= k
qf (X)
.
Se repite hasta que U T ≤ 1, y se hace entonces Y = X.
16 T
4. Algunas observaciones
20 A
lio IM
En el proyecto se trabajó con superficies y en este caso la siguiente observación es de especial
interés por las implicaciones que tiene.
Si M ⊂ R3 es una superficie
y f :M 0 ⊂ R2 → R3 una parametrización de ésta; denotemos a
∂f1 ∂f2 ∂f3
por ∂f y a ∂f 1 ∂f2 ∂f3
por ∂f

, , , , .
Ju -C
∂x ∂x ∂x ∂x ∂y ∂y ∂y ∂y
Ahora bien, en los puntos p ∈ M donde Df |u=f −1 (p) es de rango máximo se tiene que

∂f ∂f
D
|f −1 (p) , |f −1 (p)
∂x ∂y
AT
es una base de Tp (M ), que ha sido definido en la sección 1.6.3 de las notas, y por lo tanto
podemos preguntarnos por la matriz, con respecto a esta base, asociada al producto punto en
Tp (Mp) inducido por el producto punto de R3 . Si denotamos a dicha matriz por Ip , se puede ver
que det(Ip ) = J2 f |u=f −1 (p) . p
De ésto, la densidad que obtenemos en los parámetros es la función dada por det(Ip )/ vol(M ).
Ası́, obtenemos que si esta densidad pes la densidad de la distribución uniforme en los parámetros,
0
la parametrización debe satisfacer det(Ip ) = vol(M )/ vol(M ).
Lo anterior nos indica que no en todas las superficies puede encontrarse una parametrización
para la cual una muestra de la distribución uniforme en los parámetros tenga como imagen una
muestra con la distribución uniforme con respecto a la medida geométrica. Más aún, lo anterior nos
indica la manera en que la geometrı́a intrinseca de la superficie está influyendo en la distribución
de los parámetros.
En el proyecto se simularon puntos en la botella de Klein, en el toro y en la banda de Möbius.
Para el caso de la botella de Klein se empleó la parametrización de Dickson, presentada en Franzoni
[4].
Especı́ficamente las parametrizaciones empleadas para cada objeto son las siguientes:
6
1. Toro:
x = (R + r cos(θ)) cos(φ),
y = (R + r cos(θ)) sin(φ),
z = r sin(θ),
donde (θ, φ) ∈ [0, 2π] × [0, 2π] y 0 < r < R.
2. Botella de Klein:
(
6 cos(u)(1 + sin(u)) + 4(1 − 12 cos(u)) cos(u) cos(v) si 0 ≤ u ≤ π,
x=
6 cos(u)(1 + sin(u)) + 4(1 − 12 cos(u)) cos(v + π) si π < u ≤ 2π,
(
16 sin(u) + 4(1 − 21 cos(u)) sin(u) cos(v) si 0 ≤ u ≤ π,
y=
16 sin(u) si π < u ≤ 2π,
16 T
1
z = 4(1 − cos(u)) sin(v),
2
20 A
con (u, v) ∈ [0, 2π] × [0, 2π].
lio IM
3. Banda de Möbius
v
x = (R + u cos( )) cos(v),
2
Ju -C
v
y = (R + u cos( )) sin(v),
2
v
z = u sin( ),
D
2
donde (u, v) ∈ [−w, w] × [0, 2π] con w > 0.
AT
5. Simulaciones
Existen implementaciones más simples para casos particulares (por ejemplo, J2 tiene una forma
sencilla para el toro), pero para una superficie parametrizada (x(u, v), y(u, v), z(u, v)) se tiene el
siguiente procedimiento:
1. Programar funciones coordenadas x(u, v), y(u, v), z(u, v).
2. Programar (explı́citamente) derivadas parciales de x, y, z respecto de u, v.
3. Calcular J2 de dicha parametrización.
4. Programar aceptación-rechazo utilizando J2 y una constante que lo acote.
5. Obtener muestra de tamaño deseado y evaluar los puntos en las funciones del paso 1.
Como ha sido mencionado anteriormente, la forma de la función de densidad obtenida en

los parámetros puede ser muy general. Para ilustrar lo siguiente se presentan las gráficas de las
funciones de densidad de los parámetros obtenidas para el caso de la botella de Klein y para el
caso de la banda de Möbius (en ese orden, sin dividir entre las constantes de normalización):
7
Es claro que dichas densidades son distintas a la densidad que se tendrı́a simulando puntos
con distribución uniforme en el dominio (como se describe al inicio de la sección 2), pues en ese
caso las densidades son una función constante en el dominio. Un proyecto futuro puede consistir
en estudiar teoricamente las densidades presentadas anteriormente.
A continuación presentamos ilustraciones para 500 puntos generados por el método mencionado,
16 T
comparando con 500 puntos obtenidos con distribución uniforme en el dominio.
20 A
Toro, con medida de Hausdorff:
lio IM
Ju -CD
AT
Toro, uniforme en el dominio:
8
Botella de Klein, con medida de Hausdorff
Botella de Klein, uniforme en el dominio:
16 T
20 A
lio IM
Ju -CD
Banda de Möbius, con medida de Hausdorff:

AT
9
Banda de Möbius, uniforme en el dominio:
6. Estimación de homologı́a persistente
16 T
Para el cálculo de los diagramas de persistencia se ha empleado como filtración la dada por
20 A
un estimador de densidad tipo kernel, que fueron presentados en la sección 5.4.5 de las notas del
curso. Conviene tomar ésta sobre otras, por que se espera que con este tipo de filtración se noten
lio IM
las diferencias entre las nubes de puntos generados con una y otra distribución.
Las especificaciones técnicas de la computadora donde se realizaron son:
Ju -C
Procesador: 1.60GHz 4 nucleos,
Memoria RAM: 6.00 GB,

D
Sistema operativo: Ubuntu 14.04 64 bits.

AT
Los diagramas presentados a continuación se obtuvieron con el software R, empleando las

funciones bootstrapBand y gridDiag de la librerı́a TDA. En los cuatro diagramas de persistencia se
ha utilizado una banda de confianza del 95 %.
Los diagramas que tienen como tı́tulo “Medida H.” corresponden a la distribución uniforme
con respecto a la medida de Hausdorff; los que tienen como tı́tulo “Uniforme” corresponden a
la distribución uniforme en el dominio, n corresponde al número de puntos que se utilizan, h
corresponde al ancho de banda del estimador de densidad y by a la distancia de la malla empleada
para evaluar la función de densidad estimada.
Sobre la implementación conviene mencionar algunas observaciones. Para este tipo de filtración
conviene tomar un número grande de puntos, pues proporcionará un mejor estimador de densidad,
y en contraste con otras filtraciones (como la de Rips), el tiempo que toma calcular el diagrama de
persistencia no se ve muy afectado por el número de puntos. Teniendo entonces un número grande
de puntos (7500 en esta implementación), el desempeño queda determinado por los parámetros
by y h. Para el parámetro by conviene tomar valores pequeños, pues con una malla con puntos
distanciados omitirá caracterı́sticas de interés; pero no debe ser tan pequeño, pues el tiempo
que toma calcular la banda de confianza incrementa muy rápido. El valor de h no afecta mucho
el tiempo de la implementación, pero también es (evidentemente) de gran importancia: valores
muy pequeños causarán variaciones abruptas en el estimador de densidad alrededor de los datos
(lo cual se verá reflejado con mucho “ruido” topológico) y con valores muy grandes se perderán
10
mı́nimos/máximos del estimador de densidad (lo cual se verá reflejado con omisión de componentes
de interés en el diagrama de persistencia).
Sabemos que los números de betti, tomando los coeficientes en Z2 , de la botella de Klein y del
Toro son; β0 = 1, β1 = 2 y β2 = 1. Como veremos a continuación, para el caso de los diagramas de
persistencia calculados con la distribución uniforme respecto a la medida de Hausdorff, los puntos
que quedan fuera de la banda (los que pueden ser interpretados como señal topológica y no como
ruido) son aquellos que se esperan (los número de puntos negros, rojos, azules corresponden a β0 ,
β1 y β2 respectivamente).
Los primeros dos diagramas corresponden a los obtenidos tomando puntos en el toro con la
distribución especificada en cada imagen. La primera observación que surge al compararlos es que,
como se mencionó anteriormente, en el diagrama que corresponde a los puntos con distribución
uniforme respecto a la medida de Hausdorff se obtienen los puntos esperados.
16 T
20 A
lio IM
Ju -CD
AT
11
16 T
20 A
lio IM
Los dos diagramas siguientes corresponden a los obtenidos tomando puntos en la botella de
Klein con la distribución especificada en cada imagen.
Ju -CD
AT
12
16 T
20 A
lio IM
Notemos que en ambos casos, tanto para la botella de Klein como para el Toro, la distribución y
el tipo de filtración ha marcado una gran diferencia entre los diagramas de persistencia obtenidos.
Por ejemplo, en el caso del último diagrama, basándonos en los puntos fuera de la banda tendrı́amos
Ju -C
que la estimación de los números de betti son 1, 0 y 1, que no corresponden a la botella de Klein
sino a una esfera.
D
7. Conclusiones
AT
La medida de Hausdorff permite relacionar las propiedades intrı́nsecas de la variedad donde los
datos se encuentran, lo cual es esencial cuando se está simulando sobre variedades: si se desea, se
puede evitar concentrar datos en ciertas regiones. Esto proporciona un camino para retroalimentar
las técnicas vistas hasta ahora en el análisis topológico de datos, y aquellas que se desarrollen
posteriormente.
Desde el punto de vista computacional, se resalta poder omitir el tener que normalizar Jm f
(lo cual requiere integrar numéricamente). Sin embargo, si se trabaja en altas dimensiones, una
dificultad ineludible es el cálculo de un determinante al evaluar Jm f en varios puntos, pues en altas
dimensiones esto es costoso.
Visualmente es evidente que distribuciones distintas proporcionan gráficas distintas, ası́ que un
problema que se desprende es: dada una nube de puntos distribuida sobre una superficie dada,
inferir caracterı́sticas de la distribución de la cual provienen. En caso de que se tengan datos
provenientes de dos o más distribuciones, se podrı́a emplear MAPPER (proyecto elaborado por
Pérez Angulo) para ilustrar con mayor claridad las diferencias entre ellas.
Otro tema que de aquı́ se puede desprender es utilizar las técnicas presentadas en otros proyectos
para comparar los códigos de barras y diagramas de persistencia generados.
En el artı́culo de Franzoni [4] se encuentran parametrizaciones que dan formas distintas a la
“clásica”(que es la que se utiliza en este proyecto), sobre las cuales también se pueden simular
puntos utilizando los procedimientos aquı́ descritos. Un posible tema a tratar a futuro es comparar
13
las estimaciones de homologı́a persistente como se hizo aquı́ con el toro y una parametrización de
la botella de Klein.
Referencias
[1] Devroye, Luc. Non-uniform Random Variate Generation. New York: Springer-Verlag, 1986.
[2] Diaconis, Persi, Susan Holmes y Mehrdad Shahshahani. “Sampling from a Manifold.”Advances
in Modern Statistical Theory and Applications: A Festschrift in Honor of Morris L. Eaton
Institute of Mathematical Statistics Collections (2013): 102-25.
[3] Federer, Herbert. Geometric Measure Theory. Berlin: Springer, 1996.
[4] Franzoni, Gregorio. “The Klein Bottle: Variations on a Theme.”Notices of the American Mat-
hematical Society 59.08 (2012): 1076.
16 T
20 A
lio IM
Ju -CD
AT
14
UTILIZANDO MAPPER
Y COMPLEJOS TESTIGO
Proyecto final de la clase:
Probabilidad e Inferencia Estadística para Análisis Topológico de Datos
Centro de Investigación en Matemáticas, A.C.
16 T
20 A
lio IM
Ju -CD
AT
Alumno:
Jesús Manuel Pérez Angulo

Maestría en Probabilidad y Estadística
profesores
Fermín Reveles (Topología)
Víctor Pérez-Abreu (Probabilidad)
Miguel Nakamura (Inferencia Estadística)
Rolando Biscay (Campos aleatorios)
Índice
1. Introducción 3
I Marco teórico 4
2. Complejos testigo 4
2.1. Denición de W (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Elección de los puntos de referencia L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Familias anidadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Algoritmo Mapper 5
3.1. Construcción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1. Motivación y antecedentes topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.2. Estructura multiresolución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2.1. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
16 T
3.2.2. Espacios parametrales de dimensiones mayores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3. Funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
20 A
3.3.1. Kernel gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3.2. Exentricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3.3. Laplacianos de grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
lio IM
3.3.4. Componentes de la SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4. Agrupamiento jerárquico 8
4.1. Distancia mínima o similitud máxima (Single linkage) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Ju -C
5. Descomposición en Valores Singulares 8

D
II Uso de software 9
6. Paquetería TDA de R 9
AT
6.1. Complejo Vietoris-Rips . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

6.2. Bandas de conanza en diagramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7. Javaplex en Matlab 11
7.1. Complejo testigo fuerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7.2. Complejo testigo débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8. Python Mapper 12
III Análisis de características homológicas, geométricas y de costo computacional 16

9. Contexto 16
10.Circulo unitario 17
10.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
10.2. N(0,1), ruido σ = 0.003 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
10.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
10.4. N(0,Σ), ρ = 0.95 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
10.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
10.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
10.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
10.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
10.9. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1
10.10.Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
10.11.Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.12.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
10.13.Cauchy(0,3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
10.14.Cauchy(0,3), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
10.15.Cauchy(0,3), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.Doble anillo 31
11.1. N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.2. N (0, 1), ruido σ = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
11.3. N (0, 1), ruido σ = 0.009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
12.Esfera unitaria 35
12.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
12.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
12.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
12.4. N3 (0, Σ), ρ = (0.9, 0.5, 0.8) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
12.5. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
16 T
12.6. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
12.7. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
20 A
12.8. Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
12.9. Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
12.10.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
lio IM
13.Toro 44
13.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
13.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Ju -C
13.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

13.4. N (0, Σ), ρ = 0.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
13.5. N (0, Σ), ρ = 0.9, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
13.6. N (0, Σ), ρ = 0.9, ruido σ = 0.1 .
D
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
13.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
13.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
AT
13.9. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

13.10.Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
13.11.Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
13.12.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
IV Observaciones y conclusiones 57
2
Resumen
En este proyecto se abordan dos alternativas a las construcciones simpliciales usuales vistas en el curso. La primera
son los complejos testigo, mismos que se basan en una submuestra de una nube de datos dada, de donde a partir de tal
selección se construye el complejo simplicial utilizando la muestra completa como soporte. La segunda alternativa es
utilizar un algoritmo llamado Mapper, el cual centra su idea en la selección de funciones de referencia y en un método
estadístico particular: el clustering. Esto con un propósito simple, construir un grafo que exprese las características
geométricas de nuestra nube de datos. Se presentan los resultados de un estudio de simulación comparativo entre
estos dos algoritmos y el ya conocido Vietoris-Rips, analizando diversos escenarios de distribuciones y ruido sobre las
variedades S1 , S2 y T2 , utilizando distintos tamaños de muestra para cada una. Finalmente, se presenta también un
pequeño tutorial sobre el software actual disponible para calcular persistencia y una implementación en Python del
algoritmo Mapper.
1. Introducción
Sabemos que una de las problemáticas principales al aplicar el Análisis Topológico de Datos es el costo o viabilidad
16 T
computacional. De los primeros enfoques para el cálculo de la homología persistente fue la ltración de ech, la cual
llegado un punto en la misma, crea simplejos con dimensión muchísimo más grande que la del espacio ambiente así como
20 A
un sin número de simplejos en cada paso. Una forma de relajar el cálculo de la homología usando la ltración de ech es
mediante la ltración de Vietoris-Rips, pero aún ésta sigue presentando el problema de encontrar simplejos de dimensión
lio IM
mucho mayor a la del espacio ambiente de nuestros datos.
En este proyecto presentamos algunas alternativas presentadas por Carlsson, De Silva, Mémoli y Singh (ver [2] y [6]).
En el primer enfoque se presentan los complejos testigo, mismos que se basan en una selección de puntos de referencia L de
una nube de puntos mediante un método particular de muestreo. A partir de ellos se construye un complejo simplicial que
Ju -C
evite sobremanera la construcción de simplejos innecesarios así como el incremento en la dimensionalidad de los mismos. El
segundo enfoque es el algoritmo Mapper, el cual se basa en elección de funciones que van de la nube de puntos a un espacio
euclideano, así como de métodos de agrupamiento (clustering) para crear simplejos de dimensión pequeña (regularmente
1 y 2) que nos permitan describir la estructura de los datos.
D
Uno de los objetivos de este proyecto es evaluar la aplicación de estas técnicas, explorando ventajas y desventajas de las
mismas y con respecto al algoritmo Vietoris-Rips. Para ello, realizamos un estudio de simulación comparativo entre estos
métodos, ante diversos escenarios controlados de diferentes distribuciones y tipos de ruido sobre una misma variedad. Se
AT
consideran tres variedades y se utilizan distintos tamaños de muestra ya que el costo computacional depende del tamaño
de cada una de estas variedades.
En la Parte I de este trabajo presentamos una breve descripción del método de agrupamiento jerárquico poniendo
especial énfasis en el modelo Single linkage clustering, así como la explicación de la descomposición en valores singulares
(SVD) de una matriz de tamaño m×n arbitrario, pues son las herramientas principales que se utilizan en el algoritmo
Mapper, el cual que se describe en esta misma sección. También se presentan conceptos y el desarrollo teórico de los
complejos testigo.
Dado que el proyecto se basa fuertemente en la realización de simulaciones, así como de manipulación de los datos
para realizar nuestro análisis, en la Parte II de este documento damos una breve introducción a las paqueterías que se
utilizarán para las simulaciones y análisis en este proyecto, las cuales incluyen la paquetería TDA del software estadístico
R, las librerías de Javaplex implementadas en Matlab, así como una aplicación compilada sobre Python, llamada Python
Mapper. La intensión de esta parte es que el lector tenga un primer acercamiento al software utilizado en el ATD.
La parte central de nuestro proyecto se presenta en la Parte III, donde se realiza una serie de simulaciones sobre
el círculo unitario S1 , la esfera unitaria S2 y el toro tridimensional T2 usando las técnicas de simulación de variables
aleatorias presentadas en el Capítulo 4 de las notas del curso. En base a estas simulaciones, realizamos un análisis de los
resumenes topológicos, donde interpretamos la persistencia de características homológicas, así como algunas características
geométricas que nos brinda Mapper para las nubes de datos generadas, tratando de ver similitudes y diferencias entre
cada algoritmo, y comparando también su eciencia computacional. Como resúmenes presentamos: los diagramas de
persistencia, códigos de barra y grafos Mapper.
Por último, en la parte IV damos conclusiones de todos los hallazgos encontrados a lo largo del proyecto, así como
algunas recomendaciones y proyectos a desarrollar a corto plazo.
3
Parte I
Marco teórico
2. Complejos testigo
La idea de los complejos testigo es que estos imiten el comportamiento de las triangulaciones de Delaunay en la
geometría intrínseca de un conjunto de datos X. Se toma un conjunto de puntos de referencia L⊂X y el resto de los
puntos toman un rol para determinar qué simplejos aparecen en el complejo simplicial. Sin embargo, su interpretación no
es tan difícil como la de una triangulación de Delaunay.
2.1. Denición de W (D)

Sea D la matriz n×N que contiene las distancias entre el conjunto de los n puntos de referencia y los N datos en X.
Se dene el complejo testigo (estricto) W∞ (D) con conjunto de vértices {1, 2, ..., n} como sigue:
La arista σ = [ab] pertenece a W∞ (D) si y solo si existe un punto 1 6 i 6 N tal que D(a, i) y D(b, i) son las dos
entradas más pequeñas en la i−ésima columna de D, en algún orden.
16 T
Mediante inducción en p: supóngase que todas las caras del p−simplejo σ = [a0 a1 · · · ap ] pertenecen a W∞ (D).
20 A
Entonces, σ pertenece a W∞ (D) si y solo si existe un punto 1 6 i 6 N tal que D(a0 , i), D(a1 , i), ..., D(ap , i) son las
p+1 entradas más pequeñas de la i−ésima columna, en algún orden.
lio IM
En cada caso i es considerado un testigo de la existencia de σ.
Existe también una versión oja de un complejo testigo. Formalmente, se dene W1 (D) ⊇ W∞ (D) como sigue:
W1 (D) tiene el mismo 1− esqueleto que W∞ (D).

Ju -C
El p−simplejo σ = [a0 a1 · · · ap ] pertenece a W1 (D) si y solo si cada una de sus aristas pertenece a W1 (D).
Nota: Esta construcción se puede aplicar para cualquier matriz de distancias D, bajo la distancia euclidiana o cualquier
otra métrica. En particular, una alternativa importante es la métrica intrínseca del grafo DG , la cual se dene calculando
D
las distancias en un grafo adecuado G con vértices todos los puntos en X .En algunas situaciones es mejor utilizar la
métrica intrínseca.
AT
A partir de aquí, usamos la notación W (D) para referirnos a W1 (D).
2.2. Elección de los puntos de referencia L

Existen dos maneras de elegir los puntos de referencia: de manera aleatoria, o mediante un proceso iterativo llamado
maxmin. El proceso maxmin se dene como sigue:
Selecciónese `1 ∈ X de manera aleatoria.
Inductivamente, si `1 , `2 , ..., ì−1 han sido elegidos, sea ì ∈ X\{`0 , `1 , ..., ì−1 } el punto que maximiza la función
x 7→ mı́n{D(x, `1 ), D(x, `2 ), ..., D(x, ì−1 },
donde D es la métrica.
Continúese hasta que se hayan elegido el número deseado de puntos.
Los puntos elegidos mediante maxmin tienden a estar más espaciados, pero son suceptibles a tomar outliers. El número
de puntos de referencia a elegir deben ser tales que la razón N/n esté acotada. Los autores sugieren esta cota como 20 de
manera heurística debido a los experimentos realizados por ellos mismos.
4
2.3. Familias anidadas
Supóngase que D es una matriz n × N de distancias, como se denió antes. Para cada entero no negativo ν construímos
una familia de complejos simpliciales W (D; ε, ν) donde ε ∈ [0, ∞]. El conjunto de vértices de W (D; ε, ν) es {1, 2, ..., n}.
Denimos entonces:
Si ν = 0, entonces para i = 1, 2, ...N denimos mi = 0.

Si ν > 0, entonces para i = 1, 2, ..., N denimos mi como la ν−ésima entrada más pequeña de la i−ésima columna
de D.
La arista σ = [ab] pertenece a W (D; ε, ν) si y solo si existe un testigo i ∈ {1, 2, ..., N } tal que
máx(D(a, i), D(b, i)) 6 ε + mi .
El p−simplejo σ = [a0 a1 · · · ap ] pertenece a W (D; ε, ν) si y sólo si todas sus caras pertenecen a W (D; ε, ν); equiva-
lentemente si y sólo si existe un testigo 1 6 i 6 N tal que
máx(D(a0 , i), D(a1 , i), ..., D(ap , i)) 6 ε + mi
16 T
Nótese la identidad W (D; 0, 2) = W (D) = W1 (D). Los casos de ν = 0, 1, 2 son de particular importancia pues para:
20 A
ν = 0: La familia de complejos W (D; ε, 0) está cercanamente relacionada a la familia de complejos Rips R(L; ε).
Especícamente, se cumplen las siguientes inclusiones:
lio IM
W (D; ε, 0) ⊆ Rips(L; 2ε) ⊆ W (D; 2ε, 0).
ν = 1: Se puede interpretar como proveniente de una familia de cubiertas del espacio X mediante regiones de Voronoi
Ju -C
que rodean cada punto de referencia, las cuales se traslapan cuando ε → ∞.
nu = 2: Recuérdese que se tenía la siguiente identidad en ε=0

D
W (D; 0, 2) = W (D).
En la práctica, las familias con ν = 2 aparentemente dan intervalos de persistencia más claros, con poco ruido. Una
AT
explicación de esto se debe a la identidad recién mencionada, pues el complejo simplicial está esencialmente correcto
cuando ε = 0, por lo que es necesario incrementar un poco el valor de ε.
3. Algoritmo Mapper
3.1. Construcción
Se da primero, una idea general de la motivación topológica que da lugar a este nuevo método. Posteriormente se
presentan detalles sobre la implementación, así como la utilización de algunas funciones de referencia en las que se basa
el algoritmo.
3.1.1. Motivación y antecedentes topológicos
Ya se ha denido previamente el nervio de una cubierta U X , y se puede oibtener información extra de esta, de
de
una partición de unidad se puede obtener una función que vaya de X a N (U). Una partición de unidad subordinada a la
cubierta abierta nita U es una familia de funciones real valueadas {ψα }α∈A con las siguientes propiedades:
0 6 ψα (x) 6 1 para todo α ∈ A y x ∈ X .

P
σ∈A ψα (x) = 1 para todo x ∈ X .
La cerradura del conjunto {x ∈ X|ψα (x) > 0} está contenida en el conjunto abierto Uα .
5
Recordemos que podemos representar los puntos en un k−simplejo mediante sus coordenadas baricéntricas (r0 , r1 , ..., rk ).
Denamos T (x) ⊆ A como el conjunto de todos los x ∈ Uα . Denamos ρ(x) ∈ N (U) el punto en el simpejo
α tales que
generado por los vértices α ∈ T (x), cuyas coordenadas baricéntricas son (ψα0 , ψα1 , ..., ψαl ) donde {α0 , α1 , ..., αl } es alguna
enumeración del conjunto T (x). La función ρ resulta ser continua y además otorga una çoordenización"parcial al conjunto
X con valores en N (U).
Supongamos que tenemos un espacio X y una función continua f : X → Z a un espacio de parámetros Z , que además
el espacio Z cuenta con una cubierta abierta U = {Uα }α∈A , para un conjunto nito de índices A. Dada la continuidad de f ,
−1
los conjuntos f (Uα ) forman una cubierta abierta para X . Y para cada α, considérese la descomposición de f −1 (Uα ) en
−1
Sjα
sus componentes conexas, de modo que se pueda escribir f (Uα ) = i=1 V (α, i) donde jα es el número de componentes
−1
conexas en f (Uα ). Denotamos Ū a la cubierta de X obtenida de esta manera.
3.1.2. Estructura multiresolución
Para denir la multiresolución, necesitamos denir un mapeo de cubiertas, el cual, dadas dos cubiertas U = {Uα }α∈A
y V = {Vβ }βinB es una función f :A→B tal que para cada α ∈ A, se tiene que Uα ⊆ Vf (α) para cada α ∈ A. Se presenta
el siguiente
Ejemplo 1. Sean X = [0, N ], y ε > 0. Los conjuntos Ilε = (l − ε, l + ε + 1) ∩ X , para l = 0, 1, ..., N − 1 forman una
0
16 T
cubierta abierta Iε para X . Todas las cubiertas Iε tienen el mismo conjunto de índices, y para ε 6 ε , el mapeo identidad
ε ε
en el conjunto de índices es un mapeo de cubiertas dado que Il ⊂ Il .
20 A
Nótese que si tenemos dos cubiertas U y V y un mapeo de cubiertas f , entonces existe un mapeo inducido de complejos
simpliciales N (f ) : N (U → N (V , dado sobre los vértices por el mapeo f . En consecuencia, si tenemos una familia de
lio IM
cubiertas {Ui }i∈n y mapeos de cubiertas fi : Ui → Ui+1 para cada i, obtenemos un diagrama de complejos simpliciales y
mapeos simpliciales
N (f0 ) N (f1 ) N (fn−1 )
N (U0 ) −→ N (U1 ) −→ · · · −→ N (UN )
Retomando el caso del espacio X y la función f : X → Z, y un mapeo de cubiertas U → V, existe el correspondiente
Ju -C
mapeo de cubiertas Ū → V̄ .
3.2. Implementación
D
Se pasa de la idea teórica a la implementación mediante estadística, usando técnicas de agrupamiento para realizar la
partición del espacio de interés en componentes conexas.
AT
Primero, encontramos el rango I de la función restringida a los puntos dado. Particionamos el rango I en un conjunto
de intervalos más pequeños S que se traslapan para encontrar una cubierta de los datos dados. De modo que tenemos dos
p y la longitud de los intrvalos de S . Luego, para
parámetros para modicar la resolución, a saber el porcentaje de traslape
cada intervalo Ij ∈ S , Xj = {x|f (x) ∈ Ij }. Claramente la familia de conjuntos {Xj }
encontramos el conjunto de puntos
forman una cubierta para X . Para cada conjunto Xj encontramos clusters {Xjk }. De modo que tratamos cada cluster
como un vértice en nuestro complejo y dibujamos una arista entre los vértices siemrpe que Xjk ∩ Xlm 6= ∅.
3.2.1. Agrupamiento
Mapper no impone ningún tipo de condiciones sobre el algoritmo de agrupamiento, de modo que cualquiera que se
especique sobre el dominio puede funcionar.
3.2.2. Espacios parametrales de dimensiones mayores
Para obtener información sobre características de agujeros dimensionales de orden mayor es necesario contruir un
complejo simplicial de dimensión mayor utilizando el número de ltros requeridos. Así mismo, cualquier cubierta del
espacio parametral puede funcionar, pero deberíamos tener en cuenta que cuanto más intersecciones haya en esta habra
complejos simpliciales de orden mayor.
Consideraremos el caso particular R2
usando dos funciones ltro f1 , f2 y el rango de éstas cubierto por rectángulos.
Tenemos la región R = [mı́n f1 , máx f1 ]×[mı́n f2 , máx f2 ]. De modo que tenemos una cubierta de R tal que cada Ai,j , Ai+1,j
se intersectan al igual que cada Ai,j , Ai,j+1 . Un algoritmo para calcular un complejo simplicial reducido es el siguiente:
1. Para cada i, j , elíjanse los puntos para los cuales los valores de las funciones f1 , f2 caen en Ai,j . Encuéntrese los
clusters para este cojunto y consíderese que cada cluster representa un vértice (0−simplejo). Manténgase una lista
de vértices para cada Ai,j y un conjunto de índices para los puntos de cada cluster.
6
2. Para todos los vértices en los conjuntos {Ai,j , Ai+1,j , Ai,j+1 , Ai+1,j+1 }, si la intersección de los clusters asociados
con los vértices es no vacía añadimos una arista (1− simplejo).
3. Cuando los clusters correspondientes a cualesquiera 3 vértices tengan intersección no vacía, añadimos un triángulo
(2−simplejo) con esos 3 vértices.
4. Cuando los clusters correspondientes a cualesquiera 4 vértices tengan intersección no vacía, añadimos un tetraedro
(3−simplejo) con esos 4 vértices.
Es fácil extener Mapper a un espacio parametral de dimensión mayor de manera similar.
3.3. Funciones
El algoritmo Mapper es altamente dependiente de los ltros que se eligen para particionar el conjunto de datos. Se
asume que la nube de puntos está dotada de una función distancia d(x, y), se mencionan a continuación algunas de las
funciones utilizadas en Mapper que describen algunas propiedades estructurales de los datos:
3.3.1. Kernel gaussiano
16 T
Para ε > 0, tenemos el estimador de densidad
−d(x, y)2

20 A
X
fε (x) = Cε exp ,
y
ε
lio IM
R
donde x, y ∈ X y Cε es una constante tal que fε (x)dx = 1. El parámetro ε controla la suavidad del estimador de la
densidad de los datos.
Ju -C
3.3.2. Exentricidad
La idea intuitiva es encontrar los puntos que se encuentren alejados de un centro. Dado 1 6 p 6 +∞,
p1
d(x, y)p
P
D
y∈X
Ep (x) = , con x, y ∈ X.
N
AT
Se puede extender la denición a p = +∞ haciendo E∞ (x) = máxx0 ∈X d(x, x0 ). En general, tiende a tomar valores
grandes para puntos que estan alejados de un centro.
3.3.3. Laplacianos de grafos
Esta familia de funciones se origina de considerar el operador Laplaciano de un grafo denido como sigue: El conjunto
de vértices de este grafo es el conjunto X de todos los puntos, y el peso de las aristas entre los puntos x, y ∈ X es
w(x, y) = k(d(x, y))
donde k es un kernel de suavizamiento. Una matriz Laplaciana del grafo (normalizada) se calcula como
w(x, y)
L(x, y) = pP pP .
z w(x, z) z w(y, z)
De este modo, los eigenvectores de la matriz Laplaciana normalizada del grafo nos dan un conjunto de vectores ortogonales
que nos brindan información geométrica interesante de la nube de datos.
3.3.4. Componentes de la SVD
En dos secciones subsecuentes describimos de qué se trata la SVD (Descomposición en Valores Singulares), se pueden
utilizar proyecciones sobre las primeras componentes para obtener información geométrica de los datos. En este proyecto
particularmente, utilizamos las dos primeras componentes.
7
4. Agrupamiento jerárquico
Existen dos tipos de métodos generales dentro de los catalogados en esta categoría, están aquellos que mezclan grupos
para formar uno nuevo (aglomerativos o ascendentes) y aquellos que separan un grupo existente para dar lugar a dos
nuevos (disociativos o descendentes). Estos métdos a su vez, presentan una gran diversidad de variantes
Haremos énfasis especial en los métodos aglomerativos, pues es en los que se basa el análisis que realizamos en este pro-
yecto. Estas paqueterías están implementadas en diversos softwares estadísticos bajo el nombre de AGNES (AGglomerative
NESting).
La idea general de los métodos aglomerativos es la siguiente.
1. Inicie con tantos grupos como puntos haya, donde cada punto va en uno y solo un grupo. La medida de similaridad
entre grupos en este paso es igual a la distancia entre los puntos que contiene cada grupo.
2. Encuentre el par de grupos más cercanos (con mayor similitud) y mézclelos en un solo grupo.
3. Calcule las distancias (similaridades) entre el nuevo grupo y cada uno de los grupos antiguos.
4. Repita los pasos 2 y 3 hasta que se alcanze un número deseado de grupos o todos los puntos se hayan mezclado en
un solo grupo.
16 T
Los métodos jerárquicos nos permiten la constucción de un árbol de clasicación ,llamado dendograma (4), el cual nos
muestra cuáles grupos se van uniendo y a qué nivel lo hacen, así como la medida de asociación entre los grupos cuando
20 A
estos se mezclan (nivel de fusión).
lio IM
Ju -CD
AT
Figura 1: Ejemplo de dendograma
Dentro de nuestro particular interés sobre los métodos aglomerativos, explicaremos una de las variantes, los métodos
linkage clustering (que traduciremos como amalgamamiento).
4.1. Distancia mínima o similitud máxima (Single linkage)

En este método se considera que la distancia o similitud entre dos grupos está dada, respectivamente por la distancia
mínima (o máxima similitud) entre sus componentes.
De este modo, tras efectuar k pasos, tendremos formados n−k grupos, de esta manera la distancia entre dos grupos
Gi (con ni puntos), Gj (con nj puntos) sería:
d(Gi , Gj ) = mı́n {d(xl , xm )} , l = 1, ..., ni ; m = 1, ..., nj (1)

xl ∈Gi xm ∈Gj
Por otro lado, si usamos una medida de similitud entre grupos, tendríamos:
s(Gi , Gj ) = máx {s(xl , xm )} , l = 1, ..., ni ; m = 1, ..., nj (2)

xl ∈Gi xm ∈Gj
5. Descomposición en Valores Singulares
La Descomposición en Valores Singulares (SVD por sus siglas en inglés) nos dice que dada una matriz A arbitraria de
tamaño m × n (m > n). Entonces podemos descomponerla como
A = U ΣV T (3)
8
donde las matrices U es una matriz de m × n que satisface que U T U = In y la matriz V es una matriz de n × n que
T
satisface que V V = In , y Σ = diag(σ1 , σ2 , ..., σn ) con σ1 > σ2 > · · · σn > 0.
Las columnas u1 , . . . , un de la matriz U son llamados valores singulares izquierdos, mientras que las columnas v1 , ..., vn
de la matriz V son llamados vectores singulares derechos. Los valores σi son llamados valores singulares.
Existe un gran número de propiedades algebraicas y geométricas importantes de la SVD, de las más importantes son
las siguientes:
1. Supóngase que la matriz A es simétrica, con valores propios λi y vectores propios ortonormales vi . En otras palabras,
A = U ΛV T es una descomposición propia de A, con Λ = diag(λ1 , ..., λn ), y U T U = I . Entonces una SVD de A es
A = U ΣV T , donde σi = |λi | y vi = signo(λi )ui donde signo(0) = 1.
2. Los valores propios de la matriz simétrica AT A son σi2 . Los vectores singulares derechos vi son sus vectores propios
ortonormales correspondientes.
3. Los valores propios de la matriz simétrica AAT son σi2 y m − n ceros. Los vectores singulares izquierdos ui son
los vectores propios correspondientes a los valores propios σi2 . Se pueden tomar cualesquiera m − n otros vectores
ortogonales como vectores propios para el valor propio 0.
0 AT

4. Sea , donde A es cuadrada y A = U ΣV T es la SVD de A. Sean Σ = diag(σ1 , ..., σn ), U = [u1 , ..., un ] y
16 T
A 0

1 v i
V = [v1 , ..., vn ]. Entonces los 2n valores propios de H son ±σi , con vectores propios correspondientes √ .
20 A
2 ±ui
5. Si A es de rango completo, la solución de mı́nx kAx − bk2 es x = V Σ−1 U T b.

lio IM
6. kAk2 = σ1 . Si A es cuadrada y no singular, entonces kA−1 k−1
2 = σn y kAk2 · kA−1 k2 = σ1
σ2 .
7. Supóngase que σ1 > · · · > Σr > σr+1 = · · · = σn = 0. Entonces el rango de A es r. El espacio nulo de A, es decir,
Ju -C
el subespacio de vectores v tales que Av = 0., es generado por las columnas r + 1 a n de V : span(vr+1 , ..., .vn ). El
rango del espacio A, el subespacio de vectores de la forma Aw para todo w , es el espacio generado por las columnas
1 a r de U : span(u1 , ..., ur ).
8. Sea Sn−1 Rn : Sn−1 : {x ∈ Rn : kxk2 = 1}. Sea A · Sn−1 la imagen de Sn−1 bajo A: A · Sn−1 =
la esfera unitaria en
D
{Ax : x ∈ R y kxk2 = 1}. Entonces A · Sn−1 es un elipsoide centrado en el origen de Rm , con ejes principales σi ui .
n
n
AT
A = U ΣV T = σi ui viT
P
9. Escríbase V = [v1 , v2 , ..., vn ] y U = [u1 , ..., un ] de modo que (suma de matrices rango 1).
i=1
n
σi ui viT ,
P
Entonces una matriz de rango k <n cercana a A (medida con k · k2 ) es Ak = y kA − Ak k2 = σk+1 .
i=1
También se puede escribir Ak = U Σk V T , donde Σk = diag(σ1 , ..., σk , 0, ..., 0).
Parte II
Uso de software
En esta parte nos enfocamos a dar una breve introducción a las paqueterías computacionales que se utilizan en el
proyecto, con el n de que un usuario no experimentado tenga un primer contacto con el software. En las secciones
referentes a la paquetería TDA de R y Javaplex de Matlab, pondremos código de referencia con comentarios donde se da
una breve explicación de lo que se hace en cada paso. En la sección dedicada a Mapper, explicamos sobre cada una de las
funciones que incluye el programa
6. Paquetería TDA de R
6.1. Complejo Vietoris-Rips

El siguiente código es para hacer el cálculo de la homología usando la ltración Vietoris-Rips para un toro, la muestra
es de tamaño 1000.
9
#Tamaño de muestra para todas las simulaciones
n<-1000
d<-2
#########################################################################
#********************Caso normales independientes***********************#
#########################################################################
x<-matrix(0,n,2)
y<-matrix(0,n,2)
#Generamos dos muestras muestras de n elementos en S1
for(i in 1:n){
x[i,]<-c(rnorm(1),rnorm(1))
x[i,]<-x[i,]/(norm(as.matrix(x[i,]),"f"))
y[i,]<-c(rnorm(1),rnorm(1))
y[i,]<-y[i,]/(norm(as.matrix(y[i,]),"f"))
}
#Hacemos el producto S1xS1 para obtener el toro 4 dimensional.

X<-cbind(x,y)
16 T
#Proyectamos a R3, para poder visualizarlo
20 A
T2.NI=matrix(0,n,3)
for(i in 1:n){
T2.NI[i,]=X[i,3]*c(0,0,1)+(X[i,4]+2)*c(X[i,1],X[i,2],0)
lio IM
}
#Exportamos la matriz de datos

Ju -C
write.matrix(T2.NI,"C:/ruta-a-exportar-datos/T2NI1000.txt")
#Cálculo de la homología
ini<-proc.time()
D
Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram
par(mfrow=c(1,2),mai=c(0.8,0.8,0.3,0.1))
plot(Diag,main="Diagrama Rips")
AT
plot(Diag, barcode=T, main="Código de barras")

finNI<-proc.time()-ini
finNI[3]
#Le agregamos ruido nuestra muestra

T2.NI.R05<-RuidoNormal(T2.NI,0.005)
write.matrix(T2.NI.R05,"C:/ruta-a-exportar-datos/T2NI1000R05.txt")
#Cálculo de la homología
#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T
T2.NI.R1<-RuidoNormal(T2.NI,0.1)
write.matrix(T2.NI.R1,"C:/ruta-a-exportar-datos/T2NI1000R1.txt")
#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T
# #Cálculo de la homología
La parte relevante en este código es
Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram
El cual sólo es una parte de la serie de parámetros que podemos usar en
ripsDiag(X, maxdimension, maxscale, dist = "euclidean", library = "GUDHI",

location = FALSE, printProgress = FALSE)
10
En lo anterior, X puede ser una matriz de datos sólo si dist=euclidean o ser una matriz de distancias entre n puntos
sólo si dist=arbitrary . maxdimension deber ser un número entero se reere a la dimensión máxima que le permitiremos
calcular al algoritmo (recordemos que 0 es la cantidad de componentes conexas, 1 componentes conexas y ciclos, etc.). dist
nos permite elegir entre euclidean donde utilizamos la distancia euclideana y arbitrary nos permite utilizar la distancia
dada en el cálculo de la matriz de distancias. El parámetro library nos permite elegir entre los 3 posibles algoritmos de
cálculo de la homología, a saber PHAT, Dyonisus, GUDHI. En particular para este proyecto se utilizará la paquetería
GUDHI pues se ha probado que es la más rápida de las 3. Utilizar una librería en particular nos restringe o da ventajas
de cálculo entre las otras 2. El parámetro location nos regresa la ubicación de los puntos de nacimiento y muerte de cada
característica homológica. Por último, printProgress imprime una barra de progreso, así como el número de simplejos
calculados.
6.2. Bandas de conanza en diagramas de persistencia

Existe una manera de construir bandas de conanza para los diagramas de persistencia basados en ltraciones para
conjuntos de sub o supranivel para funciones como estimadores de densidades o funciones distancia. La estimación se basa
en bootstrap (ver el capítulo 5 de las notas de clase para mayor referencia a este método).
Para construir una banda de conanza de nivel 1 − α para una función usando bootstrap se sigue el siguiente algoritmo
(se toma como referencia el estimador de densidad por kernel Gaussiano):
16 T
1. Dada una muestra X = {x1 , ..., xn }, calcule el estimador de densidad pbh .
20 A
√
2. Tome una muestra con reemplazo X ∗ = {x∗1 , ..., x∗n } de X = {x1 , ..., xn } y calcule θ∗ = p∗h (x) − pbh (x)k∞ ,
nkb donde
pb∗h es el estimador de densidad calculado usando X .
∗
lio IM
3. Repita el paso anterior B veces para obtener θ1∗ , ..., θB
∗
.
n o
1 θj∗ > q 6 α
1
PB
4. Calcule qα = ı́nf q : B j=1
Ju -C
h i
5. La banda de conanza de tamaño 1−α para E [b
ph ] es pbh − qα
√
n
, pbh + qα
√
n
.
El siguiente código calcula una banda de conanza de nivel 90 % para una nube de puntos X dada bajo el estimador
D
de densidad via kernel.
bootstrapBand(X = X, FUN = kde, Grid = Grid, B = 100, parallel = FALSE, alpha = 0.1, h = h)
AT
En la última expresión, Grid es una rejilla de puntos previamente denida de la dimensión correspondiente a la nube
de puntos, h es el ancho de banda del estimador kernel y B es el número de remuestreo en el algoritmo Bootstrap.
La relevancia estadística del método Bootstrap se detalla también en el Capítulo 5 de las notas del curso. Para más
información sobre la utilización de la paquetería TDA y las características que contiene, por favor reérase a [4].
7. Javaplex en Matlab
Presentamos el código para el cómputo de los complejos testigo fuerte y débil, cuyos detalles se dieron en la Parte II
de este proyecto.
7.1. Complejo testigo fuerte

%Tiempo inicial del cálculo
tic;
%Parámetros para el cálculo de la homología persistente y selección de puntos de referencia.
X=importdata('C:/ruta-a-los-datos/datos.txt');
num_lpoints=100; %Número de puntos de referencia a utilizar.
L=api.Plex4.createMaxMinSelector(X,num_lpoints); %Método de selección de puntos de referencia.
R=L.getMaxDistanceFromPointsToLandmarks() %Distancia máxima entre los puntos de referencia y la nube de datos
mfv=R/2; %Valor máximo de la filtración
mdim=3; %Dimensión máxima de interés
ndiv=100; %Número de elementos a calcular en la filtración
11
%Creación del complejo Witness
stream=api.Plex4.createWitnessStream(L,mdim,mfv,ndiv);
%Número de simplejos en el cálculo
num_simplices=stream.getSize()
%Cálculo de la homología
persistence=api.Plex4.getModularSimplicialAlgorithm(mdim,2);
intervals=persistence.computeIntervals(stream);
%Opciones de graficación del código de barras
options.filename='Figura';
options.max_filtration_value=mfv;
options.max_dimension=mdim-1;
%Código de barras
plot_barcodes(intervals,options);
%Tiempo final del cálculo
toc
7.2. Complejo testigo débil
16 T
%Tiempo inicial del cálculo
tic
20 A
%Parámetros para el cálculo de la homología persistente y selección de
%puntos de referencia.
X=importdata('C:/ruta-a-los-datos/datos.txt');
lio IM
num_landmark=100; %Número de puntos de referencia a utilizar
dim_max=3; %Dimensión máxima de interés.
nu=2; %Número de testigos en el complejo débil
num_div=100;
Ju -C
L=api.Plex4.createMaxMinSelector(X,num_landmark); %Selección de puntos de referencia

%Distancia máxima de los puntos de referencia a la nube de puntos
R=L.getMaxDistanceFromPointsToLandmarks()
D
vmf=R/2; %Máximo valor de la filtración.

%Creación del complejo simplicial testigo débil.
lazy=streams.impl.LazyWitnessStream(L.getUnderlyingMetricSpace(),L,dim_max,vmf,nu,num_div);
AT
lazy.finalizeStream();
%Número de simplejos
lazy.getSize()
%Cálculo de la homología persistente
pers=api.Plex4.getModularSimplicialAlgorithm(dim_max,2);
intervalos=pers.computeIntervals(lazy);
%Opciones de graficación del código de barras
options.filename='Figura';
options.max_filtration_value=vmf;
options.max_dimension=dim_max-1;
%Código de barras
plot_barcodes(intervalos,options);
%Tiempo total del cálculo
toc
Para instrucciones sobre la instalación, así como mayores detalles sobre la librería, por favor reérase a [1]
8. Python Mapper
Para la instalación del software, favor de referirse a [5].

La interfaz principal de Python Mapper es la siguiente:
12
16 T
20 A
lio IM
A continuación damos un detalle breve de las acciones que realiza cada sección.
En el Paso 1, podemos notar que existen tres apartados:
Ju -C
Example shapes Contiene una base de datos predeterminada, la cual contiene una muestra de datos tomada sobre
objetos 3D que representan diferentes animales.
Synthethic Shapes Nos permite generar muestras de datos del tamaño deseado sobre S1 y T 2, cabe destacar que la
D
2
forma de generar los datos sobre T no se da de manera uniforme como lo vimos en clase, los datos se ven como
sigue:
AT
Load Data Este apartado es de nuestro particular interés, pues aquí es donde llamamos el archivo de texto que
contiene los datos generados en las simulaciones que presentaremos más adelante, nuestro archivo no debe contener
encabezados, sólo debe contener los datos en forma matricial, automáticamente detecta el número de datos así como
su dimensionalidad.
13
En el Paso 2 podemos encontrar dos opciones:
Ambient/Original metric En esta parte nos brinda tres opciones para la métrica denida sobre el espacio ambiente
de los datos: Euclideana, Minkowski y Chebyshev. Pero como el software se encuentra aún en fase de desarrollo sólo
permite elegir la métrica euclideana.
Intrinsic metric Hace uso de la métrica intrínseca denida en la parte II de este trabajo a partir de la selección de
un número apropiado de vecinos más cercanos, el mismo software nos puede arrojar un número de vecinos adecuados
para que el grafo creado en el conjunto de datos sea conexo.
En el Paso 3 es donde realizamos la selección del ltro para el análisis de los datos, en donde podemos elegir entre:
Exentricidad.
Distancia de k vecinos más cercanos.
Distancia a una medida.
Kernel Gaussiano.
Laplaciano de un grafo.
16 T
Descomposición SVD.
20 A
Sin ltro.
lio IM
Así mismo, nos da la opción de centrar los datos mediante la media. También podemos modicar un ltro de manera
particular mediante la introducción de ciertos parámetros en lter transformation.
Es aquí donde podemos ver cómo se colorean los puntos de acuerdo al ltro elegido.
En el Paso 4 es donde podemos elegir nuestra cubierta de 3 posibles opciones:
Ju -C
Cubierta 1 dimensional uniforme.
Cubierta 1-dimensional balanceada.

D
Descomposición de subrango.
Así mismo, es posible elegir el porcentaje de traslape entre los intervalos así como la cantidad de estos. También es
AT
posible elegir el método de agrupamiento a utilizar:
Single linkage clustering.
Complete linkage clustering.
Average linkage clustering.
Weighted linkage clustering.
Median linkage clustering.
Centroid linkage clustering.
Ward linkage clustering.
Estos métodos de agrupamiento entran dentro de la categoría de agrupamiento jerárquico, cuyos detalles generales
dimos en la Parte I.
En esta misma sección podemos elegir el parámetro de corte (cuto ) el cuál no es otra cosa que la distancia máxima
que se permite haya dentro de cada cluster, es decir, para cada subgrupo que se encuentre a una distancia mayor a este
parámetro son puestos en diferentes clústers.
El Paso 5 nos permite elegir el tipo de coloreado de los datos, por defecto se utiliza un espectro de azul a rojo, donde
azul determina el valor más pequeño brindado por el ltro y el rojo determina el valor más alto. Se pueden introducir
diferentes métodos de coloreado, por ejemplo que se base en la altura de la coordenada z de los puntos.
Un ejemplo de esto, es la simulación de datos de una gura con forma de camello en 3D, la cual consta de 21887
puntos. En la gura 8 podemos ver en la segunda imagen cómo el algoritmo nos ayuda a explicar la estructura de la nube
de datos, en la cual se destacan las cuatro extremidades y con una mayor concentración de puntos en rojo, la cabeza.
14
16 T
20 A
Figura 2: Simulación y análisis Mapper de una gura 3 dimensional.
lio IM
Ju -CD
AT
15
Parte III
Análisis de características homológicas, geométricas y
de costo computacional
9. Contexto
La simulación base de variables aleatorias en el círculo, la esfera y el toro están fundamentadas en la teoría presentada
para este n en el Capítulo 4 de las notas del curso. La simulación de los elementos mostrados a continuación toman las
ideas de simulación base y se hacen combinaciones de ellas, así como un par de variantes que se detallan en cada uno de los
casos presentados. Mostraremos la nube de datos, así como los códigos de barra respectivos a los cálculos de la homología
persistente para los complejos simpliciales generados en la muestra mediante las ltraciones: Vietoris-Rips, testigo fuerte
y testigo débil, cuyos detalles se dan en los Capítulos 1 y 2 de las notas de clase, así como en la Parte I de este proyecto.
Los grafos mostrados al nal de cada grupo de imágenes corresponden a la salida que entrega el algoritmo Mapper en
dimensión 1. También, se muestra una tabla que resume la interpretación sobre huecos de hasta dimensión 2 en el caso
de los algoritmos simpliciales Vietoris-Rips y Testigo, mientras que para Mapper tenemos sólo la capacidad de visualizar
16 T
características geométricas de dimensión 1 puesto que el software Python Mapper que utilizamos se encuentra en fase de
desarrollo y aún faltan muchas cosas por ser implementadas en el mismo. En esta misma tabla, se anexan los tiempos de
20 A
ejecución de cada uno de los algoritmos para comparativa entre ellos mismos, de modo que se pueda percibir en cada caso
cuál de los algoritmos tienen un mejor comportamiento en el sentido de costo computacional. Nos referimos a los huecos
de dimensión 1 como ciclos y a los dimensión 2 como vacíos, tal cual es acostumbrado en la literatura de ATD.
lio IM
Los encabezados en cada subtipo de simulación que mostraremos a continuación se rigen de la siguiente manera:
N(0,1) Con esto indicamos que cada una de las componentes Xi del vector Xd = (X1 , ...Xd ) tienen una distribución N (0, 1)
N(0,Σ),ρ En este caso, la matriz Σ tiene sobre su diagonal valores iguales a 1, mientras que fuera de la diagonal nos muestra la correlación que
existe entre cada par de variables, donde el(los) valor(es) ρ nos indican tal correlación. De manera particular, en el caso de el toro T2 , la
Ju -C
correlación ρ es en cada elemento simulado en las componentes S1 del producto S1 × S1 .

GUE Este caso, las componentes de la variable Xd son los valores propios de una matriz aleatoria del tipo GUE, de las cuales sus características
se detallan en el Capítulo 4 de las notas de clase.
Cauchy(0,a) En este caso, las componentes del vector Xd se distribuyen de manera independiente Cauchy(0, a), existen casos en donde sólo usamos
D
a = 1 (Toro y esfera).
A partir de estas simulaciones, se construye el vector R = (X1 /kXd k, . . . , Xd /kXd k) correspondiente a cada tipo de simulación. El tamaño
de muestra y el valor máximo de la ltración cuando usamos la ltración de Vietoris-Rips cambian respecto a la variedad
AT
que se este estudiando en cada caso, pues en ocasiones es necesario un valor menor o mayor dependiendo del tamaño de
las variedades. Para los casos de S1 utilizamos muestras de tamaño 500 pues estas describen de buena manera al círculo
unitario. Para S 2
utilizamos muestras de tamaño 1000 y para el T2 utilzaremos submuestras de tamaño 800 de una muestra
original de tamaño 1000. En el caso de los complejos testigo usamos la muestra completa de tamaño 1000 tanto para S2
y T2 . Los valores máximos de las ltraciones de Vietoris-Rips fueron 1,0.8 y 2 respectivamente para S , S y T . En el
1 2 2
caso de las ltraciones para los complejos testigo, el valor máximo de la ltración varia con respecto a la muestra, el cual
se calcula tomando una proporción de la distancia máxima existente entre los puntos de referencia y la nube de datos
completa.
Al pie de cada imagen indicamos si la muestra simulada tiene ruido añadido o no. En cada caso, el ruido es N (0, σId ),
donde d es la dimensión del espacio ambiente donde está encajada cada una de nuestras nubes de datos. Cabe aclarar
que en el caso del toro T2 , a pesar de que la simulación es de S1 × S1 cuya dimensión es 4, aplicamos un homeomorsmo
(aplicación que nos conserva la topología del espacio) sobre el toro T2 = S1 × S1 a R3 para poder visualizarlo. Dicho
homeomorsmo es:
f (x, y, w, z) = ((z + 2)x, (z + 2)y, w).
El fundamento teórico de Mapper está descrito también en la parte I de este proyecto, además en el análisis desarrollado
en esta simuliaciones, cuando nos referimos a las llamaradas estamos hablando de los grafos que no tienen ciclo (con forma
de ramas o brazos) y parten de una raiz común. El hecho de llamarlos así es una latinización de como Carlsson et al. [6] los
llaman en su artículo, se reeren a ellos como ares haciendo referencia a las erupciones solares. Para este mismo resumen,
estamos utilizando las primeras dos componentes de la descomposición SVD de la matriz de distancias de nuestras nubes
de datos simuladas
Cabe señalar que las interpretaciones realizadas en cada una de las simulaciones son a ojo, pues se trató de implementar
las bandas de conanza descritas tanto en la Parte I de este proyecto como en el Capítulo 5 de las notas de clase, pero no
tienen un buen comportamiento al implementarlas en los diagramas calculados mediante la ltración de Vietoris-Rips, aún
16
utilizando elección de un h óptimo en el caso de utilizar la función kernel en el comando bootstrapBand de la paquetría
TDA de R.
Las simulaciones con ruido se realizan utilizando el modelo
M + σZ, con σ>0 y Z ∼ N (0, Id )
10. Circulo unitario
10.1. N(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Figura 3: Sin ruido
Algoritmo Componentes conexas Ciclos Tiempo (segs.)

Vietoris-Rips(500) 1 1 1.22
Testigo débil(30) 1 1 2.15
Testigo fuerte(30) 1 1 0.65
Mapper(500) 1 1 0.22
Podemos observar que no es ningún problema para los 4 algoritmos el encontrar que se trata de una sola componente
conexa, con un ciclo de dimensión 1.
Particularmente, observamos que la ltración Vietoris-Rips encuentra un poco de ruido respecto a las componentes
conexas, pero ningún tipo de ruido al encontrar el hueco 1-dimensional. Mientras que ambos complejos testigo, tanto el
17
fuerte como el débil, a pesar de tener sólo una décima parte del tamaño de la muestra, encuentra en el primer instante la
homología del círculo unitario S1 .
Mapper es el más rápido de los 3 en encontrar dichas características.
10.2. N(0,1), ruido σ = 0.003
16 T
20 A
lio IM
Ju -CD
AT
Figura 4: Ruido N (0, 0.03)

Mapper(500) 1 1 0.37
Al añadir un poco de ruido, notamos que el algoritmo Vietoris-Rips agrega bastante ruido topológico cercano a la
diagonal al calcular la persistencia del ciclo de dimensión 1; igualmente lo hacen ambos complejos testigo.
En el grafo que nos entrega de salida Mapper, observamos que detecta fácilmente el ciclo 1-dimensional, pero las
llamaradas que salen del grafo en color azul y rojo, denotan la existencia de una mayor concentración de puntos alrededor
de este color, como podemos notarlo en la representación arriba a la izquierda de la nube de puntos. Los pequeños puntos
del centro, son puntos en los que el algoritmo no pudo agruparlos en ninguno de los clústers creados.
18
10.3. N(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.32
En este caso, al añadir un ruido más grande, observamos que el círculo que esperaríamos ver, se nota casi cerrado.
La ltración Vietoris-Rips encuentra casi cercana a la diagonal la persistencia de un ciclo 1-dimensional (aquí es donde
nos sería util la utilización de las bandas de conanza vistas en clase para poder determinar cuando algo cercano a la
diagonal es relevante para nuestro análisis).
En el caso de los complejos testigo, ambos encuentran rápidamente la componente conexa, pero se les diculta bastante
encontrar el agujero 1-dimensional, el que logran encontrar, en ambos casos, logra persistir hasta alrededor de 0.04.
En el último caso, Mapper logra detectar el hueco 1-dimensional, pero con más dicultad comparándolo con los dos
casos anteriores, las llamaradas más largas que salen en este caso de los extremos nos indican la evidente concentración
que tenemos alrededor de dicho hueco.
19
10.4. N(0,Σ), ρ = 0.95
16 T
20 A
lio IM
Ju -CD
AT
Figura 6: Sin ruido

Mapper(500) 2 0 0.79
A pesar de que podemos ver una separación notoria en la parte superior izquierda en la representación de nuesta nube
de datos, la ltración Vietoris-Rips detecta en la homología sólo una componente conexa y un sólo ciclo, pero aquí cabe
destacar que de principio logra detectar 3 componentes conexas, las cuales a un tiempo aproximado a 0.3 se cubren dos de
éstas, dando paso a solo una componente conexa. Luego, cuando t = 0.5 aproximadamente, aparece el ciclo de dimensión
1 que persiste hasta el nal del valor máximo de nuestra ltración.
En el caso del complejo testigo débil, es capaz de detectar dos componentes conexas que persisten y ningún ciclo
de dimensión 1. El complejo testigo fuerte logra detectar dos componentes conexas pero rápidamente se unen cuando la
ltración está alrededor de 0.05.
Mapper logra detectar dos componentes conexas, cuyos colores nos indican cuál es cada una de estas componentes. La
gran cantidad de grafos pequeños que encontramos en la parte inferior son los puntos que se encuentran entre las que
Mapper considera como las dos componentes conexas, nuevamente podemos utilizar el color de los nodos para determinar
esto.
20
10.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 2 0 0.31
Al añadir ruido, podemos notar que el hecho de que las variables tengan dependencia nos genera una acumulación de
datos en el sentido de la recta identidad, cuestión que no fuimos capaces de detectar cuando no había ruido.
Pero nuevamente, a la ltración Vietoris-Rips se le complica detectar la separación de la cual hablábamos en el caso
anterior, misma que se da debido a la correlación de las variables. Esta algoritmo detecta al nal de la ltración sólo una
componente conexa y un ciclo de dimensión 1.
El complejo testigo débil logra detectar 3 componentes conexas de inicio, las cuales se van uniendo a otra componente
conexa con el paso del tiempo. Para el caso del complejo testigo fuerte, podemos ver que sólo encuentra una componente
conexa y es capaz de detectar un ciclo de dimensión 1.
Mapper logra detectar dos componentes conexas y ruido entre ellas, esto debido a la densidad que existe en cada uno
de los clusters deidos por el algoritmo.
21
10.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.28
En este caso podemos observar una clara distinción en dos grupos de datos en nuestra nube, a pesar de esto y
dada la cercanía que existe entre los dos conjuntos de datos, los 4 resúmenes topológicos son capaces de detectar una
sola componente conexa. También, todos los algoritmos son capaces de detectar un ciclo de dimensión 1, el cual muere
rápidamente por la distancia que existe entre los puntos. Las llamaradas largas que nalizan en naranja en el grafo de
Mapper nos indican cómo se da la concentración de datos y cómo se acumulan en una misma dirección.
22
10.7. GUE
16 T
20 A
lio IM
Ju -CD
AT
Figura 9: Sin ruido

Mapper(500) 2 0 0.59
Para el presente caso, volvemos a notar como se concentran los datos en dos componentes y que existe una repulsión en
el la dirección y = x. En los 4 casos es posible detectar las dos componentes conexas. Claramente después de cierto tiempo
en las ltraciones de Vietoris-Rips y en el testigo debil se unen las dos componentes para formar un ciclo de dimensión
1, el cual no es detectado por el testigo fuerte. Debido a la técnica de clustering implementada en tiene Mapper, éste es
capaz de detectar ambas componentes conexas y ninguna especie de puente entre ellas. Podemos observar que en este
caso todas realizan los cálculos en tiempos similares.
23
10.8. GUE, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 2 0 1.19
Similar al caso anterior, podemos observar que la ltración Vietoris-Rips detecta ambas componentes conexas y después
de un tiempo dado estas se vuelven una para formar además, el ciclo 1-dimensional que esperariamos ver en S1 .
El caso es ligeramente distinto para los complejos testigo, pues estos detectan una sola componente conexa desde el
principio de la ltración, misma que pasado un tiempo se cierra y forma el ciclo 1-dimensional descrito en el código de
barras.
Nuevamente, Mapper a pesar del ruido es capaz de detectar ambas componentes conexas y separa además el ruido que
hace de puente entre las dos componentes causante de que las ltraciones al calcular la homología detecten como si se
tratara de una sola.
24
10.9. GUE, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.78
En esta situación, vemos que los 4 algoritmos detectan una sola componente conexa. El Vietoris-Rips logra captar el
agujero 1 dimensional del centro y persiste de manera considerable para ser considerado como característica de los datos.
Los complejos testigo logran captar una componente conexa desde el principio de la ltración y encuentran pequeños
ciclos 1-dimensionales, los cuales rápidamente mueren.
Por último, Mapper detecta también este ciclo, el cual nos hace ver que es pequeño a consideración de la densidad de
los datos y cómo estos se concentran en una dirección particular, por eso es que podemos observar esas llamaradas que
salen del ciclo en el grafo.
25
10.10. Cauchy(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Figura 12: Sin ruido

Mapper(500) 1 1 0.41
Este caso se comporta de una manera muy similar al primero de los mostrados, cuando las variables son N (0, 1). Al
igual que en ese caso, las ltraciones Vietoris-Rips y ambas testigo, captan inmediatamente las características topológias
que debería presentar el círculo: una componente conexa y un solo ciclo 1-dimensional. Como podemos notar en los
primeros 3 códigos de barras, el ruido encontrado en cada caso es mínimo e inmediatamente dan paso a los números de
Betti β0 = 1, β1 = 1.
En este ejemplo, hay una característica importante de que mencionábamos anteriormente que Mapper es capaz de
detectar, además de la componente conexa y el ciclo 1-dimensional, puede darnos detalle de cómo están concentrados los
datos alrededor de S1 . En el grafo podemos ver que los puntos de color más fuerte tanto para el azul y el rojo son de mayor
tamaño. El hecho de que los nodos vayan decreciendo en diámetro nos indica que hay una alta concentración de puntos en
los polos; éste último detalle es lo que distingue las nubes de datos provenientes de cocientes de normales independientes
y Cauchy independientes.
26
10.11. Cauchy(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.56
Es ahora cuando podemos notar la diferencia descrita en el caso anterior. Es posible observar cómo la concentración de
datos se da alrededor de los polos y en cierta medida en lo que sería la intersección con el eje x, lo cual también se puede
notar en el grafo que nos otorga Mapper en conjunto con las llamaradas que son notorias en el mismo. En el caso de las 3
ltraciones restantes, podemos ver que son ecientes al encontrar la componente conexa y el ciclo 1-dimensional, efectiva-
mente se encuentran con ruido, pero este queda muy cercano a la diagonal en el diagrama de persistencia correspondiente
a la ltración Vietoris-Rips. Por último, para los complejos testigo el ruido encontrado es casi nulo.
27
10.12. Cauchy(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.31
28
10.13. Cauchy(0,3)
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.35
Vemos que este caso es parecido al Cauchy(0,1), con la diferencia de que ahora la concentración de los puntos aumenta
sobre la intersección del eje x. Podemos decir entonces que dicha concentración de los datos es sobre los puntos cardinales
de S1 . También es posible notar que tanto la ltración Vietoris-Rips, como las de los complejos testigo no tienen problema
alguno en detectar la única componente conexa, así como el hueco 1-dimensional.
Esta vez, es más evidente en el grafo arrojado por Mapper que hay una mayor concentración sobre los polos, así
mismo es posible notar concentración en los otros dos puntos cardinales. Esta concentración se ve aumentada conforme
incrementamos el valor de a en la distribución de Cauchy.
29
10.14. Cauchy(0,3), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.56
A diferencia con respecto al caso sin ruido, podemos notar ruido topológico en el cálculo de la homología, el cual se ve
reejado en la ltración Vietoris-Rips. Para los complejos testigo el ruido topológico es apenas perceptible en la dimensión
1. Por último, en Mapper podemos notar la presencia de ruido por las llamaradas que salen del grafo y en una mayor
concentración sobre los nodos cercanos a estas.
30
10.15. Cauchy(0,3), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Mapper(500) 1 1 0.30
Por último, vemos que como en los casos anteriores, es difícil para los algoritmos de los complejos simpliciales encontrar
el hueco 1-dimensional que logramos percibir a vista en la nube de datos. Mapper logra encontrar el ciclo, asi como la
concentración perceptible en mayor nivel alrededor de éste.
11. Doble anillo
11.1. N (0, 1)
Generamos dos juegos de variables independientes mediante la distribución cociente de normales que dan lugar a la
distribución uniforme en S1 . Cada muestra es de tamaño n = 5000. Cabe destacar que ambos anillos no se tocan de alguna
manera.
31
16 T
20 A
lio IM
Ju -CD
AT

Mapper(10000) 2 2 4.77
Para este caso, podemos ver cómo ninguna de las ltraciones, ni el algoritmo Mapper tienen problemas para detectar
dos componentes conexas y dos ciclos 1-dimensionales. En el caso Vietors-Rips, los puntos que representan tanto a las
componentes conexas, como a los 1-ciclos están sobrepuestas en el diagrama de persistencia respectivo.
Una de las diferencias destacables es que el tiempo de cálculo en los complejos testigo es mucho menor. Además, para
poder calcular la homología en el caso de la ltración Vietoris-Rips, fue necesario tomar una submuestra de tamaño 2000,
esta muestra fue tomada de forma aleatoria. Mapper no tiene ningún problema en manejar la muestra completa, esto
debido a los algoritmos de agrupamiento utilizados y la simplicidad de grafo calculado.
32
11.2. N (0, 1), ruido σ = 0.002
16 T
20 A
lio IM
Ju -CD
AT
Figura 19: Ruido N (0, 0.002I3 )

Vietoris-Rips(2000) 2 2 26
Mapper(10000) 2 2 4.29
Nuevamente, ninguno de los algoritmos tuvo problema en detectar las dos componentes conexas y los dos ciclos. En esta
ocasión el tiempo de cálculo en el testigo débil se triplicó y el tiempo en el cálculo de la ltración Vietoris-Rips también se
vió incrementado por casi 10 segundos, esto puede deberse a la presencia del ruido, lo que hace que se encuentren mucho
más simplejos durante la ltración. Mapper mantiene su posición y realiza el cálculo de manera muy rápida comparado
con los otros 3 métodos, encontrando las mismas características que la vez anterior a ésta.
33
11.3. N (0, 1), ruido σ = 0.009
16 T
20 A
lio IM
Ju -CD
AT
Figura 20: Ruido N (0, 0.009I3 )

Mapper(10000) 1 3 6.2
En este caso, podemos notar que los cuatro métodos son capaces de encontrar una sola componente conexa y localizan
tres ciclos, esto puede deberse a que en la presencia de ruido grande, los dos anillos casi se tocan, por lo que es difícil
para los algoritmos notar que se trata de componentes conexas distintas, además, dicha unión crea los tres 1-ciclos que
detectan las distintas ltraciones.
34
12. Esfera unitaria
12.1. N(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)

Vietoris-Rips(1000) 1 0 1 44.36
Testigo débil(100) 1 0 1 1.47
Testigo fuerte(100) 1 0 1 1.32
Mapper(1000) 1 0 - 0.77
Al igual que como se ha presentado hasta el momento en las muestras sin ruido, tanto las ltraciones Vietoris-Rips
como las testigo débil y fuerte, son capaces de encontrar la componente conexa y el vacío 2-dimensional que representan
homológicamente a la esfera S2 . Aunque podemos ver que, tanto la ltración Vietoris-Rips, como la del complejo tes-
tigo testigo fuerte, encuentran ruido topológico 1-dimensional, pero este persiste poco tiempo para ser considerado una
propiedad topológica relevante de la muestra.
Como mencionamos al principio, uno de los problemas que tenemos actualmente con el algoritmo Mapper, es que no
podemos mostrar aún propiedades homológicas 2-dimensionales, sólamente somos capaces de mostrar la estructura de los
datos, que en este caso sólo nos dice que se trata de una componente conexa, y debido a que cada grupo generado mediante
el agrupamiento, todos son del mismo tamaño, esto puede se debe a la uniformidad con la que se generaron los datos en
la esfera.
35
12.2. N(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 1 44.36
Mapper(1000) 1 0 - 0.67
En esta situación, podemos notar que la presencia de ruido 1-dimensional se comporta de manera similar al caso en
el que no teníamos ruido añadido a la muestra, pero el ruido topológico de dimensión 2 aumenta bastante, aunque este
se encuentra muy cerca de la diagonal. Este ruido 2-dimensional casi no es detectado por los complejos testigo, pero en el
caso del testigo débil se ve aumentada la actividad del ruido 1-dimensional. Para Mapper, el resultado de salida no se ve
perturbado en comparación al caso anterior.
36
12.3. N(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 0 13.63
Mapper(1000) 1 0 - 0.92
Al aumentar el tamaño del ruido, vemos que la esfera se ve colapsada en una sola nube de puntos aglomerados, lo
cual detectan los algoritmos de complejos simpliciales. Podemos notar una mayor presencia de ruido 1 y 2 dimensional en
todos los casos, pero dicha presencia es mucho más evidente en el caso del Vietoris-Rips. También, podemos notar que en
esta situación el tiempo del cálculo se ve disminuido en el VR a comparación del caso anterior. En esta situación, Mapper
nos describe muy poco de la estructura de nuestros datos dada la naturaleza del algoritmo.
37
12.4. N3 (0, Σ), ρ = (0.9, 0.5, 0.8)
16 T
20 A
lio IM
Ju -CD
AT

Mapper(1000) 1 4 - 0.92
Para esta situación, sólo corrimos el análisis para Mapper y los complejos testigo, pues en el caso de la ltración Vietoris-
Rips fue imposible para el equipo de cómputo en el que estamos trabajando realizar los cálculos de la homología. Para
los casos que presentamos, podemos ver que encuentran una sola componente conexa, así como 2 ciclos 1-dimensionales.
También podemos ver que todos los algoritmos encuentran presencia de más ruido 1-dimensional.
38
12.5. GUE
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 1 0 138.82
Mapper(1000) 2 0 - 0.63
A pesar de lo que podemos ver en la representación gráca de la nube de puntos, la ltración Vietoris-Rips detecta una
sola componente conexa además de un ciclo 1-dimensional, aunque podemos observar que existen 3 puntos que podríamos
considerar relevantes además del que persiste hasta el nal de la ltración.
Los complejos testigo no son capaces más que de detectar una sola componente conexa, pero aquí podemos ver que se
encuentran un número mayor de 1-ciclos que persisten un buen tiempo en la ltración. También, podemos ver que estas
ltraciones notan que la esfera no está cerrada, ya que no encuentran algún vacío de dimensión 2.
Por último, Mapper no detecta ciclos uno dimensionales como tal, si no que podríamos considerarlos como ruido al ser
demasiados pequeños, podemos ver que detecta dos componentes conexas, una probable explicación de las 3 llamaradas
en cada grafo, es que podrían ser cada uno de los gajos que podemos ver y que estas posibles dos componentes conexas se
vean separadas por donde hay una mayor repulsión, al centro de la esfera.
39
12.6. GUE, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 0 138.82
Mapper(1000) 2 0 - 0.73
En esta situación podemos observar de manera visual como es que los gajos que podíamos ver anteriormente, comparten
puntos entre ellos, razón por la cual es aún más difícil para los algoritmos simpliciales detectarlos, detalle que podemos
observar en los códigos de barras asociados a cada ltración. Nuevamente podemos ver que los tres algoritmos simpliciales
detectan al menos un ciclo de dimensión 1 al nal de la ltración, pero también se detecta mucho más ruido de esta
dimensión, mientras que para dimensión 2, el ruido es casi imperceptible en los 3 casos.
En el caso de Mapper, podemos observar cómo se fusionan las dos componentes conexas detectadas anteriormente,
pero dicho puente entre ellas es débil y apenas contiene puntos en común, cosa que podemos observar en el tamaño de
los vértices centrales, esto indica una baja densidad en cada uno de estos grupos; así mismo, somos capaces de observar
nuevamente al menos 4 llamaradas.
40
12.7. GUE, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 1 0 27.63
Mapper(1000) 1 0 - 0.85
En este caso, podemos ver cómo los gajos que observamos anteriormente ya no existen, se han unido todos como
una sola componente conexa y por tanto en esta ocasión los 3 algoritmos simpliciales alcanzan a detectar ruido de hasta
dimensión dos, habiendo algunos que persisten fuertemente. También notemos en el Diagrama de Rips que se encuentran
muchas más componentes conexas que las que podría detectar cualquiera de los otros algoritmos. Mapper sólo alcanza a
notar una componente conexa, en cuyo caso el comportamiento del grafo es similar a los correspondientes formados por
las esferas que hemos simulado hasta ahora.
41
12.8. Cauchy(0,1)
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 1 130.83
Mapper(1000) 1 0 - 0.69
Para el caso Cauchy, podemos observar claramente tanto en las ltraciones Vietoris-Rips como ambas de los complejos
testigo cómo es que se detectan una sola componente conexa y un vacío 2-dimensional tal cual se tratase de una esfera,
pesar de que estos algoritmos detectan ruido 1-dimensional. Mapper es capaz de detectar cómo se da la concentración en
los puntos cardinales de la esfera, es por eso que podemos ver llamaradas con un centro en común y cuyas puntas se ven
cargadas con una mayor densidad de puntos.
42
12.9. Cauchy(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 1 98.17
Mapper(1000) 1 0 - 0.73
En esta ocasión, podemos ver cómo las características homológicas detectadas por los 3 algoritmos simpliciales tienen
un comportamiento similar a la situación anterior, pero Mapper nos indica cómo se crea un nuevo grupo de concentración
de puntos en la esfera.
43
12.10. Cauchy(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 0 19.63
Mapper(1000) 1 0 - 0.64
Al igual que en el caso GUE, podemos ver cómo se cierra la esfera en una nube densa de puntos que, para la ltración
Vietoris-Rips es imposible detectar más allá de una componente conexa, sólo ruido 1 y 2 dimensional, cuyo comportamiento
comparte con las ltraciones de los complejos testigo débil y fuerte. Igualmente, Mapper sólo alcanza a detectar un
comportamiento similar al de una esfera, salvo que no podríamos decir más pues como hemos estado mencionando, somos
incapaces de inferir características homológicas de dimensión 2 o mayor.
13. Toro
En cada uno de los casos que presentamos a continuación, se cambió la organización de los resúmenes topológicos. La
imagen de la nube de datos a la izquierda corresponde al grafo superior y la imagen de la nube de datos a la derecha
corresponde al grafo inferior. Así mismo, el cálculo de la homología mediante la ltración Vietoris-Rips se realizó con una
submuestra de tamaño 800.
44
13.1. N(0,1)
16 T
20 A
lio IM
Ju -C

D

AT
Vietoris-Rips(800) 1 2 1 1060.79
Mapper(1000) 1 2 - 0.79
Podemos ver que Mapper es capaz de localizar una componente conexa y los dos ciclos de dimensión 1. Igualmente,
los complejos testigo detectan una componente conexa, dos ciclos de dimensión 1 y un vacío 2 dimensional, aunque en
el caso del testigo débil, podemos ver que el vacío 2 dimensional aparece casi al nal de la ltración y su persistencia es
corta hasta ese instante. Así mismo, podemos ver que se ubica bastante ruido 1 dimensonal en ambos complejos testigo,
pero con mayor presencia en el testigo fuerte.
45
13.2. N(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD

AT

Vietoris-Rips(800) 1 2 1 1092.66
Mapper(1000) 1 2 - 0.67
En este caso, ninguno de los algortimos tiene problemas en detectar la única componente conexa, los dos agujeros 1
dimensionales así como el vacío 2 dimensional respectivos del toro. Podemos notar en los tres algoritmos simpliciales que
existe ruido, pero en el caso de Vietoris-Rips este se encuentra bastante cercano a la diagonal, mientras que para ambas
ltraciones testigo se tiene bastante ruido 1 dimensional que persiste casi hasta la mitad de la ltración. En el caso de
Mapper, es capaz de detectar ambas componentes conexas, así como los dos agujeros 1 dimensionales.
46
13.3. N(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD

AT

Vietoris-Rips(800) 1 0 0 716.3
Mapper(1000) 1 0 - 0.88
Como es de esperarse, ninguno de los algoritmos es capaz de detectar los ciclos, esto debido a cómo se cierra la nube de
puntos. Vietoris Rips tampoco detecta más que ruido en el caso 2 dimensional, pero podemos notar varias componentes
de este tipo que pueden ser consideradas relevantes en ambas ltraciones testigo, también, estas mismas nos muestran
bastante ruido 1 dimensional en la persistencia. Todos los algoritmos son capaces de detectar una sola componente conexa.
Mapper no detecta esta vez algún ciclo.
47
13.4. N (0, Σ), ρ = 0.9
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(800) 1 2 1 1411.11
Mapper(1000) 1 2 - 0.65
En este caso, podemos ver que Mapper es capaz de detectar una sola componente conexa, dos ciclos grandes y
alrededor de 4 ciclos más pequeños pequeños. Mientras que Vietoris Rips detecta una sola componente conexa, 1 ciclo que
es notable, pero también logra percibir otros 3 ciclos cuya persistencia es menor pero destacable tanto en el diagrama de
persistencia como en el código de barras. En el caso de los complejos testigo, podemos ver que el débil alcanza a detectar
una componente conexa, dos ciclos de mayor persistencia, pero alrededor de 3 ciclos más cuya persistencia es notoria en
el código de barras, mientras que en el fuerte además de una componente conexa, podemos ver que al nal de la ltración
persisten 5 ciclos pero son notorios alrededor de 5 más a lo largo de la ltración.
48
13.5. N (0, Σ), ρ = 0.9, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(800) 1 2 1 1375.27
Mapper(1000) 1 2 - 0.66
Mapper detecta una componente conexa con bastante ruido alrededor de ella, dos ciclos grandes y otros dos ciclos
más pequeños, así mismo podemos notar una concentración mayor en la parte central y en una de las laterales misma
que se alcanza a apreciar tanto en el coloreado de los nodos como en el tamaño de los mismos. Vietoris-Rips deecta al
nal de la ltración una componente conexa pero alrededor de 4 0 5 ciclos destacables, aunque es más difícil determinar
cuantos vacíos podemos considerar relevantes en la ltración. Los complejos testigo detectan ambos una sola componente
conexa, pero mientras el débil detecta dos ciclos destacables y un vacío 2 dimensional, el complejo testigo fuerte detecta
al menos 5 ciclos 1 dimensionales.
49
13.6. N (0, Σ), ρ = 0.9, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 0 897.52
Mapper(1000) 1 0 - 0.82
Cuando añadimos ruido cuyo valor es σ = 1, podemos ver como se cierra la nube de puntos en una sola componente
conexa, situación que podemos observar en los resúmenes que tenemos de cada uno de los métodos. Nuevamente, los
algoritmos simpliciales correspondientes a los complejos testigo además de la única componente conexa, detectan bastante
ruido 1 dimensional que persiste bastante tiempo en la ltración, así como dos vacíos que persisten un buen lapso de
tiempo en el testigo débil, mientras que para el fuerte también detecta al menos 3 vacíos que persisten una cantidad
similar de tiempo en la ltración. En el caso de Mapper se detecta una sola componente conexa, pero cuando utilizamos
el segundo valor de la SVD podemos ver cómo el ciclo aquí presente se ve afectado por ruido.
50
13.7. GUE
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 2 0 332.86
Mapper(1000) 1 2 - 0.68
Similar a los casos anteriores, podemos ver en el algoritmo Vietoris Rips que solo detecta una componente conexa
y en las demás dimensiones solo ruido que podríamos considerar irrelevante. En el caso de los complejos testigo, ambos
detectan una componente conexa y ruido 2 dimensional que persiste durante buena parte de la ltración, mientras que
para el ruido 1 dimensional, se tiene un comportamiento similar a casos anteriores, vemos que se detecta bastante y hay
algunos ciclos que persisten durante bastante tiempo en la ltración.
51
13.8. GUE, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 2 0 367.48
Mapper(1000) 1 1 - 0.87
En este caso podemos ver cómo Mapper detecta al menos 5 ciclos pequeños y uno de tamaño un poco mayor, así como
una sola componente conexa. Los tres algoritmos simpliciales detectan una sola componente conexa. En el caso de Vietoris
Rips, podemos ver que se encuentran 2 ciclos que podríamos considerar destacables, pero ningún vacío. En los casos de
los complejos testigo, ninguno de los detecta algún vacío, pero si encuentran bastantes ciclos 1 dimensionales que son más
fáciles de ver en el código de barras correspondiente al complejo testigo débil.
52
13.9. GUE, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 0 250.96
Mapper(1000) 1 0 - 0.85
A pesar de que todos los algoritmos nos dicen que se encuentra una sola componente conexa, podemos notar de manera
visual en la representación de nuestra nube de puntos la ligera separación que crean las variables GUE al centro de la
misma. Nuevamente, todos los algoritmos simpliciales detectan bastante ruido 1 y 2 dimensional, pero al igual que en los
casos anteriores, los complejos testigo presentan mucho mayor ruido de estas dimensiones que persiste periodos más largos
en proporción al tiempo total de la ltración.
53
13.10. Cauchy(0,1)
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 2 1 298.814
Mapper(1000) 1 2 - 0.95
Como hemos visto hasta ahora en los casos para S1 y S2 , cuando simulamos variables independientes Cauchy(0,1), el
comportamiento es similar al caso en el que tenemos variables normales independientes de media µ=0 y varianza σi = 1,
cuestión que podemos notar cierta limpieza, tanto del código de barras como el diagrama de persistencia en la ltración
Vietoris-Rips. Sin embargo, podemos ver cómo en el caso de las ltraciones testigo, se encuentra un alto número de ciclos
que consideramos como ruido pero de alguna manera nos indican alguna anormalidad en los datos, en comparación con
la distribución uniforme sobre la esfera. En el caso de Mapper podemos ver cómo se extienden las llamaradas en ambas
proyecciones sobre los primeros vectores propios.
54
13.11. Cauchy(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 2 1 285.94
Mapper(1000) 1 2 - 0.71
En este caso, es mucho más perceptible para Mapper la concentración en al menos dos puntos de T2 , cosa que sigue
pasando desapercibida para la ltración Vietoris-Rips. Nuevamente podemos ver alta presencia de ruido 1 dimensional en
ambos complejos testigo, además el testigo débil no logra notrar la presencia del vacío 2 dimensional que tanto la fuerte
como la Vietoris-Rips detectan.
55
13.12. Cauchy(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT

Vietoris-Rips(1000) 1 0 0 227.2
Mapper(1000) 1 0 - 0.6
Este caso no es diferente a sus análogos en las demás situaciones de simulación, tanto Mapper como Vietoris Rips son
incapaces de detectar ciclos 1 y 2 dimensionales, encontrando este último bastante ruido en estas dimensiones. Ambas
ltraciones testigo detectan bastante ruido 1-dimensional, además de la única componente conexa que sus otras dos
contrapartes, pero en esta situación el ruido persiste una cantidad de tiempo mucho más corta que lo que hemos venido
viendo en comportamiento hasta ahora para todos los casos del Toro; también, las ltraciones testigo pueden detectar al
menos 2 vacíos 2 dimensionales que persisten bastante tiempo.
56
Parte IV
Observaciones y conclusiones
En este proyecto, como el lector pudo haberlo constatado, estamos trabajando con escenarios que están bajo nuestro
control, pues como se comenta en la parte introductoria al Capítulo 4 de las notas, nos permite analizar los métodos
presentados en el curso ante supuestos alternativos. Así mismo, sabemos qué tipo de información homológica y geométrica
deben entregarnos los algoritmos, de modo que el análisis explotatorio realizado en la Parte III nos sirvió como guía para
determinar de buena manera tamaños de submuestra que hagan ecientes nuestros cálculos y que además preserven la
forma de los datos.
A continuación mencionamos algunos detalles que encontramos sobre el algoritmo simplicial de Vietoris-Rips imple-
mentado en la paquetería TDA de R.
El cálculo de la homología mediante la ltración de Vietoris-Rips implementada en la paquetería TDA de R, muy
particularmente para el toro T2 , pudimos ver que una muestra de tamaño menor a 800 puntos, se comporta de una
manera amigable con el equipo de cómputo, mientras que para muestras de tamaño mayor a este número, el sistema
operativo se queda sin recurso suciente para seguir funcionando. Cabe aclarar que el tamaño de la ltración estaba en 2,
pues antes de esto no captaba algunas características homológicas que debíamos esperar. Así pues, además del tamaño de
16 T
muestra, también inuye bastante tanto el tamaño de la ltración, como la dimensión en la que se calcula la homología.
De modo que tuvimos que buscar hacer combinaciones entre tamaño de muestra y de la ltración, de forma tal que los
recursos computacionales no se vieran fuertemente afectados.
20 A
En el caso de la esfera, el algoritmo de Vietoris-Rips no tiene problema en calcular la homología para una nube de
datos de tamaño 1000. A diferencia del toro, el valor de la ltración de 0.7 captura todas las características homológicas
lio IM
de S2 . Así pues, como mencionamos en el párrafo anterior, es posible encontrar una combinación en equilibrio entre el
tamaño de muestra y el valor máximo de la ltración.
Al realizar los cálculos sobre el círculo unitario S1 , dada su baja dimensión, el algoritmo no tiene complicaciones en
trabajar con muestras de tamaño 1000 o superior, tomando en cuenta que el valor máximo de la ltración era a lo más 1.
Ju -C
Cuando agregamos ruido pequeño a nuestra nube de datos, pudimos observar que la detección de las características
homológicas en rara ocasión se vió afectada, pues el comportamiento en los códigos de barras y en los diagramas de
persistencia se mantiene de manera similar, salvo ruido topológico que podríamos considerar despreciable. De tal modo
que es necesario implementar bandas de conanza para distinguir características reales de ruido topológico. También, para
D
cada caso, cuando añadimos ruido más grande, pudimos notar como las características detectadas para los casos sin ruido
y con ruido pequeño se perdían la mayoría de las veces.
AT
En cambio, cuando hacemos uso de los complejos testigo tenemos un comportamiento en costo computacional diferente.
En el caso del círculo unitario S1 bastó tomar una selección de puntos de referencia no mayor a tamaño 40 para que éste
capturara las características homológicas particulares de esta variedad. En el caso de la esfera S2 y el toro T2 , la selección
de puntos de referencia siempre fue ja en 150 puntos, en ambos casos, el algoritmo detectaba de manera eciente las
características homológicas de interés en los casos sin ruido e incluso con ruido pequeño. Al añadir ruido grande, el
algoritmo tenía un comportamiento similar al VR en el sentido de que las características homológicas se perdían, pues no
era capaz de detectarlas. El tiempo de ejecución de los complejos testigo es mucho menor en comparación al Vietoris-Rips
en el caso de muestras grandes, pero hay ocasiones en las que no es capaz de detectar de manera correcta las características
homológicas, esto puede deberse al tamaño del conjunto de puntos de referencia tomado. Nótese también que los valores
en estas ltraciones varian con respecto a la muestra, pues como indicamos en la Parte III, al presentar los complejos
testigo, es necesario un valor pequeño en la ltración para capturar de manera eciente las características que describen
a cada variedad, este valor de la ltración fue tomado en función de la distancia máxima que existe entre los puntos de
referencia y la nube de datos completa.
A pesar de la eciencia en tiempo comparado ante los otros dos métodos, una de las problemáticas principales que
tenemos con Mapper es que estamos restringidos sólo a detectar huecos de dimensión 0 y 1, esto debido a que el software
se encuentra aún en fase de desarrollo. Se intentó modicar el código madre del software para tratar de implementarlo en
huecos de dimensión 2, pero esa situación va más allá de los alcances pretendidos en este proyecto así como del curso.
Mapper es bastante bueno al ser utilizado como herramienta complementaria a los resúmenes topológicos presentados
en este proyecto, pues nos permite darnos una idea de las estructura de los datos, así como posibles concentraciones
anormales de datos en las variedades. Así mismo, los complejos testigo también pueden ayudar como una segunda
opinión a lo obtenido mediante la ltración Vietoris-Rips.
Una de las cosas que también se estuvo trabajando en este proyecto, es en la eliminación de datos aberrantes (outliers)
de las muestras, pero no se reporta debido a que su funcionamiento no es eciente, pues suceden dos cosas, o elimina
demasiados puntos de modo que se pierden las características homologícas y geométricas de los datos, o elimina muy
57
pocos puntos de tal manera que las características aberrantes tanto geométricas como homológicas se mantienen.
Nota: Todas las simulaciones se corrieron bajo un procesador x6 a 3.5GHz con 16GB de memoria RAM hasta los
casos de la esfera. Para el toro sólo pudimos realizar los cálculos con estas características para los complejos testigo y para
Mapper. En el caso de la ltración de Rips fue imposible realizar los cálculos de la homología para una nube de puntos
mayor a 800, para la cual incluso el tiempo de cómputo fue bastante grande (más de 1 hora para cada uno), razón por la
cual decidimos usar el la estación de trabajo del proyecto de ATD. Incluso el servidor del proyecto de ATD fue incapaz de
realizar los cálculos para las nubes de puntos de tamaño 1000 en un tiempo no menor a 1 hora con 20 minutos. Las razones
descritas anteriormente nos llevo a realizar los cálculos de la homología tomando submuestras de tamaño 800 corriéndolos
en la estación de trabajo, en promedio les tomó alrededor de 20 a 30 minutos cada uno en realizarse. Dependiendo del
número de puntos y de la distribución con la que se generaron las muestras, la cantidad de memoria RAM que utilizaba
el algoritmo se veía bastante alterada, llegando a consumir un 80 % de la totalidad de memoria del servidor cuando las
muestras eran de tamaño 1000 y estaban sobre variedades donde la distribución no era uniforme. Cabe señalar que las
características del servidor del proyecto de ATD del CIMAT son las siguientes: 2 procesadores x6 a 3.4GHz con 128GB de
memoria RAM . Así pues, creemos que el algoritmo de TDA implementado en R tiene algunos problemas de optimización,
de modo que un posible camino sería explorar de manera particular el algoritmo GUDHI el cual está implementado por
el grupo de INRIA y compilado bajo librerías de C + +.
16 T
Cosas por hacer:
20 A
Se requiere optimizar la paquetería TDA de R, pues utiliza bastante recurso de memoria y procesamiento a tal grado
que inutiliza el sistema operativo.
lio IM
Explorar de manera individual las paqueterías Dyonisus, DIPHA y GUDHI que se incluyen en la paquetería TDA
de R, pues al estar implementadas en C ++ posiblemente tengan una mayor eciencia.
Implementar de manera eciente bandas de conanza a la ltración de Vietoris-Rips en paquetería TDA de R,

Ju -C
ya que al aplicarlas de la manera en que están desarrolladas actualmente es posible inferir de manera errónea las
características homológicas.
Aplicar teoría estadística para interpretar la relevancia de características geometrícas brindadas por Mapper, ya
D
que existen muchas características detectadas en el algoritmo que podrían ser consideradas como ruido. Un posible
camino sería aplicar técnicas de bootstrap y calcular un p−valor sobre la hipótesis de un número determinado
de características geométricas, de dimensión 1, por ejemplo, herramientas que ya se han utilizado en las otras
AT
metodologías de TDA, como por ejemplo en diagramas y panoramas de persistencia, como se muestra en el capítulo
5 de las notas.
Mejorar o reescribir el código de Python Mapper para poder obtener características geométricas de dimensión
mayor, pues como lo mencionamos en el desarrollo del proyecto, sólo podemos obtener características geométricas
de dimensión 0 y 1.
En base al punto anterior, aplicar técnicas de homología a los simplejos generados por el algoritmo para encontrar
características homológicas.
Eliminación eciente de ruido grande u outliers en la muestra, mediante una elección óptima del radio de la vecindad
sobre cada uno de los puntos de la nube de datos, así como de la cantidad de observaciones contenidas en ésta, de
modo que tales puntos sean signicativos en la muestra.
Profundizar con mayor detalle todos los casos presentados en este proyecto al cambiar tamaños de muestra, así
como otros tipos de ruido agregado a las variedades. Esto, con la nalidad de encontrar otras posibles combinaciónes
tamaño-valor de ltración, que hagan ecientes los cálculos.
58
Referencias
[1] H. Adams, A. Tansz, Javaplex Tutorial,http://www.math.colostate.edu/~adams/research/javaplex_tutorial.

pdf, 2009.
[2] V. De Silva, G. Carlsson, Topological estimation using witness complexes, Proc. Sympos. Point-Based Graphics,
157-166, 2004.
[3] J.W. Demmel, Applied Numerical Linear Algebra, SIAM, 1997.
[4] B.T. Fasy, J. Kim, F. Lecci, C. Maria, Introduction to the R package TDA.arXiv preprint arXiv:1411.1830, 2014.
[5] D. Müllner, A. Babu, Python Mapper: An open-source toolchain for data exploration, analysis and visualization,
http://danifold.net/mapper, 2013.
[6] G. Singh, F. Mémoli, G. Carlsson, Topological methods for the analysis of high dimensional sets and 3D object
recognition, SPBG, 91-100, 2007.
16 T
20 A
lio IM
Ju -CD
AT
59

Semillero PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Semillero PDF

Cargado por

Copyright:

Formatos disponibles

Centro de

Módulos: Fermı́n Reveles (Topologı́a), Vı́ctor Pérez Abreu (Probabilidad),

4. Simulación de variables aleatorias en variedades 131

4.1.3. Distribución cociente de colas pesadas . . . . . . . . . . . . . . . . . 138

5. Inferencia Estadı́stica 145

6. Persistencia de campos aleatorios 189

6.3. Campos aleatorios motivados por neuroimágenes . . . . . . . . . . . . . . . . 195

7. Estimación de números de Betti y topologı́a estocástica 205

A. Análisis de componentes principales (PCA) 251

B. Probabilidad en espacios métricos polacos 255

C. Variables aleatorias en espacios de Banach 261

D. Medidas de Poisson para conjuntos aleatorios de puntos 267

Algunos proyectos de alumnos del curso

I. Esqueleto de homologı́a persistente para aproximar fronteras de objetos en

III. Análisis topológico de datos utilizando Mapper y complejos testigo (incluye

1.1. Nube de puntos y complejo simplicial asociado . . . . . . . . . . . . . . . . . 17

2.1. Emparejamiento de máximos y mı́nimos . . . . . . . . . . . . . . . . . . . . 58

4.1. Distribución uniforme sobre S2 . . . . . . . . . . . . . . . . . . . . . . . . . . 134

4.10. Distribución inducida por la uniforme en la inmersión de T2 en R3 . . . . . . 140

5.1. Interpretación de franja de confianza para un diagrama de persistencia . . . 177

7.1. Comparación entre n β0 (x, 0) y f (x) = − log(1 − x) . . . . . . . . . . . . . . 211

A.1. Ejemplo de componentes principales . . . . . . . . . . . . . . . . . . . . . . . 252

El objetivo es presentar los principales conceptos y resultados de homologı́a persistente,

conocimientos previos en los temas que se abordan de topologı́a, probabilidad y estadı́stica.

de los principales resultados y su relevancia para el ATD.

El curso contó con la participación de estudiantes de la licenciatura en matemáticas

de topologı́a, probabilidad y estadı́stica, como de la literatura reciente en ATD, las cuales se

Guanajuato, Gto., México, julio de 2016.

cargada de conceptos e ideas a utilizar posteriormente.

2. Cualquier unión de elementos de U pertenece a U.

3. Cualquier intersección finita de elementos de U pertenece a U.

La mayorı́a de los espacios que trabajaremos satisfacen la propiedad de

Definición 1.1.1. Un espacio topológico X es Hausdorff, si para cualesquiera x, y en X,

Usualmente será complicado especificar todos los elementos de la topologı́a U. En la

(a) Para cualquier elemento x ∈ X, existe al menos un elemento B ∈ B tal que x ∈ B.

(b) Dados B1 , B2 ∈ B y x ∈ X, si x ∈ B1 ∩ B2 entonces existe un elemento B3 ∈ B tal que

Ejemplo 1.1.3. La colección de todos los intervalos abiertos

(a, b) := {x ∈ R : a < x < b}

• f : X −→ Y es continua si la imagen inversa de cualquier cerrado es un cerrado.

• f : XS −→ Y es continua si X puede ser escrito como la unión de conjuntos abiertos,

• f : X −→ Y es continua si para cada x ∈ X y cada vecindad V de f (x), existe una

Si se satisface la última condición diremos que f es continua en x. Además, las funciones

Ejemplo 1.1.4. La definición de una función continua f : R −→ R, es equivalente a la

|f (x) − f (x0 )| < .

Dada una relación de equivalencia ∼ en X, la topologı́a cociente es por definición la

continua. Esto es, un subconjunto U de X/ ∼ es una colección de clases de equivalencias y

1. para cualquier x, y ∈ X, d(x, y) = d(y, x),

2. para cualquier x, y ∈ X, d(x, y) = 0 si y solo si, x = y,

d(x, z) ≤ d(x, y) + d(y, z).

El par (X, d) se dice un espacio métrico.

B(x, r) := {y ∈ X : d(y, x) < r}

se llama la topologı́a métrica inducida por d.

1. Los espacios euclidianos Rn con la topologı́a estándar, la cual es la topologı́a inducida

2. Los números complejos C vistos con la topologı́a estándar de R2 .

5. Nubes discretas de puntos y sus realizaciones como complejos simpliciales.

Decimos que un subconjunto K ⊂ X es compacto si para cualquier cubierta por abiertos

tal que K ⊆ I Ui ; existe un subconjunto finito de ı́ndices J ⊂ I tal que K ⊆ J Uj .

1.1.1. Tipo de homotopı́a y homeomorfismos

Si el espacio X es compacto y Y es un espacio Hausdorff, entonces cualquier aplicación

tal que para cada x ∈ X:

H(x, 0) = f0 (x) y H(x, 1) = f1 (x).

En tal caso escribiremos f0 ' f1 .

Definición 1.1.6. Dos espacios X y Y son homotópicamente equivalentes (tienen el

|f (x) − f (x0 )| < .

es decir, K corresponde al subconjunto de nivel de dK .

Figura 1.4: Ejemplo de un –contrapeso de una nube de puntos.

define una filtración mientras va de 0 a ∞. Esta filtración se llama la filtración de Čech

σ = {p0 , . . . , pm } ∈ R(P, ) ⇐⇒ ||pi − pj || ≤ , ∀i, j ∈ {0, . . . , m}.