Está en la página 1de 392

Centro de

Investigación en
Matemáticas, A.C.

PERSISTENCIA, PROBABILIDAD
E INFERENCIA ESTADÍSTICA PARA
ANÁLISIS TOPOLÓGICO DE DATOS
Módulos: Fermín Reveles (Topología), Víctor Pérez Abreu (Probabilidad),
Miguel Nakamura (Inferencia estadística), Rolando Biscay (Campos aleatorios)

Julio 2016
Persistencia, Probabilidad e Inferencia
Estadı́stica para Análisis Topológico de Datos

Módulos: Fermı́n Reveles (Topologı́a), Vı́ctor Pérez Abreu (Probabilidad),


Miguel Nakamura (Inferencia estadı́stica), Rolando Biscay (Campos aleatorios)
CIMAT, Guanajuato, México

7 de julio de 2016
Índice general

1. Topologı́a y Geometrı́a 13
1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.1. Tipo de homotopı́a y homeomorfismos . . . . . . . . . . . . . . . . . 18
1.1.2. Topologı́a cociente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3. Complejos simpliciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.1. Nervio y Filtraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4. Homologı́a simplicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.4.1. Cálculo de números de Betti . . . . . . . . . . . . . . . . . . . . . . . 37
1.5. Homologı́a singular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.6. Variedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.6.1. Caracterı́stica de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.6.2. Espacio tangente y distancia geodésica . . . . . . . . . . . . . . . . . 46
1.6.3. Variedades parametrizadas . . . . . . . . . . . . . . . . . . . . . . . . 48
1.7. Teorı́a de Morse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2. Persistencia 57
2.1. Homologı́a persistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2. Persistencia topológica de una filtración . . . . . . . . . . . . . . . . . . . . . 60
2.3. Diagramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4. Persistencia de conjuntos de nivel . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5. Panoramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6. Códigos de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.7. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3
4 Índice general

3. Probabilidad 75
3.1. Elementos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.1.1. Variables aleatorias y sus distribuciones . . . . . . . . . . . . . . . . . 77
3.1.2. Tipos de convergencia en probabilidad y resultados lı́mite universales 82
3.1.3. Aplicaciones al análisis de datos de altas dimensiones . . . . . . . . . 85
3.2. Construcción de medidas y variables aleatorias . . . . . . . . . . . . . . . . . 86
3.2.1. Construcción de medidas y aplicaciones a probabilidad . . . . . . . . 86
3.2.2. Existencia de variables aleatorias independientes . . . . . . . . . . . . 90
3.2.3. Distribución conjunta y condicional de variables aleatorias . . . . . . 91
3.3. Probabilidad en variedades I: . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.1. Sobre la distribución uniforme en probabilidad . . . . . . . . . . . . . 93
3.3.2. Medida uniformemente distribuida . . . . . . . . . . . . . . . . . . . 95
3.3.3. Medida de Lebesgue en Rd y distribución uniforme en subconjuntos . 97
3.3.4. Medida normal estándar en un espacio euclidiano . . . . . . . . . . . 99
3.3.5. Probabilidad uniformemente distribuida en esferas . . . . . . . . . . . 99
3.3.6. Otras medidas en la esfera y el toro . . . . . . . . . . . . . . . . . . . 103
3.4. Integral de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4.1. Funciones medibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4.2. Construcción de la integral de Lebesgue y propiedades iniciales . . . . 107
3.4.3. Espacios Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.4.4. Construcción de medidas a partir de la integral: la densidad . . . . . 114
3.5. Especificación de modelos de probabilidad usando densidades . . . . . . . . . 115
3.5.1. Transformación de variables aleatorias, momentos y convergencia . . 115
3.5.2. Medidas de referencia universales, ejemplos y su contexto . . . . . . 118
3.5.3. Densidades conjuntas, marginales, condicionales e independencia . . 121
3.5.4. Ejemplos de densidades en algunas variedades . . . . . . . . . . . . . 122
3.6. Probabilidad en variedades II: medida geométrica . . . . . . . . . . . . . . . 125
3.6.1. Medidas definidas por restricción a una cubierta abierta . . . . . . . . 125
3.6.2. La medida geométrica (distribución uniforme) . . . . . . . . . . . . . 125
3.6.3. Distribución uniforme vs probabilidad uniformemente distribuida . . 127
3.6.4. Medida de Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
3.6.5. Jacobianos, cambio de variable y áreas . . . . . . . . . . . . . . . . . 128
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

4. Simulación de variables aleatorias en variedades 131


4.1. Variables aleatorias en la esfera . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.1.1. Distribución cociente de una normal multivariada . . . . . . . . . . . 133
4.1.2. Distribución cociente con fuerzas de repulsión en la esfera . . . . . . . 135
Índice general 5

4.1.3. Distribución cociente de colas pesadas . . . . . . . . . . . . . . . . . 138


4.2. Variables aleatorias en el toro . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.2.1. Distribución uniforme como elemento en R2d y R3 . . . . . . . . . . . 140
4.2.2. Fuerza de repulsión en el toro . . . . . . . . . . . . . . . . . . . . . . 141
4.2.3. Otras distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.3. Variables aleatorias en la botella de Klein y la banda de Moebius . . . . . . 144
4.4. Variables aleatorias en otras variedades . . . . . . . . . . . . . . . . . . . . . 144

5. Inferencia Estadı́stica 145


5.1. Premisa principal de un problema de inferencia estadı́stica . . . . . . . . . . 145
5.2. Conceptos básicos de estadı́stica matemática . . . . . . . . . . . . . . . . . . 146
5.2.1. Modelos estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.2. Estadı́sticas y distribuciones muestrales . . . . . . . . . . . . . . . . . 148
5.2.3. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3. Tipos de problemas estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.3.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.3.2. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.4. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.4.1. Estimación paramétrica puntual . . . . . . . . . . . . . . . . . . . . . 153
5.4.2. Estimación por subconjuntos . . . . . . . . . . . . . . . . . . . . . . . 155
5.4.3. Estimación de otras cantidades: funcionales estadı́sticos . . . . . . . . 158
5.4.4. Bootstrap computacional . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.4.5. Estimación de densidades . . . . . . . . . . . . . . . . . . . . . . . . 163
5.5. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.5.1. Consideraciones básicas . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.5.2. El concepto de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.5.3. Pruebas de hipótesis acerca de la media . . . . . . . . . . . . . . . . . 170
5.6. Aplicación de principios de inferencia en literatura de ATD . . . . . . . . . . 172
5.6.1. Pruebas de hipótesis para homogeneidad entre grupos de diagramas
de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.6.2. Subconjuntos de confianza para diagramas de persistencia . . . . . . 175
5.6.3. Inferencia estadı́stica basada en panoramas de persistencia . . . . . . 178
5.6.4. Inferencia estadı́stica robusta para diagramas de persistencia . . . . . 182
5.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

6. Persistencia de campos aleatorios 189


6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.2. Teorı́a fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6 Índice general

6.3. Campos aleatorios motivados por neuroimágenes . . . . . . . . . . . . . . . . 195


6.4. Aproximación de homologı́a persistente de campos aleatorios . . . . . . . . . 197
6.4.1. Aproximación de la media de un campo aleatorio . . . . . . . . . . . 198
6.4.2. Aproximación de función de regresión sobre una variedad . . . . . . . 200
6.5. Caracterı́stica de Euler de códigos de barras de campos gaussianos estándar . 201
6.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

7. Estimación de números de Betti y topologı́a estocástica 205


7.1. Topologı́a de densidades paramétricas . . . . . . . . . . . . . . . . . . . . . . 205
7.1.1. Intervalos de persistencia y esperanza de códigos de barra . . . . . . . 207
7.1.2. Códigos de barra de ciertas densidades paramétricas . . . . . . . . . . 211
7.1.3. Estimación estadı́stica de códigos de barra . . . . . . . . . . . . . . . 220
7.2. Topologı́a de densidades no–paramétricas en variedades . . . . . . . . . . . . 226
7.2.1. La nube de puntos como un proceso puntual y su topologı́a . . . . . . 226
7.2.2. Teoremas lı́mite: Casos subcrı́tico, crı́tico y supercrı́tico . . . . . . . . 229
7.3. Topologı́a de complejos aleatorios geométricos . . . . . . . . . . . . . . . . . 234
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos . . . . 243

A. Análisis de componentes principales (PCA) 251

B. Probabilidad en espacios métricos polacos 255

C. Variables aleatorias en espacios de Banach 261

D. Medidas de Poisson para conjuntos aleatorios de puntos 267

Algunos proyectos de alumnos del curso

I. Esqueleto de homologı́a persistente para aproximar fronteras de objetos en


una imagen. Marı́a Alejandra Valdez Cabrera, Omar Radhames Urquı́dez Calvo.

II. Método para simular puntos uniformemente distribuidos sobre una super-
ficie en Rn . Gilberto Flores Vargas, Yair Hernández Esparza.

III. Análisis topológico de datos utilizando Mapper y complejos testigo (incluye


un tutorial de uso de software). Jesús Manuel Pérez Angulo.
Índice de figuras

1.1. Nube de puntos y complejo simplicial asociado . . . . . . . . . . . . . . . . . 17


1.2. Ejemplo de retracto por deformación . . . . . . . . . . . . . . . . . . . . . . 19
1.3. Ejemplo de un complejo Vietoris–Rips . . . . . . . . . . . . . . . . . . . . . 20
1.4. Ejemplo de un –contrapeso . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5. Ejemplos de simplejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.6. Ejemplos de complejos simpliciales. . . . . . . . . . . . . . . . . . . . . . . . 29
1.7. Intersección de abiertos y creación de 1–simplejos. . . . . . . . . . . . . . . . 32
1.8. Ejemplo de complejo de Vietoris–Rips . . . . . . . . . . . . . . . . . . . . . . 33
1.9. Complejo de cadenas de homologı́a . . . . . . . . . . . . . . . . . . . . . . . 36
1.10. Ejemplos de puntos crı́ticos de la función distancia . . . . . . . . . . . . . . 52

2.1. Emparejamiento de máximos y mı́nimos . . . . . . . . . . . . . . . . . . . . 58


2.2. Aproximación de una función y su diagrama de persistencia . . . . . . . . . 58
2.3. Distancia cuello de botella . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.4. Panoramas de persistencia y relacionados . . . . . . . . . . . . . . . . . . . . 67
2.5. Código de barras e intervalos por clases de homologı́a . . . . . . . . . . . . . 69

4.1. Distribución uniforme sobre S2 . . . . . . . . . . . . . . . . . . . . . . . . . . 134


4.2. Distribución cociente de una distribución normal bivariada con dependencia
en S1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
4.3. Distribución cociente de una distribución normal trivariada con dependencia
en S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.4. Distribución cociente GOE en S1 . . . . . . . . . . . . . . . . . . . . . . . . 136
4.5. Distribución cociente GUE en S1 . . . . . . . . . . . . . . . . . . . . . . . . 137
4.6. Distribución cociente GOE en S2 . . . . . . . . . . . . . . . . . . . . . . . . 137
4.7. Distribución cociente GUE en S2 . . . . . . . . . . . . . . . . . . . . . . . . 138
4.8. Distribución cociente Cauchy en S1 . . . . . . . . . . . . . . . . . . . . . . . 139
4.9. Distribución cociente Cauchy en S2 . . . . . . . . . . . . . . . . . . . . . . . 139

7
8 Índice de figuras

4.10. Distribución inducida por la uniforme en la inmersión de T2 en R3 . . . . . . 140


4.11. Distribución uniforme en el toro . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.12. Distribución en T2 con distribución marginal GOE en S1 . . . . . . . . . . . 142
4.13. Distribución en T2 con distribución marginal GUE en S1 . . . . . . . . . . . 142
4.14. Distribución en T2 con distribución marginal cociente bivariada en S1 . . . . 143
4.15. Distribución en T2 con distribución marginal Cauchy en S1 . . . . . . . . . . 143

5.1. Interpretación de franja de confianza para un diagrama de persistencia . . . 177

7.1. Comparación entre n β0 (x, 0) y f (x) = − log(1 − x) . . . . . . . . . . . . . . 211


7.2. Arco-coseno con rango [−π, π) . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.3. Arco-coseno con rango [π, 3π) . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.4. Arco de cı́rculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
7.5. Gráfica de β0 cuando d = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

A.1. Ejemplo de componentes principales . . . . . . . . . . . . . . . . . . . . . . . 252


Introducción

16 T
Estas notas constituyen un compendio de aspectos teóricos, tanto geométrico–topológico
como de probabilidad e inferencia estadı́stica, para el Análisis Topológico de Datos (ATD).

20 A
Fueron desarrolladas a la par del curso Probabilidad e Inferencia Estadı́stica para el ATD, que
se impartió por vez primera durante el semestre enero-junio 2016 en el Centro de Investigación
lio IM
en Matemáticas A. C. (CIMAT). Las notas se adscriben al proyecto Análisis Topológico de
Datos para Matemáticas y Aplicaciones, CIMAT-ATD (http://atd.cimat.mx/).
Ju -C

El objetivo es presentar los principales conceptos y resultados de homologı́a persistente,


teorı́a de probabilidad e inferencia estadı́stica que permitan entender la creciente literatura
actual de investigación en ATD y temas relacionados. Las notas están dirigidas a estudiantes
de licenciatura y posgrado con una sólida formación matemática básica. No se presuponen
D

conocimientos previos en los temas que se abordan de topologı́a, probabilidad y estadı́stica.


Se introducen conceptos primordiales en cada uno de estos temas, ası́ como una exposición
AT

de los principales resultados y su relevancia para el ATD.


El Módulo I incluye material de geometrı́a, topologı́a y homologı́a persistente que se
presenta en los Capı́tulos 1 y 2. El Módulo II introduce elementos de teorı́a de probabilidad
y simulación de variables aleatorias en variedades, y corresponde al material contenido en
los Capı́tulos 3 y 4, ası́ como en los Apéndices B-D. El Módulo III incluye elementos de
inferencia estadı́stica y su aplicación en literatura reciente de ATD, lo cual se presenta en el
Capı́tulo 5 y el Apéndice A. El Módulo IV cubre el tema de campos aleatorios gaussianos
y se presenta en el Capı́tulo 6, en donde se mencionan numerosas aplicaciones del tema en
neuroimágenes.
El Capı́tulo 7 contiene material que se ha presentado durante el último año en algunas de
las sesiones mensuales ATD del CIMAT y está relacionado con el comportamiento asintótico
de los números de Betti y una introducción a la topologı́a estocástica. La Sección 7.1 fue
escrita por Erik Amézquita (estudiante de licenciatura), la Sección 7.2 por Fermı́n Reveles
y las Secciones 7.3 y 7.4 por Erika Roldán (estudiante de doctorado).

9
10 Introducción

El curso contó con la participación de estudiantes de la licenciatura en matemáticas


de la Universidad de Guanajuato y de los posgrados de ciencias de la computación y de
probabilidad y estadı́stica del CIMAT. Al final de estas notas se incluyen algunos reportes
de proyectos finales del curso desarrollados por alumnos. Estos trabajos abordan aspectos
complementarios del curso como la interpretación de resúmenes topológicos de algoritmos
ATD mediante varios ejemplos de diagramas de persistencia y códigos de barra; limitaciones
computacionales y algoritmos alternativos como Mapper y los complejos testigos; un tutorial
sobre el uso de software diverso para ATD; aplicaciones en análisis de imágenes, y un método
general para la simulación de variables aleatorias en variedades basado en la medida de

16 T
Hausdorff, ejemplificado con la botella de Klein y la banda de Moebius.
Otros trabajos del curso (no incluidos en estas notas) abordaron aspectos de inferencia

20 A
estadı́stica, ası́ como aplicaciones a una base de datos de máscaras prehispánicas del Insti-
lio IM
tuto Nacional de Antropologı́a e Historia, la cual está siendo estudiada en CIMAT mediante
diversas técnicas de topologı́a, estadı́stica y ciencias de la computación. También se cuenta
con un tutorial desarrollado por el estudiante de maestrı́a Rafael González, que explica con
herramientas de álgebra lineal el cálculo de números de Betti en Lenguaje R, mismo que
Ju -C

está disponible por solicitud en tda@cimat.mx. Una aplicación interactiva para la visualiza-
ción de la homologı́a y su correspondiente código de barras puede consultarse en [129].
Al final de las notas se compila una lista amplia de referencias, tanto clásicas de los temas
D

de topologı́a, probabilidad y estadı́stica, como de la literatura reciente en ATD, las cuales se


contextualizan a lo largo de las notas. Se incluyen algunas referencias de aplicaciones—cada
AT

vez más numerosas en la literatura de persistencia y ATD—, todas ellas motivadas por la
necesidad de analizar y modelar datos modernos, los cuales no resultan ser vectores sino
objetos con una estructura peculiar y más compleja. Como menciona Gunnar Carlsson—
uno de los pioneros del ATD—“los datos tienen forma y esta forma importa”; ver también
[90]. La gama de aplicaciones incluye áreas como procesamiento de imágenes [26], [39], [87];
aprendizaje de máquina [27]; oncologı́a [5], [103]; estudios sobre irrigación arterial en el
cerebro [11], [116]; microbiologı́a [69]; nichos ecológicos [60]; redes de sensores y rutas de
evasión [101]; astronomı́a [127]; y filogenética [30], [31], [107], entre otras. Se recomienda [68]
para una exposición critica de los trabajos [31] y [107] a través de un análisis detallado de
la modelación matemática y una introducción a la filogenética.
Al curso asistieron también varios estudiantes, posdoctorados e investigadores. Agradece-
mos a quienes revisaron partes de estas notas, especialmente a Airam Blancas, Gerardo Ba-
rrera, Israel Martı́nez, Joaquı́n Ortega, Erika Roldán y Carlos Vargas. Varios de los inscritos y
asistentes a este curso habı́an participado previamente en los cursos seminales de Topologı́a
Computacional y/o Topologı́a para Computación y Estadı́stica que impartió José Carlos
Gómez Larrañaga en semestres pasados.
Introducción 11

La edición y uniformización de las notas estuvo a cargo de Fermı́n Reveles. Éstas irán
evolucionando y actualizándose de manera intensa en la segunda edición del curso durante
el semestre agosto-diciembre de 2017. Agradecemos también a Armando Domı́nguez quien
ya realizó una revisión minuciosa de las mismas durante el IX Verano de Probabilidad y
Estadı́stica dedicado a ATD. Agradecemos los comentarios que el lector nos pueda propor-
cionar.

Guanajuato, Gto., México, julio de 2016.

16 T
Rolando Biscay, Miguel Nakamura, Vı́ctor Pérez Abreu, Fermı́n Reveles.

20 A
lio IM
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 1

16 T
Topologı́a y Geometrı́a

20 A
lio IM
En este capı́tulo hacemos un repaso de los conceptos y técnicas topológico–geométricas
comúnmente usadas en el ATD. En la mayorı́a de los casos faltarán las demostraciones y se
harán las referencias adecuadas. Esperamos con esto motivar la lectura fluida y continua,
Ju -C

cargada de conceptos e ideas a utilizar posteriormente.


Para un estudio más a fondo de topologı́a y topologı́a algebraica recomendamos los textos
clásicos de Munkres [98], [99] y de Hatcher [65]. Desde la perspectiva del ATD y en relación
D

al tipo de estudio que buscan develar estas notas, el lector puede consultar el libro en lı́nea
de Ghrist [58] y el aún en curso [20] de Boissonat, Chazal e Yvinnec. Sin dejar de lado los
AT

textos de Edelsbrunner y colaboradores [46] y [47]. Ası́ mismo, una introducción al tema se
encuentra en las notas de Espinoza [51]. La mayorı́a de las imágenes en este capı́tulo fueron
tomadas de la tesis de José Marı́a Ibarra [68].
Entendemos que para un estudio profundo de las herramientas de persistencia, es ne-
cesario utilizar y comprender el lenguaje de homologı́a, al menos en su versión simplicial
y con coeficientes en el campo de números binarios Z/2Z. Nuestro enfoque inicial es que
dichas relaciones algebraicas pueden ser pensadas como propiedades geométricas de objetos
computacionalmente tratables. Habrá entonces un “salto” de percepción a la suavidad de
las variedades y los objetos usuales de la topologı́a algebraica. Sin embargo, en nuestro caso,
ambas percepciones serán idénticas.
Esto nos permitirá importar las ideas de teorı́a de Morse de mediados del siglo pasado (ver
[95]), para llevar un estudio en paralelo de las propiedades topológicas relevantes (asociadas
a los números de Betti) y los puntos crı́ticos de funciones “tipo distancia”. Esperamos con
ello motivar un estudio futuro de tópicos avanzados de topologı́a algebraica y su relación al
análisis de datos y aplicaciones.

13
14 Capı́tulo 1. Topologı́a y Geometrı́a

1.1. Definiciones
Una topologı́a en un conjunto X, es una colección U de subconjuntos de X, tal que:

1. ∅ y X pertenecen a U.

2. Cualquier unión de elementos de U pertenece a U.

3. Cualquier intersección finita de elementos de U pertenece a U.

16 T
Llamamos abiertos a los elementos de U y al par (X, U) le decimos un espacio topológi-
co. También es posible definir una topologı́a con subconjuntos cerrados, o subconjuntos de

20 A
la forma X \ U , con U abierto. Si x ∈ X pertenece al abierto U , diremos que U es una
vecindad de x.
lio IM
Dos ejemplos de topologı́as son los siguientes: la topologı́a formada con la colección de
todos los subconjuntos de X se llama la topologı́a discreta. Dado cualquier subconjunto
Y ⊂ X, la familia {U ∩ Y : U ∈ U} es una topologı́a, llamada topologı́a inducida.
Ju -C

La mayorı́a de los espacios que trabajaremos satisfacen la propiedad de


Hausdorff .
D

Definición 1.1.1. Un espacio topológico X es Hausdorff, si para cualesquiera x, y en X,


existen vecindades U de x y V de y, tales que U ∩ V = ∅.
AT

Usualmente será complicado especificar todos los elementos de la topologı́a U. En la


mayorı́a de los casos uno puede especificar una colección de subconjuntos de X más pequeña
y definir la topologı́a en términos de ella.
Una base para una topologı́a en el conjunto X es una colección B de subconjuntos de X,
tal que:

(a) Para cualquier elemento x ∈ X, existe al menos un elemento B ∈ B tal que x ∈ B.

(b) Dados B1 , B2 ∈ B y x ∈ X, si x ∈ B1 ∩ B2 entonces existe un elemento B3 ∈ B tal que

x ∈ B3 ⊂ B1 ∩ B2 .

Los elementos de B se llamaran básicos. En el caso que B sea una base para una topologı́a
en X, la topologı́a generada por B se define como sigue: Un subconjunto U de X es abierto
en X si para cada x ∈ U , existe un elemento básico B ∈ B tal que x ∈ B ⊂ U .
De manera alternativa la topologı́a generada por una base está descrita por el siguiente
resultado.
1.1. Definiciones 15

Lema 1.1.2. Sea B una base para una topologı́a U en X. Entonces U es igual a la colección
de todas las uniones de elementos de B.

Ejemplo 1.1.3. La colección de todos los intervalos abiertos

(a, b) := {x ∈ R : a < x < b}

es una base para los números reales R y la topologı́a que genera se llama la topologı́a estándar
en R.

16 T
Para poder relacionar dos espacios topológicos usamos la noción de continuidad. Una

20 A
aplicación f : X −→ Y se dice una función continua si para cualquier abierto V de Y , la
imagen inversa f −1 (V ) = {x ∈ X : f (x) ∈ V } es un abierto de X.
lio IM
Equivalentemente tenemos las siguientes afirmaciones:

• f : X −→ Y es continua si la imagen inversa de cualquier cerrado es un cerrado.


Ju -C

• f : XS −→ Y es continua si X puede ser escrito como la unión de conjuntos abiertos,


X = Uα , tales que f |Uα es continua para cada α.
D

• f : X −→ Y es continua si para cada x ∈ X y cada vecindad V de f (x), existe una


vecindad U de x en X tal que f (U ) ⊂ V .
AT

Si se satisface la última condición diremos que f es continua en x. Además, las funciones


constantes son continuas, ası́ como las aplicaciones de inclusión A ,→ X con A ⊂ X y la
composición de funciones continuas.

Ejemplo 1.1.4. La definición de una función continua f : R −→ R, es equivalente a la


definición usual con  − δ. Dado x0 ∈ R y  > 0, supongamos que f : R −→ R es continua
en x0 , entonces el intervalo
V = (f (x0 ) − , f (x0 ) + )
es un abierto de R. Luego, f −1 (V ) es abierto del dominio, o bien, existe (a, b) ⊂ R tal que
x0 ∈ (a, b) ⊂ f −1 (V ). Escogemos δ > 0 como el más pequeño entre x0 − a y b − x0 . Por lo
tanto, si
|x − x0 | < δ,
x debe pertenecer a (a, b) y ası́ f (x) ∈ V , o

|f (x) − f (x0 )| < .


16 Capı́tulo 1. Topologı́a y Geometrı́a

Dada una relación de equivalencia ∼ en X, la topologı́a cociente es por definición la


topologı́a más grande que hace a la aplicación de proyección

π : X −→ X/ ∼

continua. Esto es, un subconjunto U de X/ ∼ es una colección de clases de equivalencias y


π −1 (U ) es la unión de clases de equivalencia que pertenecen a U . Luego, un abierto tı́pico
del cociente X/ ∼ es una colección de clases de equivalencia cuya unión es un abierto de X.
La topologı́a cociente es de importante relevancia debido a la construcción de ejemplos

16 T
vistos como espacios o variedades cociente. Más adelante daremos un breve repaso sobre la
misma y presentaremos algunos ejemplos clásicos.

20 A
En ocasiones, habrá ciertas maneras “canónicas” de definir una topologı́a, esto sucede en
particular cuando en el conjunto en cuestión se pueden medir distancias.
lio IM
Una métrica o distancia en X es una aplicación d : X × X −→ [0, ∞) tal que

1. para cualquier x, y ∈ X, d(x, y) = d(y, x),


Ju -C

2. para cualquier x, y ∈ X, d(x, y) = 0 si y solo si, x = y,

3. para cualquier x, y, z ∈ X,
D

d(x, z) ≤ d(x, y) + d(y, z).


AT

El par (X, d) se dice un espacio métrico.


La menor topologı́a que contiene todas las bolas abiertas

B(x, r) := {y ∈ X : d(y, x) < r}

se llama la topologı́a métrica inducida por d.


Algunos ejemplos de espacios topológicos son:

1. Los espacios euclidianos Rn con la topologı́a estándar, la cual es la topologı́a inducida


por la métrica de la norma d(x, y) = ||x − y||.

2. Los números complejos C vistos con la topologı́a estándar de R2 .

3. Espacios cociente como el cı́rculo T = R/Z, o el toro T 2 = R2 /Z2 que están inducidos
por acciones de subgrupos discretos (tipo látices o retı́culas).

4. En general, cualquier espacio que sea localmente euclidiano, como las variedades.
1.1. Definiciones 17

5. Nubes discretas de puntos y sus realizaciones como complejos simpliciales.

16 T
20 A
lio IM
Figura 1.1: Nube de puntos y complejo simplicial asociado
Ju -C

Decimos que un subconjunto K ⊂ X es compacto si para cualquier cubierta por abiertos


de K, existe S {Ui : i ∈ I}
una subcubierta finita. Es decir, dada una colección de abiertos S
D

tal que K ⊆ I Ui ; existe un subconjunto finito de ı́ndices J ⊂ I tal que K ⊆ J Uj .


Para el caso de espacios métricos tenemos la siguiente caracterización de compactos:
AT

Un espacio métrico X es compacto si y sólo si, para cualquier sucesión de X existe una
subsucesión convergente. En el caso de espacios euclidianos, por el teorema de Heine–Borel,
un espacio K ⊂ Rd es compacto si y sólo si, K es cerrado y acotado.
La mayorı́a de los objetos con los que trataremos en estas notas serán
espacios compactos dotados con una distancia.
Decimos que un espacio topológico X es conexo si no puede ser separado por dos abiertos
disjuntos. Esto es, dados cualesquiera abiertos U y V tales que X ⊆ U ∪ V y U ∩ V = ∅;
entonces X ⊆ U o X ⊆ V . Equivalentemente, un espacio topológico X es conexo si y sólo
si, los únicos subconjuntos de X que son al mismo tiempo abiertos y cerrados son el vacı́o y
X mismo.
Un espacio topológico es arco–conexo si para cualesquiera x, y ∈ X, existe una aplicación
continua
γ : [0, 1] −→ X,
tal que γ(0) = x y γ(1) = y.
18 Capı́tulo 1. Topologı́a y Geometrı́a

1.1.1. Tipo de homotopı́a y homeomorfismos


Decimos que dos espacios topológicos son el mismo si son homeomorfos.

Definición 1.1.5. Dos espacios topológicos X, Y son homeomorfos si existe una apli-
cación continua biyectiva h : X −→ Y , tal que h−1 : Y −→ X también es continua. La
aplicación h se llama un homeomorfismo.

Si el espacio X es compacto y Y es un espacio Hausdorff, entonces cualquier aplicación


continua y biyectiva entre X y Y es un homeomorfismo. Los espacios que son homeomorfos

16 T
a la bola unitaria estándar en Rn , se llamarán bolas topológicas.

20 A
Decidir si dos espacios son homeomorfos es una tarea complicada. En general, trabaja-
remos con una noción más débil que ésta, la relación de equivalencia homotópica.
lio IM
Decimos que dos aplicaciones f0 , f1 : X −→ Y son homotópicas, si existe una aplicación
continua
H : X × [0, 1] −→ Y
Ju -C

tal que para cada x ∈ X:

H(x, 0) = f0 (x) y H(x, 1) = f1 (x).


D

En tal caso escribiremos f0 ' f1 .


AT

Definición 1.1.6. Dos espacios X y Y son homotópicamente equivalentes (tienen el


mismo tipo de homotopı́a) si existen aplicaciones continuas

f : X −→ Y y g : Y −→ X,

tales que f ◦ g ' idY y g ◦ f ' idX .


Un espacio es contraı́ble si es homotópicamente equivalente a un punto.

Cuando Y es un subconjunto de X, podemos saber si existe una equivalencia homotópica


entre Y y X mediante el siguiente resultado.

Proposición 1.1.7. Si Y ⊂ X y existe una aplicación continua

H : X × [0, 1] −→ X,

tal que:

• Para cada x ∈ X, H(x, 0) = x,


1.1. Definiciones 19

• para cada x ∈ X, H(x, 1) ∈ Y ,


• para cada y ∈ Y y para todo t ∈ [0, 1], H(y, t) ∈ Y .
Entonces X y Y son homotópicamente equivalentes.
Observación 1.1.8. Si la última propiedad se reemplaza por la propiedad más fuerte de que
para cada y ∈ Y y para todo t ∈ [0, 1], H(y, t) = y, entonces, decimos que H define un
retracto por deformación de X sobre Y .
Ejemplo 1.1.9. La esfera unitaria Sn es un retracto por deformación del espacio euclidiano

16 T
Rn+1 \ {0}. Consideramos la función
F : (Rn+1 \ {0}) × [0, 1] → Rn+1 \ {0},
definida por
20 A
lio IM
x
F (x, t) = (1 − t)x + t .
||x||
Dicha aplicación va “encogiendo” gradualmente el rayo que emana del origen en Rn+1 \{0}
Ju -C

al punto donde intersecta la esfera. Como para cada y ∈ Sn , ||y|| = 1, tenemos que F (y, t) = y
para cada t ∈ [0, 1] y por lo tanto, F define un retracto por deformación de Rn+1 \ {0} sobre
Sn .
D
AT

Figura 1.2: El espacio R3 \ {0} se retrae en la esfera S2 .


20 Capı́tulo 1. Topologı́a y Geometrı́a

En general, una nube discreta de puntos tendrá asociada un complejo simplicial, el lla-
mado complejo de Čech; o bien, el complejo de Rips (incluso el caso de los complejos α para
dos y tres dimensiones). Dicho complejo simplicial será homotópicamente equivalente a un
espacio métrico compacto formado por unión de bolas cerradas. Esté será el contenido del
llamado Lema del Nervio, que veremos posteriormente.
Para poder caracterizar las propiedades topológicas de un espacio buscamos invariantes
topológicos, objetos matemáticos como números, grupos, polinomios; tales que permanez-
can el mismo entre espacios homotópicamente equivalentes.

16 T
Ejemplo 1.1.10. Los números de Betti βk (X) de un espacio X están definidos por la di-

20 A
mensión del espacio vectorial
Hk (X, Z/2Z);
lio IM
donde el k–ésimo grupo de homologı́a en este caso mide lazos, agujeros, vacı́os en el espacio
X. En general y dependiendo del modelo, se pueden utilizar los grupos de homologı́a con
Ju -C

coeficientes en Z, Q o R.
Más adelante ahondaremos en la definición formal de homologı́a simplicial y singular,
ası́ mismo extenderemos nuestro estudio a la homologı́a persistente.
D
AT

Figura 1.3: Ejemplo de un complejo de Vietoris–Rips asociado a una nube de puntos.


1.1. Definiciones 21

1.1.2. Topologı́a cociente


Las construcciones más comunes en topologı́a suelen ser espacios formados vı́a identifica-
ciones o “pegados”, los cuales en el lenguaje de topologı́a suelen ser vistos como construccio-
nes muy poco formales. En esta sección veremos la teorı́a detrás de este tipo de ejemplos y
presentaremos algunos ejemplos importantes como el cı́rculo, la banda de Moebius, el plano
proyectivo, el toro y la botella de Klein.
Como hemos mencionado anteriormente, la mayorı́a de los espacios en la aplicación satis-
facen la propiedad de ser Hausdorff. Para el caso de las variedades, que veremos más adelante,
esta condición más la propiedad de ser segundo numerable son necesarias en la definición.

16 T
Para un estudio introductorio sobre variedades riemannianas recomendamos [126].

20 A
Recordamos que una relación de equivalencia ∼ en un conjunto X es una relación que
es simétrica, reflexiva y transitiva. Se define la clase de equivalencia [x] de x ∈ X, como
lio IM
el conjunto de los elementos de X equivalentes con x. Luego, una relación de equivalencia
particiona a un conjunto X en sus clases de equivalencia disjuntas. Denotamos por X/ ∼ al
conjunto de clases de equivalencia y lo llamamos el espacio cociente de X por ∼. Ası́ mismo,
Ju -C

consideramos la aplicación natural de proyección


π : X −→ X/ ∼,
D

que asigna a x ∈ X su clase [x] ∈ X/ ∼.


Si X es además un espacio topológico, definimos una topologı́a en el espacio cociente
X/ ∼ como sigue: U es abierto en X/ ∼ si y sólo si, π −1 (U ) es abierto en X. Se observa
AT

directamente que el vacı́o y X/ ∼ son abiertos. Más aún, como


! !
[ [ \ \
π −1 Uα = π −1 (Uα ) y π −1 Ui = π −1 (Ui ),
α α i i

entonces también se satisface que la colección de abiertos en X/ ∼ es cerrada bajo uniones


arbitrarias e intersecciones finitas. Esta topologı́a en X/ ∼ se llama la topologı́a cociente.
Observar que con la topologı́a cociente en X/ ∼ automáticamente la proyección π es
continua.
Supongamos que una función f : X −→ Y es constante en cada clase de equivalencia,
entonces tenemos una aplicación inducida f¯ : X/ ∼−→ Y dada por f¯([x]) = f (x) para
x ∈ X. Directamente de esta construcción podemos probar que f¯ es continua si y sólo si, f
es continua.
Sea A ⊂ X un subespacio topológico de X, definimos la relación de equivalencia ∼ en X
via x ∼ x para cada x ∈ X y
x ∼ y, ∀x, y ∈ A.
22 Capı́tulo 1. Topologı́a y Geometrı́a

En este caso, decimos que el espacio cociente X/ ∼ se obtiene de X al identificar A a un


punto.
Ejemplo 1.1.11 (El cı́rculo). Sea I = [0, 1] el intervalo unitario cerrado e I/ ∼ el espacio
cociente que se obtiene de I al identificar {0, 1} a un punto. Si S1 denota el cı́rculo en el
plano complejo C, la función f : I −→ S1 , dada por f (x) = exp(2πix), toma los mismos
valores en 0 y 1 y por lo tanto induce una función
f¯ : I/ ∼−→ S1 .
Claramente la función f¯ es continua ya que f lo es y además es una biyección. Como

16 T
I/ ∼ es imagen continua de un compacto I, entonces también es compacto. Luego, tenemos

20 A
una función biyectiva continua del espacio compacto I/ ∼ al espacio Hausdorff S1 ; esto es,
f¯ es un homeomorfismo.
lio IM
En general, la construcción de pasar al cociente no respeta las propiedades de ser Haus-
dorff y segundo numerable, que son deseables en un espacio topológico. Supongamos que
X/ ∼ es Hausdorff, entonces para cualquier x ∈ X, el conjunto de un solo punto {π(x)} es
Ju -C

cerrado en X/ ∼. Ası́ que π −1 ({π(x)}) = [x] es cerrado en X. Lo cual nos da una condición
necesaria para probar cuando X/ ∼ es Hausdorff.
Proposición 1.1.12. Si el espacio cociente X/ ∼ es Hausdorff, entonces la clase de equi-
D

valencia [x] es cerrada en X para cada x ∈ X.


AT

Uno de los ejemplos más importantes en el contexto de variedades no–orientables es el


espacio proyectivo real. Consideramos una relación de equivalencia en Rn+1 \ {0} mediante
x∼y ⇐⇒ y = tx para algún número real t.
El espacio proyectivo real RP n es el espacio cociente Rn+1 / ∼. A la clase de equivalencia
[x0 , . . . , xn ] ∈ RP n se le llama coordenadas homogéneas de RP n .
Observar que dos puntos que no son cero en Rn+1 son equivalentes si y sólo si yacen
sobre la misma lı́nea a través del origen. Como cada lı́nea a través del origen en Rn+1 corta
la esfera Sn en un par de puntos antipodales, y viceversa, entonces definimos la siguiente
relación de equivalencia ∼ en Sn :
x∼y ⇐⇒ x = ±y, x, y ∈ Sn .
Esto es, tenemos una biyección entre RP n y Sn / ∼. En otras palabras, la aplicación de
x
proyección f : Rn+1 −→ Sn , dada por f (x) = ||x|| , induce un homeomorfismo

f¯ : RP n −→ Sn / ∼ .
1.1. Definiciones 23

Ejemplo 1.1.13 (La lı́nea proyectiva real). Cada lı́nea a través del origen en R2 corta al
cı́rculo S1 en un par de puntos antipodales. Luego RP 1 es homeomorfo a S1 / ∼, el cual es
homeomorfo al semicı́rculo superior cerrado, con los dos puntos finales identificados.
Ejemplo 1.1.14 (El plano proyectivo real). Sabemos que existe un homeomorfismo entre
RP 2 y S2 / ∼ con la relación de identificar puntos antipodales. Para puntos que no están en el
ecuador, cualquier par de puntos antipodales tiene un único punto en el hemisferio superior
H 2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, z ≥ 0},

16 T
ası́ que existe una biyección entre S2 / ∼ y H 2 identificando cada par de puntos antipodales
del ecuador:

20 A
(x, y, 0) ∼ (−x, −y, 0), x2 + y 2 = 1.
Consideremos además el disco unitario cerrado
lio IM
D2 = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}.
Vemos que H 2 y D2 son homeomorfos vı́a
Ju -C

p
φ(x, y, z) = (x, y) y φ−1 (x, y) = (x, y, 1 − x2 − y 2 ).
En D2 definimos la relación de equivalencia ∼ identificando puntos antipodales en el cı́rculo
D

frontera:
(x, y) ∼ (−x, −y), x2 + y 2 = 1.
AT

Entonces, tenemos definidos los homeomorfismos


φ̄ : H 2 / ∼−→ D2 / ∼ y φ−1 : D2 / ∼−→ H 2 / ∼ .
En conclusión, tenemos quizás la mejor manera de visualizar el plano proyectivo RP 2
como D2 / ∼, el cociente del disco cerrado D2 con puntos antipodales en la frontera identifi-
cados.
Ejemplo 1.1.15 (La botella de Klein). Sea X = S1 × S1 el producto de dos cŕculos. Consi-
deramos en X la relación de equivalencia:
(z, w) ∼ (1/z, −w), (z, w) ∈ S1 × S1 .
Notar que estamos pensando que S1 está inmerso en el plano complejo C. Luego, esta
aplicación en el cociente, refleja sobre el eje x en el primer cı́rculo y rota 180 grados en el
segundo. Explı́citamente podemos considerar el homeomorfismo entre C y R2 :
z := x + iy 7−→ (x, y).
24 Capı́tulo 1. Topologı́a y Geometrı́a

De tal forma que la relación de equivalencia en X se expresa ahora como

(x, y) × (u, v) ∼ (x, −y) × (−u, −v), (x, y) × (u, v) ∈ S1 × S1 ;

o bien, (x, y), (u, v) ∈ R2 con x2 + y 2 = u2 + v 2 = 1.


El espacio topológico cociente K 2 := X/ ∼ se llama la botella de Klein. Observar que
es un espacio topológico compacto.

Ejemplo 1.1.16 (La banda de Moebius). Sean a > 0 y X = (−a, a)×S1 . En X consideramos
la relación de equivalencia:

16 T
(t, z) ∼ (−t, −z), (t, z) ∈ (−a, a) × S1 .

20 A
El espacio topológico cociente Ma := X/ ∼ se conoce como la banda de Moebius de altura
lio IM
2a. Notar que si pensamos al intervalo (−a, a) como un subconjunto abierto de S1 , Ma puede
ser visto como parte de la botella de Klein K 2 .
Más aún, si consideramos el cociente de R×S1 , el resultado M∞ se conoce como la banda
Ju -C

de Moebius de altura infinita.


D

1.2. Distancias
AT

Dado un conjunto compacto K de Rn , definimos la vecindad tubular o contrapeso de K


de radio ; como el conjunto de todos los puntos a distancia a lo más  de K:
  [
 n
K = y ∈ R : ı́nf ||x − y|| ≤  = B(x, ).
x∈K
x∈K

Definición 1.2.1. La distancia Hausdorff dH (K, K 0 ) entre dos conjuntos cerrados K, K 0


de Rn está definida por:

dH (K, K 0 ) = ı́nf{ ≥ 0 : K ⊂ (K 0 ) , K 0 ⊂ K  }
 
= máx sup (ı́nf ||x − y||), sup( ı́nf 0 ||x − y||) .
y∈K 0 x∈K x∈K y∈K

En general, dado un compacto K ⊂ Rn , se define la función distancia a K:

dK (x) := ı́nf d(x, y) = ı́nf ||x − y||, x ∈ Rn .


y∈K y∈K
1.2. Distancias 25

Observar que dicha función distancia es continua y 1–Lipschitz; i.e.

|dK (x) − dK (x0 )| ≤ ||x − x0 ||.

Más aún, K = d−1


K (0) y el contrapeso de K de radio ,

K  = d−1 n
K ([0, ]) = {x ∈ R : dK (x) ≤ },

es decir, K  corresponde al subconjunto de nivel  de dK .

16 T
20 A
lio IM
Ju -CD
AT

Figura 1.4: Ejemplo de un –contrapeso de una nube de puntos.

Proposición 1.2.2. Dados dos compactos K, K 0 ⊂ Rn , la distancia Hausdorff dH (K, K 0 )


entre K y K 0 está definida por cualquiera de las afirmaciones siguientes:

1. dH (K, K 0 ) = máx (supx∈K dK 0 (x), supx∈K 0 dK (x)) .


0
2. dH (K, K 0 ) es el menor número  tal que K ⊂ K  y K 0 ⊂ K  .

3. dH (K, K 0 ) = ||dK − dK 0 || := supx∈Rn |dK (x) − dK 0 (x)|.


26 Capı́tulo 1. Topologı́a y Geometrı́a

En ocasiones, los espacios correspondientes no serán ambos subespacios de un espacio en


común. En tales casos se define la distancia Gromov–Hausdorff dGH (X, Y ) como sigue.
Decimos que dos espacios métricos compactos (X, d), (Y, d0 ) son isométricos si existe una
biyección Φ : X −→ Y que preserva distancias.
Para un r > 0,
dGH (X, Y ) < r
si y sólo si, existe un espacio métrico Z y subespacios X 0 , Y 0 de éste, los cuales son isométricos
a X, Y respectivamente y tales que

16 T
dH (X 0 , Y 0 ) < r.

20 A
Intuitivamente, la distancia Gromov–Hausdorff es el ı́nfimo de la distancia Hausdorff
sobre todas las posibles inclusiones isométricas de estos espacios sobre un espacio métrico
lio IM
común.
Sin embargo, en ocasiones la distancia Hausdorff no será una buena aproximación entre
conjuntos. Una medida con más aproximación a la similaridad de dos formas es la distancia
Ju -C

de Fréchet.
Definición 1.2.3. Las distancia Fréchet entre dos subconjuntos X, Y de Rn es
D

dF (X, Y ) = ı́nf sup d(p, h(p)),


h p∈X
AT

donde h corre sobre todos los homeomorfismos entre X, Y .


La distancia de Fréchet es más fina para poder comparar conjuntos que la distancia Haus-
dorff. Sin embargo, solamente nos permite comparar entre espacios que son homeomorfos.
Más adelante trabajaremos con distancias tipo Wasserstein y usaremos esta idea de
homeomorfismo o “paridad” entre elementos de dos espacios, para definir distancias entre
los objetos que miden la persistencia topológica.

1.3. Complejos simpliciales


Antes de pasar al estudio de la homologı́a simplicial, entenderemos la clase de espacios pa-
ra la cual se define. Estamos hablando de los poliedros, espacios que son construidos a partir
de “bloques” como segmentos de lı́neas, triángulos, tetraedros y sus análogos en dimensiones
mayores, a partir de pegar éstos a lo largo de sus caras. En esta sección estudiaremos estos
bloques esenciales.
1.3. Complejos simpliciales 27

La combinación lineal
m
X
λi pi ,
i=0

donde para cada ı́ndice i, λi ∈ R y pi ∈ Rn , es una combinación convexa si y sólo si,


m
X
λi = 1, λi ≥ 0, i = 0, . . . , m.
i=0

16 T
Un subconjunto de Rn es convexo si contiene al segmento de lı́nea que une cualesquiera
dos de sus puntos. La intersección de dos conjuntos convexos es necesariamente convexa y

20 A
el espacio ambiente Rn también lo es.
lio IM
Definición 1.3.1. Dado un conjunto finito de puntos P = {p0 , . . . , pm } de Rn , la envol-
vente convexa de P es el conjunto de todas las combinaciones convexas de puntos de P .

La envolvente convexa puede verse como la intersección de todos los conjuntos convexos
Ju -C

de Rn que contienen a P .
Un conjunto finito de puntos P = {p0 , . . . , pm } en Rn se dice geométricamente indepen-
diente si no está contenido en un subespacio afı́n de dimensión menor que m. Esto es, para
D

cualesquiera números reales {λi : 0 ≤ i ≤ m} las ecuaciones


AT

m
X m
X
λi = 0 y λi pi = 0,
i=0 i=0

implican que λ0 = λ1 = . . . = λm = 0.
Equivalentemente, P es geométricamente independiente si y sólo si,

{pi − p0 : 1 ≤ i ≤ m}

es un conjunto linealmente independiente en el sentido ordinario del álgebra lineal. Trivial-


mente un conjunto de un punto es geométricamente independiente, ası́ como dos puntos
distintos, tres puntos no co–lineales, cuatro puntos no co–planares y ası́ sucesivamente.

Definición 1.3.2. El conjunto de combinaciones convexas de m + 1 puntos geométricamente


independientes [p0 , . . . , pm ] se dice un m–simplejo.

Un 0–simplejo es un punto, un 1– simplejo es un segmento de recta, un 2–simplejo es un


triángulo, un 3–simplejo es un tetraedro, etc.
28 Capı́tulo 1. Topologı́a y Geometrı́a

Las caras de un simplejo con conjunto de vértices P , son los simplejos de dimensión
menor o igual que la dimensión del simplejo, obtenidos como combinaciones convexas de
subconjuntos de P . Por ejemplo, las caras del triángulo [p0 , p1 , p2 ] son los simplejos

∅, [pi ], [pi , pj ]i<j , [p0 , p1 , p2 ], i, j = 0, 1, 2.

16 T
20 A
lio IM
Ju -CD

Figura 1.5: Ejemplos de simplejos.


AT

Observación 1.3.3. Podemos inferir el número de caras de un m–simplejo a partir del


triángulo de Pascal. Recordamos que éste codifica la información de los coeficientes binomia-
les, el número de diferentes combinaciones de l elementos distintos tomados de m objetos
sin importar el orden en que se elijan, es decir ml .


Tenemos que un m–simplejo tiene m+1



l+1
caras de dimensión l y en total

m  
X m+1
= 2m+1
l=−1
l+1

caras.
Si pensamos que el vacı́o es una (−1)–cara de cualquier simplejo, entonces la j–ésima
fila del triángulo de Pascal nos dice el número de caras de un (j − 2)–simplejo. Por ejemplo,
el tetraedro o 3–simplejo tiene una (−1)–cara, cuatro 0–caras o puntos, seis 1–caras o lados,
cuatro 2–caras o triángulos y una 3–cara o el mismo tetraedro. Tal como nos dice la quinta
fila del triángulo de Pascal.
1.3. Complejos simpliciales 29

Un simplejo es por definición un objeto muy grande. Para el caso del cálculo digital estos
objetos se vuelven matemáticamente intratables. Sin embargo, son muy uniformes y simples
en su estructura y por lo tanto nos proveen de un objeto ideal computacionalmente hablando.

16 T
20 A
lio IM
Figura 1.6: Ejemplos de complejos simpliciales.
Ju -C

Definición 1.3.4. Un complejo simplicial K es una colección finita de simplejos, tales


que:
D

1. Cualquier cara de un simplejo de K es un simplejo de K.


AT

2. La intersección de cualesquiera dos simplejos de K es, o bien vacı́a, o una cara común
de ambos simplejos.

Llamamos a los simplejos de K caras y su dimensión será la dimensión más alta entre sus
simplejos. Un subconjunto de K que es un complejo simplicial por su cuenta será llamado
subcomplejo de K.
El j–esqueleto de K, Skj (K), es el subcomplejo de K que consiste de los simplejos de
dimensión a lo más j. Por ejemplo, el 0–esqueleto son los puntos del complejo y el 1–esqueleto
será la gráfica asociada al conjunto de puntos que forman el complejo.
Dado un complejo simplicial K como antes, definimos el espacio subyacente (o polı́topo)
|K|, como el subconjunto de Rn que es la unión de los simplejos de K. La topologı́a de K es
la topologı́a inducida en |K| por la topologı́a estándar de Rn .

Definición 1.3.5. Decimos que un complejo simplicial K es una triangulación del espacio
topológico X si
|K| = X.
30 Capı́tulo 1. Topologı́a y Geometrı́a

Observar que estamos considerando que los simplejos que definen el complejo están in-
mersos en algún espacio euclidiano; es decir, podrı́amos decir que K es un complejo simplicial
geométrico.
Definición 1.3.6. Sea P = {p1 , . . . , pn } un conjunto finito de elementos. Un complejo
simplicial abstracto K con conjunto de vértices P , es un conjunto de subconjuntos de P
tal que:
1. Los elementos de P pertenecen a K.
2. Si τ ∈ K y σ ⊆ τ , entonces σ ∈ K.

16 T
En este caso los simplejos de K no están pensados como objetos geométricos en Rn , sino

20 A
sólo como conjuntos de vértices. Si σ ∈ K tiene precisamente m + 1 elementos, entonces la
dimensión de σ será m y llamaremos a σ un m–simplejo.
lio IM
Un complejo simplicial K define naturalmente un complejo abstracto Ka : El conjunto de
vértices de Ka es el conjunto de vértices de K y los simplejos de Ka son los conjuntos de
vértices de simplejos de K.
Ju -C

Recı́procamente, dado un complejo simplicial abstracto K, se define un complejo simpli-


cial geométrico Kg de la siguiente manera en un espacio euclidiano: Consideremos el simplejo
estándar σ ⊂ Rn generado por los vectores unitarios {e1 , . . . , eN }, donde N es el número
D

de vértices del complejo K. Sea {v1 , . . . , vN } el conjunto de vértices de K. Entonces Kg es


el subcomplejo de σ definido como sigue: [ei0 , . . . , eim ] es un m–simplejo de Kg si, y sólo si,
AT

[vi0 , . . . , vim ] es un simplejo de K. Llamaremos a Kg la realización geométrica de K.


Dicho espacio euclidiano no será único y tenemos que todo complejo simplicial abstrac-
to de dimensión n, tiene una realización geométrica en R2n+1 . Más aún, cualesquiera dos
realizaciones geométricas Kg1 , Kg2 son homeomorfas.
Usualmente trabajaremos con complejos cuyos vértices están en Rn .

1.3.1. Nervio y Filtraciones


Decimos que un espacio X es paracompacto si para cualquier cubierta abierta U de X,
existe un refinamiento U 0 que es localmente finito; esto es, cualquier x ∈ X tiene una vecindad
tal que intersecta sólo un número finito de Ui ∈ U 0 . En particular, un espacio compacto es
paracompacto.
Sea U = {Ui }i∈I una cubierta abierta de X, consideramos el complejo simplicial asociado
C(U) con conjunto de vértices U, tal que
m
\
σ = [Ui0 , . . . , Uim ] ∈ C(U) ⇐⇒ Uij 6= ∅.
j=0
1.3. Complejos simpliciales 31

Dicho complejo C(U) se llama el complejo del nervio o complejo de Čech de la cubierta U.

Teorema 1.3.7 (Teorema del Nervio). Sea U = {Ui }i∈I una cubierta abierta del espacio
paracompacto X, tal que cualquier intersección finita de los Ui es, o bien vacı́a, o contraible.
Entonces, X y C(U) son homotópicamente equivalentes.

Observación 1.3.8. El teorema es cierto para cubiertas por cerrados con la condición de
que X sea homeomorfo a un complejo simplicial finito.

Una cubierta con las propiedades del teorema del Nervio se llama una buena cubierta.

16 T
Dicho teorema es de gran relevancia para la inferencia topológico–geométrica y la topologı́a

20 A
computacional, ya que nos permite reunir la topologı́a del espacio X mediante un complejo
simplicial, describiendo las propiedades combinatorias de una buena cubierta. En particular,
cuando el espacio X es una unión de bolas (o conjuntos convexos) en Rn , X será homotópi-
lio IM
camente equivalente al nervio de la cubierta hecha por esta unión.
Usualmente un complejo simplicial K vendrá especificado con cierto orden de sus sim-
Ju -C

plejos, esto tendrá un rol importante en la inferencia geométrica.

Definición 1.3.9. Una filtración de un complejo simplicial finito K es una sucesión de


subcomplejos F = {K 0 , . . . , K m } tal que:
D

1. ∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K m = K.
AT

2. K i+1 = K i ∪ σ i+1 , donde σ i+1 es un subcomplejo de K.

La segunda condición es equivalente a que K i es un subcomplejo de K i+1 . Análogamente


una filtración de un espacio topológico cualquiera X, puede ser vista como una sucesión de
subespacios encajados cuya unión es igual al espacio X.
Todo complejo simplicial geométrico K admite una filtración estándar; esto es, escogiendo
K j como el j–esqueleto de K, Skj (K).

Lema 1.3.10. ∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K m = K con K i+1 = K i ∪ σ i+1 y σ i+1 de dimensión


m, es una filtración de K si y sólo si, para cualquier i = 0, . . . , m − 1 todas las caras de σ i+1
están contenidas en K i

En ocasiones, lo más natural será considerar el orden de los complejos usando una sucesión
creciente de valores reales {αi } ⊂ R:

∅ = K α0 ⊂ K α1 ⊂ · · · ⊂ K αm = K.
32 Capı́tulo 1. Topologı́a y Geometrı́a

Esto dará pie a definir filtraciones por subconjuntos de nivel de funciones con valores reales
como las funciones “tipo distancia”.
Las filtraciones serán usadas para construir estructuras geométricas sobre conjuntos fini-
tos de puntos. Dado un conjunto finito de puntos P en Rn , el –contrapeso de P , o nervio
[
C(P, ) = B(p, ) = d−1
P ([0, ]),
p∈P

define una filtración mientras  va de 0 a ∞. Esta filtración se llama la filtración de Čech

16 T
construida sobre P .
Los 0–simplejos de C(P, ) son los puntos de P y los otros simplejos están caracterizados

20 A
por
m
lio IM
\
σ = [p0 , p1 , . . . , pm ] ∈ C(P, ) ⇐⇒ B(pj , ) 6= ∅.
j=0

Observación 1.3.11. El cómputo del complejo de Čech para dimensiones mayores que 3
Ju -C

se vuelve rápidamente intratable. En geometrı́a computacional se usan los complejos α, los


cuales están asociados a células de Voronoi (ver [46]). En la actualidad se busca una gene-
ralización de estos objetos a dimensiones mayores.
D
AT

Figura 1.7: Intersección de abiertos y creación de 1–simplejos.


1.3. Complejos simpliciales 33

Otra filtración usada comúnmente es la del complejo de Vietoris–Rips, cuyos simplejos


R(P, ) construidos sobre P están definidos por

σ = {p0 , . . . , pm } ∈ R(P, ) ⇐⇒ ||pi − pj || ≤ , ∀i, j ∈ {0, . . . , m}.

El complejo de Vietoris–Rips es el complejo más grande que tiene como 1–esqueleto el


complejo de Čech. Éste complejo es menos costoso desde el punto de vista computacional que
el complejo de Čech. La razón es debido a que el complejo de Vietoris–Rips es un complejo
bandera; es decir, es maximal entre todos los complejos simpliciales que tienen dicho 1–

16 T
esqueleto. De tal forma que las combinaciones del 1–esqueleto completamente determinan el
complejo y el complejo de Vietoris–Rips puede ser guardado como una gráfica.

20 A
lio IM
Ju -CD
AT

Figura 1.8: Complejo de Vietoris–Rips.

Al convertir una nube de datos en un complejo simplicial como hasta ahora, la elec-
ción adecuada del valor  será crucial. Es decir, para valores muy pequeños de  el espacio
será discreto y para valores muy grandes será un único simplejo de dimensión alta. Tenemos
en particular lo siguiente.

Lema 1.3.12. Sea P un subconjunto finito de puntos de Rn , para cualquier α ≥ 0,


√ √
R(P, α) ⊆ C(P, α 2) ⊆ R(P, α 2).
34 Capı́tulo 1. Topologı́a y Geometrı́a

Esto implica que cualquier propiedad topológica que persiste bajo la inclusión
R(P, α) ,→ R(P, α0 )
es de hecho una propiedad topológica del complejo de Čech cuando

α0 /α ≥ 2.
Es decir, las propiedades asociadas en topologı́a y/o geometrı́a de dicha inclusión, revelan
información que no es visible (inmediatamente) a partir de los estadios en α y α0 respecti-
vamente.

16 T
El complejo de Vietoris–Rips es usado en aplicaciones, sin embargo su cómputo se vuelve
intratable para dimensiones altas. Otra opción serı́a cambiar el modelo topológico.

20 A
lio IM
1.4. Homologı́a simplicial
En general, para el estudio posterior de la homologı́a persistente, basta estudiar la ho-
Ju -C

mologı́a para un complejo finito K ⊂ Rn .


A partir de ahora, restringiremos nuestro estudio a la homologı́a con coeficientes en el
campo Z2 = Z/2Z, lo cual como veremos adelante tiene una interpretación geométrica muy
D

particular. Un tutorial desarrollado en el Lenguaje R por el estudiante de maestrı́a Rafael


González, explica con herramientas del álgebra lineal el cálculo de la homologı́a simplicial
AT

con dichos coeficientes. Éste se encuentra disponible bajo pedido a tda@cimat.mx. Además,
una aplicación interactiva para la visualización de la homologı́a y su código de barras puede
ser consultada en [129].
Cabe mencionar que la teorı́a es análoga para cualquier otro tipo de coeficientes, usual-
mente el tipo de coeficientes depende del modelo o el tipo de estimación que se requiera
realizar, otros coeficientes usualmente considerados son los campos Q, R y el anillo Z.
Dado cualquier entero no negativo m, definimos el espacio de m–cadenas Cm (K), como
el Z2 –espacio vectorial de las sumas formales de simplejos m–dimensionales de K; i.e.,
( k
)
X
Cm (K) = c = ri σi : ri = 0, 1
i=1

donde {σ1 , . . . , σk } es el conjunto de m–simplejos de K. Observar que la suma y el producto


por escalar en Cm (K) están definidas en los coeficientes usando suma y multiplicación módulo
2:
X k k
X
0 0
c+c = (ri + ri )σi y λc = (λri )σi .
i=1 i=1
1.4. Homologı́a simplicial 35

Notar además que los m–simplejos de K forman una base de Cm (K). Más aún, las cadenas
con coeficientes en Z2 tienen una interpretación geométrica especı́fica: Como cualquier m–
cadena puede ser escrita únicamente como una suma de m–simplejos c = σi1 + · · · + σik ,
entonces c es pensado como la unión de los simplejos σij y la suma de dos m–cadenas será su
diferencia simétrica.
Dado un m–simplejo σ = [v0 , . . . , vm ] definimos la frontera de σ como la (m − 1)–cadena
formada por sus (m − 1)–caras; i.e.,

16 T
X
∂(σ) = [v0 , . . . , v̂i , . . . , vm ]
i=0

20 A
donde [v0 , . . . , v̂i , . . . , vm ] denota el (m − 1)–simplejo formado al remover el vértice i–ésimo.
lio IM
Podemos extender linealmente esta noción al conjunto de m–cadenas.

Definición 1.4.1. El operador frontera es la aplicación lineal definida por


Ju -C

∂ : Cm (K) −→ Cm−1 (K)


c 7−→ ∂(c),
D

donde
AT

X
∂(c) = ∂(σ).
σ∈c

Observación 1.4.2. En general, si consideramos cualquier dominio de ideales principales


como conjunto de coeficientes, el conjunto de m–cadenas Cm (K) será un grupo libre generado
por los m–simplejos de K. Más aún, el operador frontera ∂ : Cm (K) −→ Cm−1 (K), definido
según convenga, será un homomorfismo de grupos.

Calculando sobre cualquier m–simplejo obtenemos que la composición del operador fron-
tera con él mismo se anula. Esto es ∂◦∂ ≡ 0. De hecho, el operador frontera define aplicaciones
lineales entre espacios de cadenas.

Definición 1.4.3. El complejo de cadenas asociado a un complejo simplicial K de di-


mensión m es la sucesión de operadores lineales

∂ ∂ ∂ ∂
∅ −→ Cα (K) −→ Cα−1 (K) −→ · · · −→ C1 (K) −→ C0 (K) −→ ∅.
36 Capı́tulo 1. Topologı́a y Geometrı́a

Figura 1.9: Complejo de cadenas de homologı́a hasta grado tres.

16 T
Para cualquier m ∈ {0, . . . , α}, sean

20 A
Zm (K) := ker(∂ : Cm −→ Cm−1 ) = {c ∈ Cm (K) : ∂(c) = 0}
lio IM
el conjunto de m–ciclos y
Bm (K) := im(∂ : Cm+1 (K) −→ Cm (K)) = {c ∈ Cm (K) : ∃c0 ∈ Cm+1 (K), ∂(c0 ) = c}
Ju -C

el conjunto de m–fronteras.
Tal como se observa en la imagen anterior 1 Zm (K) y Bm (K) son subespacios de Cm (K)
y
D

Bm (K) ⊂ Zm (K) ⊂ Cm (K).


Ası́, de acuerdo con la observación anterior podemos definir lo siguiente.
AT

Definición 1.4.4. El m–ésimo grupo de homologı́a de K es el espacio vectorial cociente


Zm (K)
Hm (K) = ,
Bm (K)
cuyos elementos son las clases de homologı́a de K.
La dimensión de Hm (K),
βm (K) := dim Hm (K)
es el m–ésimo número de Betti de K.
La clase de homologı́a de c ∈ Zm (K) es por definición el conjunto
c + Bm (K) = {c + b : b ∈ Bm (K)}.
Luego, dos ciclos c y c0 se dicen homólogos si están en la misma clase de homologı́a; es decir,
existe b ∈ Bm (K) tal que
c0 − c = c0 + c = b.
1
Imagen tomada de [131]
1.4. Homologı́a simplicial 37

1.4.1. Cálculo de números de Betti


Sean K, L dos complejos simpliciales finitos y

f : Sk0 (K) −→ Sk0 (L)

una función entre los vértices, tal que si el conjunto de vértices {v0 , . . . , vm } forma un simplejo
en K, entonces [f (v0 ), . . . f (vm )] también es un simplejo en L. Decimos que g : K −→ L es
el mapeo simplicial inducido por f si

16 T
m
! m
X X
g λi vi = λi f (vi ).

20 A
i=0 i=0

Notar que la función g es continua.


lio IM
Las inclusiones respectivas de una filtración son mapeos simpliciales, ası́ como la compo-
sición de dos mapeos simpliciales. Además, si la aplicación f entre los vértices es biyectiva,
tendremos que el mapeo simplicial inducido será un homeomorfismo.
Ju -C

Un mapeo simplicial f : K −→ L induce un homomorfismo de grupos

f∗ : Hm (K) −→ Hm (L).
D

Más aún,
(f ◦ g)∗ ≡ f∗ ◦ g∗ y (idK )∗ ≡ idHm (K) .
AT

En particular, estamos interesados en estudiar las imágenes de los mapeos inducidos por
inclusiones en una filtración.
Sea K un complejo simplicial finito de dimensión n y

F = {∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K α = K}

una filtración de K con la condición que

K i+1 = K i ∪ σ i+1 ;

con σ i+1 un m–simplejo cuyas caras están todas contenidas en K i , para cada i. Este tipo de
filtraciones se llaman planas y son de utilidad para los ejemplos en topologı́a computacional
en R2 y R3 (ver [46]).
En ocasiones, además de esta condición sobre la filtración pedimos que los simplejos de
dimensión menor precedan a los de dimensión mayor, siguiendo la manera en que incluimos
los simplejos σ i , podemos inferir entonces la “evolución” de la topologı́a de la filtración
mediante sus números de Betti.
38 Capı́tulo 1. Topologı́a y Geometrı́a

Supongamos que se han calculado los números de Betti para K i−1 y que se agrega el
(m + 1)–simplejo σ i para obtener K i . Dado que como hemos mencionado, todas las caras de
σ i están en K i−1 , entonces σ i no puede ser frontera de un (m + 2)–simplejo en K i . Tenemos
dos opciones: σ i pertenece a un (m + 1)–cı́clo o no lo hace.
Lema 1.4.5 (Nacimiento o Muerte). Si σ i está contenido en un (m+1)–cı́clo en K i , entonces
βm+1 (K i ) = βm+1 (K i−1 ) + 1.
En caso contrario,

16 T
βm (K i ) = βm (K i−1 ) − 1.
Demostración. En primer lugar, asumamos que σ i está contenido en un (m + 1)–cı́clo c en

20 A
Zm+1 (K i ). Luego, c no puede ser homólogo a algún (m+1)–ciclo c0 en Zm+1 (K i−1 ), pues en tal
caso c+c0 ≡ ∂d, para alguna (m+2)–cadena d. Esto contradice lo mencionado anteriormente
lio IM
pues entonces σ i está contenido en c + c0 y es frontera de un (m + 2)–simplejo en K i .
Consecuentemente, c crea una nueva clase de cohomologı́a que es linealmente independiente
de las clases creadas por los ciclos en K i−1 , i.e.
Ju -C

βm+1 (K i ) ≥ βm+1 (K i−1 ) + 1.


De hecho, la igualdad se satisface ya que el agregar el (m + 1)–simplejo σ i a K i−1 solo
D

puede aumentar la dimensión del (m+1)–ésimo grupo de homologı́a por uno: Si consideramos
dos (m + 1)–ciclos c y c0 , tales que contienen a σ i , entonces por definición
AT

c + c0 ∈ Zm+1 (K i−1 )
y ası́, c0 está contenido en el subespacio lineal generado por Zm+1 (K i−1 ) y c. Esto es,
dim Zm+1 (K i ) ≤ dim Zm+1 (K i−1 ) + 1.
Pero como además para cada m, Bm (K i−1 ) ⊂ Bm (K i ) tenemos que
βm+1 (K i ) ≤ βm+1 (K i−1 ) + 1.
En el caso en que σ i no esté contenido en un (m + 1)–ciclo en K i , tenemos que el m–
cı́clo ∂σ i no es frontera de algún ciclo c en K i−1 , pues si se observa que ∂σ i ≡ ∂c, entonces
∂(σ i + c) = 0; o bien, σ i + c es un (m + 1)–ciclo en K i que contiene a σ i , lo cual no es posible.
De tal forma que ∂σ i se vuelve una frontera en K i , i.e.
βm (K i ) ≤ βm (K i−1 ) − 1.
La igualdad se sigue usando un argumento similar al usado en el primer caso.
1.5. Homologı́a singular 39

Resulta ser que dichos simplejos serán de relevancia a la hora de definir la homologı́a
persistente.
Definición 1.4.6. Dada una filtración plana de K, decimos que un simplejo σ i es positivo
si pertenece a un (m + 1)–cı́clo en K i y negativo en otro caso.
Observación 1.4.7. El m–ésimo número de Betti es igual a la diferencia entre m–simplejos
positivos y (m + 1)–simplejos negativos.
El procedimiento anterior para decidir sobre los números de Betti, requiere el saber si el
simplejo en cuestión es positivo o negativo, responder a esta pregunta es uno de los propósitos

16 T
de la homologı́a persistente. Más aún, el procedimiento calcula los números de Betti de K y
de todos los subcomplejos K i en la filtración.

20 A
lio IM
1.5. Homologı́a singular
Tanto los números de Betti como los grupos de homologı́a son invariantes topológicos; esto
Ju -C

es, si K y K 0 son dos complejos simpliciales cuyos soportes geométricos son homeomorfos,
entonces sus grupos de homologı́a son isomorfos y sus números de Betti iguales. De hecho,
este resultado sigue siendo cierto si los espacios subyacentes |K| y |K 0 | son homotópicamente
D

equivalentes. Enunciaremos este resultado a continuación, para lo que requeriremos la noción


de homologı́a singular.
AT

Consideremos el simplejo estándar ∆m en Rm+1 ; esto es,


∆m = [e1 , . . . , em+1 ]
donde {ei } es la base canónica de Rm+1 . Dado un espacio topológico X, un m–simplejo
singular σm , es una aplicación continua
σm : ∆m −→ X.
Análogamente al caso simplicial, definimos el espacio vectorial de m–cadenas singulares
Cm (X) como las sumas formales de m–simplejos singulares. La frontera ∂σm de un com-
plejo singular es la suma de la restricción de σm a cada (m − 1)–cara de ∆m .
Más aún, tenemos un operador frontera (singular)
∂m : Cm (X) −→ Cm−1 (X),
tal que ∂m−1 ◦ ∂m ≡ 0 y se definen de manera análoga los m–ciclos y las m–fronteras:
Zm (X) = ker ∂m y Bm (X) = im∂m+1 ,
respectivamente.
40 Capı́tulo 1. Topologı́a y Geometrı́a

Definición 1.5.1. El m–ésimo grupo de homologı́a singular de X es el espacio vec-


torial cociente
Zm (X)
Hm (X) = .
Bm (X)
Ası́ mismo, su dimensión βm (X) será llamada el m–ésimo número de Betti de X.
Una primera observación importante es que a diferencia de complejos simpliciales finitos,
los números de Betti pueden no ser finitos. En los casos que nos ocupan podremos usar sin
distinción entre homologı́a singular y simplicial.
Sea X un espacio topológico que es homeomorfo al soporte de un complejo simplicial K,

16 T
entonces los grupos de homologı́a singular de X y los grupos de homologı́a simplicial de K
serán isomorfos.

20 A
Teorema 1.5.2 (Isomorfismo). Sea K un complejo simplicial finito. Entonces
lio IM
Hm (|K|) ∼
= Hm (K), m ≥ 0.
Es decir,
βm (|K|) = βm (K), m ≥ 0.
Ju -C

Observación 1.5.3. Si es el caso de que X es una superficie y tenemos dos triangulaciones


K y K 0 de X, entonces Hm (K) es isomorfo a Hm (K 0 ) y los números de Betti son los mismos
que los de X.
D

Como en el caso de aplicaciones simpliciales, una aplicación continua entre espacios to-
AT

pológicos induce un homomorfismo a nivel de sus grupos de homologı́a. Sea f : X −→ Y


continua y σ : ∆m −→ X un simplejo singular en X, entonces f ◦ σ : ∆m −→ Y es un sim-
plejo singular en Y . Ası́, f induce una aplicación lineal entre espacios de cadenas singulares
en X y Y , que además preserva ciclos y fronteras. Es decir, f induce un homomorfismo
f? : Hm (X) −→ Hm (Y ).
Más aún, si f es un homeomorfismo entre X y Y , entonces f? es un isomorfismo y
f?−1 = (f −1 )? .
Aún en el caso en que f sea una equivalencia homotópica tenemos el mismo resultado.
Teorema 1.5.4. Sean X, Y espacios topológicos homotópicamente equivalentes y
f : X −→ Y continua con inversa homotópica g : Y −→ X. Entonces,
f? : Hm (X) −→ Hm (Y )
es un isomorfismo con inversa g? .
Por lo tanto, dos espacios que son homotópicamente equivalentes tienen los mismos núme-
ros de Betti.
1.6. Variedades 41

1.6. Variedades
Las variedades son la extensión de los espacios topológicos familiares del cálculo, como
las curvas o superficies, a dimensiones más altas.

Definición 1.6.1. Una n-variedad (topológica) M es un espacio localmente homeomorfo


a Rn . Esto es, existe una cubierta por abiertos U = {Uα } de M , junto con homeomorfismos

φα : Uα −→ Rn .

16 T
Comúnmente se requiere que las variedades sean suaves, de tal forma que puedan ser
utilizadas todas las herramientas del cálculo. Es decir, pedimos además que las aplicaciones

20 A
φβ ◦ φ−1
α : φα (Uα ∩ Uβ ) −→ φβ (Uα ∩ Uβ ),
lio IM
sean infinitamente diferenciables o suaves, siempre que Uα ∩ Uβ 6= ∅.
Los pares (Uα , φα ) se llaman cartas, las cuales generan un atlas maximal de cartas que
Ju -C

especı́fica una estructura suave en M .


Ejemplos de 1–variedades son las curvas suaves. Cualquier curva conexa es difeomorfa a
R o al cı́rculo S1 ; es decir, la compacidad distingue cualquiera de los dos.
D

Para el caso de 2–variedades, o superficies, tenemos otros dos parámetros: Las superfi-
cies compactas pueden ser orientables o no–orientables. Además, los agujeros o asas están
AT

capturados en el invariante topológico llamado género.

Ejemplo 1.6.2. La esfera S2 es la superficie orientable de género cero. Esto es,

S2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1}.

Podemos definir seis cartas en S2 correspondientes a seis hemisferios y sus respectivas pro-
yecciones:

U1 = {(x, y, z) ∈ S2 : x > 0}, φ1 (x, y, z) = (y, z),


U2 = {(x, y, z) ∈ S2 : x < 0}, φ2 (x, y, z) = (y, z),
U3 = {(x, y, z) ∈ S2 : y > 0}, φ3 (x, y, z) = (x, z),
U4 = {(x, y, z) ∈ S2 : y < 0}, φ4 (x, y, z) = (x, z),
U5 = {(x, y, z) ∈ S2 : z > 0}, φ5 (x, y, z) = (x, y),
U6 = {(x, y, z) ∈ S2 : z < 0}, φ6 (x, y, z) = (x, y).
42 Capı́tulo 1. Topologı́a y Geometrı́a

Estas cartas definen un atlas máximal sobre S2 .


Más aún, se puede generalizar este ejemplo para dotar de un atlas maximal a cualquier
esfera n–dimensional,

Sn = {(x1 , . . . , xn+1 ) ∈ Rn+1 : x21 + · · · + x2n+1 = 1}.

Para poder ver ejemplos de variedades producto necesitamos el siguiente resultado.

Proposición 1.6.3. Sean {Uα , φα } y {Vi , ψi } dos atlas de cartas suaves para las variedades

16 T
M y N , de dimensiones m y n, respectivamente. Entonces, la colección de cartas

{(Uα × Vi , φα × ψi : Uα × Vi −→ Rm × Rn )}

20 A
forma un atlas suave en la variedad producto M × N . Por lo tanto M × N es una variedad
lio IM
suave de dimensión m + n.

Ejemplo 1.6.4. El toro T2 = S1 × S1 es la superficie orientable de género uno. Por el


Ju -C

resultado anterior, el toro es una variedad de dimensión 2.

Las contrapartes no–orientables de los ejemplos anteriores son el plano proyectivo RP 2


y la botella de Klein K 2 .
D

Ejemplo 1.6.5. Consideremos las coordenadas homogéneas [x0 , x1 , x2 ] del plano proyectivo
AT

RP 2 . Observar que al menos algún xi es distinto de cero, luego hace sentido definir las 3
cartas estándar en RP 2 :
 
x1 x2
U0 = {[x0 , x1 , x2 ] : x0 6= 0} φ0 ([x0 , x1 , x2 ]) = , ,
x0 x0
 
x0 x2
U1 = {[x0 , x1 , x2 ] : x1 6= 0} φ1 ([x0 , x1 , x2 ]) = , ,
x1 x1
 
x0 x1
U2 = {[x0 , x1 , x2 ] : x2 6= 0} φ2 ([x0 , x1 , x2 ]) = , .
x2 x2
Notar que dichas aplicaciones tienen inversas continuas bien definidas, por ejemplo para el
caso de φ0 tenemos que
(x, y) 7−→ [1, x, y]
define su inversa. Esto es, RP 2 es localemente como R2 y {(Ui , φi ) : i = 0, 1, 2} es un atlas
maximal para RP 2 .
1.6. Variedades 43

Teorema 1.6.6 (Clasificación de Superficies). Cualquier superficie compacta es difeomorfa


a la superficie orientable o no–orientable, de algún género fijo g ≥ 0.
El resultado anterior además puede interpretarse en un sentido práctico como “pegados”
de dos superficies elementales. Esto es, cualquier superficie compacta es o bien una suma
conexa de g toros, o una suma conexa de g planos proyectivos. Ası́, al especificar lo que una
suma conexa es, estamos dotando de cartas naturales para cualquier superficie compacta.
Presumiblemente, el universo espacial es una 3–variedad.
En general, todas las herramientas del cálculo pueden ser utilizadas en variedades. Se

16 T
definen por ejemplo los espacios tangentes a un punto, derivadas, operadores gradientes,
hessianos y laplacianos sobre variedades. Además de las herramientas propias de la geometrı́a

20 A
riemanniana como el transporte paralelo, la curvatura, el alcance, etc. Para un estudio más
general pero exhaustivo ver el trabajo de Ghrist ([58]).
lio IM
1.6.1. Caracterı́stica de Euler
Ju -C

Uno de los invariantes topológicos más simples es la caracterı́stica de Euler, en este


apartado veremos su definición en poliedros, complejos simpliciales y variedades en general.
Dado un conjunto finito P , la caracterı́stica de Euler de P es justo la cardinalidad
D

χ(P ) = |P |.
Utilizando una estructura simplicial, si conectamos dos puntos de P por medio de un 1–
AT

simplejo o lado, entonces la caracterı́stica de Euler decrecerá por uno. Esto es, al contar uno
a uno vemos que este invariante nos cuenta vértices con peso +1 y lados con peso −1.
Sin embargo, esto deja de suceder cuando un lado crea un nuevo cı́clo de dimensión uno.
Para poder volver a la analogı́a de contar componentes conexas, tendrı́amos que agregar la
cara o 2–simplejo cuya frontera es el 1–cı́clo. Es decir, la caracterı́stica de Euler asigna un peso
de +1 a las caras. Procediendo de manera inductiva vemos como definir combinatoriamente
la caracterı́stica de Euler de cualquier espacio X, que se descomponga de alguna forma
simplicial (o celular).
Definición 1.6.7. Sea X un espacio tal que se puede escribir como la unión disjunta de
m–simplejos, G
X= σα ,
α
se define la caracterı́stica de Euler de X como
X
χ(X) := (−1)dimσα .
α
44 Capı́tulo 1. Topologı́a y Geometrı́a

Dicha cantidad es invariante respecto a la descomposición escogida, luego es invariante ba-


jo homeomorfismos. No es homotópicamente invariante en el caso de espacio no–compactos,
ası́ χ((0, 1)) = −1 y χ([0, 1]) = 1.
Ejemplo 1.6.8. La caracterı́stica de Euler de un poliedro K (sólido en tres dimensiones
con estructura simplicial) se define como
χ(K) = V − L + C,
donde V denota el número de vértices, L el número de aristas o lados y C el número de
caras.

16 T
En particular, el tetraedro ∆3 = [p0 , p1 , p2 , p3 ] tiene caracterı́stica de Euler

20 A
χ(∆3 ) = 4 − 6 + 4 = 2.
lio IM
Al igual que el cubo, el dodecaedro, el octaedro y el icosaedro. De hecho, cualquier poliedro
convexo tiene caracterı́stica de Euler igual a 2.
Observación 1.6.9. En el caso de espacios compactos la caracterı́stica de Euler es un
Ju -C

invariante homotópico. Por lo tanto, podemos determinar el tipo de homotopı́a de una gráfica
G. Por ejemplo, G es un árbol si χ(G) = 1.
Para superficies compactas orientables tenemos que la caracterı́stica de Euler puede ser
D

calculada a partir de su género; esto es,


χ(Mg ) = 2 − 2g;
AT

donde Mg es una superficie orientable de género g. Por lo tanto:


χ(S2 ) = 2 y χ(T2 ) = 0.
Más aún, como toda superficie es triangulable, podemos calcular que la caracterı́stica de
Euler para el plano proyectivo es igual a 1 y para la botella de Klein es igual a 0. Más aún,
cualquier subconjunto compacto convexo de Rd tiene caracterı́stica de Euler igual a 1.
Con este análisis podemos ver ahora una definición que involucra los cálculos en homo-
logı́a. Esto es, dada una variedad compacta M de dimensión n, consideremos sus números
de Betti {βm (M )}nm=0 , entonces
n
X
χ(M ) = (−1)i βi (M ).
i=0

En otras palabras, la caracterı́stica de Euler es un resumen de los números de Betti en un


número entero. Más adelante veremos que esta definición también es equivalente usando los
llamados puntos crı́ticos de ı́ndice m de una función “tipo Morse”.
1.6. Variedades 45

Curvatura
Aún cuándo no hablaremos con detalle acerca de integración en variedades, por medio de
la caracterı́stica de Euler podemos dar una primera aproximación, cuyo sabor es puramente
geométrico.
Sea M una superficie suave inmersa en R3 . Dado cualquier punto en M , podemos hablar
de sus direcciones tangentes o normales. La aplicación de Gauss es la aplicación

γ : M −→ S2 ,

16 T
que asocia a cada punto de M la dirección de su vector normal unitario en R3 . La curvatura

20 A
de Gauss κ = det(Dγ) es el determinante de la derivada de dicha aplicación γ.
En este sentido la curvatura es un invariante de transformaciones rı́gidas y rotaciones,
lio IM
pero cambia al ser M deformada en alguna forma.

Teorema 1.6.10 (Gauss–Bonnet). Para una superficie suave compacta y orientable M en


R3 , la integral de curvatura de Gauss con respecto a la medida de área en M es igual a
Ju -C

Z Z
dκ = κdA = 2πχ(M ).
M M
D

Si pensamos en que M tiene una descomposición simplicial (o celular), quizás con frontera
AT

suave por pedazos, entonces la cantidad 2πχ(M ) puede dividirse como M :

• En 2–simplejos, dκ significa curvatura de Gauss multiplicado por el elemento de área, kdA.

• En 1–simplejos, dκ significa curvatura geodésica multiplicado por el elemento de longitud,


kg dλ.

• En 0–simplejos, dκ significa defecto de ángulo.

Por lo tanto, la integral respectiva se divide en tres integrales sobre cada dimensión de
los simplejos.
Como consecuencia inmediata de este resultado vemos que la curvatura de Gauss es
constante, no importa como deformemos la superficie. Más aún, usando la caracterı́stica de
Euler podemos medir y sumar ángulos para los llamados triángulos geodésicos. Esto es, dκ
se anula a lo largo de los lados geodésicos y la suma de los ángulos del triángulo es igual a
π más la integral de la curvatura de Gauss sobre la cara del triángulo.
46 Capı́tulo 1. Topologı́a y Geometrı́a

1.6.2. Espacio tangente y distancia geodésica


En ocasiones, la distancia intrı́nseca de las variedades será de mayor relevancia que la
distancia extrı́nseca heredada de algún espacio euclidiano. Estamos hablando de la distancia
geodésica. Para poder definir ésta, definiremos brevemente el espacio tangente a un punto y
su producto interno asociado. Queremos hacer énfasis en la estructura geométrica de estos
espacios (euclidianos).
Sea M una variedad de dimensión k, de tal forma que sus cartas son de clase C m , con
m ≥ 1. En general podemos pensar que M es una subvariedad inmersa en Rd con k ≤ d. Sea
p ∈ M cualquier punto y γ : (−, ) −→ M una curva de clase C 1 tal que γ(0) = p. Observar

16 T
que si M no está inmersa en un espacio euclidiano, la noción de derivada γ 0 (0) podrı́a no

20 A
estar bien definida.
Sin embargo, el comportamiento de la curva se puede traducir localmente. Sea (U, φ) una
lio IM
carta de M alrededor de p, la aplicación φ ◦ γ es una curva de clase C 1 en Rk y el vector
tangente v = (φ ◦ γ)0 (0) está bien definido. Pero puede ser el caso que diferentes curvas nos
den el mismo vector tangente.
Definimos la siguiente relación de equivalencia en el conjunto de curvas que pasan por p.
Ju -C

Dos curvas de clase C 1 , γ1 : (−, ) −→ M y γ2 : (−, ) −→ M , con γ1 (0) = γ2 (0) = p, se


dicen equivalentes si y sólo si, existe una carta (U, φ) en p tal que
D

(φ ◦ γ1 )0 (0) = (φ ◦ γ2 )0 (0).
Es un ejercicio interesante observar que dicha relación de equivalencia es independiente de
AT

la elección de la carta.
Definición 1.6.11. Un vector tangente de M en p es una clase de equivalencia de curvas
de clase C 1 que pasan por p. El conjunto de todos los vectores tangentes se denota por Tp (M )
y se llama el espacio tangente de M en p.
De la definición observamos que Tp (M ) es un espacio vectorial y además se puede probar
que es de dimensión k; de hecho, Tp (M ) es homeomorfo al espacio euclidiano Rk . Más aún,
no existe una relación (a priori ) entre Tp (M ) y Tq (M ) para p 6= q ∈ M , con M una
variedad arbitraria. En el caso particular en que M = Rk , se tiene que Tp (M ) y Tq (M ) son
homeomorfos vı́a una traslación por q − p.
Observación 1.6.12. Existe una manera de definir el espacio tangente usando “gérmenes
de funciones en p”, la cual explicita claramente el uso de la diferenciabilidad o clase C m de la
variedad. Sin embargo, la definición es un poco más engorrosa e innecesaria por el momento.
Usando los espacios tangentes en un punto podemos definir una métrica muy especial en
estos puntos.
1.6. Variedades 47

Definición 1.6.13. Una métrica en un punto p de M es una aplicación

gp : Tp (M ) × Tp (M ) −→ R

tal que satisface las siguientes condiciones:

1. gp es bilineal; es decir, si up , vp y wp están en Tp (M ) y a, b ∈ R, entonces

gp (aup + bvp , wp ) = agp (up , wp ) + bgp (vp , wp )

16 T
y
gp (up , avp + bwp ) = agp (up , vp ) + bgp (up , wp ).

2. gp es simétrica:

20 A
lio IM
gp (up , vp ) = gp (vp , up ), up , vp ∈ Tp (M ).

3. gp es no–degenerada; esto es, para cualquier vector tangente no cero up ∈ Tp (M ) la


función Tp (M ) −→ R definida por
Ju -C

vp 7−→ gp (up , vp ),
D

no es cero en todos lados, i.e. existe wp ∈ Tp (M ) tal que gp (up , wp ) 6= 0.

En particular, tenemos un “tensor de métrica” g : M −→ R, de tal forma que asigna a


AT

cada punto p ∈ M una métrica gp que varı́a de manera suave con respecto al punto p ∈ M .
Con estos elementos disponibles, definimos una distancia sobre M de la forma siguiente.
Definición 1.6.14. Consideremos una variedad M de dimensión k y g un tensor de métrica
como antes. Si γ : [a, b] −→ M es una curva de clase C 1 , se define la longitud de γ mediante
Z b
1/2
gγ(t) (γ 0 (t), γ 0 (t))

`(γ) = dt.
a

La distancia geodésica dg : M × M −→ R+ se define como

dg (p, q) = ı́nf `(γ) p, q ∈ M,


γ:[a,b]−→M

donde el ı́nfimo se toma sobra todas las curvas γ continuas, continuamente diferenciables
por pedazos en [a, b] tales que γ(a) = p y γ(b) = q. Una geodésica en M es una curva que
localmente minimiza distancias.
48 Capı́tulo 1. Topologı́a y Geometrı́a

1.6.3. Variedades parametrizadas


Es de interés particular poder conocer medidas de referencia sobre variedades. Es decir,
maneras de medir usando propiedades geométricas de objetos localmente euclidianos. Para
poder definir adecuadamente medidas de volumen o medidas geométricas sobre variedades
ocupamos el concepto de variedades parametrizadas que veremos a continuación. Para un
estudio detallado sobre el tema recomedamos el trabajo de Tjur [125].
Sean X y Y subconjuntos abiertos de Rd y Rk , respectivamente. Una transformación
continuamente diferenciable

16 T
T : X −→ Y
se dice suprayectivamente regular si la diferencial

20 A DT (x) : Rd −→ Rk
lio IM
es una aplicación lineal suprayectiva para cualquier x ∈ X. De manera similar se define una
transformación inyectivamente regular. Como T solo puede ser suprayectivamente regular
cuando d ≤ k e inyectivamente regular para d ≥ k, más el hecho de que para d = k ambas
Ju -C

condiciones son equivalentes, sin problema alguno diremos que una transformación T es
regular si satisface alguna de las propiedades anteriores.
D

Definición 1.6.15. Dado un conjunto abierto M 0 ⊂ Rk con k ≤ d, una parametrización


p : M 0 −→ Rd
AT

es una aplicación (inyectivamente) regular, la cual es uno a uno y lleva M 0 de manera


homeomorfa en su imagen.
Una variedad parametrizada Mp ⊂ Rd de dimensión k con k ≤ d, es la imagen
Mp = p(M 0 )
de una parametrización p definida sobre M 0 en Rk .
Además, una variedad de dimensión k, M en Rd , es un subconjunto M ⊆ Rd que
es localmente una variedad parametrizada de dimensión k. Es decir, para cualquier x ∈ M ,
existe una vecindad Ux relativa a Rd , tal que M ∩ Ux es una variedad parametrizada de
dimensión k.
Para el caso particular de transformaciones T : X −→ Y como antes, los conjuntos
T −1 (y) y ∈ Y,
se llaman superficies de nivel de T . Tenemos el siguiente resultado, el cual puede ser
probado usando el teorema de la función implı́cita.
1.7. Teorı́a de Morse 49

Proposición 1.6.16. Sean X, Y abiertos de Rd y Rk respectivamente y T : X −→ Y (sup.)


regular. Entonces, las superficies de nivel T −1 (y) son variedades de dimensión d − k para
cada y ∈ Y .

1.7. Teorı́a de Morse


La teorı́a de Morse es uno de los lugares donde se unen los complejos simpliciales y las

16 T
variedades. Tomemos la teorı́a de Morse sobre variedades, la cual usa la función altura para
facilitar el conteo en homologı́a. Para una breve introducción recomendamos el trabajo de

20 A
J. A. González [59], donde además se hace un estudio extenso de la teorı́a de Morse discreta
y aplicaciones en el ATD.
lio IM
Sea M una variedad compacta sin frontera. La teorı́a de Morse se ocupa de una función
con valores reales y la dinámica asociada a su flujo gradiente. Sea h : M −→ R una función
suave y consideremos el campo gradiente −∇h en M .
Ju -C

Tenemos una dinámica sencilla: Las soluciones del sistema asociado son o bien puntos
fijos, es decir puntos crı́ticos de h,
∇h(p) = 0;
D

o el flujo va moviéndose hacia abajo de un punto a otro. Pensamos además que los puntos
crı́ticos son no–degenerados, es decir que el hessiano tiene determinante no cero en estos
AT

puntos. Llamamos a h(p) ∈ R el valor crı́tico de h en p.


Los puntos crı́ticos además tienen una manera de ser graduados, sea p en M un punto
crı́tico, el ı́ndice de Morse µ(p) es el número de valores propios negativos del hessiano de
h en p. El cual mide que tan inestable es un punto crı́tico: Los mı́nimos tienen el ı́ndice más
pequeño, los máximos el más grande.
Observación 1.7.1. El ı́ndice de un punto crı́tico p es la dimensión de la variedad inestable
asociada al campo vectorial −∇h en p;

µ(p) = dimW u (p).

La teorı́a de Morse clásica estudia los conjuntos de nivel de funciones de Morse


h : M −→ R sobre una variedad compacta:

Mα := h−1 ((−∞, α]) = {x ∈ M : h(x) ≤ α} ⊂ M, α ∈ (−∞, ∞).

Teorema 1.7.2. Si no existen valores crı́ticos de h en el intervalo (a, b], entonces Ma y Mb


son homotópicamente equivalentes. En particular, tienen la misma homologı́a.
50 Capı́tulo 1. Topologı́a y Geometrı́a

Podemos decir un poco más dependiendo de cómo pasamos de un nivel crı́tico a otro.
Lema 1.7.3. Supongamos que p ∈ M es un punto crı́tico de h, de ı́ndice de Morse igual a
m y sea v = h(p) el valor crı́tico respectivo. Dado  > 0, tenemos que se satisface alguna de
las siguientes:
βm (Mv+ ) = βm (Mv− ) + 1,
o
βm−1 (Mv+ ) = βm−1 (Mv− ) − 1.

16 T
En otras palabras, al pasar un nivel crı́tico, o bien se forma un nuevo vacı́o m–dimensional,
o un vacı́o (m − 1)–dimensional se llena. Es decir, Mv+ es homotópicamente equivalente al

20 A
resultado de pegar a lo largo de la frontera de Mv− un m–simplejo, donde m es el ı́ndice
crı́tico. Al igual que anteriormente, decimos que un punto crı́tico es positivo en el primer
lio IM
caso y negativo en el segundo.
Ejemplo 1.7.4. Consideremos el toro T2 = S1 × S1 , h : T2 −→ R la función que mide la
altura de cada punto p ∈ T2 y la filtración por subconjuntos de nivel {Mα }R . En este caso
Ju -C

mediremos la homologı́a con coeficientes en Z, como es usual para el caso de variedades.


Observar que tenemos cuatro puntos crı́ticos sobre T2 y sean
D

{vi : i = 1, . . . , 4}

los valores crı́ticos asociados. Además, los ı́ndices en los puntos crı́ticos respectivos son
AT

0, 1, 1, y 2.
Para cada t0 < v1 tenemos que Mt0 = ∅ y ası́

Hm (Mt0 ) ∼
= {0}, m ≥ 0.

En el nivel t = v1 tenemos un punto crı́tico de ı́ndice 0, un punto mı́nimo: Al pasar este


nivel obtenemos una nueva componente conexa para Mt ; o bien,

H0 (Mt1 ) ∼
=Z v1 < t1 < v2 .

En el nivel de v2 tenemos un punto crı́tico de ı́ndice 1, un punto silla: Al pasar este nivel un
nuevo agujero de dimensión 1 es creado para Mt ; i.e.

H1 (Mt2 ) ∼
=Z v2 < t2 < v3 .

De manera similar, v3 corresponde a un punto silla y se obtiene que

H1 (Mt3 ) ∼
=Z⊕Z v3 < t3 < v4 .
1.7. Teorı́a de Morse 51

Por último, v4 corresponde a un punto máximo o de ı́ndice 2. Al cruzar este nivel se completa
la superficie del toro, introduciendo un nuevo vacı́o de dimensión 2; esto es,

H2 (Mt4 ) ∼
=Z v4 < t4 .

Luego, el proceso para recuperar la homologı́a está terminado.


En este caso la persistencia se refiere a dar un “apareamiento” entre puntos crı́ticos
positivos de ı́ndice m y puntos crı́ticos negativos de ı́ndice m + 1. La idea es que una clase
de homologı́a que nace en un tiempo particular, muere un tiempo después o puede no morir.

16 T
Puntos crı́ticos de la función distancia

20 A
Sea P una colección finita de puntos en Rn . La función distancia a P ,
lio IM
dP : Rn −→ R
x 7−→ mı́n ||x − p||
p∈P
Ju -C

puede ser tratada análogamente a como una función de Morse, aún cuando no sea una
aplicación suave.
Recordar que definimos el –contrapeso de P , como
D

C(P, ) = d−1 d
P ((−∞, ]) := {x ∈ R : dP (x) ≤ }.
AT

Para poder usar la teorı́a de Morse tendremos una definición análoga de puntos crı́ticos
para dP (ver [18]). En primer lugar, los mı́nimos de la función distancia dP , los puntos de P ,
serán llamados puntos crı́ticos de ı́ndice 0. Para ı́ndices superiores hacemos lo siguiente.
Definición 1.7.5. Un punto c ∈ Rn es un punto crı́tico de ı́ndice m de dP , donde
1 ≤ m ≤ n, si existe un subcojunto Y de m + 1 puntos de P tales que:

1. Para cada y ∈ Y :
dP (c) = ||c − y||
y para cada p ∈ P \ Y tenemos que

||c − p|| > dP (c).

2. Los puntos de Y son geométricamente independientes.

3. c pertenece al interior de la envolvente convexa de Y (el cual es un m–simplejo abierto


en este caso).
52 Capı́tulo 1. Topologı́a y Geometrı́a

Este será un caso particular de importancia si pensamos que el conjunto P consta de una
muestra aleatoria sobre alguna variedad o algún espacio compacto euclidiano.
Observar que la primer condición implica que en una vecindad pequeña de c, dP ≡ dY . La
segunda condición nos dice que Y vive en una única esfera (m−1)–dimensional Sm−1 = S(Y ).
Más aún, c es el centro de S(Y ) y el radio de la esfera r(Y ) es el valor crı́tico de la función
distancia. Consideremos
B(Y ) = Br(Y ) (c)
como la bola abierta de Rn con radio r(Y ) y centro c. Observar que S(Y ) está contenida en
B(Y ) pero a menos que m = n, S(Y ) no es la frontera de B(Y ).

16 T
Decimos entonces que c es el único punto crı́tico de ı́ndice m generado por los m + 1

20 A
puntos del subconjunto Y . En la imagen se muestran puntos crı́ticos de ı́ndice pequeño.2
Lema 1.7.6. Un subconjunto Y ⊂ P de m+1 puntos geométricamente independiente, genera
lio IM
un punto crı́tico de ı́ndice m si y sólo si, se satisfacen las siguientes:
(a) c pertenece al interior de la envolvente convexa de Y .
Ju -C

(b) P ∩ B(Y ) = ∅.
D
AT

Figura 1.10: 3 puntos mı́nimos pi , 3 puntos silla ci y 1 punto máximo c4 .


2
Imagen tomada de [18]
1.7. Teorı́a de Morse 53

Con esta caracterización de puntos crı́ticos para la función distancia

dP : Rn −→ R,

el teorema principal de Teorı́a de Morse en relación a cambios en la homologı́a del complejo


simplicial C(P, ) = d−1
P ([0, ]) también se satisface. Es decir, al pasar un punto crı́tico, o
bien se crea un nuevo agujero m–dimensional o un agujero (m − 1)–dimensional es llenado.

16 T
20 A
lio IM
Ju -CD
AT
54 Capı́tulo 1. Topologı́a y Geometrı́a

1.8. Ejercicios

Ejercicio 1.8.1. Prueba que el conjunto

B = {B (x) : x ∈ Rn ,  > 0};

donde
B (x) = {y ∈ Rn : ||x − y|| < },

16 T
define una base para la topologı́a estándar de Rn .

20 A
Ejercicio 1.8.2. Encuentra ejemplos para cada caso; explica:
lio IM
(a) Un espacio topológico X conexo que no sea arco–conexo.

(b) Una función f : X −→ Y continua y biyectiva que no es un homeomorfismo.


Ju -C

(c) Un espacio topológico X contraı́ble.


D

Ejercicio 1.8.3. Sean X un espacio topológico y A ⊂ X. Supongamos que para cada x ∈ A,


existe un conjunto abierto U tal que
AT

x ∈ U ⊂ A.

Demuestra que A es abierto en X.

Ejercicio 1.8.4. Sea X un espacio topológico. Prueba que:

1. ∅ y X son cerrados.

2. La intersección arbitraria de conjuntos cerrados es cerrado.

3. La unión finita de conjuntos cerrados es cerrado.

Ejercicio 1.8.5. Sea f : X −→ Y una función continua y biyectiva.

(i) Prueba que si X es compacto, entonces Y también es compacto.


1.8. Ejercicios 55

(ii) Prueba que si X es conexo, entonces Y también es conexo.

Ejercicio 1.8.6 (?). Demuestra que la función


x
F : (−1, 1) −→ R 7−→
1 − x2
es un homeomorfismo.

16 T
Ejercicio 1.8.7. Demuestra que cualquier subespacio (a, b) de R es homeomorfo a (0, 1).

20 A
Ejercicio 1.8.8. Sea X un segmento, o bien un subespacio de R homeomorfo a [0, 1], y Y un
lio IM
punto de X. Prueba que X y Y son homotópicamente equivalentes pero no son homeomorfos.
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 2

16 T
Persistencia

20 A
lio IM
Sea f : R −→ R una función suave. Supongamos que x es un punto crı́tico y f (x) es
un valor crı́tico si f 0 (x) = 0. Decimos además que un punto crı́tico es no–degenerado si
f 00 (x) 6= 0. Supongamos que f tiene solamente puntos crı́ticos no–degenerados con valores
Ju -C

crı́ticos distintos. Luego, cualquier punto es o bien un mı́nimo local o un máximo local.
Para cada α ∈ R consideramos los subconjuntos de nivel
D

Rα = f −1 ((−∞, α]).
AT

Mientras α crece hacia ∞, la conectividad de Rα permanece la misma excepto cuando pasa-


mos un valor crı́tico. En puntos mı́nimos locales surgen nuevas componentes y en los máximos
locales dos componentes se unen en una sola.
Hacemos un emparejamiento de los puntos crı́ticos de f como sigue: Cuando se introduce
una nueva componente conexa, se dice que el mı́nimo local que la crea representa dicha com-
ponente. Ahora, cuando pasamos un máximo local y se unen dos componentes, emparejamos
el máximo, con el mı́nimo local más “joven” que representa esta componente. A partir de
ese momento, el otro mı́nimo local se vuelve el representante de la componente que resulte
de la unión.
Observar que los puntos crı́ticos que están emparejados pueden no ser adyacentes. Defi-
nimos la persistencia del par (x, y) como f (y) − f (x). La persistencia se mide en el diagrama
de persistencia al llevar cualquier punto (x, y) al punto con coordenadas los valores crı́ticos
respectivos,

dgm(f ) = {(f (x), f (y))} ⊂ R2 .

57
58 Capı́tulo 2. Persistencia

16 T
Figura 2.1: Emparejamiento de máximos y mı́nimos de una función.

20 A
lio IM
En el diagrama de persistencia todos los puntos viven por encima de la diagonal y = x
y además la persistencia es la distancia vertical a esta lı́nea diagonal. Usualmente siempre
adjuntaremos esta lı́nea al diagrama de persistencia.1
Ju -C

Si reemplazamos la función f por una aproximación (polinomial por ejemplo) “cercana”


g, de tal forma que el número de pares de g es más grande que el de f . Sin embargo, la
mayorı́a de éstos corresponderán a intervalos pequeños, o puntos cercanos a la diagonal. Los
pares con intervalos más grandes están próximos a los de f .2
D
AT

Figura 2.2: Aproximación de una función y su diagrama de persistencia.

Es decir que las propiedades topológicas que tienen mayor persistencia se preservan bajo
perturbaciones. Mientras que aquellas que representan menor persistencia son claramente
creadas por la perturbación. Este será un fenómeno general: Dos funciones cercanas tendrán
1
Imagen tomada de [20]
2
Imagen tomada de [20]
2.1. Homologı́a persistente 59

diagramas cercanos. Las propiedades de estabilidad de los diagramas de persistencia son de


importancia fundamental para usar la persistencia topológica en el análisis topológico de
datos.
El resto de este capı́tulo se dedica al estudio general de la persistencia. En particular
usaremos la homologı́a persistente para ir más allá de componentes conexas y aprovecharemos
las ideas previamente vistas para hacer persistencia de subconjuntos de nivel.

16 T
2.1. Homologı́a persistente

20 A
La idea básica de la homologı́a persistente es reunir en una única estructura toda la
lio IM
información topológica relevante de un espacio filtrado por subespacios. En primer lugar
describiremos el caso para un complejo simplicial finito K y la homologı́a simplicial con
coeficientes en Z/2Z.
Consideremos una filtración de K:
Ju -C

F = {∅ = K 0 ⊂ K 1 ⊂ . . . ⊂ K α = K}.
D

Para cada i ≤ j tenemos que K i es un subcomplejo de K j . Luego podemos definir las


inclusiones o aplicaciones inyectivas
AT

ϕi,j : K i −→ K j .

Las cuales a su vez pueden ser extendidas a los m–ciclos:

ϕi,j i j
m : Zm (K ) −→ Zm (K ).

Esto define las aplicaciones lineales inducidas en homologı́a

(ϕi,j i j
m )∗ : Hm (K ) −→ Hm (K ),

que son en general no–inyectivas.


Especı́ficamente, sea c ∈ Hm (K i ) y γ ∈ Zm (K i ) un cı́clo representativo de la clase c.
Entonces, (ϕi,j j i,j
m )∗ (c) es la clase en Hm (K ) que contiene a ϕm (γ). Notar que la definición no
depende de la elección del representante.
Por ejemplo, si γ “engloba” un vacı́o en K i , pero ese vacı́o es llenado en K j , tenemos que
c es llevado a cero en Hm (K j ) vı́a (ϕi,j
m )∗ .
60 Capı́tulo 2. Persistencia

Definición 2.1.1. La imagen de (ϕi,j j


m )∗ en Hm (K ),

i,j
Hm = (ϕi,j i
m )∗ (Hm (K )),

se llama el m–ésimo grupo de homologı́a persistente.


Decimos que la dimensión de este subespacio
i,j i,j
βm = dim Hm ,

es el m–ésimo número persistente de Betti.

16 T
En general no indicaremos los ı́ndices de persistencia, dependiendo del análisis diremos

20 A
también el (i, j)–ésimo grupo de homologı́a persistente. Este grupo contiene todas las clases
m–dimensionales a nivel j, que ya tenı́an representantes presentes (vivos) en K i .
lio IM
El correspondiente número persistente de Betti cuenta los vacı́os m–dimensionales que
existen todo el camino desde K i hasta K j . Estamos interesados en clases particulares, como
por ejemplo la clase con el menor ı́ndice i y mayor ı́ndice j, tal que la clase es no–trivial en
Ju -C

todo el intervalo completo de K i a K j .

Definición 2.1.2. Decimos que una clase c ∈ Hm (K i ) nace en K i si c no esta en Hm i−1,i


.
D

i j i,j−1
Además, decimos que una clase c que nace en K muere entrando a K si (ϕm )∗ (c)
i−1,j−1
no está en Hm , pero (ϕi,j i−1,j
m )∗ (c) está en Hm .
El ı́ndice de persistencia es j − i.
AT

Observar que una clase que nace puede no morir, o bien decimos que “muere en infinito”.
Como hemos visto, en la mayorı́a de las aplicaciones existe una función que gobierna la
evolución (construcción) de la filtración. En este caso llamamos persistencia a la diferencia
entre los valores de la función al nacimiento y muerte de una clase. Por ejemplo, para la
construcción de la filtración de Čech, usamos la función distancia dP a una muestra finita
de puntos P de un espacio euclidiano.

2.2. Persistencia topológica de una filtración


Consideremos el caso particular de un complejo de dimensión finita. Nos interesa calcular
la evolución de la homologı́a de los subcomplejos de la filtración.
Sea K un complejo de dimensión d y

F = {∅ = K 0 ⊂ K 1 ⊂ . . . ⊂ K α = K},
2.2. Persistencia topológica de una filtración 61

una filtración plana. Es decir,

K i+1 = K i ∪ σ i+1 , i = 0, . . . , m − 1,

con σ i+1 un simplejo.


Para cada 0 ≤ n ≤ α, denotamos por
n
Cm = Cm (K n )

al conjunto de las m–cadenas de K n . Observar que la restricción del operador frontera

16 T
n n−1
∂ : Cm −→ Cm−1 ,

20 A
n−1
tiene imagen contenida en Cm−1 . Denotamos también por
lio IM
n
Zm = Zm (K n ) y Bm
n
= Bm (K n )

a los m–ciclos y m–fronteras de K n , respectivamente. Luego, tenemos el m–ésimo grupo de


Ju -C

homologı́a de K n :
Zn
Hm n
= Hm (K n ) = mn
.
Bm
D

Usando esta notación tenemos las inclusiones siguientes


AT

0 1 n α
Zm ⊂ Zm ⊂ . . . ⊂ Zm ⊂ . . . ⊂ Zm = Zm (K),
0 1 n α
Bm ⊂ Bm ⊂ . . . ⊂ Bm ⊂ . . . ⊂ Bm = Bm (K).

Definición 2.2.1. Para p ∈ {0, . . . , α} y l ∈ {0, . . . , α − p}, el m–ésimo número persis-


tente de Betti de K l es igual a la dimensión del espacio vectorial
l
l,p Zm
Hm = l+p
.
Bm l
∩ Zm

El m–ésimo número persistente de Betti de K l representa el número de clases de homo-


logı́a independientes de m–ciclos en K l , que no son fronteras en K l+p . Es decir, un m–cı́clo
en K l que genera un elemento no–cero en Hm l,p
es un cı́clo que ha aparecido en la filtración
desde el paso l + 1 y que aún no es una frontera al paso l + p.
La idea de la persistencia es emparejar los nacimientos y muertes de ciclos, dependiendo
de si se agrega un simplejo positivo o uno negativo en la filtración.
62 Capı́tulo 2. Persistencia

2.3. Diagramas de persistencia


Como antes consideremos la filtración F del complejo finito K. Para m ∈ N usaremos la
notación
ci,j i
m ∈ Hm (K ),

para referirnos al m–cı́clo que nace en K i y que muere en K j . Sea

Cm (F) = {ci,j
m}

16 T
el conjunto de m–ciclos. En caso de que un ciclo nazca en i pero no muera, escribiremos ci,∞
m .

20 A
Definición 2.3.1. Definimos el m–ésimo diagrama de persistencia de F como el sub-
lio IM
conjunto de R2 :
dgm(F) = {(i, j) : ci,j
m ∈ Cm (F)} ∪ diag,

donde diag = {(α, α) : α ∈ R} es la diagonal de R2 .


Ju -C

La introducción de la diagonal en el diagrama de persistencia se debe a que estamos


pensando que la distancia a la diagonal nos da la persistencia de la clase. Además, están
D

incluidos puntos de la forma (i, ∞), o bien con j representando ∞.


Dos diagramas de persistencia pueden ser comparados usando una distancia de empare-
AT

jamiento.

Definición 2.3.2. Sean dgm1 y dgm2 dos diagramas de persistencia. La distancia del
cuello de botella entre dgm1 y dgm2 se define como

dB (dgm1 , dgm2 ) = ı́nf sup ||p − γ(p)||∞ ;


γ p∈dgm
1

donde γ corre sobre el conjunto de biyecciones entre los conjuntos dgm1 y dgm2 .

Recordamos que la distancia infinito de p = (xp , yp ) y q = (xq , yq ) se define como

||p − q||∞ = máx(|xp − xq |, |yp − yq |).

Con esta definición de distancia queda ratificado el uso de la diagonal en la definición


del diagrama de persistencia. Esto es, los puntos que están cerca de la diagonal pueden ser
emparejados con puntos en la diagonal y considerados en el análisis como ruidos.
2.4. Persistencia de conjuntos de nivel 63

16 T
20 A
lio IM
Ju -CD
AT

Figura 2.3: La figura muestra dos diagramas de persistencia, (a) dgm1 y (b) dgm2 . En (c) y
(d) se denotan dos posibles biyecciones γ1 y γ2 entre los puntos de dgm1 y dgm2 . En la figura,
se cumple supz∈dgm1 kz − γ2 (z)k∞ < supz∈dgm1 kz − γ1 (z)k∞ , para ilustrar que la biyección
óptima que opera en la definición de dB conlleva una búsqueda sobre todas las posibles γ.

2.4. Persistencia de conjuntos de nivel


Consideremos ahora la persistencia usando las ideas de la teorı́a de Morse. Sea M una
variedad n–dimensional y f : M −→ R una función, la cual puede no ser suave. Para cada
a ∈ R consideramos los subconjuntos de nivel
Ma = f −1 ((−∞, a]) = {p ∈ M : f (p) ≤ a},
y la filtración asociada a las inclusiones
ϕa,b : Ma −→ Mb , a ≤ b.
64 Capı́tulo 2. Persistencia

Esto es, ϕa,b induce una aplicación en homologı́a

(ϕa,b
m )∗ : Hm (Ma ) −→ Hm (Mb ), m ≥ 0.

La imagen de (ϕa,b
m )∗ es el m–ésimo grupo de homologı́a persistente de a a b, denotado
a,b
por Hm . Sea
a,b a,b
βm = dim Hm ,
el m–ésimo número persistente de Betti. El cual cuenta las clases de homologı́a independien-
tes que nacen en tiempo a y mueren después del tiempo b.

16 T
Definición 2.4.1. Decimos que v ∈ R es un valor crı́tico homológico de f , si para  > 0

20 A
suficientemente pequeño la aplicación
v−,v+
lio IM
(ϕm )∗ : Hm (Mv− ) −→ Hm (Mv+ )

no es un isomorfismo.
Además, f se dice mansa si tiene un número finito de valores crı́ticos homológicos, y
Ju -C

para cada a ∈ R, Hm (Ma ) es de dimensión finita.

En particular, cualquier función de Morse sobre una variedad compacta es mansa.


D

Supongamos que f : M −→ R es una función mansa y escojamos  > 0 más pequeño que
la distancia entre dos valores crı́ticos homológicos. Para cada par de valores crı́ticos a < b,
AT

definimos su multiplicidad µa,b como el número de clases de homologı́a independientes que


nacen en a y mueren en b. Explı́citamente:

µa,b = β a+,b− − β a−,b− − β a+,b+ + β a−,b+ .

Luego, la homologı́a persistente puede codificarse en el diagrama de persistencia de f .


^ ) como el conjunto de los pares (a, b), junto con sus multipli-
Esto es, consideremos dgm(f
a,b
cidades µ . Como anteriormente, queremos agregar al diagrama el conjunto de pares que
nacen y mueren al mismo tiempo.

Definición 2.4.2. Se define el diagrama de persistencia de f como la unión

^ ) ∪ diag,
dgm(f ) = dgm(f

donde los elementos de la diagonal tienen multiplicidad “igual” a infinito.

Más aún, el conjunto de diagramas de persistencia puede pensarse como un espacio


métrico con la siguiente distancia.
2.5. Panoramas de persistencia 65

Definición 2.4.3. La distancia cuello de botella entre los diagramas de persistencia


dgm(f ) y dgm(g) se define como

dB (dgm(f ), dgm(g)) = ı́nf sup ||p − γ(p)||∞ ;


γ p∈dgm(f )

donde el ı́nfimo se toma sobre todas las posibles biyecciones

γ : dgm(f ) −→ dgm(g)

16 T
y estamos considerando la norma del supremo para funciones.

20 A
Dicha distancia fue introducida por Cohen–Steiner, Edelsbrunner y Harer ([40]), además
de obtener el siguiente resultado
lio IM
dB (dgm(f ), dgm(g)) ≤ ||f − g||∞ ,

donde f, g : M −→ R son funciones mansas. El cual enunciaremos con detalle más adelante.
Ju -CD

2.5. Panoramas de persistencia


En adelante pensaremos la persistencia de manera más general, ejemplos de esto pue-
AT

den encontrarse en el trabajo de P. Bubenik, F. Chazal, H. Edelsbrunner, entre otros. En


particular, tomamos el material de esta sección del trabajo de P. Bubenik [22].
El objeto algebráico más general que estudia el análisis topológico de datos es el módulo
de persistencia.

Definición 2.5.1. Un módulo de persistencia V = {Va , va,b } es un conjunto de espacios


vectoriales y aplicaciones indexados por R; esto es, Va es un espacio vectorial para cada
a ∈ R y existen aplicaciones lineales

va,b : Va −→ Vb , a ≤ b,

tales que va,a es la aplicación identidad y para cada a ≤ b ≤ c:

va,c ≡ vb,c ◦ va,b .

Además, diremos que el módulo de persistencia V es q–manso si el rango de va,b es


finito siempre que a < b.
66 Capı́tulo 2. Persistencia

Por ejemplo, la construcción del complejo de Čech o el complejo de Rips, junto con las
respectivas aplicaciones en homologı́a simplicial definen un módulo de persistencia. Observar
que en este tipo de filtraciones se calcula la homologı́a singular del espacio formado por
uniones de bolas, mediante el calculo en homologı́a simplicial del complejo respectivo. En
este caso, existen algoritmos eficientes para calcular la homologı́a persistente (Edelsbrunner,
Milosavljević, Chen y Kerber).
Otro tipo de construcciones de complejos son las del complejo “witness” (de Silva y
Carlsson) o complejos construidos usando estimadores de densidad de kernel (Bubenik).
Dada una función f : X −→ R, la filtración por subconjuntos de nivel define un módulo

16 T
de persistencia para cada m ∈ N ; o bien

20 A
Va = Hm (f −1 ((−∞, a])),

y va,b ≡ (ϕa,b
lio IM
m )∗ son las aplicaciones lineales respectivas. En particular, las funciones distancia
a una nube de puntos y distancia a un subconjunto compacto nos dan ejemplos de módulos
de persistencia.
Sea V un módulo de persistencia y para cada a ≤ b consideramos el correspondiente
Ju -C

número de Betti de V:
β a,b = β a,b (V) = dim im(va,b ).
D

Observar que para a ≤ b ≤ c ≤ d:


β b,c ≥ β a,d ,
AT

ya que va,d = vc,d ◦ vb,c ◦ va,b .


Consideremos la función rango λ : R2 −→ R dada por
 b,d
β , b ≤ d;
λ(b, d) =
0, en otro caso.
Hacemos el cambio de coordenadas
b+d d−b
k= , h= ,
2 2
para que la función resultante quede en el semi–plano superior. Es decir, tenemos la función
rango reescalada λ : R2 −→ R:
 k−h,k+h
β , h ≥ 0;
λ(k, h) =
0, en otro lado.
Queremos analizar el comportamiento de este tipo de funciones. En particular, tenemos
la siguiente función importante.
2.5. Panoramas de persistencia 67

Definición 2.5.2. El panorama de persistencia es una función


λ : N × R → [−∞, ∞],
donde [−∞, ∞] son los números reales extendidos. De manera alternativa, tenemos la suce-
sión de funciones λn : R −→ [−∞, ∞]:
λn (t) = λ(n, t) = sup(h ≥ 0 : β t−h,t+h ≥ n).
En la siguiente imagen se ilustra la construcción de un panorama de persistencia.3

16 T
20 A
lio IM
Ju -CD
AT

Figura 2.4: Función rango arriba a la izquierda, función rango reescalada y correspondiente
código de barras arriba a la derecha, panorama de persistencia y su versión extendida abajo.

Además, para facilitar la gráfica de la función extendemos un panorama de pesistencia λ


a λ̂ : R2 −→ [−∞, ∞] como sigue,

λ(dxe, t) x > 0;
λ̂(x, t) =
0, x < 0.
En el trabajo de Bubenik [22] se definen los panoramas de persistencia y se observan las
siguientes propiedades:
λn (t) ≥ 0, λn (t) ≥ λn+1 (t) y λn es 1–Lipschitz.
3
Imagen tomada de [22]
68 Capı́tulo 2. Persistencia

Observación 2.5.3. Los números de Betti dim(Vt ) de un módulo de persistencia V pueden


ser leı́dos en la diagonal de la función rango, en el eje k de la función rango reescalada y en
el soporte del panorama de persistencia.

Es importante notar que la geometrı́a del espacio de diagramas de persistencia se vuelve


complicada de trabajar, por ejemplo este conjunto no necesariamente tiene una única media
de Fréchet. En contraste, el espacio de los panoramas de persistencia es bueno para trabajar,
en particular tiene una única media.

16 T
2.6. Códigos de barras

20 A
Informalmente, el diagrama de persistencia consiste en las “esquinas superiores izquier-
lio IM
da” de la función rango, viceversa λ(b, d) cuenta el número de puntos en el diagrama de
persistencia en el cuadrante superior izquierdo. Esto es, dado un diagrama de persistencia
{(bi , di )} definimos
Ju -C

λn (t) = n–ésimo valor más grande de mı́n(t − bi , di − t)+ ,

donde c+ = máx(c, 0).


D

De manera similar, el código de barras consiste de las bases de los triángulos formados
en la función rango reescalada. Para el caso de los códigos de barras tenemos que son un
AT

invariante de los módulos de persistencia (ver [28]). Enunciamos el teorema fundamental de


la persistencia, que nos permite obtener el código de barras.

Teorema 2.6.1 (Fundamental de homologı́a persistente). Dado un módulo de persistencia


q–manso V, existe una elección de bases para los espacios vectoriales Va , tal que cualquier
aplicación está determinada por un emparejamiento bipartito de vectores básicos.

Es decir, si consideramos el módulo de persistencia asociado a una filtración F:

Va = Hm (K a ), va,b = (ϕa,b
m )∗ .

Entonces los parámetros que surgen de la base de Hm (F) a partir del teorema anterior,
podemos pensarlos en una captura visual en la forma de un código de barras. O bien, una
representación gráfica de Hm (F) como una colección de segmentos de lı́nea horizontales en
un plano, con eje horizontal correspondiendo a los parámetros y eje vertical representando
un orden (arbitrario) de los generadores de homologı́a.
Explı́citamente tenemos lo siguiente (ver [24]).
2.6. Códigos de barras 69

Lema 2.6.2. Dado cualquier m–cı́clo γ ∈ Zm (F), el conjunto de números a ∈ [−∞, ∞]


tales que la clase [γ] no está en Hm (K a ) es o bien vacı́o, o un intervalo.
Definición 2.6.3. Sean γ ∈ Zm (F) e Iγ el m–ésimo intervalo de homologı́a persis-
tente representado por γ que surge del lema anterior.
El m–ésimo código de barras de Betti es el conjunto de intervalos

{Jγ : γ ∈ S ⊂ Zm (F)};

donde Jγ es un subintervalo de Iγ y para cada a ∈ [−∞, ∞], {[γ] : γ ∈ S, a ∈ Jγ } forma

16 T
una base para el espacio vectorial Hm (K a ).

20 A
lio IM
Ju -CD
AT

Figura 2.5: Filtración con código de barras e intervalos por clases de homologı́a.

Tenemos la siguiente caracterización.


a,b
Teorema 2.6.4. El rango del m–ésimo grupo de homologı́a persistente Hm es igual al
número de intervalos en el código de barras de Hm (F) que generan el intervalo [a, b]. En
particular, Hm (K a ) es igual al número de intervalos que contienen a.
70 Capı́tulo 2. Persistencia

El conjunto de códigos de barras viene dotado con una métrica (ver [28]). Dado un
intervalo J, denotamos por λ(J) su longitud. Si J y J 0 son dos intervalos, denotamos por
∆(J, J 0 ) su diferencia simétrica o médida de dimensión uno

∆(J, J 0 ) = λ(J ∪ J 0 ) − λ(J ∩ J 0 ).

Definición 2.6.5. Dados dos códigos de barras {Jα }α∈S1 y {Jα0 0 }α0 ∈S2 , un emparejamiento
parcial entre S1 y S2 es un subconjunto m ⊂ S1 × S2 , donde cada α y α0 aparece a lo más
una vez. Definimos la distancia entre códigos de barras

16 T
 

20 A
X X X
D({Jα }S1 , {Jα0 0 }S2 ) = mı́n  ∆(Jα , Jα0 ) + λ(Jα ) + λ(Jα0 0 ) ;
m∈match
(α,α0 )∈m α∈S1 \m1 α0 ∈S2 \m2
lio IM
donde mi es la proyección de m en Si .
Ju -C

Dicha definición de distancia define una “cuasi–métrica”, dado que su valor puede ser
infinito, sin embargo puede ser convertida en una métrica.
D

Una de los aspectos importantes de los códigos de barras es la habilidad de distinguir


cualitativamente ruido topológico y capturar las propiedades significativas. Como hemos
AT

visto, para el caso de filtraciones tipo Morse los códigos de barras son estables en la presencia
de ruido.

2.7. Estabilidad
En general, los módulos de persistencia que son q–mansos son los objetos ideales de
trabajo. En esta sección culminamos enunciando los resultados de estabilidad en relación a
la persistencia.
Recordamos que un módulo de persistencia V es q–manso si el rango de va,b es finito
siempre que a < b.

Teorema 2.7.1. Si un módulo de persistencia es q–manso, entonces tiene un diagrama


de persistencia dgm(V) ⊂ [−∞, ∞]2 bien definido. En particular, si V es el módulo de
persistencia formado por la filtración de un complejo simplicial finito, este diagrama coincide
con el definido anteriormente.
2.7. Estabilidad 71

Dados dos módulos de persistencia V y U, con aplicaciones respectivas va,b , ua,b y  ≥ 0.


Un homomorfismo de grado  es una colección de aplicaciones lineales
Ψ = {ψa : Ua −→ Va+ }
tales que
va+,b+ ◦ ψa ≡ ψb ◦ ua,b , a ≤ b.
Escribimos Hom (U, V) para el conjunto de homomorfismos de grado  de U a V y End (V)
para los homomorfismos de grado  de V en sı́ mismo.
Para  ≥ 0, consideramos la aplicación de desplazamiento

16 T
1V ∈ End (V),

20 A
la cual es la colección de aplicaciones {va,a+ }. En particular, si Ψ es un homomorfismo de
cualquier grado de U en V, entonces por definición
lio IM
Ψ ◦ 1V ≡ 1V ◦ Ψ.
Definición 2.7.2. Dos módulos de persistencia U y V se dicen –intercalados si existen
Ju -C

aplicaciones
Φ ∈ Hom (U, V), Ψ ∈ Hom (V, U),
tales que
D

Ψ ◦ Φ ≡ 12
U y Φ ◦ Ψ ≡ 12
V.
AT

Con esta noción tenemos el teorema fundamental de estabilidad de diagramas de persis-


tencia.
Teorema 2.7.3 (Estabilidad de persistencia). Sean U y V dos módulos de persistencia q–
mansos, que además son –intercalados para algún  ≥ 0. Entonces
dB (dgm(U), dgm(V)) ≤ .
Este teorema nos permite obtener la estabilidad de los diferentes tipos de filtraciones
consideradas hasta ahora.
Dada una función f : X → R definida en un espacio topológico, consideramos la filtración
por subconjuntos de nivel
{Xα = f −1 ((−∞, α])}R
y el módulo de persistencia Fm formado por los grupos de homologı́a singular Hm (Xα ) y las
aplicaciones inducidas por inclusión.
Sean dos funciones f, g : X −→ R tales que ||f − g||∞ < , entonces sus módulos de
persistencia Fm y Gm son –intercalados. Para garantizar que además estos módulos de
persistencia son q–mansos tenemos el siguiente resultado.
72 Capı́tulo 2. Persistencia

Proposición 2.7.4. Si X es homeomorfo a un complejo simplicial finito y f : X −→ R es


continua, entonces Fm es q–manso para cualquier m ∈ N. En particular, dgm(Fm ) está bien
definido.

Luego, si Fm es q–manso para cualquier m ∈ N, obtenemos la definición previamente


descrita de que f : X −→ R es mansa. Ası́ que usualmente dgm(f ) denota el diagrama
de persistencia de Fm para cualquier m. Usando el teorema de estabilidad concluimos el
siguiente resultado.

Teorema 2.7.5. Sea X un espacio topológico homeomorfo a un complejo simplicial finito y

16 T
f, g : X −→ R funciones continuas. Entonces

20 A
dB (dgm(Fm ), dgm(Gm )) ≤ ||f − g||∞ .
lio IM
Para el caso de la función distancia tenemos lo siguiente. Si X ⊂ Rn es un espacio
topológico compacto y
dX (y) = ı́nf ||x − y||
Ju -C

x∈X

la función distancia a X. En particular, si X = P donde P ⊂ Rn es un subconjunto finito


de puntos, tenemos la función distancia dP : Rn −→ R descrita anteriormente.
D

Proposición 2.7.6. Sea X ⊂ Rn un subconjunto compacto. Entonces, la función distancia


dX : Rn −→ R es mansa.
AT

Por lo tanto, las funciones distancias a un subconjunto compacto tienen diagramas de


persistencia bien definidos. Si C(P ) representa la filtración de Čech de una nube de datos
tenemos lo siguiente.

Corolario 2.7.7. Sean X, Y ⊂ Rn dos subconjuntos compactos. Entonces

dB (dgm(dX ), dgm(dY )) ≤ dH (X, Y ).

En particular, si P, Q ⊂ Rn son nubes finitas de puntos, entonces para cualquier m ∈ N

dB [dgm(Hm (C(P ))), dgm(Hm (C(Q)))] ≤ dH (P, Q).

Como consecuencia, los módulos de persistencia inducidos por subconjuntos de nivel de


dP y la filtración de Čech son 0–intercalados.
2.8. Ejercicios 73

2.8. Ejercicios
Ejercicio 2.8.1. Considera las dos condiciones en la definición de un complejo simplicial.

1. Da una pequeña colección de simplejos que no satisface la primera condición pero sı́ la
segunda.

2. Da una pequeña colección de simplejos que no satisface la segunda condición pero sı́ la
primera.

16 T
20 A
Ejercicio 2.8.2. Sea K un complejo simplicial finito.

1. Demuestra que K es arco–conexo si y sólo si, su 1–esqueleto Sk1 (K) es conexo.


lio IM
2. Deduce que β0 (K) es igual al número de componentes conexas de K.
Ju -C

Ejercicio 2.8.3. Considera m–cadenas con coeficientes en Z/2Z y su interpretación geométri-


ca; esto es, una m–cadena c se escribe únicamente como c = σi1 + . . . + σik , donde los σij
D

son m–simplejos, y por lo tanto c se ve como la unión de los simplejos σij . Prueba que la
suma de dos m–cadenas es igual a su diferencia simétrica.
AT

Ejercicio 2.8.4. Sea K un complejo simplicial de dimensión 1 con vértices a, b, c, d, e y


lados ab, ac, ad, be, ce, de.

1. Determina los rangos de C1 (K), Z1 (K) y B0 (K) .

2. Deduce cuántas 1–cadenas tienen la misma frontera; en otras palabras, cuántos ele-
mentos de C1 (K) son llevados al mismo elemento de B0 (K).

Ejercicio 2.8.5. Sea F una filtración de un complejo simplicial finito K. Demuestra que
todos los vértices de K son positivos y que un segmento o lado σ i es positivo si y sólo si, los
dos vértices finales de σ i están en la misma componente conexa de K i−1 .
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 3

Probabilidad

16 T
20 A
lio IM
El objetivo de este capı́tulo es dar una breve introducción a los conceptos y resultados
de la teorı́a de probabilidad y la teorı́a de medida e integración de Lebesgue que son nece-
sarios para estudiar variables aleatorias en variedades, la inferencia estadı́stica y el análisis
Ju -C

topológico de datos (ATD). Los conceptos y resultados se presentan en el orden que se


considera conveniente - de acuerdo al expositor- para irse familiarizando con los elementos
de análisis estadı́stico de altas dimensiones, variables aleatorias en variedades y sus distribu-
D

ciones de probabilidad. En particular, estamos interesados en entender un modelo usual en


ATD en donde las observaciones son del tipo M + σZ, con M una variable aleatoria con cierta
distribución de probabilidad (usualmente uniforme) en una variedad en Rd , Z, el ruido, un
AT

vector gaussiano estándar y σ 2 la varianza del ruido; ası́ como distribuciones de probabilidad
alternativas para M y Z. Se hace especial énfasis en el caso de la esfera y el toro, y en el
marco teórico para simular elementos aleatorios en éstas y otras variedades, lo cual es el
tema del Capı́tulo 4.
Para exposiciones introductorias de teorı́a de la medida e integración, puede consultar-
se los libros clásicos de Bartle [9] y Halmos [65]. Para un enfoque unificado de medida y
probabilidad existen numerosos libros, entre ellos Billingsley [14] y Athreya y Lahiri [6]. Un
compendio rápido de medida y probabilidad se expone en las notas de Domı́nguez–Molina y
Pérez Abreu [44]. El libro de Klenke [85] contiene material avanzado de teorı́a de probabili-
dad en espacios topológicos y el libro de Federer [53] está dedicado a la medida geométrica.
Las demostraciones de los resultados clásicos de esta teorı́a no se presentan, nos remitimos
a cualquiera de estas referencias, o la favorita del lector.
Exposiciones en la literatura sobre variables aleatorias y probabilidad en variedades se
irán mencionando cuando se aborden estos temas. En la tesis de maestrı́a reciente de Lilia
Rivera [114] se presenta una motivación para el análisis estadı́stico sobre variedades, ası́ como
su relevancia y complejidad, más allá del análisis topológico de datos.

75
76 Capı́tulo 3. Probabilidad

3.1. Elementos de probabilidad


En primer lugar, tenemos la noción de probabilidad, de acuerdo a la axiomatización dada
por Andreı́ Kolmogorov en 1933.
Definición 3.1.1. Un espacio de probabilidad es una terna (Ω, A, P) donde:

1. Ω es un conjunto no–vacı́o.

2. A es una σ–álgebra de subconjuntos de Ω; o bien,

16 T

[
C
Ω ∈ A, A∈A⇒A ∈A An ∈ A,

20 A
y
n=1
lio IM
para toda sucesión de eventos {Ai } ⊂ A.

3. P es una medida de probabilidad; i.e.


Ju -C

P : A −→ [0, 1], P(Ω) = 1,

y dada una sucesión de eventos {An } tales que son disjuntos por pares An ∩ Am = ∅,
D

n 6= m, entonces

! ∞
[ X
An = P(An ).
AT

P
n=1 n=1

Pensamos a Ω como el espacio de muestra de un experimento y un conjunto A ∈ A se


dice evento.
Dados dos eventos A, B ∈ A y P(B) > 0, definimos la probabilidad condicional de A dado
B como
P(A ∩ B)
P(A|B) = .
P(B)
Notar que dado B ∈ A con P(B) > 0, la aplicación

P( · |B) : A −→ [0, 1],

es una medida de probabilidad. Pero en general P(A| · ) no es medida de probabilidad y


P(A|B) 6= P(B|A).
Además consideramos la regla del producto

P(A ∩ B) = P(A|B)P(B).
3.1. Elementos de probabilidad 77

Diremos además que los eventos A y B son independientes si


P(A ∩ B) = P(A)P(B);
o bien, P(A|B) = P(A). Más aún, una sucesión {Ai } finita de n–eventos son independientes
si para cualesquiera 1 ≤ k ≤ n y {i1 < . . . < ik } ⊂ {1, ...n}
P(Ai1 ∩ . . . ∩ Aik ) = P(Ai1 ) · · · P(Aik ).
Asimismo, una colección arbitraria de eventos {At } son eventos independientes, si cualquier
subcolección finita está formada por eventos independientes.

16 T
20 A
3.1.1. Variables aleatorias y sus distribuciones
lio IM
En el contexto de topologı́a consideramos lo siguiente. Dado un espacio topológico X,
consideremos OX la colección de abiertos de X. Sea B(X) la menor σ–álgebra generada por
OX ; esto es, la intersección de las σ–álgebras que contienen a OX . Llamamos a B(X) la
Ju -C

σ–álgebra de Borel de X.

Definición 3.1.2. Dado un espacio de probabilidad (Ω, A, P) y Y un espacio topológico. Una


función
D

Y : Ω −→ Y
se llama variable aleatoria (o función B(Y ) \ A–medible) si
AT

∀A ∈ B(Y ) : Y−1 (A) ∈ A.


La distribución de Y es la probabilidad PY en (Y, B(Y )) dada por
PY (A) = P(Y−1 (A)), A ∈ B(Y ).
Proposición 3.1.3. Si Y = R tenemos que Y : Ω −→ R es una variable aleatoria si y sólo
si,
Y−1 ((−∞, x]) ∈ A, ∀x ∈ R.
Un hecho importante de mencionar es que la σ–álgebra de Borel de R, B(R) es igual a
la σ–álgebra generada por varias clases de subconjuntos de R.
La función FY : R −→ [0, 1] definida por
FY (x) := P(Y ≤ x), x ∈ R,
se llama la función de distribución de la variable aleatoria Y. En particular, F = FY
tiene las siguientes propiedades:
78 Capı́tulo 3. Probabilidad

1. F es no decreciente y 0 ≤ F (x) ≤ 1 para cada x ∈ R.

2.
F (−∞) = lı́m F (x) = 0 y F (∞) = lı́m F (x) = 1.
x→−∞ x→∞

3. F es continua por la derecha (y tiene lı́mites por la izquierda); i.e.

F (x) = F (x+ ) = lı́m+ F (y), x ∈ R.


y→x

16 T
Cualquier función F : R −→ [0, 1] que cumple (1) − (3) se llama función de distribu-

20 A
ción.
lio IM
Teorema 3.1.4 (Kolmogorov). Dada una función de distribución F , existe un espacio de
probabilidad (Ω, A, P) y una variable aleatoria Y : Ω −→ R en (R, B(R)) tal que Y tiene
función de distribución F .
Ju -C

Veremos más adelante cómo demostrar este teorema el cual usaremos múltiples veces.

Ejemplo 3.1.5. La función distribución degenerada en a ∈ R,


D


0, x < a;
F (x) =
AT

1, x ≥ a.

Luego P(Y = a) = 1.

Ejemplo 3.1.6. La función de distribución Bernoulli: sean a1 , a2 ∈ R y 0 < p < 1, tal que

P(Y = a1 ) = p y P(Y = a2 ) = 1 − p.

Si a1 < a2 , se define 
 0, x < a1 ;
F (x) = p, a1 ≤ x < a2 ;
1, x ≥ a2 .

Ejemplo 3.1.7. La función de distribución Normal N(µ, σ 2 ), tal que µ ∈ R y σ 2 > 0.


Consideremos la función (de densidad)
 
2 1 1 2
φ(x; µ, σ ) = √ exp − 2 (x − µ) , x ∈ R.
σ 2π 2σ
3.1. Elementos de probabilidad 79

Luego Z x
F (x) := φ(t, µ, σ 2 )dt
−∞
es una función de distribución. Una variable aleatoria con esta distribución se llama variable
aleatoria con distribución normal N(µ, σ 2 ); lo cual denotaremos por X ∼ N(µ, σ 2 ). Decimos
que una variable aleatoria Z tiene distribución normal estándar si Z ∼ N(0, 1), en cuyo caso
la función de densidad es par (simétrica alrededor del cero)
 
1 1 2
φ(x) = √ exp − x , x ∈ R.

16 T
2π 2
En particular, tenemos las siguientes implicaciones:

20 A
X−µ
1. Si X ∼ N(µ, σ 2 ), entonces Z = σ
∼ N(0, 1).
lio IM
2. Si Z ∼ N(0, 1), entonces X = µ + σZ ∼ N(µ, σ 2 ).
3. Dadas n variables aleatorias independientes
Ju -C

n n n
!
X X X
Xi ∼ N(µi , σi2 ) ⇒ Xi ∼ N µi , σi2 .
i=1 i=1 i=1
D

En general, dada una función f : R −→ [0, ∞) que integre uno, se definirán las distribu-
ciones absolutamente continuas
AT

Z x
F (x) = f (t)dt.
−∞
0
En tal caso, F (x) = f (x) casi seguramente (como se explica más adelante) y la variable
aleatoria respectiva X satisface que
P(a ≤ X ≤ b) = F (b) − F (a).
Ejemplos de esto pueden encontrarse en las funciones de distribución exponencial, gama,
beta, t, Cauchy o χ2 .
Las distribuciones absolutamente continuas son continuas.
Definición 3.1.8. Una variable aleatoria Y es continua si su función de distribución es
continua. En este caso P(Y = y) = 0 para cada −∞ < y < ∞.
Una variable aleatoria es discreta si existe una sucesión de números nonegativos {pn }n≥0

P
con pn = 1, y un conjunto numerable {yn }n≥0 ⊂ R tal que
n=0

P(Y = yn ) = pn , n ≥ 0.
80 Capı́tulo 3. Probabilidad

En el caso de distribuciones discretas es usual tomar {yn }n≥0 = N∪{0}. En este caso la
función de distribución de Y es

0, x < 0;
F (x) = P[x]
n=0 pk , x ≥ 0.

Ejemplos de distribuciones discretas son la Bernoulli, Binomial, Poisson, geométrica, bi-


nomial negativa o hipergeométrica. Un ejemplo de especial interés es la distribución uniforme
en un conjunto finito de puntos.

16 T
Ejemplo 3.1.9 (Distribución uniforme discreta). Sea Ω = {w1 , ..., wn } un conjunto finito
arbitrario, A = 2Ω y la probabilidad P definida en los singletones {wi } como P({wi }) = 1/n.

20 A
Entonces para cualquier subconjunto A ⊂ Ω, P(A) = #(A)/n. Esta probabilidad se conoce
lio IM
como probabilidad uniforme, ya que conjuntos con el mismo número de elementos tienen la
misma probabilidad.

Definición 3.1.10. Decimos que n variables aleatorias Y1 , . . . , Yn en Y son independientes


Ju -C

si para cada k ≥ 1 !
\k Yk
P Yi−1 (Ai ) = P(Yi−1 (Ai )),
D

i=1 i=1

con Ai ∈ B(Y ). Análogamente, si las variables aleatorias toman valores reales, decimos que
AT

son independientes si y sólo si, para cada k ≥ 1:

P(Y1 ≤ x1 , . . . , Yk ≤ xk ) = P(Y1 ≤ x1 ) · · · P(Yk ≤ xk ).

Teorema 3.1.11. Dada una sucesión de funciones de distribución {Fn }n≥1 en R, existen un
espacio de probabilidad (Ω, A, P) y variables aleatorias independientes Yj : Ω −→ R, j ≥ 1,
tales que para cada n ≥ 1, Yn tiene función de distribución Fn .

Sea X una variable aleatoria con función de distribución F y g : R −→ R una función


medible; o bien, tal que para cada x ∈ R, g −1 ((−∞, x)) ∈ B(R). Si además
Z
|g(x)|F (dx) < ∞,
R

definimos la esperanza de g(X) como


Z
Eg(X) = g(x)F (dx).
R
3.1. Elementos de probabilidad 81

En particular, dada una distribución F , X variable aleatoria con esta función de distri-
bución y p > 0, si Z ∞
|x|p F (dx) < ∞,
−∞

se define el p–ésimo momento de X como


Z ∞
p
µp = E|X| = |x|p F (dx) < ∞.
−∞

16 T
Usualmente denotaremos por µ a la esperanza o primer momento µ1 , además el p–ésimo
momento central se define como E(|X − µ|p ).

20 A
Definimos la varianza de la variable X como
lio IM
Var(X) = σ 2 = E(X − µ)2 = EX2 − (EX)2 ,

siempre que σ 2 < ∞. Esto es,


Ju -C

Z ∞
Var(X) = (x − µ)2 F (dx).
−∞
D

Dadas n variables aleatorias {Xi } y n constantes {ci }, tenemos las siguientes propiedades
importantes:
AT

1. !
n
X n
X
E c i Xi = ci E(Xi ).
i=1 i=1

2. Si además las variables aleatorias son independientes:


n
! n
Y Y
E Xi = E(Xi ),
i=1 i=1

3.
Var(c1 X + c2 ) = c21 Var(X),

Sean X, Y variables aleatorias con medias µX , µY , y de varianza finita. Definimos la


covarianza entre X y Y como

Cov(X, Y) = E ((X − µX )(Y − µY )) = µXY − µX µY


82 Capı́tulo 3. Probabilidad

donde µXY = E(XY). Notar que si X y Y son independientes Cov(X, Y) = 0. Decimos que
X y Y están no correlacionadas si Cov(X, Y) = 0. El que dos variables aleatorias estén no
correlacionadas no implica que sean independientes; es un ejercicio muy fácil dar un ejemplo.
Más aún,
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
y en general dadas n variables aleatorias {Xi } y n constantes {ci }, tenemos que
n
! n n X
X X X
2
Var ci X i = ci Var(Xi ) + 2 ci cj Cov(Xi , Xj ).

16 T
i=1 i=1 j=1 i<j

20 A
Por lo tanto, si las variables aleatorias {Xi } son independientes o no correlacionadas a pares
lio IM
n
! n
X X
Var c i Xi = c2i Var(Xi ).
i=1 i=1
Ju -C

Volveremos al tema de esperanza y momentos en la Sección 3.5.1


D

3.1.2. Tipos de convergencia en probabilidad y resultados lı́mite


universales
AT

Daremos ahora las nociones fundamentales de convergencia que se usan en probabilidad.


Decimos que una sucesión de variables aleatorias {Yi }i≥1 convergen a Y en probabilidad
si para cada  > 0,
P(|Yn − Y| > ) −→ 0, n −→ ∞.
En tal caso escribiremos
Pr
Yn −→ Y.
Decimos además que convergen a Y con probabilidad 1 si existe un conjunto Ω0 ∈ A con
P(Ω0 ) = 1 tal que para cada ω ∈ Ω0 ,

Yn (ω) −→ Y(ω), n −→ ∞.

Escribimos
c.p,1
Yn −→ Y.
En estos casos, el lı́mite es único, módulo variables aleatorias que difieren en un conjunto
de probabilidad cero.
3.1. Elementos de probabilidad 83

Considerando las funciones de distribución FYn asociadas a la sucesión de variables alea-


torias como antes, decimos que {Yn } converge en distribución o en ley si

lı́m FYn (x) = FY (x),


n→∞

para cada x que es punto de continuidad de FY . Escribimos


L
Yn −→ Y.

16 T
La distribución lı́mite es única.

20 A
Proposición 3.1.12. 1. Sean Xn , n ≥ 1, X variables aleatorias, entonces
c.p,1 Pr L
lio IM
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.

Pr L
2. Si X es variable aleatoria degenerada, entonces Xn −→ X ⇔ Xn −→ X.
Ju -C

c.p,1 Pr c.p,1
3. Si Xn −→ X (Xn −→ X) y g es una función continua, entonces g(Xn ) −→ g(X)
Pr
(g(Xn ) −→ g(X)).
D

Además tenemos el siguiente resultado, el cual es muy usado en probabilidad.


AT

Teorema 3.1.13 (Slutsky). Sean Xn , Yn , Zn , n ≥ 1, X, Y, Z variables aleatorias y a, c


constantes. Si se satisfacen:
L Pr Pr
Xn −→ X, Yn −→ a, y Zn −→ c;

entonces
L
Xn Yn + Zn −→ aX + c.

Enunciamos ahora algunos de los resultados universales de la teorı́a de probabilidad.

Teorema 3.1.14 (Ley Fuerte de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
independientes con la misma distribución, con primer momento EYi = µ. Sea Sn = nj=1 Yj ,
P
entonces  
Sn
P lı́m = µ = 1.
n−→∞ n

Esto es, la convergencia es con probabilidad 1. Para el caso de convergencia en probabi-


lidad tenemos lo siguiente.
84 Capı́tulo 3. Probabilidad

Teorema 3.1.15 (Ley Débil de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
independientes con la misma distribución, con primer momento EYi = µ y Var(Yi ) = σ 2 <
∞. Entonces
a) Para cada  > 0
σ2
 
Sn
P − µ >  ≤ 2 .

n n

Sn Pr
b) n
−→ µ.

16 T
Teorema 3.1.16 (Teorema del Lı́mite Central). Sean {Yi }i≥1 variables aleatorias indepen-

20 A
dientes con la misma distribución, con primer momento EYi = µ y Var(Yi ) = σ 2 < ∞.
Entonces
lio IM
!
√ Snn − µ L
n −→ Z;
σ
Ju -C

donde Z es una variable aleatoria que tiene distribución N(0, 1) con


Z z
1 2 /2
Φ(z) = P(Z ≤ z) = √ e−t dt.
D

2π −∞
AT

En este último resultado la convergencia es sobre la distribución de variables aleatorias.


Además de la ley de grandes números y el teorema del lı́mite central, hay otros resultados
lı́mites universales, como la aproximación de Poisson que se presenta en el Apéndice D.
Por último en esta lista de resultados tenemos el siguiente, el cual nos será de mucha
utilidad.

Teorema 3.1.17 (Método Delta). Sean {Yi }i≥1 variables aleatorias tales que existen µ ∈ R
√ L
y σ 2 > 0 para las cuales n(Yn − µ)/σ −→ Z ∼ N(0, 1). Sea g : R −→ R una función
medible tal que g (1) (µ) 6= 0, entonces

√ g (Yn ) − g(µ)
 
L
n (1)
−→ Z,
g (µ)σ

con Z ∼ N(0, 1).


3.1. Elementos de probabilidad 85

3.1.3. Aplicaciones al análisis de datos de altas dimensiones


Consideremos un vector aleatorio

Xd = (X1 , . . . , Xd ),

con variables aleatorias independientes {Xi } con la misma distribución y todos sus momentos
finitos. Dado p ≥ 1 por la LGN
d
1 1X c.p,1

16 T
||Xd ||pp = |Xj |p −→ E|X1 |p = µp . (3.1.1)
d d j=1

20 A
Es decir, con alta probabilidad, para d grande
lio IM
||Xd ||p ' (d)1/p µ1/p
p ,

intuitivamente los números de Betti son cero salvo los casos β0 y βd−1 que son iguales a 1,
Ju -C

para cualquier p ≥ 1.
Por el TLC con σp2 = Var(|X|p ) tenemos que cuando d → ∞
D

||Xd ||pp
  
√ d
− µp L
 d  −→ Z ∼ N(0, 1).
σp
AT

Más aún, por el Método Delta con g(x) = x1/p obtenemos:


  ||X || 1/p

d p
√ 1/p − µp
 d d 1/p−1 L
 −→ Z ∼ N(0, 1).
µp
p
σ p

En consecuencia,
1 1/p−1
||Xd ||p ' d1/p µ1/p
p + µp σp d1/p−1/2 Z.
p
Esto es, la norma del vector tiene un ruido que se distribuye como N(0, kp2 d2/p−1 ). Ası́ pode-
mos observar que para el caso p = 2 el ruido no depende de d y si sucede que p es muy grande,
entonces este ruido tiene varianza pequeña. En general, la dimensión d es muy grande.

Observación 3.1.18. La independencia de variables aleatorias no es algo particular del


fenómeno anterior. Sean X1 , . . . , Xd eigenvectores de una matriz aleatoria Wd del Ensamble
86 Capı́tulo 3. Probabilidad

Gaussiano Ortogonal (GOE), ver Sección 4.1.2. Estas variables aleatorias son “fuertemente
dependientes” y se tiene con una “convergencia rápida” lo siguiente
00
||Xd ||p ' d1/p+1/2 kp0 + kp d1/p−1/2 Z.

La prueba no trivial de este hecho se basa en el Teorema de Wigner o Ley de Semicı́rculo


-resultado pionero en la Teorı́a de Matrices Aleatorias (ver [3])- y el estudio de fluctuaciones
alrededor de la ley del semicı́rculo (ver por ejemplo [111]).

16 T
20 A
3.2. Construcción de medidas y variables aleatorias
lio IM
3.2.1. Construcción de medidas y aplicaciones a probabilidad
El objetivo de esta sección es dar los elementos necesarios de medida e integral de Lebes-
Ju -C

gue para la construcción de medidas en espacios métricos.


Decimos que (X, A) es un espacio medible, si A es una σ–álgebra de X. En general, dada
una colección C ⊂ X, una función
D

µ : C −→ [0, ∞]
AT

S
es σ–aditiva si siempre que Ai ∈ C, Ai ∩ Aj = ∅ y Ai ∈ C entonces,

! ∞
[ X
µ Ai = µ(Ai ).
i=1 i=1

Definición 3.2.1. Una medida en A es una función σ–aditiva en A tal que µ(∅) = 0. La
terna (X, A, µ) se llama un espacio de medida.
Decimos que una medida µ es finita si

µ(A) < ∞, A ∈ A.
S
Además, µ es σ–finita en C si existe una sucesión {An } de C tal que X = An y µ(An ) < ∞.
El primer ejemplo de una medida es considerar µ como el número de elementos de un
conjunto X. La cual es una medida que no es finita si la cardinalidad de X no es finita y es
σ–finita si y sólo si X es numerable.
Dado un espacio de medida (X, A, µ), un conjunto A ∈ A es un átomo si
3.2. Construcción de medidas y variables aleatorias 87

(i) µ (A) > 0, y

(ii) si B ⊂ A, y µ (B) < µ (A), entonces µ (B) = 0.

Dado un espacio de medida (X, A, µ), decimos que µ es una medida no atómica si no
tiene átomos.
En particular si µ es una medida no atómica, µ ({i}) = 0, ∀ {i} ∈ A.
Consideremos el espacio de medida dado por X = {1, . . . , n}, A =2X y µ = # (A).
Entonces µ tiene átomos en {1} , . . . , {n}.

16 T
Definición 3.2.2. Una colección S de subconjuntos de X es una semi–álgebra si se satis-
facen:

1. ∅ ∈ S,
20 A
lio IM
2. S es cerrada bajo intersecciones finitas,

3. si A ∈ S, entonces existen A1 , . . . , Ak ∈ S tales que


Ju -C

k
X
c
A = Aj , Ai ∩ Aj = ∅;
D

j=1
P
donde la notación Aj indica la unión disjunta o ajena de los Aj .
AT

Definición 3.2.3. Una colección A0 de subconjuntos de X es un álgebra si se satisfacen:

1. X ∈ A0 ,

2. A ∈ A0 implica que Ac ∈ A0 y

3. A, B ∈ A0 implica que A ∪ B ∈ A0 .

En general, dada una semi–álgebra S, la colección de todas las uniones finitas ajenas de
elementos en S es un álgebra A0 (S).

Ejemplo 3.2.4. Si X es igual a R, el conjunto

S(R) = {∅, (a, b], (b, ∞) : −∞ ≤ a < b < ∞},

es una semi–álgebra. Observe que a cualquier subconjunto en S(R) le podemos medir una
longitud λ y además S no es un álgebra.
88 Capı́tulo 3. Probabilidad

Pk
Para A ∈ S(R), A = j=1 Aj , Ai ∩ Aj = ∅, la longitud de A se define como
k
X
λ(A) = λ(Aj ).
j=1

La cual está bien definida y para cualesquiera A, B ∈ A0 (S) ajenos

λ(A ∪ B) = λ(A) + λ(B).

16 T
En particular, la σ–álgebra generada por S(R) es igual a la σ–álgebra de Borel B(R)
Ejemplo 3.2.5. Sean (X1 , A1 ) y (X2 , A2 ) dos espacios medibles, el conjunto

20 A
S 2 = {A1 × A2 : A1 ∈ A1 , A2 ∈ A2 }
lio IM
es una semi–álgebra de X1 × X2 . Si X1 = X2 = R y A1 = A2 = B(R), se tiene que

σ(S 2 ) = B(R2 ).
Ju -C

Este ejemplo se puede generalizar para cualquier producto finito de espacios medibles.
Sean µ1 y µ2 dos medidas en (R, B(R)), para A = A1 × A2 con A1 , A2 en B(R), definimos
D

la medida producto
µ1 × µ2 (A) = µ1 (A1 )µ2 (A2 ).
AT

Tenemos el siguiente resultado importante el cual usaremos varias veces.


Teorema 3.2.6 (Teorema de Extensión). Sea µ una función σ–aditiva en un álgebra A0 ,
con µ(∅) = 0. Entonces, µ se extiende a una medida µ en σ(A0 ). Si además, µ es σ–finita
en A0 , la extensión es única.
En general, probar la σ–aditividad de µ en el álgebra A0 es el paso difı́cil y puede depender
de la topologı́a de X.
Definición 3.2.7. Una colección C de subconjuntos de X es un Π–sistema si ∅ ∈ C y dados
cualesquiera A, B ∈ C, A ∩ B ∈ C.
Para probar la igualdad de medidas basta verificar que son iguales en un Π–sistema.
Teorema 3.2.8 (Unicidad). Sean µ1 y µ2 dos medidas σ–finitas en (X, A) y C un Π–sistema
de X tal que σ(C) = A. Si para cada A ∈ C, µ1 (A) = µ2 (A); entonces µ1 ≡ µ2 .
Una aplicación del Teorema de Extensión es la construcción de medidas en (R, B(R)).
3.2. Construcción de medidas y variables aleatorias 89

Teorema 3.2.9 (Lebesgue–Stieltjes). Sea F : R −→ R no decreciente continua por la


derecha. Entonces, existe una única medida µF en (R, B(R)) tal que

µF ((a, b]) = F (b) − F (a).

Este teorema puede ser demostrado usando el siguiente resultado.


Lema 3.2.10. Si µ es aditiva en A0 , µ(∅) = 0, An ↓ A, µ(An ) < ∞ y

µ(A) = lı́m µ(An );


n→∞

16 T
entonces, µ es σ–aditiva.

20 A
Tenemos varios ejemplos de medidas que se construyen de esta forma:
lio IM
1. La medida de Lebesgue λ en R está asociada a F (x) = x. En este caso, para cualquier
intervalo I ⊂ R, λ(I) es igual a la longitud de dicho intervalo I. De hecho, basta
observar como se define esta medida en subconjuntos de la forma (a, b] con a < b ∈ R:
Ju -C

λ((a, b]) = b − a.

Observemos algunos casos básicos: Para cualquier a ∈ R y n ∈ N sea An = (a − n1 , a],


D

entonces λ(An ) = n1 y An ↓ {a}. Concluimos que


AT

1
λ(An ) −→ λ({a}) ⇒ −→ 0,
n
es decir, λ({a}) = 0. Más aún, por la σ–aditividad de la medida, si A ∈ B(R) es
numerable, λ(A) = 0. Además tenemos que

λ([a, b]) = λ({a} ∪ (a, b]) = λ({a}) + λ((a, b]) = b − a

y
λ((a, b]) = λ((a, b) ∪ {b}) = λ(a, b) + λ({b}) ⇒ λ((a, b)) = b − a.

2. Dada una función de distribución F , existe una única medida de probabilidad P en


(R, B(R)) tal que
P((a, b]) = F (b) − F (a).
Particularmente, existe una medida N en R tal que
Z b
1 2
N((a, b]) = e−x /2 dx.
2π a
90 Capı́tulo 3. Probabilidad

O bien, consideramos la función de distribución


Z x
1 2
F (x) = √ e−u /2 du, x ∈ R.
−∞ 2π
Esta medida se llama la medida de probabilidad
√ normal estándar en R como vimos
2
antes. Observemos que F 0 (x) = e−x /2 / 2π, ∀x ∈ R.

3. Dados −∞ < a < b < ∞ y σ([a, b]) = B(R) ∩ [a, b] se define la distribución uniforme
(continua) en [a, b] como la probabilidad

16 T
λ(A)

20 A
P(A) = , A ∈ σ([a, b]).
b−a
lio IM
En este caso Z x
F (x) = f (u)du, x∈R
−∞
Ju -C

con
1

b−a
, x ∈ (a, b);
f (x) =
0, x∈/ (a, b).
D
AT

3.2.2. Existencia de variables aleatorias independientes


Veamos como a partir del Teorema de Extensión podemos construir medidas en productos
cartesianos y probar la existencia de variables aleatorias independientes con distribuciones
dadas.

Teorema 3.2.11 (Kolmogorov). Dada una función de distribución F , existe un espacio de


probabilidad (Ω, A, P) y una variable aleatoria Y : Ω −→ R en (R, B(R)) tal que Y tiene
función de distribución F .

Demostración. Consideramos Ω = R, A = B(R) y P = µF , además la variable aleatoria


Y : Ω −→ R, definida como la identidad Y(w) = w. En este caso, µF ((−∞, x]) = F (x).

Otra aplicación del Teorema de Extensión es la siguiente.

Teorema 3.2.12 (Medida Producto). Sean (Xi , Ai , µi ), i = 1, ..., d espacios de medida σ-


finita.
3.2. Construcción de medidas y variables aleatorias 91

(a) La colección de conjuntos

S d = A1 × · · · × Ad = {A1 × A2 × · · · × Ad : Ai ∈ Ai , i = 1, ..., d}

es una semi–álgebra de X1 × · · · × Xd . σ(S d ) se conoce como la σ-álgebra producto y se


denota por A1 ⊗ · · · ⊗ Ad .

(b) Existe una única medida σ-finita µ1 × · · · × µd en A1 ⊗ · · · ⊗ Ad tal que

16 T
µ1 × · · · × µd (A1 × A2 × · · · × Ad ) = µ1 (A1 ) · · · µd (Ad ).

20 A
Con el teorema anterior se prueba la existencia de variables aleatorias independientes
lio IM
con distribuciones dadas. Recordamos que un espacio métrico se dice polaco si es un espa-
cio separable y completo; remitimos al lector al Apéndice B para mayor información sobre
medidas en espacios métricos polacos.
Ju -C

Teorema 3.2.13 (Existencia de variables aleatorias independientes). Sean µ1 , ..., µd medidas


de probabilidad en un espacio métrico polaco X con B(X) la σ–álgebra de Borel. Existen un
espacio de probabilidad (Ω, A,P) y variables aleatorias independientes X1 , ..., Xd con valores
D

en X tales que Xi tiene distribución µi.


AT

Demostración. Idea: Tomemos Ω = X × · · · × X, A = B(X) × · · · × B(X), P =µ1 × · · · × µd


y para w = (w1 , ..., wd ) ∈ Ω, Xi (w) = wi , i = 1, ..., d.

En particular obtenemos el siguiente resultado, el cual es un teorema de Kolmogorov


3.2.11 más general para la existencia de un elemento aleatorio con una distribución dada en
un espacio topológico.

Proposición 3.2.14. Dada una medida de probabilidad µ en un espacio métrico polaco X


con B(X) la σ–álgebra de Borel, existe un espacio de probabilidad (Ω, A,P) y una variable
aleatoria X con valores en X tal que X tiene distribución µ.

3.2.3. Distribución conjunta y condicional de variables aleatorias


En general, no necesariamente en el caso de independencia, hablamos de distribuciones
conjuntas en el siguiente sentido.
92 Capı́tulo 3. Probabilidad

Definición 3.2.15. Sean X1 , ..., Xd variables aleatorias en un espacio de probabilidad (Ω, A,P)
y con valores espacio métrico separable X y sea X = (X1 , ..., Xd ).
La distribución de X como elemento en Xd = X × · · · × X se llama la distribución
conjunta de las variables aleatorias X1 , ..., Xd y es la probabilidad en (Xd , B(Xd )) dada por
d
!
\  −1
PX (A1 × A2 × · · · × Ad ) = P Xi (Ai ) , Ai ∈ B(X), i = 1, ..., d.
i=1

Las distribuciones PXi de Xi se conocen como distribuciones marginales y se obtienen

16 T
de la siguiente manera

20 A
PXi (Ai ) = PX (X × · · · × X × Ai × X · · · ×X), Ai ∈ B(X).
lio IM
Una distribución conjunta no está definida por sus distribuciones marginales, a menos
que se tengan variables aleatorias independientes. Existen distribuciones conjuntas con las
mismas marginales.
Si X1 , ..., Xd son independientes
Ju -C

d
Y
P X−1

PX (A1 × A2 × · · · × Ad ) = i (Ai ) , Ai ∈ B(X), i = 1, ..., d.
D

i=1

Dadas dos variables aleatorias X e Y en X en con distribución conjunta PX,Y en (X2 , B(X2 ))
AT

parece intuitivo definir la distribución condicional PX|Y de X dado Y como la medida en


(X, B(X)) dada por

PX,Y ((A × X) ∩ (X × B)) P(A ∩ B)


PX|Y (A |B ) = =
PY (B) PY (B)

para A, B ∈ B(X), con PY (B) > 0.


Observación 3.2.16. (a) La definición precisa de probabilidad no es trivial y se estudia en
cursos de probabilidad avanzada, ver por ejemplo [6, Capı́tulo 12] o [125, Capı́tulo 9] .

(b) En particular, es posible dar un significado preciso a la expresión P(X ∈ A |Y = y ) a


pesar de que Y sea una variable aleatoria continua, es decir P(Y = y) = 0.
En el caso X = R se tiene que la distribución conjunta de X1 , ..., Xd es
d
!
\
PX ((−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xd ]) = P {Xi ≤ xi } , ∀xi ∈ R, i = 1, ..., d.
i=1
3.3. Probabilidad en variedades I: 93

y la función FX : Rd → [0, 1] definida por

FX (x1 , ..., xd ) = PX ((−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xd ]), ∀xi ∈ R, i = 1, ..., d.

se llama la función de distribución conjunta de X1 , ..., Xd .


Si X1 , ..., Xd son independientes

FX (x1 , ..., xd ) = FX1 (x1 ) · · · FXd (xd ), ∀xi ∈ R, i = 1, ..., d.

Veremos más adelante ejemplo de distribuciones conjuntas cuando las variables aleatorias

16 T
no son independientes.
Cuando X e Y son distribuciones discretas

20 A P(X = x |Y = y ) =
P(X = x, Y = y)
lio IM
P(Y = y)

si P(Y = y) > 0. El caso de distribuciones continuas se presenta más adelante.


Ju -C

3.3. Probabilidad en variedades I:


D

En este sección queremos comenzar a dar sentido a la siguiente expresión muy usada en
AT

la literatura actual de ATD: Consideremos una variable aleatoria del tipo

X = M + σZ,

donde M es una variable aleatoria con distribución uniforme en una variedad, Z es un vector
aleatorio con distribución normal multivariada N(0, Id ) y σ > 0 es una constante.

3.3.1. Sobre la distribución uniforme en probabilidad


En la literatura el uso de probabilidad uniforme se usa en varios sentidos. Nos hemos
encontrado ya con la distribución uniforme discreta en el Ejemplo 3.1.9 y la distribución
uniforme continua en un intervalo [a, b] en el último ejemplo de la Sección 3.2.1. Este último
ejemplo se puede generalizar a probabilidad uniforme en un conjunto compacto de Rd , en
donde conjuntos con la misma superficie, área o volumen y su generalización a dimensiones
mayores tienen la misma probabilidad, como veremos en la Sección 3.3.3.
En el caso de medidas en variedades, distribución uniforme se refiere a una medida
particular de la variedad, conocida como medida geométrica. Esta concepto es el análogo k
94 Capı́tulo 3. Probabilidad

dimensional de las medidas de longitud en una curva de R2 o R3 y al área de una superficie


de dimensión dos en R3 y se presenta en la Sección 3.6.2.
En la teorı́a de distribuciones de probabilidad para vectores aleatorios o más generalmente
matrices aleatorias, distribución uniforme se refiere a la probabilidad que es invariante bajo
transformaciones ortogonales (o unitarias) por la izquierda en la llamada variedad de Stiefel
Ldp : Sea Rd×p el espacio vectorial de las matrices d × p con entradas reales con norma dada
por
1
kSk2 := Tr(S > S), S ∈ Rd×p ,
d

16 T
entonces
Ldp = T ∈ Rd×p ; T > T = Id .


20 A
Observemos que Sd−1 = Ld1 .
Dada una medida µ en (Rq , B(Rq )), decimos que µ es invariante bajo transformaciones
lio IM
ortogonales por la izquierda si para todo A ∈ B(Rq ), se tiene que µ(OA) = µ(A) para
cualquier matriz ortogonal O(q), con OA = {Ox : x ∈ A}. Recomendamos el libro de Eaton
[45] para este tema.
Ju -C

En el estudio de grupos compactos, la distribución uniforme es la medida de Haar, la


cual es la única medida invariante bajo acciones del grupo por la derecha y por la izquierda.
Recomendamos la Tesis de Sandra Palau [106] para este tema la cual incluye numerosas
D

referencias clásicas.
Finalmente, el tema de la próxima sección y de la Sección 3.6.3 es la medida uniforme-
AT

mente distribuida en espacios métricos y algunos subconjuntos compactos, la cual se refiere


a una propiedad de invarianza de la medida en bolas del mismo radio. Es importante señalar
que este concepto está relacionado con una propiedad de la métrica del espacio ambiente y
no a la métrica de la superficie o variedad.
En el caso de variedades suaves, como la esfera Sd y el toro Td , las distribuciones uniformes
correspondientes coinciden, como se verá en la Sección 3.3.5. Esto permite elegir la construc-
ción conveniente según el enfoque de interés, lo cual es útil especialmente en el aspecto de
simulación de variables aleatorias con distribución uniforme, ası́ como con distribuciones
alternativas como se verá en el Capı́tulo 4.
Definición 3.3.1. Sea µ una medida en un espacio métrico (X, ρ). Sea K ∈ B(X) tal que
0 < µ(K) < ∞ y sea B(K) = B(X) ∩ K. Entonces la medida de probabilidad µ en B(K)
definida por
µ(A)
µ(A) = , A ∈ B(K),
µ(K)
es µ-uniforme, es decir µ(A) = µ(B) si y sólo si µ(A) = µ(B). Usualmente K se toma
compacto y µ una medida de Radon en el sentido del Apéndice B.
3.3. Probabilidad en variedades I: 95

3.3.2. Medida uniformemente distribuida


A lo largo de esta sección vamos a considerar medidas sobre un espacio métrico polaco
X con σ-álgebra de Borel B(X) y métrica

ρ : X × X −→ [0, ∞).

Se dice que una medida µ en (X, B(X)) es de Radon si cumple con las siguientes dos
propiedades:

16 T
1. µ es de Borel, para cada x ∈ X existe 0 < r < ∞ tal que µ(Br (x)) < ∞,

20 A
2. µ es regular interior: para cada A ∈ B(X)
lio IM
µ(A) = sup {µ(K) : K ⊂ A, K compacto} .

Para mayor información sobre medidas en espacios métricos polacos, remitimos al lector
al Apéndice B de estas notas.
Ju -C

Cualquier medida de probabilidad en (X, B(X)) es una medida de Radon. Las medidas
de Lebesgue-Stieltjes en (R, B(R)) son de Radon.
Dada una medida de Radon µ en (X, B(X)) se define el soporte de µ como
D

\
supp(µ) = C,
AT

µ(C c )=0

donde la intersección se toma sobre los conjuntos cerrados C. Observe que esto está bien
definido pues el conjunto X es cerrado y su complemento, el conjunto vacı́o, tiene medida
cero.

Definición 3.3.2. Decimos que una medida de Radon µ en (X, B(X)) es uniformemente
distribuida si

µ(Br (x)) = µ(Br (y)), ∀x, y ∈ supp(µ), 0 < r < ∞, (3.3.1)

donde
Br (x) = {y ∈ X : ρ(x, y) < r}.

Teorema 3.3.3 (Christensen). Si µ1 y µ2 son medidas de Radon uniformemente distribuidas


en (X, B(X)) con (X, ρ), entonces existe 0 < c < ∞ tal que

µ1 = cµ2 .
96 Capı́tulo 3. Probabilidad

Observación 3.3.4. (a) Una probabilidad uniformemente distribuida en un espacio métrico


es única.

(b) La existencia de un elemento aleatorio X con valores en X está garantizada por la Propo-
sición 3.2.14. Diremos que X tiene probabilidad uniformemente distribuida en el espacio
métrico X.

(c) La probabilidad uniformemente distribuida está ligada a la métrica ρ del espacio ambien-
te.

16 T
El siguiente resultado será usado frecuentemente.

20 A
Teorema 3.3.5. Sean X1 y X2 dos espacios métricos polacos con σ-álgebras de Borel B(X1 )
y B(X2 ). Sean µ1 y µ2 medidas de Radon en (X1 , B(X1 )) y (X2 , B(X2 )) respectivamente.
lio IM
Entonces, la medida producto µ1 ×µ2 es uniformemente distribuida en X1 ×X2 con la topologı́a
producto si y sólo si, las marginales µ1 y µ2 son medidas uniformemente distribuidas en X1
y X2 , respectivamente, en cuyo caso supp(µ1 × µ2 ) = supp(µ1 ) × supp(µ2 ).
Ju -C

Ejemplos de medidas uniformemente distribuidas son la medida de Lebesgue y la medida


de Hausdorff, las cuales estudiaremos más adelante. Otro ejemplo es la medida de conteo.
D

Ejemplo 3.3.6 (Medida de conteo). Sean X = R con la métrica usual y H un subconjunto


finito o numerable de X, usualmente H = N ∪ {0} o H = Z. Se define la medida de conteo c
AT

en B(R) como
c(A) = #(A ∩ H), A ∈ B(R).
Esta medida es finita solamente cuando H es finito, de otra forma es σ-finita. Se tiene que
c es medida uniformemente distribuida en R si supp(c) = Z pero no si supp(c) = N.
Observación 3.3.7. (i) En la Proposición 3.6.4 (c), se describen los posibles soportes de
medidas uniformemente distribuidas en R.

(ii) La medida de Lebesgue en R es uniformemente distribuida.


Ejemplo 3.3.8. Usando el Teorema 3.3.5 se tiene que la medida producto ck también esta
uniformemente distribuida en B(Rk ) con soporte Zk .
Observación 3.3.9. Si µ es una medida de Radon uniformemente distribuida, la distribu-
ción µ en la Definición 3.3.1 no es medida uniformemente distribuida cuando K es compacto.
Sólo las bolas de radio r que se encuentren en el interior de K tendrán la misma medida
µ, pero para algún 0 < r < ∞ habrá bolas con centro en el interior de K que no estén
totalmente contenidas en K y por lo tanto (3.3.1) no se cumple necesariamente.
3.3. Probabilidad en variedades I: 97

En la Sección 3.6.3 volvemos al tema de medidas uniformes en Rd .


En lo que sigue vamos a considerar medidas en subespacios (X, B(X)) de (Rd , B(Rd )) con
B(X) = σ(X ∩ B(Rd )) = X ∩ B(Rd ). En particular, explicitaremos los casos de la esfera,
el toro y productos cartesianos finitos de cı́rculos. Notar que por el Teorema 3.3.5, basta
construir medidas para el cı́rculo S1 para obtener medidas en el toro T2 = S1 × S1 cuando
se considera como elemento en R4 .
Ahora construiremos la medida uniformemente distribuida en varios espacios métricos
y en el caso de una probabilidad uniformemente distribuida veremos como se realiza la
correspondiente variable aleatoria. Esto último es importante cuando se desean hacer estudios

16 T
de simulación.

3.3.3.
20 A
Medida de Lebesgue en Rd y distribución uniforme en sub-
lio IM
conjuntos
Consideramos la medida de Lebesgue λd en (Rd , B(Rd )); esto es, λd es la medida producto
en (Rd , B(Rd )) que corresponde a F (x) = x (en el Teorema de construcción de medidas de
Ju -C

Lebesgue-Stieltjes 3.2.9) y es tal que

λd (A1 × · · · × Ad ) = λ(A1 ) × · · · × λ(Ad ),


D

para cada Aj ∈ B(R), donde λ es la medida de Lebesgue en (R, B(R)).


AT

Esta medida es de gran importancia, enunciaremos algunas de sus propiedades (ver por
ejemplo el libro de Jones [71]):

1. λd (A) > 0 si A es un conjunto abierto no vacı́o de Rd .


2. λd no es medida finita, pero es σ–finita. Además, si E ∈ B(Rd ) y 0 < λd (E) < ∞,
entonces
λd (A)
m(A) = d , A ∈ B(E) = E ∩ B(Rd )
λ (E)
es una medida de probabilidad en (E, B(E)), la cual es λd −uniforme en el sentido de
la Definición 3.3.1.
3. λd es la única medida, módulo multiplicación por una constante positiva, en (Rd , B(Rd ))
tal que es invariante bajo traslaciones, i.e.

λd (A + x) = λd (A), x ∈ Rd , A ∈ B(Rd ).

4. λd es una medida de Radon uniformemente distribuida.


98 Capı́tulo 3. Probabilidad

5. Sea T una matriz d × d con entradas reales y no singular. Entonces

λd (T A) = | det(T )|λd (A),

con T A = {T x : x ∈ A}.

De esta última propiedad se obtiene de manera inmediata que para cada r > 0,

λd (rA) = rd λd (A)

16 T
donde rA = {rx : x ∈ A}. Además para cualquier matriz ortogonal O ∈ O(d),

20 A
λd (OA) = λd (A);
lio IM
esto es, λd es invariante bajo transformaciones ortogonales por la izquierda.

Observación 3.3.10. De las propiedades anteriores de la medida de Lebesgue se tiene que


si consideramos el disco
Ju -C

( d
)
X
Dd = (x1 , . . . , xd ) ∈ Rd : x2j ≤ 1
D

j=1

entonces
AT

λd (A)
md (A) = , A ∈ B(Dd ) = Dd ∩ B(Rd ) (3.3.2)
λd (Dd )
define una probabilidad “uniforme de volumen” en el disco (Dd , B(Dd )), pero no en el
sentido de la Definición 3.3.2. De esta forma, la medida de un conjunto A ∈ B(Dd ) en este
disco es el “volumen” normalizado del conjunto.
Se cumple que
π d/2
λd (Dd ) = λd (B1 (x)) = .
Γ(d/2 + 1)
En general, para cualquier radio r > 0 se tiene que λd (Br (x)) = π d/2 rd /Γ(d/2 + 1). Esta
distribución es uniforme en el disco, en el sentido de que conjuntos del mismo volumen tienen
la misma probabilidad. Observemos la diferencia entre probabilidad uniformemente
distribuida y probabilidad uniforme de volumen.
El vector aleatorio Xd = (X1 , . . . , Xd ) con esta distribución es tal que las variables alea-
torias X1 , . . . , Xd no son independientes.
3.3. Probabilidad en variedades I: 99

3.3.4. Medida normal estándar en un espacio euclidiano


Sea F la función de distribución normal estándar y µF su medida en (R, B(R)). Entonces,
µdF es una probabilidad en (Rd , B(Rd )) dada por la medida producto
µdF = µF × · · · × µF .
| {z }
d

Un vector Xd = (X1 , . . . , Xd ) con distribución µdF se dice vector gaussiano con distribución
normal multivariada N(0, Id ). Se tiene que X1 , . . . , Xd son variables aleatorias independientes

16 T
cada una con distribución normal F . Tal vector aleatorio existe por el Teorema 3.2.13.
Veremos más propiedades de esta medida más adelante en la Sección 3.5.4, como el hecho

20 A
que N(0, Id ) también es invariante bajo transformaciones ortogonales por la izquierda.
lio IM
3.3.5. Probabilidad uniformemente distribuida en esferas
Construcción usando la medida de Lebesgue
Ju -C

Existen varias construcciones de medida de probabilidad uniforme en la esfera


( d
)
D

X
Sd−1 = (x1 , . . . , xd ) ∈ Rd : x2j = 1 .
j=1
AT

A continuación describiremos una construcción que es parte del folklore en la literatura,


a partir de la medida de Lebesgue en Rd . Observemos que λd (Sd−1 ) = 0 lo cual lo hace un
problema no trivial.
También veremos como se realiza un vector aleatorio R = (R1 , . . . , Rd ) en Sd−1 con esa
distribución. La existencia de este vector es dado por la Proposición 3.2.14, pero estamos
interesados en saber más acerca de este vector aleatorio, principalmente con fines de simu-
lación.
Para fines de motivación, en el caso de S0 = {−1, 1} podemos definir una medida de
probabilidad en {−1, 1} usando la medida de Lebesgue en R como sigue, sea
ω : B(S0 ) −→ [0, 1]
definida por
λ((0, 1]) 1 λ((−1, 0]) 1
ω({1}) = = , ω({−1}) = = .
λ[−1, 1] 2 λ[−1, 1] 2
Esta distribución se conoce como distribución Bernoulli simétrica en {−1, 1} , también lla-
mada de Rademacher.
100 Capı́tulo 3. Probabilidad

También observemos que si µ es la medida normal estándar en R, debido a la simetrı́a


de la densidad normal alrededor de cero se tiene
µ((0, 1]) 1 µ((−1, 0]) 1
ω({1}) = = , ω({−1}) = = .
µ((−1, 1]) 2 µ((−1, 1]) 2
En forma más general, si µ es una medida en (R, B(R)) , tal que µ((0, 1]) = µ((−1, 0]),
podemos definir la distribución Bernoulli simétrica como en la ultima expresión.
La forma de realizar la distribución Bernoulli, o sea una variable aleatoria R con distri-
bución ω es como sigue: Sea X una variable aleatoria con distribución normal estándar (la
cual toma el valor cero con probabilidad cero), entonces la variable R = X/ |X| tiene dis-

16 T
tribución ω. El mismo resultado se obtiene si se considera otra variable aleatoria que toma

20 A
el valor cero con probabilidad cero y tiene distribución simétrica, es decir X y −X tienen
la misma distribución. Sin embargo, debido a un Teorema de Poincaré que enunciaremos a
lio IM
continuación, es conveniente considerar el usar variables aleatorias normales como punto de
partida para realizar la probabilidad uniformemente distribuida en una esfera.
En general, dada Sd−1 y la σ–álgebra de Borel asociada B(Sd−1 ) = Sd−1 ∩ BRd ), para
A ∈ B(Sd−1 ) definimos
Ju -C

Ă = {tx : 0 < t ≤ 1, x ∈ A} ∈ B(Rd )


y
λd (Ă)
D

ωd (A) = .
λd (B1 (0))
AT

Entonces, ωd es una medida de probabilidad en (Sd−1 , B(Sd−1 )) que está uniformemente dis-
tribuida con soporte Sd−1 y para cualquier abierto no vacı́o A en Sd−1 , ωd (A) > 0. Además,
ωd es invariante bajo transformaciones ortogonales por la izquierda. Estas últimas propie-
dades se obtienen fácilmente de las correspondientes propiedades de la medida de Lebesgue
λd .
Esta probabilidad coincide con la medida de probabilidad de volumen de la esfera, la cual
se explica en la Sección 3.6. Esto se sigue del hecho de que la distancia euclidiana entre dos
elementos de Sd−1 es proporcional a la distancia geodésica entre esos puntos.
Observación 3.3.11. De las consideraciones anteriores tenemos que la distribución uni-
formemente distribuida en Sd−1 es la distribución uniforme de “volumen”, y uniforme en
el sentido de invariante bajo transformaciones ortogonales por la izquierda. La llamaremos
simplemente distribución uniforme en la esfera Sd−1 .

Vectores aleatorios con probabilidad uniformemente distribuida en la esfera


Teorema 3.3.12. Existe una variable aleatoria con valores en Sd−1 que tiene distribución
ωd .
3.3. Probabilidad en variedades I: 101

Demostración. Similar a la Proposición 3.2.14: Consideramos el espacio ambiente


Ω = Sd−1 , la σ–álgebra A = B(Sd−1 ), la medida de probabilidad P ≡ ωd y la variable aleatoria
X : Ω −→ Sd−1 , dada por X(x) = x.

Tenemos el siguiente resultado importante. La convergencia en distribución (3.3.3) se


refiere a convergencia de distribuciones en Rk , en el sentido de la Definición B.1.17 en el
Apéndice B.
Teorema 3.3.13 (Poincaré). Sean R = (R1 , . . . , Rd ) una variable aleatoria en Sd−1 con

16 T
probabilidad uniforme ωd y d1 , d2 con 1 ≤ d1 ≤ d2 fijos. Entonces
√ L

20 A
d(Rd1 , . . . , Rd2 ) −→ N(0, Id2 −d1 +1 ), (3.3.3)
cuando d → ∞. Es decir, Rd1 , . . . , Rd2 son asintóticamente independientes y con distribución
lio IM
normal estándar. En particular, para cada i = 1, 2, ..., fijo, cuando d → ∞ se tiene
√ L
dRi −→ N(0, 1). (3.3.4)
Ju -C

La historia de este resultado, su demostración, aplicaciones en distintos ámbitos y la


razón de no atribuirlo a Poincaré pueden consultarse en el artı́culo de Diaconis y Freedman
[42]. Ver también el libro clásico de Kac [74] y las aplicaciones a la fı́sica que presenta.
D

Como consecuencia importante, la probabilidad uniforme en Sd−1 puede ser realizada de


manera “canónica” como sigue, lo cual es un resultado útil para simular variables aleatorias
AT

con distribución uniforme en la esfera Sd−1 . Podemos pensar también a este resultado como
un ejemplo de construcción de distribuciones en variedades (en este caso Sd−1 ) a partir de la
distribución inducida por una variable aleatoria en el espacio ambiente Rd .
Proposición 3.3.14. Si X1 , . . . , Xd son variables aleatorias independientes con distribución
normal estándar N(0, 1) y Xd = (X1 , . . . , Xd ), entonces la variable aleatoria
 
X1 Xd
R= ,..., (3.3.5)
||Xd || ||Xd ||
tiene distribución uniforme en Sd−1 . Además, la variable aleatoria ||Xd || y el vector aleatorio
R son independientes.
El resultado anterior es un caso particular de un resultado más general en Eaton [45]
página 237, el cual a su vez es un caso particular de un resultado para matrices aleatorias,
también en [45], Proposición 7.3. Se dice que la distribución de un vector aleatorio Xd es
invariante bajo transformaciones ortogonales por la izquierda si OXd y Xd tienen la misma
distribución para cualquier matriz ortogonal O ∈ O(d). (Abusando de notación, cuando
hagamos esta multiplicación pensamos a los vectores, como vectores columna).
102 Capı́tulo 3. Probabilidad

Proposición 3.3.15. Si Xd = (X1 , . . . , Xd ) es un vector con distribución invariante bajo


transformaciones ortogonales por la izquierda. Entonces

(i) El vector aleatorio R dado por (3.3.5) tiene distribución uniforme en Sd−1 ,

(ii) La variable aleatoria ||Xd || y el vector aleatorio R son independientes.

(iii) E(R) = 0 y E(R> R) = d1 Id , pero las variables aleatorias (R1 , . . . , Rd ) no son indepen-
dientes.

16 T
Más aún, cuando las variables aleatorias X1 , . . . , Xd son independientes, estas deben tener

20 A
necesariamente una distribución normal estándar para que R tenga probabilidad uniforme-
mente distribuida. Esto lo probaremos de la siguiente manera usando el Teorema de Poincaré,
lio IM
el Teorema de Slutsky y la Ley de Grandes Números (3.1.1).

Proposición 3.3.16. Si existen variables aleatorias independientes X1 , . . . , Xd de tal for-


Ju -C

ma que la variable aleatoria R = (R1 , . . . , Rd ) definida como en (3.3.5) tiene distribución


uniforme en Sd−1 , entonces necesariamente las variables Xi deben tener distribución normal
estándar.
D

Demostración. Por la LGN (3.1.1) con p = 2 tenemos


AT

d
1 1X Pr
||Xd ||2 = |Xj |2 −→ E|X1 |2 = 1
d d j=1

√ Pr
y por lo tanto, usando la Proposición 3.1.12(c), d/||Xd || −→ 1. Finalmente, por el Teorema
de Slutsky, para i = 1, 2, ..., fijo

√ d L
dRi = Xi −→ Xi cuando d → ∞.
||Xd ||

Usando 3.3.4 en el Teorema de Poincaré y la unicidad del lı́mite se concluye que Xi tiene
distribución normal N(0, 1).

Más adelante en la Sección 4 retomaremos la idea de construir variables aleatorias en la


esfera Sd−1 usando (3.3.5) a partir de un vector aleatorio arbitrario Xd = (X1 , . . . , Xd ) en
Rd .
3.3. Probabilidad en variedades I: 103

Las distribuciones marginales


Si R = (R1 , . . . , Rd ) es una vector aleatorio con distribución uniforme en Sd−1 , las dis-
tribuciones marginales de R (las distribuciones de Ri ) se conocen como distribuciones
ultraesféricas. Estas dependen de la dimensión d como sigue:

1. Para d = 1, R1 se distribuye como una Bernoulli en {−1, 1}.

2. Para d = 2, Ri se distribuyen como una distribución arcoseno en (−1, 1).

16 T
3. Para d = 3, Ri se distribuyen de manera uniforme en (−1, 1).

20 A
4. Para d = 4, Ri se distribuyen como una distribución semicı́rculo en (−1, 1).
En general, para d ≥ 2, la distribución de Ri está dada por la densidad
lio IM
fd (x) = cd (1 − x2 )(d−3)/2 1(−1,1) (x).
Ju -C

donde cd es una constante normalizadora de tal forma que fd integra uno en (−1, 1).

El material de esta sección se puede ver, por ejemplo, en el libro de Kac [74] y el artı́culo
D

de Kingman [82], los cuales no ofrecen mayores detalles. El cálculo de esas distribuciones
marginales utiliza encontrar densidades de transformaciones multivariadas, los cuales son
cálculos directos que requieren trabajo.
AT

3.3.6. Otras medidas en la esfera y el toro


La idea de la construcción de la distribución uniforme en Sd−1 puede generalizarse a
la construcción de otras medidas en Sd−1 a partir de una medida de probabilidad µ en
(Rd , B(Rd )) diferente a la medida de Lebesgue; es decir, si µ(B1 (0)) > 0

µ(Ă)
ν µ : B(Sd−1 ) −→ [0, 1], A 7−→
µ(B1 (0))

es una medida de probabilidad en (Sd−1 , B(Sd−1 ))


Igualmente, como veremos en el Capı́tulo 4, dado cualquier vector aleatorio Xd = (X1 , . . . , Xd )
con distribución µ en (Rd , B(Rd )) tal que µ(||Xd ||| = 0) = 0, es decir µ(X1 = 0, . . . , Xd | =
0) = 0, entonces  
X1 Xd
R= ,...,
||Xd || ||Xd ||
104 Capı́tulo 3. Probabilidad

es una variable aleatoria en (Sd−1 , B(Sd−1 )) cuya distribución es la medida inducida

µR (A) = µ(R−1 (A)), A ∈ B(Sd−1 ).

Del Teorema 3.3.15 se tiene que si µ en (Rd , B(Rd )) es invariante bajo transformaciones
ortogonales por la izquierda, µR =ν µ es la probabilidad uniforme en (Sd−1 , B(Sd−1 )). En
general este no es el caso.
Retomaremos este tema en el Capı́tulo 4 que incluye simulación de variables aleatorias
en la esfera Sd−1 .

16 T
Probabilidades en el toro

20 A
A partir de la probabilidad uniformemente distribuida ωd en (Sd−1 , B(Sd−1 )) y como
lio IM
consecuencia del Teorema 3.3.5, podemos construir medidas de probabilidad uniformemente
distribuidas en los productos cartesianos

T2 = S1 × S1 , Tp = S1
· · × S}1 ,
| × ·{z
d1
· · × Sdn},
|S × ·{z
Ju -C

p n

con di números positivos arbitrarios, con sus correspondientes σ—álgebra producto


D

B(T2 ) = B(S1 ) ⊗ B(S1 ), B(Tp ) = B(S1 ) ⊗ · · · ⊗ B(S1 ), B(Sd1 ) ⊗ · · · ⊗ B(Sdn )) .


AT

| {z } | {z }
p n

Igualmente, podemos realizar elementos aleatorios independientes en estos espacios pro-


ducto, cuyas marginales tienen probabilidad uniformemente distribuida en los respectivos
espacios factores.
Dada cualesquiera medida de probabilidad µi en Sd−1 podemos inducir en B(Tp ) la pro-
babilidad µ1 × · · · × µd y las correspondientes variables aleatorias están en Tp . Retomaremos
este tema en el Capı́tulo 4 de Simulación de variables aleatorias en variedades.

3.4. Integral de Lebesgue


3.4.1. Funciones medibles
Recordemos que (X, A) es un espacio medible si X es un conjunto no-vacı́o y A es una
σ-álgebra y que (X, A, µ) es un espacio de medida si (X, A) es un espacio medible y µ es una
medida en A.
3.4. Integral de Lebesgue 105


Denotemos por B R la σ-álgebra de los reales extendidos, que contiene a B (R) , {−∞}
y {+∞} . Es fácil probar que
  
B R = B, B ∪ {+∞} , B ∪ {−∞} , B ∪ {+∞} ∪ {−∞} : B ∈ B R .
Definición 3.4.1. Sean (X, A) y (Y, T ) espacios medibles y T : X −→ Y. Se dice que T
es A|T -medible si T −1 T ⊂ A, es decir, T −1 G ∈ A, para todo G ∈ T , es decir “la imagen
inversa de un medible es medible”. En particular si Y = R y f : X −→ R decimos que f es
medible si f es A|B R -medible.

16 T
El siguiente resultado permite probar medibilidad de funciones en clases generadoras.

20 A
Proposición 3.4.2. (a) Sean (X, A) , (Y, T ) espacios medibles y T una transformación de
X en Y. Sea G una clase de subconjuntos de Y tal que σ (G) = T . Entonces T es
A|T -medible si, y sólo si, T −1 G ∈ A, para todo G ∈ G.
lio IM
(b) Sea (X, A) un espacio medible y f : X −→ R. Entonces f es una función medible si, y
sólo si,
Ju -C

f −1 ({−∞}) ∈ A, f −1 ({∞}) ∈ A
y
D

{x ∈ X : −∞ < f (x) ≤ a} = f −1 ((−∞, a]) ∈ A,


AT

para todo a real.

Ejemplos de funciones medibles


(X, A) espacio medible.
1. f (x) = k, para todo x ∈ X es medible: Si a ≥ k, f −1 (a, ∞) = ∅ ∈ A, si a < k,
f −1 (a, ∞) = X ∈ A.
2. La función indicadora o caracterı́stica de un conjunto E ⊂ X.

1, x ∈ E,
χE (x) = 1E (x) =
0, x ∈
/ E.

 ∅, a > 1,
1−1
E (a, ∞) = E, 0 < a < 1,
X, a ≤ 0.

1E es medible si, y sólo si, E ∈ A. Esto nos permite construir una función no medible,
tomando 1E : R −→ R, donde E ⊂ R es no-medible.
106 Capı́tulo 3. Probabilidad

3. Si f : X −→ R es continua, entonces f es medible: f −1 (a, ∞) es un abierto ya que


(a, ∞) es abierto y f es continua.

4. En general f −1 (OX ) ⊂ OY si f es continua, f : X −→ Y.

5. Si X = R, A = B (R) , entonces cualquier función monótona es medible.

Las siguientes propiedades de funciones medibles son fáciles de probar.

Proposición 3.4.3. (a) Sea (X, A) un espacio medible y f, g : X −→ R funciones A|B (R)-

16 T
medibles. Entonces las siguientes funciones son medibles:

20 A
(i) cf, para todo c ∈ R, (ii) f 2 , (iii) f + g,
lio IM
(iv) f g, f n para todo n ≥ 1, (v) |f | .
Ju -C

(b) Sean f : X −→ R,
f + (x) = máx {f (x) , 0} ≥ 0
y
D

f − (x) = máx {−f (x) , 0} ≥ 0.


AT

Entonces las siguientes funciones son medibles:

i)f = f + − f − , ii) |f | = f + + f − ,

1 1
iii)f + = (|f | + f ) y iv)f − = (|f | − f ) .
2 2
(c) f + y f − son medibles si, y sólo si, f es medible.

Proposición 3.4.4. Sea fn : X −→ R una sucesión de funciones medibles y

f (x) = ı́nf fn (x) , F (x) = sup fn (x) ,


n n

f ∗ (x) = lı́mfn (x) , F ∗ (x) = lı́mfn (x) .


n n

(a) Entonces f, F, f ∗ , F ∗ : X −→ R son medibles.


3.4. Integral de Lebesgue 107

(b) Sea fn : X −→ R una sucesión de funciones medibles tal que1 fn −→ f. Entonces f es


medible.

Más general que el concepto de convergencia con probabilidad uno en un espacio de


probabilidad tenemos la convergencia casi donde quiera.
Definición 3.4.5. Sea (X, A, µ) es un espacio de medida. Sean f, f1 , f2 , ..., funciones me-
dibles. Decimos que la sucesión (fn )n converge casi en todas partes (casi donde quiera) µ, y
c.t.p µ
escribimos fn −→ f si existe un conjunto N ∈ A, con µ(N ) = 0 y tal que

16 T
lı́m fn (x) = f (x), ∀x ∈ X\N.
n→∞

3.4.2.
20 A
Construcción de la integral de Lebesgue y propiedades ini-
lio IM
ciales
Consideremos (X, A, µ) un espacio de medida. La integral de Lebesgue de funciones me-
Ju -C

dibles f definidas en X y con valores reales se define por pasos.


Paso 1. Funciones simples no–negativas.
Sea φ : X −→ [0, ∞) una función medible simple no–negativa, es decir φ−1 ((−∞, x]) ∈ A
para cada x ∈ R y
D

X k
φ(x) = aj 1Aj (x);
AT

j=1

donde aj ≥ 0, los Aj ∈ A son ajenos por pares , i = 1, ..., k, para algún k ≥ 1, y 1A es la


función indicadora o caracterı́stica de A

1, x ∈ A;
1A =
0, x ∈ X \ A.

Se define la integral de Lebesgue de φ con respecto a µ como


Z k
X
φdµ = aj µ(Aj ).
j=1

Notar que estamos usando implı́citamente que


Z
µ(A) = 1A dµ.

1
lı́m fn (x) = f (x) , x ∈ R.
n→∞
108 Capı́tulo 3. Probabilidad

En particular,
Z Z
m : A −→ [0, ∞), A 7−→ m(A) = φ1A dµ := φdµ,
A

con φ función medible simple no–negativa, es una medida en (X, A).


Se pueden probar las siguientes propiedades para la integral con respecto de µ:

1. Si φ, ϕ son funciones medibles simples no–negativas, entonces

16 T
Z Z Z
(φ + ϕ)dµ = φdµ + ϕdµ.

2. Si c > 0, entonces
20 A
lio IM
Z Z
cφdµ = c φdµ.
Ju -C

3. Si además cada x ∈ X, φ(x) ≤ ϕ(x), entonces


Z Z
φdµ ≤ ϕdµ.
D

Observación 3.4.6. La integral de Lebesgue es un concepto distinto a la integral de Rie-


AT

mann. El ejemplo básico de esto es considerar X = [0, 1], A = B([0, 1]), µ = λ y A = Q∩[0, 1].
En tal caso la integral de Lebesgue de f ≡ 1A se anula pero la integral de Riemann de f no
existe.

Paso 2. Funciones no–negativas.


Para poder definir la integral con respecto a una medida para cualquier función medible
no–negativa f : X −→ [0, ∞), aproximamos la integral de f mediante una sucesión de
funciones simples que convergen a f . En general
Z Z 
f dµ := sup φdµ, : 0 ≤ φ ≤ f, φ simple .

Proposición 3.4.7. Si f : X −→ [0, ∞) es medible no–negativa, entonces existe una sucesión


φn de funciones simples no–negativas tal que

1. φn ↑ φ, es decir
φn (x) ≤ φn+1 (x), x ∈ X,
3.4. Integral de Lebesgue 109

2.
lı́m φn (x) = f (x),
n→∞

3. Z Z
φn dµ −→ f dµ.

Además se presentan las mismas propiedades (1)-(3) arriba, es decir, la integral de fun-
ciones medibles no–negativas es lineal y preserva la monotonı́a de funciones.

16 T
Paso 3. Funciones real valuadas.
Para cualquier función medible f : X −→ R tenemos las funciones medibles no–negativas

20 A
f + (x) = máx(0, f (x)), f − (x) = máx(−f (x), 0),
lio IM
tales que
f = f + − f −, |f | = f + + f − .
Decimos que f es integrable con respecto de µ en el sentido de Lebesgue si ambas
Ju -C

Z Z
+
f dµ < ∞, f − dµ < ∞;
D

o bien, f ∈ L1 (µ). En tal caso escribimos


Z Z Z
AT

I(f ) = f dµ = f dµ − f − dµ.
+

Las propiedades (1)-(3) como antes se satisfacen siempre que consideremos las funciones a
integrar en L1 (µ); esto es, para f, g ∈ L1 (µ) y a ∈ R,

I(af + g) = aI(f ) + I(g),

además, si f (x) ≤ g(x) para cada x ∈ X,

I(f ) ≤ I(g).

Más aún, dado A ∈ A, consideramos


Z Z
IA (f ) = f dµ = f 1A dµ.
A

Luego, para cada A ⊂ B ∈ A se satisface que

IA (f ) ≤ IB (f ).
110 Capı́tulo 3. Probabilidad

Observación 3.4.8. (i) Hay una función cuya integral impropia de Riemann existe, pero
no es integrable con respecto a la medida de Lebesgue λ en R:

sin(x)
f (x) = .
x

(ii) En general, si las integrales de Riemann y de Lebesgue con respecto a λ existen, estas
son iguales.

16 T
(iii) Si f es una función integrable en el sentido de Riemann en un intervalo (a, b) entonces
la integral de f 1(a,b) con respecto a la medida de Lebesgue λ en R existe.

20 A
Enunciamos a continuación tres teoremas fundamentales de la integral de Lebesgue los
lio IM
cuales permiten intercambiar la integral de lı́mites de funciones con el lı́mite de las integrales,
para funciones en X con valores en R o posiblemente R.

Teorema 3.4.9 (Lema de Fatou). Si {fn } es una sucesión de funciones medibles no-
Ju -C

negativas, entonces Z Z
lı́m inf fn dµ ≤ lı́m inf fn dµ.
D

Teorema 3.4.10 (Convergencia monótona). Si {fn } es una sucesión de funciones no-


negativas tales que fn ↑ f , entonces
AT

Z Z
lı́m fn dµ = lı́m fn dµ.
n→∞ n→∞

Teorema 3.4.11 (Convergencia dominada). Sean {fn } una sucesión de funciones medibles
y f : X −→ R una función medible tal que para cada x ∈ X, fn (x) −→ f (x) cuando n → ∞.
Si existe una función medible g : X −→ R tal que |fn | ≤ g y g ∈ L1 (µ); entonces, para cada
n ≥ 1, fn ∈ L1 (µ), f ∈ L1 (µ) y
Z Z
f dµ = lı́m fn dµ.
n→∞

Para el caso del producto de medidas tenemos el siguiente resultado que muestra como
se efectúa el intercambio de integrales.

Teorema 3.4.12 (Fubini). Sean (X1 , A1 , µ1 ) y (X2 , A2 , µ2 ) dos espacios de medida σ-finitas
y sea µ1 × µ2 la medida producto en (X1 × X2 , A1 × A2 ).
3.4. Integral de Lebesgue 111

Si la función f : X1 × X2 → R es integrable con respecto a µ1 × µ2 , entonces


Z Z Z 
f d(µ1 × µ2 ) = f (x1 , x2 )µ2 (dx2 ) µ1 (dx1 )
X1 ×X2 X1 X2
Z Z 
= f (x1 , x2 )µ1 (dx1 ) µ2 (dx2 ).
X2 X1

En particular, Tonelli demuestra que estas identidades son válidas en el caso de que f
sea una función medible no negativa.
También en el caso de una serie de funciones medibles no negativas tenemos el intercambio

16 T
entre la integral y la suma.

20 A
Teorema 3.4.13 (Beppo–Lévi). Si (fn )n≥1 son funciones medibles no negativas en un es-
pacio de medida (X, A, µ) entonces
lio IM
Z X∞ ∞ Z
X
fn dµ = fn dµ.
n=1 n=1
Ju -C

3.4.3. Espacios Lp
Brevemente presentamos las funciones cuya potencia p es integrable y las desigualdades
D

más importantes. Estos espacios son útiles para estudiar aproximación de funciones, como
se ilustra en el capı́tulo de estadı́stica.
AT

Sea (Ω, A, µ) un espacio de medida. Decimos que dos funciones f y g son µ-equivalentes
(o son iguales µ-c.t.p.) si
µ ({x : f (x) 6= g (x)}) = 0.
Vamos a considerar clases de µ-equivalencia de funciones:
[f ] = {f : f es µ-equivalente} .
A partir de ahora identificaremos [f ] con f.
Definición 3.4.14. Para 0 ≤ p ≤ ∞ se definen los espacios Lp = Lp (Ω, A, µ) como
 Z 
p p
L = f : |f | dµ < ∞ , 0 ≤ p < ∞;

esto es, Lp (Ω, A, µ) es el espacio que consiste de todas las clases de equivalencia de funciones
f : X −→ R con respecto a µ, tales que |f |p es integrable con respecto de µ. También es
común Lp (µ) = Lp (Ω, A, µ).
Además tenemos
L∞ = L∞ (Ω, A, µ) = {f : µ({|f | > K}) = 0, para algún K > 0}.
112 Capı́tulo 3. Probabilidad

En particular, L1 (Ω, A, µ) es el espacio de las funciones integrables con respecto de µ.


Análogos resultados se obtienen para las funciones Lp ; esto es, Lp es un espacio vectorial
sobre R y si definimos la norma
Z 1/p
p
||f ||p ≡ |f | dµ ,

entonces Lp es un espacio lineal normado para 1 ≤ p ≤ ∞. Si µ es la medida de conteo en


R
Lp = `p .

16 T
Resumimos las propiedades más importantes de la norma ||f ||p en el siguiente resultado.

20 A
Proposición 3.4.15. (a) (Desigualdad de Hölder). Sea f ∈ Lp y g ∈ Lq , p > 1, p1 + 1
q
=1
lio IM
(o bien, p y q son ı́ndices conjugados). Entonces f g ∈ L1 y kf gk1 ≤ kf kp kgkq .

(b) (Desigualdad de Minkowski). Si f, h ∈ Lp , p ≥ 1, entonces f + h ∈ Lp y


Ju -C

kf + gkp ≤ kf kp + khkp .

Decimos que una función h es una función escalonada si es de la forma


D

n
X
h= ci 1 A i ,
AT

i=1

con n < ∞, ci ∈ R y los Ai son intervalos acotados disjuntos. El siguiente es un teorema de


aproximación importante en espacios Lp .
Teorema 3.4.16. Sea f ∈ Lp (R, B(R), λ), y 0 < p < ∞. Entonces para cada δ > 0, existen
una función escalonada h y una función continua g con soporte compacto (que se anula fuera
de un conjunto acotado) tales que
Z
|f − h|p dλ < δ,
Z
|f − g|p dλ < δ.

Observación 3.4.17. (a) (Fischer-Riesz) Lp (Ω, A, µ), 1 ≤ p < ∞, es un espacio de Ba-


nach, es decir, es completo con respecto a k·kp ; o bien, toda sucesión de Cauchy es
convergente.
3.4. Integral de Lebesgue 113

(b) Si p = 2, L2 (Ω, A, µ) es espacio de Hilbert, con producto interno


Z
hf, gi = f gdµ, f, g ∈ L2 ,

donde h·, ·i cumple:


i) hf1 + f2 , gi = hf1 , gi + hf2 , gi , f1 , f2 ∈ L2 .
ii) hαf, gi = α hf, gi , ∀α ∈ R.
iii) hf, gi = hg, f i .

16 T
iv) hf, f i ≥ 0 y hf, f i = 0 ⇐⇒ f = 0.
v) kf k22 = hf, f i .

20 A
Decimos que f, g son ortogonales si:
lio IM
Z
f gdµ = 0.

El producto interno h·, ·i cumple la ley del paralelogramo:


Ju -C

kf + gk22 + kf − gk22 = 2 kf k22 + 2 kgk22 .

(c) El espacio L∞ = L∞ (Ω, A, µ) consiste en todas las clases de equivalencia de funciones


D

reales que son acotadas µ-c.t.p.


Si N ∈ Ω, µ (N ) = 0 definimos S (N ) = sup {|f (x)| : x ∈
/ N} , y
AT

kf k∞ = ı́nf {S (N ) : µ (N ) = 0} .
Decimos que f es esencialmente acotada si además cumple lo siguiente:
i) kf k∞ es norma.
ii) L∞ es espacio de Banach (Dual de L1 ).
iii) Si A < kf k∞ , A > 0, entonces existe E ∈ Ω con µ (E) = 0 tal que |f (x) > a| , para
cada x ∈ E.
Definición 3.4.18 (Convergencia en Lp ). Sean 1 ≤ p < ∞ y f, f1 , f2 , . . . funciones en
Lp
Lp (µ). Decimos que la sucesión (fn )n≥1 converge en Lp (µ) a f , y escribimos fn −→ f si
kfn − f kp −→ 0 cuando n −→ ∞.
Lp Lp
Observamos que si fn −→ f y fn −→ g entonces f = g µ-c.t-p..
Hablaremos de convergencia en Lp de variables aleatorias en la Sección 3.5.1.
En el Apéndice C, sobre variables aleatorias en espacios de Banach, se presentan condi-
ciones para la separabilidad de los espacios Lp .
114 Capı́tulo 3. Probabilidad

3.4.4. Construcción de medidas a partir de la integral: la densidad


El siguiente resultado nos permite construir medidas en (X, A) a partir de funciones
integrables con respecto a una medida µ en (X, A).
Teorema 3.4.19. Sea (X, A,µ) un espacio de medida y f : X → [0, ∞) una función medible.
Para cada A ∈ A definimos Z
m(A) = f dµ.
A
Entonces:

16 T
R
1. m es una medida en (X, A). En particular, si f dµ = 1, decimos que f es densidad

20 A
de m con respecto a µ en cuyo caso m es una medida de probabilidad.
2. Si µ(A) = 0 para A ∈ A, entonces m(A) = 0.
lio IM
Una densidad es única µ casi seguramente y en general supp(m) ⊂ supp(µ).
Definición 3.4.20. Sean µ y ν dos medidas.
Ju -C

1. Decimos que ν es absolutamente continua con respecto a µ si µ (A) = 0 ⇒ ν (A) = 0,


y escribimos que ν  µ.
D

2. Si ν  µ y µ  ν, entonces decimos que ν y µ son equivalentes y escribimos µ ∼ ν.


En este caso supp(ν) = supp(µ).
AT

Cuando dos medidas no son equivalentes, es posible que sean singulares en el siguiente
sentido.
Definición 3.4.21. Decimos que una medida µ está concentrada en un conjunto A-
medible E si µ(E c ) = 0.
Dos medidas µ y ν son mutuamente singulares (o simplemente singulares) u ortogo-
nales si existe un conjunto A-medible E tal que µ está concentrado en E y ν está concentrada
en E c .
Uno de los teoremas más relevantes sobre generación de medidas a partir de medidas
σ–finitas es el siguiente.
Teorema 3.4.22 (Radon-Nikodym). Sean ν, µ dos medidas σ-finitas en (X, A) tales que
ν  µ. Entonces, existe una función medible f ≥ 0 (es única µ−c.s.) tal que
Z
ν(A) = f dµ
A

se cumple.
3.5. Especificación de modelos de probabilidad usando densidades 115

La función f se conoce como la derivada de Radon-Nikodym de ν con respecto a µ y se


escribe

f= .

Si se cumple que ν  τ y τ  µ, entonces ν  µ y
dν dν dτ
= ,
dµ dτ dµ
Si µ ∼ ν

16 T
dµ dν
= ( )−1 .
dν dµ

20 A
lio IM
3.5. Especificación de modelos de probabilidad usando
densidades
Ju -C

De ahora en adelante consideraremos (Ω, A, P) un espacio de probabilidad, (X,ρ) un


espacio métrico con σ-álgebra de Borel B(X) y M subconjunto de X con σ-álgebra de Borel
B(M ).
D

3.5.1. Transformación de variables aleatorias, momentos y conver-


AT

gencia
Recordemos varios conceptos y resultados sobre variables aleatorias, algunos de los cuales
se mencionaron anteriormente.
Definición 3.5.1. X : Ω → M es variable aleatoria (v.a.) si
X−1 (B(M )) ⊂ A.
La distribución de X es la probabilidad PX en (M ,B(M )):
PX (A) = P(X−1 (A)), A ∈ B(M ).
Luego, (M ,B(M ), PX ) es otro espacio de probabilidad.
Además podemos definir los momentos de una variable aleatoria como hemos mencionado
antes. Sea X v.a. en (Ω, A, P) con distribución PX en (M ,B(M )) y h : M →R función medible
con Z
|h(x)| PX (dx) < ∞.
M
116 Capı́tulo 3. Probabilidad

Se denota la Esperanza o media de h(X), cuando existe como:


Z
E [h(X)] = h(x)PX (dx).
M

Tres de las desigualdades en probabilidad más usadas en donde aparece la esperanza son
las siguientes. Las primeras dos son ejemplos de las llamadas desigualdades de concentración

Lema 3.5.2 (Desigualdad de Markov). Sea h : M → [0, ∞) función medible.

16 T
(a) (Cálculo de esperanza de variables nonegativas) Se cumple que

20 A
Z ∞
P (h(X) > x) dx = E [h(X)] . (3.5.1)
lio IM
0

(b) ∀  > 0
1
P (h(X) > ) ≤ E [h(X)] . (3.5.2)
Ju -C

Será común tener θ ∈ Θ, con (Θ, dΘ ) espacio métrico, g : M n → Θ, p conveniente y


D

entonces
1
P (dΘ (g(X1 , ..., Xn ), θ) > ) ≤ E [(dΘ (g(X1 , ..., Xn ), θ))p ] ,
AT


y es usual tratar de probar que el lado derecho tiende a cero si n → ∞ por lo que la
probabilidad también tenderı́a a cero.

Lema 3.5.3 (Desigualdad de Chebyshev). Sea X una variable aleatoria con media E(X) y
varianza Var(X) finitas. Entonces para todo  > 0

1
P (|X−E(X)| > ) ≤ Var(X).
2
Lema 3.5.4 (Desigualdad de Jensen). Sea X una variable aleatoria con E |X| < ∞. Si
ϕ : R → R es una función convexa entonces

E [ϕ(X)] ≥ ϕ(EX).

De la teorı́a de espacios Lp de la Sección 3.4.3, tenemos como caso especial cuando el


espacio de medida es un espacio de probabilidad.
3.5. Especificación de modelos de probabilidad usando densidades 117

Definición 3.5.5 (Convergencia Lp de variables aleatorias). Cuando (Ω, A, µ = P) el corres-


pondiente espacio Lp (Ω, A, µ), 1≤ p < ∞ consiste de las variables aleatorias X con norma
1/p
||X||p ≡ (E |X|p ) < ∞.

Esto nos permite definir convergencia de variables aleatorias en Lp (Ω, A, µ), como la con-
vergencia con respecto a esta norma, e identificando variables aleatorias que difieren en un
conjunto de probabilidad cero. Ası́, decimos que la sucesión de variables aleatorias (Xn )n≥1
Lp
converge a la variable aleatoria X en p-media, y escribimos Xn −→ X, si kXn − Xkp −→ 0

16 T
cuando n −→ 0.

20 A
Las principales relaciones con otros tipos de convergencia vistos anteriormente se resumen
de la siguiente manera.
lio IM
Lp Lq
Propiedades 3.5.6. 1. Si 1 ≤ q < p < ∞ y Xn −→ X, entonces Xn −→ X.
Lp Pr
2. Si Xn −→ X, entonces Xn −→ X, para 1 ≤ p < ∞.
Ju -C

Pr
3. Sea 1 ≤ p < ∞ y Xn ∈ Lp , n ≥ 1. Si Xn −→ X y existe Y ∈ Lp tal que
D

|Xn | ≤ Y µ − c.s.
Lp
AT

Entonces X ∈ Lp y Xn −→ X.

Sean (X, A, µ) un espacio de medida, (Y, C) otro espacio medible y g : X → Y una función
A/C− medible. La medida en (Y, C) inducida por g, denotada por µg −1 , se define como

µg −1 (A) = µ(g −1 (A)), A ∈ C.

Teorema 3.5.7 (De la Transformación). Sea h : Y → [0, ∞] una función Borel medible.
Entonces h es µg −1 –integrable, si y sólo si h ◦ g es µ-integrable, en cuyo caso
Z Z
−1
hd(µg ) = h ◦ gdµ.
Y X

Este teorema, junto con la medida de Lebesgue o la de conteo permiten calcular espe-
ranzas de funciones para distribuciones que son absolutamente continuas con respecto a la
medida de Lebesgue o de conteo.
Nos remitimos a la Definición 3.1.8 para los conceptos de distribuciones absolutamente
continuas y discretas.
118 Capı́tulo 3. Probabilidad

Proposición 3.5.8 (Fórmulas de cálculo para esperanzas). Sea X una variable aleatoria
con función de distribución F y sea h : R → [0, ∞] una función Borel medible.

1. Si F es absolutamente continua con densidad f , µF es absolutamente continua con


respecto a la medida de Lebesgue y cuando existe, la esperanza de h(X) está dada por
Z Z
Eh(X) = h(x)µF (dx) = h(x)f (x)dx.
R R

16 T
2. Si F es una distribución discreta dada por {pn }n≥0 , µF es absolutamente continua con
respecto a la medida de conteo c y, cuando existe, la esperanza de h(X) está dada por

20 A Z ∞
lio IM
X
Eh(X) = h(x)µF (dx) = h(n)pn .
R n=0
Ju -C

3.5.2. Medidas de referencia universales, ejemplos y su contexto


D

Generalmente µ será una medida de referencia “universal” en (M, B(M )), usualmente una
medida uniformemente distribuida o una distribución uniforme, f : M −→ [0, ∞) será una
AT

función de densidad con respecto a µ:


Z
f (x)µ(dx) = 1
M

y la probabilidad de interés está dada de la siguiente manera:


Z
ν(A) = PX (A) = f (x)µ(dx), A ∈ B(M ).
A

De esta manera se proponen modelos de probabilidad especificando una familia de densi-


dades {fθ (x) : θ ∈ Θ} , con Θ un espacio de parámetros, con respecto a la misma medida de
referencia µ. Si Θ ⊂ Rp para algún p, el modelo es paramétrico. De otra forma el modelo
es no-paramétrico.
Veamos algunos ejemplos de modelos paramétricos.

1. Ω = R, A = B(R) y P dada por una densidad f , con λ como medida de referencia


3.5. Especificación de modelos de probabilidad usando densidades 119

a) Modelo exponencial, θ ∈ Θ = [0, ∞) (m := E [X] = θ)


1
fθ (x) = e−x/θ 1{x≥0} .
θ

b) Modelo uniforme en [0, θ], θ ∈ Θ = [0, ∞) (m = θ/2)


1
fθ (x) = 1{0≤x≤θ} .
θ

16 T
20 A
c) Modelo gaussiano, θ = (m, σ 2 ) ∈ Θ = R × [0, ∞)
lio IM
 
1 1 2
fθ (x) = √ exp − 2 (x − m) , x ∈ R,
σ 2π 2σ
Ju -C

con σ 2 = EX2 − (m)2 la varianza.

2. Espacio de probabilidad en Rd : Ω = Rd , A = B(Rd ), f = Rd → [0, ∞) densidad


D

multivariada Z
f (x)dx = 1.
AT

Rd

Para A ∈ B(Rd ) Z Z
P(A) = f (x)dx = f (x)λd (dx).
A A

La medida de referencia es la de Lebesgue λd en Rd .

a) Modelo normal multivariado en Rd , Nd (m, Σ),

θ = (m, Σ) ∈ Θ = Rd × {matriz d × d definida positiva} ,


 
1 > −1 1
fθ (x) = c (d, Σ) exp − (x − m) Σ (x − m) , x ∈ Rd ,
2 2
con c (d, Σ) = (2π)−d/2 det(Σ)−1/2 .
b) Σ = Id , m = 0 es la distribución normal multivariada estándar Nd (0, Id ).

Para el caso de modelos no–paramétricos tenemos los siguientes ejemplos.


120 Capı́tulo 3. Probabilidad

1. Cuando el parámetro a estimar es una probabilidad en (M ,B(M ))

Θ = { Q | medidas de probabilidad en (M, B(M ))} .

2. Cuando el parámetro a estimar es una densidad en (M ,B(M ))


 Z 
p
Θ = f densidad : kD f (x)ks ν(dx) < ∞

16 T
M

20 A
en donde Dp denota la p-ésima derivada de la función f . Este es el caso de estimación
de densidades, tema que se verá en el Capı́tulo 5.
lio IM
3. Cuando el parámetro a estimar es el soporte (compacto) de una medida (probabilidad)
µ.
Ju -C

Una herramienta importante en inferencia estadı́stica es la “distancia de Kullback-Leibler”


entre densidades.
D

Definición 3.5.9 (Distancia de Kullback-Leibler). Sean f, g densidades con respecto a una


medida de referencia µ en una variedad M . Se define la distancia de Kullback-Leibler entre
AT

f y g como Z  
f (x)
DKL (f, g) = f (x) log µ(dx). (3.5.3)
M g(x)
En realidad DKL no es una distancia, ya que sólo se cumple que DKL (f, g) ≥ 0 y
DKL (f, f ) = 0, pero es una herramienta útil.

Ejemplos de medidas de referencia y su contexto


En general, se especificamos modelos de probabilidad haciendo énfasis en ejemplos de
medidas de referencia en (M ,B(M )) y su contexto como sigue:

M = N, Zd , medida de conteo c o cd .

• Modelos discretos clásicos, redes, gráficas.

M = R, medida de Lebesgue en R.
3.5. Especificación de modelos de probabilidad usando densidades 121

• Modelos continuos clásicos.

M = Rd , medida de Lebesgue en Rd .

• Estadı́stica multivariada clásica.

M = Rd×d , medida de Lebesgue en Rp , p ≤ d.

• Matrices aleatorias.

16 T
M ⊂ Rd variedad con distribución geométrica (uniforme) en M (Sd−1 , Td ).

20 A
• Datos con dirección.
lio IM
M espacio métrico compacto con distribución uniforme en M .

• Propiedades geométricas y topológicas.


Ju -C

3.5.3. Densidades conjuntas, marginales, condicionales e indepen-


D

dencia
AT

Usando densidades podemos caracterizar la independencia de variables aleatorias. Sea


(M ,B(M )) con distribución de referencia µ uniforme. Además, sean νi medidas de proba-
bilidad en (M ,B(M )), con i = 1, ..., d; tales que, νi << µ con función de densidad fi ,
i = 1, ..., d.
Consideramos el espacio producto (M × · · · × M, B(M ) ⊗ · · · ⊗ B(M), ν1 × · · · × νd ), con
la medida ν1 × · · · × νd << µd = µ × · · · × µ y función de densidad f : M × · · · × M → [0, ∞).
Si Xi son variables aleatorias en M con distribución νi , i = 1, ..., d. decimos que X1 , ..., Xd
son independientes si y sólo si,
f (x1 , ..., xd ) = f1 (x1 ) · · · fd (xd ), µd –c.s.
La prueba de este resultado usa el teorema de Fubini.
En general, incluyendo el caso cuando las variables aleatorias no son independientes, las
densidades marginales se obtienen a partir de la densidad conjunta f (x1 , ..., xd ): Una función
no-negativa f : M d → [0, ∞) es densidad conjunta de las variables aleatorias X1 , ..., Xd si
Z
f (x1 , ..., xd )µ(dx1 ) · · · µ(dxd ) = 1
Md
122 Capı́tulo 3. Probabilidad

y la distribución de X = (X1 , ..., Xd ) (Definición 3.2.15) se puede escribir como


Z
PX (A) = f (x1 , ..., xd )µ(dx1 ) · · · µ(dxd ), A ∈ B(M d ).
A

Para i = 1, ..., d las distribuciones marginales PXi en (M, B(M )), (ver Sección 3.2.3),
tienen densidad fi con respecto a µ dada por la expresión
Z
fi (xi ) = f (x1 , ..., xd )µ(dx1 ) · · · µ(dxi−1 )µ(dxi+1 ) · · · µ(dxd ).

16 T
M
| × · ·
{z · × M}
d−1 veces

20 A
Finalmente, dadas las variables aleatorias X1 y X2 la distribución condicional PX1 |X2 de
X1 dado X2 (ver Sección 3.2.3) es tal que PX1 |X2 es absolutamente continua con respecto a
lio IM
µ con densidad (llamada densidad condicional) fX1 |X2 dada por

f(X1 X2 ) (x, y)
fX1 |X2 (x, y) =
Ju -C

fX2 (y)
suponiendo que fX2 (y) > 0. Además
D

Z
P (X1 |X2 = y ) = fX1 |X2 (x, y)µ(dx).
A
AT

Reiteramos la observación de que en cursos de probabilidad avanzada es posible dar


sentido a la expresión P (X1 |X2 = y ) aún cuando P (X2 = y) = 0.

3.5.4. Ejemplos de densidades en algunas variedades


Densidades en el cı́rculo y otras variedades aparecen de manera natural en el análisis
estadı́stica de datos circulares o direccionales. Referencias sobre el tema son los libros de
Bhattacharya y Bhattacharya [12], Fisher [54], Mardia y Jupp [92]. Se recomienda también
la tesis de maestrı́a de Lilia Karen Rivera [114].

En Rd
Distribución normal multivariada En primer lugar consideramos la densidad Isotrópi-
ca normal en M = Rd ,
 
2 −d/2 1 2
exp − 2 kx − mk , x ∈ Rd ,

fθ (x) = 2πσ

3.5. Especificación de modelos de probabilidad usando densidades 123

θ = (m,σ 2 ) ∈ Θ = Rd × [0, ∞) . En este caso


Z
ν(A) = fθ (x)dx, A ∈ B(Rd )
A

corresponde a la distribución normal Nd (m, σ 2 Id ). Observar que ν no es medida uniforme-


mente distribuida en (Rd , B(Rd )), es equivalente a la medida de Lebesgue λd en Rd y es
invariante bajo transformaciones ortogonales por la izquierda si m = 0.
También podemos considerar la densidad Normal multivariada (o multidimensio-
nal) en M = Rd , Nd (m, Σ), θ = (m,Σ) ∈ Θ = Rd × {Σ > 0} . Si Z es Nd (0, Id ),

16 T
X = Σ1/2 Z + m ∼ Nd (m, Σ)

20 A
y viceversa. La prueba de este hecho usa el siguiente teorema.
Teorema 3.5.10 (Cambio lineal de variables de la integral de Lebesgue en Rd ). Sea T una
lio IM
matriz d × d invertible. Para cualquier función medible g en Rd , la función g ◦ T (x) = g(T x)
es medible y si g ≥ 0 Z Z
g(x)dx = |det T | g(T x)dx.
Ju -C

Si g es integrable con respecto a λd entonces g ◦ T también lo es y la igualdad anterior se


cumple.
D

El método anterior es útil para simular v.a. Nd (m, Σ) y el teorema prueba la invarianza
bajo transformaciones ortogonales por la izquierda de Nd (0, σ 2 Id ) tomando g como la densi-
AT

dad f(0,σ2 ) (x) ya que kOxk2 = kxk2 para cualquier matriz ortogonal O ∈ O(d) y |det O| = 1.
Un teorema más general de transformación es el siguiente resultado, el cual es útil para
construir medidas de volumen en variedades.
Teorema 3.5.11. Sea T : Rk → Rd un mapeo lineal inyectivo con k ≤ d y X = T (Rk ). Para
cualquier función medible g : Rd → R, la función g ◦ T (x) = g(T x) es medible y si g ≥ 0
Z Z
> 1/2
d

g(x)λ (dx) = det T T
g(T x)λk (dx).
X Rk
La prueba de este resultado se encuentra en la Sección 3.2 del libro de Tjur [125].
Con el Teorema 3.5.10 también se encuentra la función de densidad (multivariada) de la
distribución Nd (m, Σ):
 
−d/2 −1/2 1 > −1
f (x) = (2π) (det Σ) exp − (x − m) Σ (x − m) , x ∈ Rd . (3.5.4)
2
La matriz de covarianza Σ = (σij ) es tal que σij = Cov(Xi , Xj ) donde X = (X1 , ..., Xd ) tiene
esta distribución.
124 Capı́tulo 3. Probabilidad

Distribuciones en la esfera

Uno de los ejemplos


 pioneros
de
densidades para variedades es el de von Mises-Fisher
d−1 d
en M = S = x ∈ R kxk = 1 , con distribución de referencia uniforme ωd
fθ (x) = c1 (κ) exp κx> m , x ∈ Sd−1 ,
 

θ = (m,κ) ∈ Θ = Sd−1 × [0, ∞) y c1 (κ) constante. Dicha densidad fue especificada para
d = 2 por von Mises en 1918, y para d ≥ 3 por R. Fisher en 1953. Esta distribución se usa
en el estudio de datos direccionales y juega un papel similar al de la distribución normal en

16 T
datos lineales.
Ası́, la medida inducida en (Sd−1 , B(Sd−1 )) es

20 A
Z Z
ν(A) = fθ (x)dx = fθ (x)ωd (dx), A ∈ B(Sd−1 ).
lio IM
A A

El caso en que κ = 0 nos da la distribución uniforme en Sd−1 , f (x) = 1Sd−1 (x).


Este ejemplo se puede generalizar a un von Mises-Fisher matricial en M = SO(d),
Ju -C

fθ (x) = c2 (κ) exp κtr x> m , x ∈ SO(d),


 

θ ∈ Θ = SO(d) × [0, ∞), con respecto a la distribución uniforme dada por la medida de
Haar.
D

Watson propone además el ejemplo en M = Sd−1 :


AT

h 2 i
>
fθ (x) = c3 (κ) exp κ x m , x ∈ Sd−1 ,

θ = (m,κ) ∈ Θ = Sd−1 × [0, ∞) .

Distribuciones en el toro
Mardia en 1975 estudia el caso de una distribución von Mises bivariada en S1 × S1
como sigue. La densidad fθ (φ, ψ) : [0, 2π] × [0, 2π] → [0, ∞)
fθ (φ, ψ) ≈ exp [κ1 cos(φ − µφ ) + κ2 cos(φ − µψ ) + gΣ (φ, ψ)]

gΣ (φ, ψ) = (cos(φ − µφ ), sin(ψ − µψ ))Σ(cos(φ − µφ ), sin(ψ − µψ ))> ;


donde φ, ψ ∈ [0, 2π] , Σ es una matriz 2 × 2 (matriz de correlaciones), µφ , µψ son medias
marginales y
θ = (κ1 , κ2 , Σ) ∈ Θ = [0, ∞) × [0, ∞) × M2×2 .
La medida de referencia es la distribución uniforme.
3.6. Probabilidad en variedades II: medida geométrica 125

3.6. Probabilidad en variedades II: medida geométrica

3.6.1. Medidas definidas por restricción a una cubierta abierta


En esta sección presentamos un resultado de interés general, el cual es especialmente útil
para construir la medida geométrica. Dado un espacio de medida (X, A, µ) y un conjunto
A ∈ A se define la medida restricción de µ a A como µ|A (·) = µ(A ∩ ·). El Apéndice B tiene
información sobre medidas en espacios métricos polacos.

16 T
Teorema 3.6.1. Sea X un espacio métrico polaco con σ−álgebra de Borel B(X) y sea

20 A
{Xi : i ∈ I} una familia de subconjuntos abiertos de X tal que X = ∪i∈I Xi . Supongamos
que para cada Xi hay una medida de Radon µi tal que la siguiente condición de consistencia
lio IM
se cumple
∀i, j ∈ I, µi |Xi ∩Xj = µj |Xi ∩Xj . (3.6.1)
Entonces, existe una única medida de Radon µ en B(X) tal que µi |Xi = µ para cada i ∈ I.
Ju -C

Este resultado se cumple para espacios localmente compactos, ver Teorema 2.61 en [125].
D

3.6.2. La medida geométrica (distribución uniforme)


AT

Vamos ahora a explicar como definir la medida geométrica en una variedad M de di-
mensión k en Rd . Siguiendo las ideas en la Sección 3.4 del libro de [125], intuitivamente, la
medida geométrica es el análogo k−dimensional de las medidas de longitud en una curva de
R2 o R3 y el área de una superficie de dimensión dos en R3 . La idea intuitiva es la siguiente:
Como vimos en el Capı́tulo 2, una variedad de dimensión k en Rd es localmente casi isomorfa
a un espacio euclidiano k−dimensional; es decir, una parametrización local puede ser apro-
ximada por una transformación lineal afı́n de un conjunto abierto de un espacio tangente
k−dimensional. Entonces la medida geométrica es la medida que es localmente casi igual a
la medida de Lebesgue en Rk .
Demos una definición precisa de la medida geométrica en una variedad. Para ello usaremos
el lenguaje de variedades parametrizadas visto en la Sección 1.6.1.
Consideremos p : M 0 −→ Rd una parametrización de una variedad k–dimensional Mp =
p(M 0 ). Esto es, M 0 ⊂ Rk es un subconjunto abierto y p es una aplicación inyectivamente
regular. Luego, para poder usar el Teorema 3.5.11 necesitarı́amos que p fuera un mapeo
inyectivo lineal, en tal caso la medida geométrica (o medida de Lebesgue) serı́a proporcional
a la medida de Lebesgue transformada en M 0 .
126 Capı́tulo 3. Probabilidad

En el caso general, p es una aplicación “localmente casi lineal” con lo cual definimos la
medida geométrica en Mp como la medida que es “localmente proporcional” a la medida de
p(M 0 ) con factor de proporcionalidad | det Dp> Dp|1/2 . Recordamos que Dp es la matriz de
la aplicación lineal que aproxima p localmente. Por lo tanto tenemos el siguiente resultado,
consecuencia del Teorema 3.5.11.
Teorema 3.6.2 (Medida geométrica en variedades). Sea p : M 0 −→ Rd una parametrización
de una variedad k–dimensional Mp = p(M 0 ), con k ≤ d. Para cualquier función medible
g : Rd −→ R+ se cumple que

16 T
Z Z
d
>
1/2
g(x)λ (dx) = det Dp Dp
g(px)λk (dx).

20 A
Mp M0

Estamos sobreentendiendo que p : M 0 −→ Mp , por lo que esto define una medida sobre
lio IM
Mp no sobre Rd . En [125] puede observarse con cuidado la demostración de que esta definición
es independiente de la parametrización que elijamos.

Ası́, ya que M puede ser cubierta por variedades parametrizadas, y cada una de esas
Ju -C

variedades tiene una medida geométrica, se puede comprobar que esas medidas en conjuntos
abiertos de M , satisfacen la condición de consistencia (3.6.1) del Teorema 3.6.1. Por lo tanto
existe una única medida en (M, B(M )), tal que la restricción a cualquier variedad parametri-
D

zada es la medida geométrica. Esta construcción es independiente de la reparametrización.


Esta medida se llama la medida geométrica o de volumen de M y la denotaremos
AT

por λM . El soporte de λM es M .
Observación 3.6.3. 1. La mayorı́a de los trabajos en la literatura en análisis topológico
y geométrico de datos, se refieren a distribución uniforme en el sentido de medida
geométrica o de volumen, a la medida de probabilidad
Z
dλM
P(·) = .
· λM (M )

No siempre se tiene que λM sea la probabilidad uniformemente distribuida en el sentido


que lo hemos estado usando. Para que se dé esta igualdad, la variedad M tiene que
tener cierta “simetrı́a” y depende de la curvatura, como el caso de la esfera.
2. En general no es fácil integrar con respecto a la integral geométrica, ver por ejemplo el
Capı́tulo 3 del libro de Chavel [29], para una explicación rápida en el caso de variedades
orientables, el Apéndice B del libro de Bhattacharya y Bhattacharya [12], o el libro
clásico de Santaló [118]. Un estudio sistemático de medida geométrica, incluyendo el
caso de variedades Riemannianas, se encuentra en el libro de Federer [53].
3.6. Probabilidad en variedades II: medida geométrica 127

3. Más adelante, en la sección 3.6.4, se presentan las fórmulas para el cálculo de la medida
de volumen e integrales con respecto a ella.
4. El trabajo de Small ([122]), presenta con detalle la construcción de la medida geométri-
ca, en el contexto de estadı́sticas sobre variedades y formas.

3.6.3. Distribución uniforme vs probabilidad uniformemente dis-


tribuida

16 T
Como se mencionó en la Sección 3.6.4 y en la Observación 3.6.3, el término distribución

20 A
o medida uniforme se emplea en la literatura de análisis topológico y geométrico de datos
para referirse a la medida de volumen definida en la sección anterior. No siempre se cumple
lio IM
que esta medida es la misma que la probabilidad uniformemente distribuida en el sentido de
la definición 3.3.2.
El siguiente resultado nos da condiciones para que un conjunto sea el soporte de una
medida uniformemente distribuida en Rd ; ver detalles en [38] o [84].
Ju -C

Teorema 3.6.4. 1. Un subconjunto compacto A de Rd con probabilidad uniformemente


distribuida µ está contenido en una esfera con centro en el centro de masa.
D

2. Si µ es una probabilidad uniformemente distribuida en Rk , entonces supp(µ) = {H = 0},


donde H : Rk → R es una función analı́tica ( i.e. supp(µ) es variedad analı́tica real).
AT

3. El soporte de una probabilidad uniformemente distribuida en R es R, un conjunto


discreto.
4. Hay tres clases de distribuciones uniformes con soporte acotado en R2 :
i) El soporte de la medida es una esfera.
ii) El soporte está formado por los vértices de un polı́gono regular.
iii) El soporte está formado por los vértices de dos n−polı́gonos regulares teniendo el
mismo centro y radio.
Hasta donde sabemos, resultados análogos a los incisos (c) y (d) no se conocen para
Rd , d ≥ 3.
Finalmente, una propiedad interesante de una medida uniformemente distribuida en Rd
es la integración de funciones radiales: Sea f una función Borel medible no-negativa y y, z
en supp(µ), entonces
Z Z
f (kx − ykd )µ(dx) = f (kx − zkd )µ(dx);
Rd Rd
128 Capı́tulo 3. Probabilidad

ver [104].

3.6.4. Medida de Hausdorff


En esta sección veremos brevemente como definir una medida más general en Rd que la
medida de Lebesgue λd la cual es de utilidad para simular variables aleatorias en variedades
con respecto a la distribución uniforme de volumen. Tres referencias sugeridas para este
material son el reciente trabajo de Diaconis et al. [43], el libro de Morvan [96] y el trabajo
de Federer [53].

16 T
Para poder definir la medida de Hausdorff ocupamos la métrica euclidiana y el volumen
de la bola unitaria en Rm :

20 A ωm = λm (B1 (0)) =
Γ( 21 )m
.
lio IM
Γ(( m2 ) + 1)
Definición 3.6.5. Sea A ⊆ Rd , se define la medida Hausdorff de dimensión m de A
mediante
Ju -C

 m
m
X diam(Bi )
H (A) = lı́m ı́nf ωm ;
δ−→0 A⊆∪Bi , diam(Bi )≤δ 2
esto es, el ı́nfimo se toma sobre todas las cubiertas numerables {Bi } de A con diámetro
D

menor que δ.
A diferencia de la medida de Lebesgue, la medida de Hausdorff no es fácil de comprender.
AT

Un hecho no trivial es que λd y Hd coinciden en B(Rd ) en el sentido de que existe una


constante kd > 0 tal que Hd = kd λd Además, si γ es una curva suave compacta inmersa en
Rd , su longitud desde el punto de vista de Lebesgue, es igual a la medida 1–Hausdorff; lo
cual puede generalizarse como medida de área para subvariedades o subconjuntos de Rd .
Una observación importante es que esta medida puede definirse para cualquier m ∈ R,
siendo el caso particular en que m no es entero conocido como medida fractal de Hausdorff.

3.6.5. Jacobianos, cambio de variable y áreas


En primer lugar, daremos las nociones básicas de geometrı́a diferencial que ocuparemos
en lo sucesivo.
Definición 3.6.6. Dada una aplicación f : Rk −→ Rd , si f es diferenciable en x ∈ Rk ,
definimos el jacobiano de dimensión m de f en x, Jm f (x), como el máximo volumen
de dimensión m de la imagen de Df (x) de un cubo unitario de dimensión m en Rk ; esto es
Jm f (x) = máx Vol(Df (x)(C));
C
3.6. Probabilidad en variedades II: medida geométrica 129

donde C es un cubo unitario de dimensión m.


En particular, si el rango de Df (x) es menor que m, entonces Jm f (x) = 0. Además, si
k = d = m tenemos que
Jm f (x) = | det Df (x)|.

En general omitiremos el uso de los subı́ndices y escribiremos simplemente Jf (x). Enun-


ciamos entonces el teorema de cambio de variable para (Rd , B(Rd ), λd ), el cual es una rees-
critura con jacobianos de los teoremas presentados anteriormente.

Teorema 3.6.7 (Cambio de variables). Sean U ⊂ Rd abierto y V ⊂ Rd abierto acotado.

16 T
Si f : U −→ V es una función inyectiva diferenciable y f −1 : f (V ) −→ U es continua,
entonces:

20 A
1. Para cualquier función Borel–medible g : Rd −→ R, la función φ(x) = g(f (x))Jf (x)
lio IM
es Borel–medible.

2. Además, tenemos el cálculo respectivo en integrales:


Ju -C

Z Z
d
g(y)λ (dy) = g(f (x))Jf (x)λd (dx).
V U
D

Para cualquier A ⊂ Rk y y ∈ Rd escribimos N (f |A , y) para la cardinalidad de la fibra en


y:
AT

f −1 (y) = {x ∈ A : f (x) = y}.


Usando la expresión de la integral en el resultado anterior podemos dar la siguiente fórmula
de área.

Teorema 3.6.8 (Fórmula de área). Si f : Rk −→ Rd es una función Lipschitz con k ≤ d.


Entonces:

1. Si A ∈ B(Rk ): Z Z
k
Jk f (x)λ (dx) = N (f |A , y)Hk (dy).
A Rd

2. Si además g : Rk −→ R es cualquier función integrable:


Z Z Z X
k k
g(f (x))Jk f (x)λ (dx) = g(y)N (f |A , y)H (dy) = g(x)Hk (dy).
A Rd Rd x∈f −1 (y)
130 Capı́tulo 3. Probabilidad

3.7. Ejercicios

Ejercicio 3.7.1. Demuestra que la σ–álgebra generada por

S(R) = {∅, (a, b], (b, ∞) : −∞ ≤ a < b < ∞}

es igual a la σ–álgebra de Borel B(R).

Ejercicio 3.7.2. Si X1 = X2 = R y A1 = A2 = B(R), demuestra que

16 T
σ(S 2 (R)) = B(R2 ).

20 A
Ejercicio 3.7.3. Dado un subespacio métrico (X, B(X)) de (Rd , B(Rd )), si A ∈ B(X) de-
lio IM
muestra que
OA = {Ox : x ∈ A} ∈ B(Rd )
para cualquier matriz ortogonal O ∈ O(d).
Ju -C

Ejercicio 3.7.4. Considera la medida de Lebesgue λd en (Rd , B(Rd )). Verifica los siguientes:

1. λd es σ–finita.
D

2. λd es invariante bajo traslaciones.


AT

3. λd (Sd−1 ) = 0.

Ejercicio 3.7.5. Prueba el Teorema 3.3.5.

Ejercicio 3.7.6. Demuestra que

π d/2
λd (Dd ) = λd (B1 (x)) = .
Γ(d/2 + 1)

Más aún, para cualquier radio r > 0 se tiene que

π d/2 rd
λd (Br (x)) = .
Γ(d/2 + 1)
Capı́tulo 4

Simulación de variables aleatorias en

16 T
20 A
variedades
lio IM
En la literatura de ATD, cada vez son más los trabajos, especialmente los de estadı́sti-
Ju -C

ca, que hacen estudios de simulación para obtener intuición sobre los modelos y métodos
propuestos, ası́ como evaluar su comportamiento ante diversas situaciones. Ello requiere de
poder simular variables aleatorias con distribuciones de probabilidad en una variedad.
D

La simulación estocástica fue creada por John von Neumann hace ya más de 65 años
y consiste en la generación en la computadora de pseudo datos en base a un modelo de
AT

probabilidad, o el uso de un modelo a partir de una base de datos. También se conoce como el
Método Monte Carlo y actualmente es una herramienta importante en matemáticas, ası́ como
en finanzas, ciencias naturales, ciencias de la computación, ingenierı́a y ciencias sociales. Para
aplicaciones contemporáneas en probabilidad, estadı́stica y matemáticas en general se pueden
consultar los libros de Devroye [41], Jones [72], Roberts y Casella [115] y Thompson [124].
Un aspecto primario en la simulación estocástica es la generación de variables pseudo
aleatorias con una distribución de probabilidad dada, para lo cual es esencial un algoritmo
generador de una variable aleatoria U con distribución uniforme en [0, 1]. El método mas
usual, conocido como método de congruencias (propuesto inicialmente por G. Marsaglia),
se construye usando teorı́a de congruencias de números y diseñando y aplicando pruebas ad
hoc de “aleatoriedad”. Una excelente exposición para estos fundamentos se encuentra en el
libro de Knuth [86]. Con ello, dada una función de distribución F en R y su función cuantil
F −1 , F −1 (U ) tiene distribución F. En forma más general, a partir del generador de variables
con distribución uniforme se puede usar el llamado método de aceptación-rechazo para
generar variables aleatorias en modelos más generales de probabilidad, el cual, si bien es de
aplicación general, no siempre es eficiente; ver [72], [115], [124].
Hoy en dı́a los softwares comerciales y libres incluyen rutinas para generar variables

131
132 Capı́tulo 4. Simulación de variables aleatorias en variedades

aleatorias con diversas distribuciones, en particular la paqueterı́a de R, la cual es usada en


los libros [72], [115].
En el caso de ATD, los modelos de probabilidad a generar son, por ejemplo, variables
aleatorias en variedades más un error aleatorio, como se menciona en los Capı́tulos 3 y 5. La
paqueterı́a de ATD en R incluye (a la fecha de hoy) la generación de variables aleatorias con
distribución uniforme en la esfera y el toro. El tema de generación de variables aleatorias
con distribución uniforme en variedades (usando la construcción de la medida de Hausdorff
en la Sección 3.6.4 y el método de aceptación-rechazo) ha sido expuesto recientemente en
Diaconis et al. [43], en donde se ejemplifica el caso de la esfera y el toro inmerso en R3 .

16 T
El proyecto de los alumnos Gilberto Flores y Yair Hernández al final de estas notas

20 A
ejemplifican el método en [43] también en el caso del toro. Incluyen además los casos de la
botella de Klein -usando una parametrización en Franzoni [56]- y la banda de Moebius.
lio IM
El trabajo reciente de Kent et al. [80] hace una revisión de los mejores métodos de
simulación de distribuciones paramétricas de datos direccionales en variedades, incluyendo
el caso de la esfera, el plano proyectivo, la variedad de Stiefel, el grupo ortogonal especial,
Ju -C

entre otras. Entre las distribuciones paramétricas consideradas en [80] se incluyen algunas
de las presentadas en la Sección 3.5.4.
En este capı́tulo se exponen algoritmos distintos para generar variables aleatorias en
D

variedades los cuales tienen la ventaja de ser fácilmente adaptables cuando se consideran
distribuciones diferentes a la uniforme y las familias paramétricas. El caso de la distribución
uniforme en Sd fue propuesto por Muller [97] en 1959 y popularizado por Marsaglia [93] y se
AT

sabe que es un método lento. El objetivo, sin embargo, es contar con modelos de probabilidad
sencillos que hagan énfasis en el soporte no uniforme de la variedad, lo cual tiene dos ventajas.
La primera es que se trata de distribuciones que permiten una interpretación a la realización
de variables aleatorias con esa distribución las cuales están sujetas a efectos de repulsión,
correlaciones o colas pesadas. La segunda es que son alternativas fáciles de implementar
que permiten analizar y comparar los diversos métodos de ATD ante supuestos distintos a la
distribución uniforme y explorar acerca de la robusticidad de estos métodos ante desviaciones
de las suposiciones.
Esto último se muestra en el Proyecto del alumno Jesús Pérez Angulo, al final de estas
notas, en donde también se exponen los algoritmos Mapper y complejos testigos para ATD. El
proyecto incluye un estudio de simulación amplio para analizar caracterı́sticas homológicas,
geométricas y de costo computacional para comparar éstos y los métodos usuales de ATD
ante diversos escenarios de distribuciones, consideraciones de error y tamaño de muestra, en
los casos de las variedades S1 , S2 y T2 .
4.1. Variables aleatorias en la esfera 133

4.1. Variables aleatorias en la esfera


El método usual
 para generar variables aleatorias con distribución uniforme en S1 es
considerar S1 = eiθ : 0 ≤ θ ≤ 2π y generar a θ como una variable aleatoria con distribu-
ción uniforme en [0, 2π]. Distribuciones alternativas sugieren usar una distribución en [0, 2π]
distinta a la uniforme.
Esto es equivalente a considerar la parametrización de la esfera (cos θ, sin θ), con θ ∈
[0, 2π]. Sin embargo no siempre se cumple que considerar distribución uniforme en los paráme-
tros de una variedad nos dará la distribución uniforme en la variedad.

16 T
En esta sección presentamos un método diferente para generar variables aleatorias con
distintas distribuciones en Sd−1 y sus productos cartesianos, lo cual permite considerar as-

20 A
pectos alternativos de modelación con distribuciones de fácil interpretación a la realización
de variables aleatorias con estas distribuciones. Recordemos de la Sección 3.3.6, que dado
lio IM
cualquier vector aleatorio Xd = (X1 , . . . , Xd ) con distribución µ en (Rd , B(Rd )) y tal que
P(| kXd k = 0) = 0 se tiene que
 
X1 Xd
Ju -C

R= ,..., (4.1.1)
||Xd || ||Xd ||

es una variable aleatoria en (Sd−1 , B(Sd−1 )) cuya distribución es la medida inducida


D

µR (A) = µ(R−1 (A)), A ∈ B(Sd−1 ).


AT

En particular, como se mencionó en la Sección 3.3.5, si Xd = (X1 , . . . , Xd ) tiene distribu-


ción normal N(0, Id ), R tiene probabilidad uniformemente distribuida en Sd−1 .
Nos referimos a esta construcción como distribución cociente Rd /Sd−1 de variables alea-
torias o simplemente distribución cociente.
Estamos interesados en distribuciones alternativas a la uniforme que ofrezcan posibili-
dades diversas de modelación y permitan una interpretación a la realización de variables
aleatorias con estas distribuciones. En particular en las siguientes secciones describimos ca-
sos de modelación con variables aleatorias que exhiben correlación, fuerza de repulsión y
colas pesadas.

4.1.1. Distribución cociente de una normal multivariada


Consideremos el vector aleatorio Xd = (X1 , . . . , Xd ) con distribución normal multivariada
Nd (m, Σ) y función de densidad (3.5.4) y tomemos m = 0. Cuando Σ = Id , R tiene la
probabilidad uniformemente distribuida en Sd−1 .
134 Capı́tulo 4. Simulación de variables aleatorias en variedades

En la siguiente figura se muestra una simulación de mil variables aleatorias con distribu-
ción uniforme en S2 .

16 T
20 A
lio IM
Figura 4.1: Simulación 1000 variables aleatorias con distribución uniforme en S2 .
Ju -C

Si la matriz de covarianza Σ = (σij ) no es un múltiplo de la identidad, la distribución


tiende a concentrarse en partes de la esfera dependiendo de las correlaciones σij . En las
siguientes gráficas se muestran nubes de puntos para diversas posibilidades de elección de
D

Σ y los correspondientes efectos en la distribución de puntos en S1 y S2 . Existen zonas que


tienen una mayor concentración de puntos.
AT

Figura 4.2: Simulación 300 variables aleatorias con distribución cociente de una distribución
normal bivariada con dependencia en S1 .
4.1. Variables aleatorias en la esfera 135

16 T
20 A
lio IM
Figura 4.3: Simulación 1000 variables aleatorias con distribución cociente de una distribución
normal trivariada con dependencia en S2 .
Ju -CD

4.1.2. Distribución cociente con fuerzas de repulsión en la esfera


El modelo de esta sección es útil para describir fenómenos en donde las observaciones
AT

en la nube de puntos están sujetos a una fuerza de repulsión. El modelo está basado en el
comportamiento de valores propios de matrices aleatorias.
Consideremos la matriz aleatoria simétrica Z = (Zij ) d × d, donde Zij , 1 ≤ i ≤ j ≤ d son
variables aleatorias independientes y cada Zij tiene distribución normal N(0, 1 + δij ). Se dice
que Z es una matriz GOE (Gaussian Orthogonal Ensemble).
La densidad multivariada f de los eigenvectores X1 , ..., Xd de la matriz Z es bien conocida
en la teorı́a de matrices aleatorias; ver por ejemplo el Teorema 2.5.2 y la Observación 2.5.3
en el libro [3]. Su fórmula explı́cita es

1 Y
f (x) = cd exp(− kxk2 ) |xj − xi | , x = (x1 , ...xd ) ∈ Rd (4.1.2)
4 i<j

donde cd > 0 es una constante que sólo depende de la dimensión d.


Observe que esta densidad es estrictamente positiva, por lo que no sólo los eigenvectores
no coinciden, sino que estos se repelen. Además, debido a la caracterización de independencia
en términos de densidades que se presentó en la Sección 3.5.3, los eigenvectores X1 , ..., Xd no
136 Capı́tulo 4. Simulación de variables aleatorias en variedades

son independientes. Esto último era de esperarse, pero de (4.1.2) observamos que estos son
fuertemente dependientes y tienen una fuerza de repulsión.
De hecho, una dependencia más fuerte se observa en los valores propios de una matriz
GUE (Gaussian Unitary Ensemble): Sea Z = (Zij ) una matriz hermitiana d × d , donde
ReZij , ImZij , 1 ≤ i, j ≤ d son variables aleatorias independientes y ReZij , ImZij tienen dis-
tribución normal N(0, 21 (1 + δij )). En este caso la densidad conjunta de los valores propios
X1 , ..., Xd de la matriz Z es
1 Y
cd exp(− kxk2 )
f (x) = e |xj − xi |2 , x = (x1 , ...xd ) ∈ Rd (4.1.3)

16 T
2 i<j

20 A
donde e
cd es una constante positiva que sólo depende de d.
Es de esperarse que en ambos casos la distribución de puntos inducida por
lio IM
R = (X1 , . . . , Xd ) /| kXd k

en Sd−1 refleje esta fuerza de repulsión.


Ju -C

A continuación se muestran gráficas de nubes de puntos generados con estas distribucio-


nes, donde se observa el fenómeno de repulsión en el caso de las correspondientes distribu-
ciones en S1 y S2 , partiéndose en semiesferas y cuartos de esferas que se repelen.
D
AT

Figura 4.4: Simulación 300 variables aleatorias con distribución cociente GOE en S1 .
4.1. Variables aleatorias en la esfera 137

16 T
20 A
lio IM
Figura 4.5: Simulación 300 variables aleatorias con distribución cociente GUE en S1 .
Ju -CD
AT

Figura 4.6: Simulación 1000 variables aleatorias con distribución cociente GOE en S2 .
138 Capı́tulo 4. Simulación de variables aleatorias en variedades

16 T
20 A
lio IM
Figura 4.7: Simulación 1000 variables aleatorias con distribución cociente GUE en S2 .

Cuando se consideran los valores propios ordenados X1 < . . . < Xd la densidad corres-
Ju -C

pondiente es d! veces (4.1.2) (o 4.1.3) considerada sobre la cámara de Wely −∞ < x1 <
· · · < xd < ∞.
En general, los modelos de repulsión no son particulares de los eigenvectores de una
D

matriz con entradas gaussianas. Numerosos modelos de las matrices aleatorias presentan
este fenómeno, pero la densidad tiene una expresión amigable en el caso GOE y GUE.
AT

4.1.3. Distribución cociente de colas pesadas


Finalizamos con un modelo que es útil cuando se consideran fenómenos con colas pesadas,
es decir la probabilidad de observaciones mayores que un número grande es alta.
Consideremos la densidad de Cauchy univariada
1 1
f (x) = , x ∈ R.
π 1 + x2
Esta es una densidad con colas pesadas, en el sentido de que si X es una variable aleatoria
con esta distribución, entonces P(X > r) no decae rápidamente cuando r → ∞. Por ejemplo
la distribución normal no tiene colas pesadas, pues estas decaen exponencialmente. Sea Xd =
(X1 , . . . , Xd ) con X1 , . . . , Xd variables aleatorias independientes con la misma distribución de
Cauchy. En este caso la distribución de kXd k también tiene colas pesadas y el efecto en la
distribución de puntos de R = (X1 , . . . , Xd ) /| kXd k en S1 es que los puntos tienen mayor
concentración en los puntos cardinales, y en el caso de S2 ocurre un fenómeno similar. Esto
se ilustra en la siguientes figuras.
4.2. Variables aleatorias en el toro 139

16 T
20 A
Figura 4.8: Simulación 300 variables aleatorias con distribución cociente Cauchy en S1 .
lio IM
Ju -CD
AT

Figura 4.9: Simulación 1000 variables aleatorias con distribución cociente Cauchy en S2 .

4.2. Variables aleatorias en el toro


Recordemos que por el Teorema de medida producto y la construcción de variables alea-
torias independientes de la Sección 3.3.6, el construir distribuciones en la esfera Sd−1 nos
permite construir variables aleatorias con distribución la medida de probabilidad producto
140 Capı́tulo 4. Simulación de variables aleatorias en variedades

en espacios de productos cartesianos de la esfera, en particular en el toro T2 = S1 × S1 , o


mas generalmente en Td = S1 × · · · × S1 .
De esta manera, si R1 , ..., Rd son variables independientes con cierta distribución µ en
1
S , el vector aleatorio
Td = (R1 , ..., Rd ) (4.2.1)

tiene distribución µd = µ × · · · × µ en Td como elemento de R2d .


| {z }
d

16 T
4.2.1.
20 A
Distribución uniforme como elemento en R2d y R3
lio IM
En particular, Td tiene distribución uniforme en Td (la cual el uniformemente distribuida
por el Teorema 3.3.5) si cada Ri tiene distribución uniforme en S1 .
Ju -C

Como se aprecia en la siguiente gráfica, la medida inducida por la inmersión de T2 en


3
R es ligeramente distinta de la distribución uniforme. Una pregunta natural es ¿qué distri-
bución deben tener las variables aleatorias T2 = (R1 , R2 ) para que esta inmersión tenga la
D

distribución uniforme? La respuesta en el caso del toro se encuentra en el trabajo de Diaconis


et al. [43].
AT

Figura 4.10: Simulación 1000 variables aleatorias con distribución inducida por la uniforme
en la inmersion de T2 en R3 .
4.2. Variables aleatorias en el toro 141

16 T
20 A
lio IM
Ju -CD

Figura 4.11: Nube de puntos en el toro con distribución uniforme.


AT

Usando un método directo en Diaconis et al. [43], el proyecto de los alumnos Gilberto
Flores y Yair Hernández muestra como generar variables aleatorias directamente en el toro
en R3 . Este es el método que usa la librerı́a de R. La siguiente imagen muestra una nube
de puntos en el toro con distribución uniforme, generada con este método.

4.2.2. Fuerza de repulsión en el toro

Si R1 , ..., Rd son variables independientes con distribución con fuerza de repulsión µ en


S1 , como en la Sección 4.1.2, el vector Td dado por (4.2.1) tiene una distribución µd que
presenta también fuerzas de repulsión. En el caso d = 2, esta repulsión se observa en la
distribución inducida por la inmersión de T2 en R3 , como se puede apreciar en las siguientes
imágenes.
142 Capı́tulo 4. Simulación de variables aleatorias en variedades

16 T
20 A
lio IM
Figura 4.12: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal GOE en S1 .
Ju -CD
AT

Figura 4.13: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal GUE en S1 .

4.2.3. Otras distribuciones


Con la misma idea se pueden generar variables aleatorias Td en el toro Td a partir de
cualquier distribución µ en S1 . A continuación se pueden apreciar los casos T2 cuando µ es
4.2. Variables aleatorias en el toro 143

una distribución cociente multivariada y de Cauchy en S1 como en las Secciones 4.1.1 y 4.1.3
respectivamente.

16 T
20 A
lio IM
Ju -C

Figura 4.14: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal cociente bivariada en S1 .
D
AT

Figura 4.15: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal Cauchy en S1 .
144 Capı́tulo 4. Simulación de variables aleatorias en variedades

4.3. Variables aleatorias en la botella de Klein y la ban-


da de Moebius
Como se mencionó anteriormente, cuando se tiene una variedad parametrizada, no siem-
pre se cumple que considerar distribución uniforme en los parámetros nos dará la distribución
uniforme en la variedad. Un método general para generar variables aleatorias con distribu-
ción uniforme en una variedad se presenta en Diaconis et al. [43], el cual se basa en la medida
de Hausdorff y el método de aceptación-rechazo. Esto es el tema del proyecto de los alumnos
Gilberto Flores y Yair Hernández, quienes presentan los casos de la botella de Klein y la

16 T
banda de Moebius.
Con respecto a generación de variables aleatorias con otras distribuciones en estas varie-

20 A
dades, en la dirección de las distribuciones alternativas consideradas en la esfera y el toro en
lio IM
las secciones anteriores, es un tema en el que estamos trabajando y pensamos incluirlo en
estas notas en un futuro.
Ju -C

4.4. Variables aleatorias en otras variedades


D

Queda por explorar la generación de variables aleatorias en el plano proyectivo, en pega-


dos de variedades y en variedades 2-estratificadas. Abordaremos este tema en un futuro.
AT
Capı́tulo 5

Inferencia Estadı́stica

16 T
20 A
lio IM
El objetivo de este capı́tulo es definir los elementos básicos y establecer notación y no-
menclatura de inferencia estadı́stica. Todo ello es pertinente en el contexto de ATD, debido a
que la razón de ser de ATD es de facto el descubrimiento de propiedades desconocidas de un
Ju -C

objeto con base en el análisis de una nube de puntos. Veremos que esto plantea de entrada
un problema formal de inferencia, y que el reto principal de esta parte será cómo cuantificar
la incertidumbre de la aseveración que se hace respecto a dicha propiedad desconocida. En
D

efecto, los diagramas de persistencia (o los códigos de barras) son instrumentos de inferencia,
y será deseable poder complementar su cálculo con nociones que informen sobre la calidad
o precisión del resultado, o bien de la incertidumbre en la que se incurre cuando se utilicen
AT

para hacer alguna afirmación. En la práctica esto equivale a reconocer que un diagrama
de persistencia incluye ruido e incertidumbre, y éste es el objeto de estudio de inferencia
estadı́stica. La teorı́a de probabilidad del capı́tulo anterior será fundamental.
Para exposiciones introductorias de estadı́stica matemática, puede consultarse Roussas
[117] y Wasserman [128].

5.1. Premisa principal de un problema de inferencia


estadı́stica
Se observa una realización de un fenómeno aleatorio, digamos X. Este puede ser un
elemento aleatorio de varios tipos: número (variable aleatoria), un vector de dimensión finita
(vector aleatorio), una función, etc.
La premisa principal es que el carácter aleatorio de X se concibe como una realización de
un fenómeno aleatorio que tiene una distribución de probabilidad P, donde la distribución P

145
146 Capı́tulo 5. Inferencia Estadı́stica

es desconocida ya sea en su totalidad o en algún detalle especı́fico (por ejemplo, su soporte,


su media, etc.). Es de interés conocer P. Si la medida de probabilidad P fuese conocida,
entonces no hay problema estadı́stico propiamente, pues el problema estadı́stico tiene que
ver con inferir la propiedad desconocida de P con base en X.
La observación X está dada, por lo que no hay incertidumbre tal como la hay en la teorı́a
de probabilidad desarrollada anteriormente en el curso. Antes, fue concebida una estructura
(Ω, F, P) para enfrentar el que haya incertidumbre acerca del valor de X. En el problema
estadı́stico, el valor de X ha sido observado, y la incertidumbre radica en otro punto: Radica
en que existe duda acerca de cuál P es la que produjo el valor X. En algunas ocasiones

16 T
se utilizan los términos incertidumbre estocástica e incertidumbre inductiva para distinguir
estos dos tipos. Es común que estos se confundan entre sı́, porque en estadı́stica matemática

20 A
la teorı́a de probabilidad constituye también una de las maneras naturales de afrontar la
cuantificación de incertidumbre inductiva. En cualquier caso, el concebir a P como medida
lio IM
de probabilidad es la base para formular soluciones a la incertidumbre inductiva. Con este
lenguaje, probabilidad y estadı́stica son problemas diferentes y de cierta manera inversos.
Teorı́a de probabilidad tiene que ver con cuantificar incertidumbre acerca de X y teorı́a
Ju -C

estadı́stica con cuantificar incertidumbre acerca de P a la luz de haber ya observado X.


D

5.2. Conceptos básicos de estadı́stica matemática


AT

5.2.1. Modelos estadı́sticos


El primer paso para abordar un problema estadı́stico es concebir el conjunto de medidas
de probabilidad que pudieran contener a P. Pudiera decirse que se trata de identificar un
conjunto de medidas “sospechosas” o “posibles”. Tiene analogı́as directas con concebir un
conjunto de causas que producen los sı́ntomas X en medicina, o concebir un conjunto de
sospechosos que hayan podido producir las pruebas X en una investigación policial. En
ambos casos, el problema planteado es de inferencia.

Definición 5.2.1. Un modelo estadı́stico M es un conjunto de medidas de probabilidad.

Como una medida de probabilidad puede especificarse por diversos dispositivos, es común
denotar un modelo estadı́stico como un conjunto de funciones de densidad, funciones de
distribución, funciones generadoras de probabilidad, u otros medios por aparte de medidas
de probabilidad propiamente dichas. Matemáticamente un modelo estadı́stico no es más que
un subconjunto de medidas de probabilidad, pero en la práctica la elección de M puede no
ser inmediata. La idea es seleccionar M de tal manera que sea lo más chico posible pero
5.2. Conceptos básicos de estadı́stica matemática 147

que el riesgo de excluir a la medida desconocida P es muy bajo. En lo general, esta elección
es arte-ciencia, como lo es la formulación de cualquier modelo matemático en la práctica.
(En la práctica médica, la noción análoga a modelo se llama diagnóstico diferencial, y en la
investigación judicial el conjunto análogo suele llamarse lı́neas de investigación). La elección
M como todas las medidas de probabilidad posibles, es posible pero no conveniente. La razón
heurı́stica es que la incertidumbre inductiva tiende a ser mayor entre mayor o más complejo
sea M.

Definición
 5.2.2. Se dicek
que un modelo estadı́stico es paramétrico si puede escribirse co-

16 T
mo M = Pθ | θ ∈ Θ ⊂ R . En este caso, θ recibe el nombre de parámetro y Θ el de espacio
paramétrico. Notar que si el modelo es correctamente especificado, entonces la presunción

20 A
es que existe un valor de θ tal que P = Pθ . En caso de no ser posible esta representación,
entonces se dice que el modelo es no-paramétrico. Se dice que el modelo paramétrico es
lio IM
identificable, si θ 6= θ0 implica Pθ 6= Pθ0 .

Algunos ejemplos de modelos paramétricos son modelos tı́picamente introducidos aun en


cursos elementales de probabilidad: Ber(p), N(µ, σ 2 ), Poisson(λ), etc. Por otro lado, dentro
Ju -C

de los modelos no-paramétricos tenemos como ejemplos {f | f (x) es simétrica} ,


{f | f tiene media µ} , etc.
En ocasiones suele utilizarse el término semi-paramétrico para denotar un modelo que po-
D

see componentes paramétricas y no-paramétricas. Un ejemplo de un modelos semi-paramétri-


co es {f | f (x) es simétrica con media µ} . El modelo de un vector aleatorio
AT

X = αM + (1 − α)N(0, I)

vista en el módulo anterior, es también semi-paramétrico en este sentido, ya que no hay


especificación paramétrica para la probabilidad sobre M pero sı́ la hay para la componente
mezclante, N(0, I).

Ejemplo 5.2.3 (Ejemplo paramétrico de juguete). Se observa X = (X1 , X2 , . . . , Xn ), donde


las entradas son observaciones independientes cada una con distribución Ber(p). El valor de
p se presupone desconocido. La densidad para el vector aleatorio X está dada por
n
Y P P
f (x1 , x2 , . . . , xn ; p) = pxi (1 − p)1−xi = p xi
(1 − p)n− xi
.
i=1

El parámetro es p, y el espacio paramétrico (unidimensional) es Θ = (0, 1). El modelo


estadı́stico es  P P
M = p xi (1 − p)n− xi | p ∈ (0, 1) .

148 Capı́tulo 5. Inferencia Estadı́stica

Como se ha escrito, el modelo paramétrico es identificable. Si se describiera como


n P o
2 xi P
2 n− xi
M= q (1 − q ) | q ∈ (−1, 1) ,

el modelo no serı́a identificable.


Este modelo se identifica con la situación del lanzamiento de una moneda n veces, o con
la encuesta electoral con respuesta binaria aplicada a n personas. Debido a ello, el ejemplo
es muy fácil de interpretar y entender, y por lo mismo será utilizado en lo subsiguiente para
ilustrar diversos conceptos a propósito de estadı́stica matemática.

16 T
20 A
5.2.2. Estadı́sticas y distribuciones muestrales
Definición 5.2.4. Una función (medible) T de X con valores en Rd recibe el nombre de
lio IM
estadı́stica.
La idea es que T (X) es una cantidad observable y calculable con los datos observados X,
pues no depende de cantidades desconocidas tales como θ. Otro modo de pensar en T (X) es
Ju -C

que es un resumen de los datos. Como X es elemento aleatorio, entonces T (X) también lo
es. Tiene sentido entonces hablar de la distribución de T (X).
D

Definición 5.2.5. La distribución de T (X) recibe el nombre de distribución muestral de


la estadı́stica T.
AT

Es claro que la distribución muestral de T en general depende de la distribución que rige


a X, digamos P, y que en general también pudiera ser desconocida. En el caso de un modelo
paramétrico para X dado por {Pθ } , la distribución muestral de T dependerı́a de θ. Hay
ocasiones en que una función de X y θ posee una distribución que no depende de θ. Esto
motiva la definición de una cantidad pivotal; ejemplos de esta noción y su importancia serán
señalados en lo que sigue.
Definición 5.2.6. Sea X un vector aleatorio y {Pθ } un modelo paramétrico que lo descri-
be. Una función C(X,θ) cuya distribución no depende de θ recibe el nombre de cantidad
pivotal.
P
Ejemplo 5.2.7. En el ejemplo juguete, T (X) = Xi es una estadı́stica con valores en R,
y su distribución muestral es Bin(n, p).
q
Ejemplo 5.2.8. En el ejemplo juguete, sea C(X,p) = ( Xi − p) / p(1−p)
P
n
. Por el teorema
central del lı́mite, si n es grande, entonces la distribución de C(X,p) es aproximadamente
N(0, 1). Esto no es más que decir que C(X,p), si bien no es una estadı́stica, sı́ es un pivotal
asintótico.
5.2. Conceptos básicos de estadı́stica matemática 149

Ejemplo 5.2.9. Con esta nomenclatura, y adelantándonos a una concepción que se hará más
adelante, si X es una nube de puntos, y T (X) es el diagrama de persistencia, entonces T (X)
es una estadı́stica. En la literatura de ATD, de hecho es usual referirse a tal diagrama como
un resumen topológico, y el significado de la palabra resumen es idéntico a la acepción que
se acaba de mencionar. La única diferencia es que el valor de T (X) no radica en Rd sino en
un espacio de mayor complejidad.

5.2.3. Función de verosimilitud

16 T
Definición 5.2.10 (Verosimilitud). Sea X la observación, y el modelo estadı́stico paramétri-

20 A
co dado por la familia de densidades {f (x; θ)} . La función de verosimilitud es la función
lio IM
L : Θ −→ R

dada por L(θ; X) = f (X; θ).


Ju -C

Como X es aleatorio, la función de verosimilitud de facto es un proceso estocástico indexa-


do por θ. En estadı́stica matemática la función de verosimilitud juega un rol muy importante,
y explica la razón por la cual la densidad de probabilidad en el capı́tulo anterior ocupa un
D

lugar destacado. Uno de los empleos de la función de verosimilitud es definir estadı́sticas con
buenas propiedades.
AT

Definición 5.2.11. El estimador máximo verosı́mil de θ, denotado por θ̂MV está dado
por
θ̂MV = arg sup L(θ; X).
θ

Notar que θ̂MV es una estadı́stica, pues es una función medible de X. En ocasiones, hay
fórmulas explı́citas para θ̂MV , y en ocasiones el máximo es calculable sólo numéricamente
(pero sigue siendo de cualquier forma estadı́stica en el sentido de que no depende de θ sino
de X exclusivamente).

Ejemplo 5.2.12. En el ejemplo juguete, la función de verosimilitud es


P P
Xi
L(p; X) = p (1 − p)n− Xi
, para 0 ≤ p ≤ 1;

esto es, un polinomio en p. Para maximizar esta función, notar que


X   X 
log [L(p; X)] = Xi log p + n − Xi log(1 − p)
150 Capı́tulo 5. Inferencia Estadı́stica

y que
P P
∂ X i n − Xi X  X 
log L(p) = − = 0 ⇒ (1 − p) Xi − p n − Xi = 0
∂p p 1−p
X X X
⇒ Xi − p Xi − pn + p Xi = 0
P
Xi
⇒ θ̂MV = .
n
Se trata de un máximo, y coincide con la llamada proporción muestral.

16 T
La estadı́stica T (X) constituye un resumen de datos. Sin embargo, ¿Cuándo es efectivo
un resumen de los datos? Existen nociones diseñadas para poder establecer con precisión si

20 A
existe alguna pérdida de información por el hecho de utilizar T en lugar de la información
completa, X.
lio IM
Definición 5.2.13. Sea {f (x; θ) | θ ∈ Θ} un modelo estadı́stico paramétrico. Decimos que
una estadı́stica T es suficiente para el parámetro θ si existen dos funciones h, g ≥ 0 tales
que f (x; θ) = h(T (x), θ)g(x).
Ju -C

Una observación inmediata es que el estimador máximo verosı́mil es función de la es-


tadı́stica suficiente. Para ayudar a entender el significado ulterior de suficiencia, es interesante
D

señalar el siguiente resultado, que da una condición equivalente que dota de una interpreta-
ción alternativa y probabilı́stica a T.
AT

Teorema 5.2.14 (Fisher-Neyman). T es suficiente para θ ⇐⇒ P(X | T ) no depende de θ.


P
Ejemplo 5.2.15. En el ejemplo juguete, la estadı́stica T (X1 , . . . , Xn ) = Xi es suficiente
T n−T
para p. En efecto, poniendo h(t, p) = p (1 − p) y g(x) ≡ 1 se verifica la definición.
P
También se verifica, para x = (x1 , x2 , . . . , xn ) tal que xi = t :
P
P(X1 = x1 , . . . Xn = xn , Xi = t)
P(X = x | T = t) = P
P( Xi = t)
P(X1 = x1 , . . . Xn−1 = xn−1 , Xn = t − n−1
P
i=1 xi )
=
P(T = t)
t n−t
p (1 − p)
= n t
t
p (1 − p)n−t
1
= n ,
t
lo cual no depende de p. Notar, de paso, que en este caso se trata de la distribución uniforme
sobre valores posibles de x.
5.3. Tipos de problemas estadı́sticos 151

La interpretación coloquial es que si T es suficiente para θ, entonces el conocimiento de


X no aporta mayor información sobre θ que la que ya aporta por sı́ misma la estadı́stica T .
En el contexto de ATD, una pregunta interesante es la siguiente: el diagrama de persistencia,
visto como una estadı́stica T (X), función de una nube de datos, X, ¿es suficiente para algún
parámetro θ? Similarmente, los números de Betti calculados para el elemento t de una
filtración, ¿son suficientes para algún parámetro θ?

5.3. Tipos de problemas estadı́sticos

16 T
La premisa principal de las secciones anteriores es que se observa X ∼ P, y que la medida

20 A
de probabilidad P es desconocida. Antes de comenzar a plantear conceptos (y soluciones)
lio IM
a problemas de estadı́stica, es importante reconocer que puede haber distintos grados de
desconocimiento acerca de P, ası́ como distintas caracterı́sticas de P que son de interés bajo
distintas circunstancias. Existen, correspondientemente, varios tipos de problemas estadı́sti-
cos. En este módulo se abordarán dos problemas especı́ficos concretos: El problema conocido
Ju -C

como de estimación, y el llamado problema de prueba de hipótesis. Existen varios otros


problemas (clasificación, predicción, ordenamiento, agrupamiento, de diseño experimental,
y otros), pero nos limitaremos a estimación y pruebas de hipótesis en virtud de que una
D

gran mayorı́a de las aplicaciones de estadı́stica abarcan estos dos grandes tipos—incluyendo
problemas de inferencia estadı́stica que figuran en la literatura actual de ATD.
AT

5.3.1. Estimación
El problema de estimación es aquel en el cual el interés radica en usar X para inferir
el valor de alguna cantidad numérica que se quiere conocer para algún contexto dado. Di-
cha cantidad numérica pudiera ser el valor θ tal que P es la distribución Pθ en un modelo
paramétrico, o el valor (desconocido) de algún funcional estadı́stico τ (P) (detalles sobre fun-
cionales estadı́sticos más adelante). En cualquier caso, la incertidumbre inductiva radica en
el valor numérico que posee el valor desconocido.
Ejemplo 5.3.1. Un ejemplo de estimación en el ejemplo juguete. Supongamos que el interés
radica en inferir el valor numérico de p. Se trata de un problema de estimación paramétrica.
Ejemplo 5.3.2. Supongamos que el interés radica en estimar la función de distribución
F (x) para un valor fijo de x. Se plantea entonces un problema de estimación. Si el modelo
a considerar es paramétrico, dado por {F (x; θ)}, entonces esto se parafrasea en términos de
una estimación de θ, pues θ determina F (x; θ).
152 Capı́tulo 5. Inferencia Estadı́stica

Ejemplo 5.3.3. Un ejemplo en ATD. Supongamos que el interés radica en inferir el valor
numérico de números de Betti β0 , β1 , y β2 . Se trata de un problema de estimación. Los
números de Betti serı́an caracterı́sticas numéricas que corresponden a la medida de probabi-
lidad P que está dando lugar a la nube de datos observada, X. En particular, tendrı́an que
ver con el soporte de P.

5.3.2. Pruebas de hipótesis

16 T
Ahora, para describir el llamado problema de pruebas de hipótesis, supongamos que existe
un modelo estadı́stico H predeterminado y con un significado notable bajo el contexto dado.

20 A
Si el interés se limita a inferir acerca del hecho (desconocido) P ∈ H con base en X, se plantea
un problema de prueba de hipótesis. La incertidumbre inductiva radica en las posibilidades
lio IM
P ∈ H (sı́ o no). El el contexto de modelos paramétricos, las hipótesis se pueden parafrasear
en términos de subconjuntos del espacio paramétrico Θ. En este último caso es común usar
la notación “dos puntos”, consistente en anotar el subconjunto concreto de valores de θ que
integran la hipótesis. Ejemplos de esta notación son H : θ ≤ 2, H : 1 ≤ θ < 2, y H : θ = 2.
Ju -C

Ejemplo 5.3.4. En el ejemplo juguete (visto como encuesta electoral). Si un partido no logra
2.5 % pierde su registro. El interés radica en inferir si p < 0.025. La pregunta previa a la
D

elección no es “¿Cuánta votación obtendremos?” sino más bien “¿Perderemos el registro?”.


En términos del modelo paramétrico, la hipótesis es
AT

 P P
H = p Xi (1 − p)n− Xi : p ∈ (0, 0.025) ,

lo cual es más sucinto representar en términos del subconjunto (0, 0.025) ⊂ Θ, y la notación
H : 0 < p < 0.025. Algo muy importante en este ejemplo es destacar que la hipótesis
(0, 0.025) es “predeterminada y con un significado notable”.
Ejemplo 5.3.5. Ejemplo en ATD. Se observa un diagrama de persistencia D. Una pregunta
de prueba hipótesis serı́a “¿D proviene de un objeto que posee diagrama diagonal?”. Notar
que esta pregunta difiere de “¿Cuál es D?”.
Ejemplo 5.3.6. Otro ejemplo en ATD. “¿El objeto tiene más de una componente conexa?, o
equivalentemente ¿β0 > 1?” Quien haya planteado tal pregunta, otorga un significado notable
a esa condición.
Ejemplo 5.3.7. Otro ejemplo en ATD. Se obtienen diagramas D1 , D2 , . . . , DN vı́a muestras
independientes de varios individuos. Si la pregunta es “¿Todos los diagramas provienen del
mismo objeto topológico?” se plantea una pregunta de prueba de hipótesis. Tendrı́a significado
notable por ejemplo, si se trata de pacientes sanos y la topologı́a se está utilizando para
detectar cambios de formas de órganos para cierta patologı́a.
5.4. Estimación 153

Los dos problemas mencionados son fundamentalmente diferentes en estadı́stica ma-


temática en virtud de que la incertidumbre inductiva reside en espacios diferentes. La re-
levancia de ello será que para cuantificar incertidumbre inductiva—de lo cual no hemos
hablado todavı́a—los conceptos y los métodos serán ad hoc para cada situación. Es común
razonar que si se resuelve un problema de estimación, que entonces la solución al problema
de hipótesis vendrı́a dada de manera gratuita. El razonamiento es que si infiero el valor de θ
entonces sabrı́a si Pθ ∈ H es cierto o no lo es. Este razonamiento es falaz debido a una razón
muy sutil: Que la respuesta a la pregunta de estimación no es determinı́stica, o 100 % certera.
Se trata de una inferencia que contiene posible error ineludible, que serı́a retransmitido hacia

16 T
el intento de responder en el segundo paso la pregunta de prueba de hipótesis.

5.4. Estimación
20 A
lio IM
5.4.1. Estimación paramétrica puntual
Ju -C

Asumiremos por el momento que el objetivo legı́timo es estimación de θ en un modelo


paramétrico, para fines de motivar e ilustrar conceptos, resultados matemáticos, y ejemplos.
Hay varias propuestas en estadı́stica matemática para abordar el problema de estimación.
D

Nos limitaremos a dos ideas primordiales (por ser ideas que ya aparecen empleadas en lite-
ratura de ATD): estimación puntual y estimación vı́a intervalos de confianza.
AT

Definición 5.4.1. Un estimador puntual para el parámetro θ es una estadı́stica T (X)


con valores en Θ. Es una función general de X. Si T (X) es un estimador de θ, es usual que
se emplee la notación θ̂ en lugar de T (X).
Cuando se calcula T (X) para la muestra especı́fica observada, su valor numérico se de-
nomina estimación puntual. En tal caso, se suele utilizar la notación T (x) para reforzar el
que se trata de una observación numérica especı́fica de X. De esta manera, T (X) es un
vector aleatorio en Rd , mientras que T (x) es un vector en Rd . Similarmente, esta notación
“mayúscula vs. minúscula” se aplica a la función de verosimilitud: L(θ; X) es un proceso
estocástico indexado por θ, mientras que L(θ; x) es una función fija de θ.
A un estimador puntual se le pueden requerir una o varias propiedades deseables. Debido
a que algunas de estas propiedades involucran un tamaño de muestra, n, es también usual
que se denote un estimador puntual como Tn o como θ̂n .
Definición 5.4.2 (Propiedades clásicas de estimadores). Decimos que la estadı́stica Tn ba-
sada en n observaciones es consistente si
Pr
Tn −→ θ, ∀θ ∈ Θ.
154 Capı́tulo 5. Inferencia Estadı́stica

Decimos que la estadı́stica Tn es insesgada para θ si

E(Tn ) = θ, ∀θ ∈ Θ.

Decimos que Tn es asintóticamente normal si


√ Tn − θ L
n −→ N(0, 1)
sn (θ)

para alguna función sn > 0.

16 T
P
Ejemplo 5.4.3. En el ejemplo juguete, la estadı́stica Xi /n, obtenida en su momento como

20 A
el llamado estimador máximo verosı́mil para p, es insesgada, consistente, y asintóticamente
normal. En efecto:
lio IM
P 
Xi
E = p,
n
P
Xi Pr
Ju -C

−→ p
n
por la ley de los grandes números y
D

P 
Xi
√ n
− p L
np −→ N(0, 1)
AT

p(1 − p)

por el teorema central del lı́mite.

De hecho, en estadı́stica matemática las propiedades de consistencia y asintoticidad nor-


mal que se han verificado para el estimador máximo verosı́mil no son privativas de este ejem-
plo en particular. Uno de los resultados importantes para el estimador máximo verosı́mil es
el siguiente.

Proposición 5.4.4. Para una muestra aleatoria i.i.d. de tamaño n proveniente de un modelo
estadı́stico {f (x; θ) | θ ∈ Θ} con ciertas condiciones técnicas de regularidad (que incluyen
que el soporte de f (x; θ) no dependa de θ, e intercambialidad entre diferenciación yvalor
Pr √  L
esperado), sea θ̂n el estimador máximo verosı́mil. Entonces θ̂n −→ θ y n θ̂n − θ −→
 2 
N(0, I −1 [θ]), donde I (θ) = −E ∂∂2 θ log f [X; θ] .

La cantidad I (θ) recibe el nombre de Información de Fisher. La demostración del resul-


tado recurre a expansiones de Taylor y resultados de convergencia tales como la ley de los
5.4. Estimación 155

grandes números, el teorema central


 del lı́mite, y el teorema de Slutsky. El resultado indica
√  p
como consecuencia que n θ̂n − θ / I −1 [θ] es asintóticamente una cantidad pivotal.
Con relación a este ejemplo
P juguete, puede enunciarse un resultado adicional interesante
respecto al estimador p̂n = Xi /n :

Proposición 5.4.5. Si S(X1 , . . . , Xn ) es cualquier otra estadı́stica que dé lugar a un esti-
mador insesgado para p (por ejemplo X1 o (X1 + X2 )/2), entonces
P 
Xi

16 T
Var ≤ Var(S).
n

20 A
P
Se dice entonces que Xi /n es un estimador insesgado de varianza mı́nima, y esto cons-
tituye un ejemplo del concepto de optimalidad en estadı́stica matemática. El significado de
lio IM
ello es que p̂n tiene la menor variabilidad teóricamente posible, o bien la menor incertidumbre
inductiva. El resultado se sigue de un teorema conocido como cota inferior de Cramer-Rao
(ver Roussas [117] o Wasserman [128]), y en su formulación matemática precisa juega un rol
Ju -C

también la misma Información de Fisher antes mencionada.


El valor T (X) invocado como estimación de θ tiene necesariamente incertidumbre induc-
tiva, debido a la aleatoriedad de X. Es decir, T (X) puede bien ser distinto a θ. Un asunto
D

importante es cómo poder cuantificar la magnitud de esta incertidumbre, o bien la “cali-


dad” del valor T (X). El reto es poderlo hacer sin tener que recurrir al valor desconocido
AT

de θ (porque si se conociera θ no tendrı́a interés en inferir su valor, y si lo conociera uno


pudiera simplemente calcular |T (X) − θ| para cuantificar de manera retrospectiva el error
cometido). El comentario anterior acerca de estimación insesgada de varianza mı́nima sirve
también para ilustrar que la varianza es en sı́ misma un criterio para evaluar la precisión del
estimador puntual T . A menor varianza, mayor precisión.

5.4.2. Estimación por subconjuntos


El concepto de estimar θ con un solo valor T (X) (estimación puntual) es en ocasiones
útil y necesario. Sin embargo, a la luz de que hay presente incertidumbre inductiva, es más
interpretable un concepto de estimación por intervalos (o más generalmente en dimensiones
mayores que uno, por regiones). En lugar de desarrollar la teorı́a general, procederemos por
vı́a de ilustración en el ejemplo de juguete.

Teorema 5.4.6.P Sean X1 , X2 , . . . , Xn observaciones independientes con distribución Ber(p).


Sea p̂ = (1/n) Xi (el estimador máximo verosı́mil para p). Sea α ∈ (0, 1) fijo, Φ la función
156 Capı́tulo 5. Inferencia Estadı́stica

Rx
de distribución normal estándar dada por Φ(x) = −∞ √12π exp(−u2 /2) du y sea zα/2 tal que
Φ(zα/2 ) = 1 − α/2. Definir el intervalo (aleatorio) dado por
r r !
p̂(1 − p̂) p̂(1 − p̂)
In = p̂ − zα/2 , p̂ + zα/2 .
n n

Entonces
P(In 3 p) −→ 1 − α, ∀p.
n→∞

16 T
Pr
Demostración. Por consistencia sabemos ya que p̂ −→ p y por asintoticidad normal sabemos

20 A
que para todo p, r
p(1 − p) L
lio IM
(p̂ − p)/ −→ Φ.
n
Por un teorema de Slutsky obtenemos también que para cada p,
Ju -C

r
p̂(1 − p̂) L
(p̂ − p)/ −→ Φ.
n
D

Esto lo que quiere decir es que


AT

r !
p̂(1 − p̂)
P −zα/2 < (p̂ − p)/ < zα/2 −→ 1 − α.
n
q
Pero el evento −zα/2 < (p̂ − p)/ p̂(1−p̂)
n
< zα/2 es equivalente a
r r
p̂(1 − p̂) p̂(1 − p̂)
p̂ − zα/2 < p < p̂ + zα/2 .
n n

Al intervalo In , que depende sólo de X, se le llama intervalo (asintótico, en este caso)


de confianza 1 − α. La idea primordial es que uno puede fijar α, y provocar cobertura
(es decir, que suceda el evento {In 3 p}) con probabilidad 1 − α no importa cuál sea el
valor (desconocido) de p. Es muy importante destacar la importancia de que la aseveración
de cobertura se establece ∀p en la proposición. La razón es que si fuese válida sólo para un
subconjunto de valores en (0, 1) y no para los demás, entonces el resultado serı́a inútil porque
5.4. Estimación 157

estamos bajo la premisa de que el valor de p es desconocido. Tras repasar la demostración,


uno se dará cuenta que estuvo basada en una importante noción: Que
P 
Xi
√ n
− p
np
p(1 − p)
es asintóticamente una cantidad pivotal.
La interpretación correcta es que de repetir muchas veces la obtención de X, el intervalo
In cubre el verdadero valor de p con probabilidad 1 − α. Todo junto, este dispositivo cumple
la función de cuantificar incertidumbre acerca de p: El ancho del intervalo tiene que ver con la

16 T
precisión de la estimación, y la confianza tiene que ver con la seguridad que se tiene de haber

20 A
estimado p dentro de esos lı́mites de precisión. No es posible lograr muy alta seguridad y gran
precisión simultáneamente, porque ambos se encuentran relacionados entre sı́. El intervalo
lio IM
formado por I = [0, 1] darı́a lugar a un intervalo de confianza 100 % pero la precisión que
resulta de tomarlo no es útil ni informativa. En el otro extremo estarı́a un intervalo muy
angosto, digamos de semiancho 0.00001, con lo cual la confianza resultarı́a ser muy baja.
La forma en que se utilizó la asintoticidad normal para hacer una aseveración acerca de p
Ju -C

da cuenta de porqué dicha asintoticidad es una propiedad deseable en un estimador puntual,


que en este caso fue para habilitar la construcción de un intervalo de confianza. En general,
una región de confianza es un conjunto aleatorio, que depende sólo de X, que cumple la
D

condición de cobertura. Lo que hemos ilustrado con el ejemplo de juguete es una región de
confianza en dimensión uno; de allı́ que lo hayamos denominado apropiadamente intervalo
AT

de confianza.
Observación 5.4.7. Una observación sutil, pero importante para la plena comprensión de
este instrumento conocido como intervalo de confianza. Para describir la propiedad de co-
bertura, se ha escrito con toda intención In 3 p en lugar de p ∈ In . Lo primero se lee “el
intervalo In cubre a p” y lo segundo “p cae en In ”. Lo segundo no es del todo correcto, debido
a que p es una constante fija, desconocida, que no tiene la capacidad de “caer” en ninguna
parte. Más bien, In contiene o no contiene a p, y es el sujeto gramatical en la aseveración
In 3 p.
En estadı́stica matemática existe el llamado enfoque bayesiano, que con ciertas premisas
produce interpretaciones muy distintas para los instrumentos de inferencia. La metodologı́a
bayesiana no será abordada en el presente módulo. A la fecha no ha sido desarrollada para
abordar problemas en ATD.
Definición 5.4.8. Si θ ∈ Θ ⊂ Rd es un parámetro d-dimensional, decimos que un subcon-
junto R(X) de Θ es una región de confianza 1 − α si para todo θ se cumple
P(θ 3 R) = 1 − α.
158 Capı́tulo 5. Inferencia Estadı́stica

Si se cumple sólo P(θ 3 R) −→ 1 − α cuando n → ∞ decimos que es una región asintótica


de confianza. La notación R(X) enfatiza que la región sólo depende de X y que no depende
de cantidades desconocidas.

5.4.3. Estimación de otras cantidades: funcionales estadı́sticos


Lo expuesto respecto a estimación está fraseado en términos de una cantidad de interés

16 T
que es el parámetro real, θ, de un modelo paramétrico. Las nociones de estimación también
se aplican para cantidades que son de otra ı́ndole.

20 A
Definición 5.4.9. Sea P una medida de probabilidad. Un funcional estadı́stico τ es una
lio IM
función de P en R. Escribimos τ (P), y si la medida P está caracterizada por una función
de distribución F, escribimos τ (F ) abusando de notación (de la misma manera en que nos
referimos a un modelo estadı́stico M como un conjunto de medidas de probabilidad o un
Ju -C

conjunto de funciones de distribución).

Ejemplos de funcionales estadı́sticos:


D

R
τ (F ) = x dF (x) (la media asociada a F ).
AT

R
Más generalmente, τ (F ) = xk dF (x) (el k-ésimo momento).
R R k
τ (F ) = x − xdF (x) dF (x) (el k-ésimo momento central).

τ (F ) = F (x) para x ∈ R fijo.

τ (F ) = F −1 (p) para p ∈ (0, 1) fijo (el p-ésimo cuantil).

En ocasiones, un parámetro θ es ya directamente un funcional estadı́stico. Por ejemplo,


si el modelo estadı́stico es {Poisson(λ) | λ > 0} , entonces λ es el primer momento (ası́ como
el segundo momento central) de la distribución que corresponde al valor paramétrico λ.
La pertinencia de haber hecho hincapié en funcionales en un contexto de ATD viene de lo
siguiente: Que los números de Betti, βi , a la resolución t (i.e. los ingredientes fundamentales
de un diagrama de barras) no son parámetros, sino funcionales. El diagrama de persistencia
teórico es algo similar a un funcional, aunque con valores en un espacio de diagramas de
persistencia.
5.4. Estimación 159

Definición 5.4.10. Si X1 , X2 , . . . , Xn es una muestra de variables aleatorias, definimos la


función de distribución empı́rica como
n
1X
F̂n (x) = 1(Xi ≤x)
n i=1

para x ∈ R.

Existe una definición más general para cuando la muestra es de vectores aleatorios y

16 T
x ∈ Rd . Se relaciona con la llamada distribución empı́rica, y tiene que ver con la medida de
probabilidad que asigna probabilidad 1/n a cada uno de los valores contenidos en la muestra.

20 A
(Este concepto de distribución empı́rica sı́ aparece en literatura de ATD, como en Chazal
[35]). En lo que sigue, continuamos con la restricción al caso d = 1 por facilidad.
lio IM
Teorema 5.4.11. Sean X1 , X2 , . . . , Xn variables aleatorias independientes, cada una con
función de distribución F. Entonces:
Ju -C

1. Para todo x ∈ R y n ∈ N fijos,

nF̂n (x) ∼ Bin [n, F (x)] ,


D

y por consiguiente
AT

h i
E F̂n (x) = F (x)
y
h i F (x) [1 − F (x)]
Var F̂n (x) = .
n
Pr
2. Para todo x ∈ R, F̂n (x) −→ F (x), y

√ F̂n (x) − F (x) L


np −→ N(0, 1).
F (x) [1 − F (x)]

Un resultado de convergencia, mucho más fuerte que el anterior formulado para cada
x fija, es el siguiente. Algunos autores se refieren a él como el teorema fundamental de
estadı́stica matemática. La razón es que muestra que el problema de inferir una función de
distribución desconocida siempre posee solución. Ver Shorack & Wellner para formulaciones
aun más generales que la que se enuncia enseguida.
160 Capı́tulo 5. Inferencia Estadı́stica

Teorema 5.4.12 (Glivenko-Cantelli). Si X1 , X2 , . . . , Xn son variables aleatorias indepen-


dientes, cada una con función de distribución F , entonces

c.s.
sup F̂n (x) − F (x) −→ 0.

x

Si F̂n (x) estima de alguna manera a F (x), y el interés radicara en realizar estimación de
una cantidad τ = τ (F ), entonces la siguiente definición es natural para producir un estimador
de τ. Serı́a posible preguntarse por nociones de consistencia, insesgadez, y asintoticidad
normal que fueron discutidas para estimación de un parámetro θ.

16 T
Un resultado interesante que da un detalle acerca de la velocidad con la que se consigue

20 A
la convergencia en probabilidad implicada por el resultado anterior es el siguiente. En Was-
serman (2005) se explica su relevancia para la construcción de bandas de confianza para la
lio IM
función de distribución F (x), que son conceptualmente similares a la estimación por vı́a de
subconjuntos descrita—los subconjuntos son de funciones.

Teorema 5.4.13 (Dvoretzky-Kiefer-Wolfowitz). Si X1 , X2 , . . . , Xn son variables aleatorias


Ju -C

independientes, cada una con función de distribución F , entonces para cualquier ε > 0,
 
2
P sup F̂n (x) − F (x) > ε ≤ 2e−2nε .

D

x
AT

Definición 5.4.14. Sea τ = τ (F ) un funcional estadı́stico. El estimador de τ definido por


τ̂ = τ (F̂n ) recibe el nombre de estimador bootstrap de τ .

1. Si τ (F ) = x dF (x), entonces τ̂ = n1
R P
Ejemplo 5.4.15. Xi = X̄n . Este estimador
se llama media muestral.

2. Más generalmente, si τ (F ) = xk dF (x), entonces τ̂ = n1


R P k
Xi . Este estimador se
llama k-ésimo momento empı́rico.
2
x − x dF (x) dF (x), entonces τ̂ = n1 (Xi − X¯n )2 , estadı́stica conocida
R R P
3. Si τ (F ) =
como varianza muestral.

4. Si τ (F ) = F −1 (p), τ̂ se llama el p-ésimo cuantil empı́rico. Nota: Si F no es una función


invertible, de cualquier forma se define F −1 (p) como ı́nf {x ∈ R | F (x) ≥ p} .
R
5. Si τ (F ) = etx dF (x) para t en una vecindad de 0, τ̂ se llama función generadora de
momentos empı́rica en t.
5.4. Estimación 161

6. Si τ (F ) = var(X̄n ) y X1 , X2 , . . . , Xn son i.i.d. entonces se calcula por teorı́a de proba-


(F ) = σ 2 /n, donde σ 2 = Var(Xi ). El estimador bootstrap de esta cantidad
bilidad que τ P
1
serı́a τ̂ = n2 (Xi − X̄n )2 .
  
7. Si τ (F ) = Var sen X̄n + máx [X1 , . . . , Xn ] , entonces no serı́a fácil dar con una ex-
presión analı́tica cerrada para τ . ¿Cómo calcular entonces τ (F̂n )?
Se esperarı́a que τ (F̂n ) fuera consistente para τ (F ) si el funcional τ es lo suficientemente
bien comportado. Esto constituye el objeto de estudio de una disciplina conocida como teorı́a
de procesos empı́ricos (ver Shorack & Wellner [119]).

16 T
Uno generalmente relaciona la noción de bootstrap con la computadora. En su concepción
básica, la computadora no juega rol alguno si es que el funcional τ (F̂n ) es conocido, como lo

20 A
fue para algunos de los ejemplos anteriores, en los que el cálculo de τ (F̂n ) se reduce a una
simple sustitución. La conexión cultural con la computadora viene en casos en los que τ (F̂n )
lio IM
no es conocido analı́ticamente, o su cálculo representa gran dificultad, como en el último de
los ejemplos anteriores.
Ju -C

5.4.4. Bootstrap computacional


D

El método conocido como bootstrap (ver Efron & Tibshirani [49]) viene motivado por
el siguiente problema: Se cuenta con una muestra X, con distribución F (desconocida), y el
AT

interés radica en estimación de la cantidad τ (F ) para algún τ de interés primordial. Si la


forma analı́tica de τ fuese conocida, entonces un estimador de τ (F ) se obtendrı́a sencillamente
evaluando τ (F̂n ) para algún estimador de la función de distribución F que fuese consistente
en algún sentido. (Para muestreo i.i.d. F, la función de distribución empı́rica es un ejemplo
de tal estimador de F ). Sin embargo, si la forma de τ no es accesible ni conocida, el problema
se convierte en cómo calcular τ (F̂n ).
Supongamos, para fines de ilustración, que el interés radica en estimar

τ (F ) = Var [T (X1 , . . . , Xn )] ,

donde T es una estadı́stica. También pudiera ser tal cantidad de interés E(T ), o FT (x), o
FT−1 (p), o cualquier otra, pero para el discurso que sigue usaremos Var(T ).
Antes de postular el llamado proceso de bootstrap, hagamos una conexión entre el con-
cepto de simulación de Monte Carlo para calcular τ (F ) = Var(F ), suponiendo que X1 , . . . , Xn
son observaciones i.i.d. con función de distribución fija (conocida) F . Un ejercicio académico
de simulación consistirı́a de realizar el siguiente algoritmo:

1. Simular X∗1 , . . . , X∗n i.i.d. F, y calcular T ∗ = T (X∗1 , . . . , X∗n ).


162 Capı́tulo 5. Inferencia Estadı́stica

2. Repetir el Paso 1 un número grande de veces, M, para conseguir T1∗ , . . . , TM



.
= (1/M ) M

P ∗ 2
PM ∗
3. Calcular τ̂M i=1 (Ti − T̄M ) , donde T̄M = (1/M ) i=1 Ti .

Por la ley de los grandes números y convergencia de momentos empı́ricos se tiene que
M
1 X ∗ Pr
(T − T̄M )2 −→ Var(T ) = τ (F ).
M i=1 i

La convergencia se cumple no obstante el valor τ (F ) sea desconocido.

16 T
Para calcular aproximadamente τ (F̂n ) basta sustituir F por F̂n en el algoritmo anterior
en el Paso 1, para obtener el llamado bootstrap no-paramétrico:

20 A
1. Simular X∗1 , . . . , X∗n i.i.d. F̂n , y calcular T ∗ = T (X∗1 , . . . , X∗n ).
lio IM

2. Repetir el Paso 1 un número grande de veces, M, para conseguir T1∗ , . . . , TM .

= (1/M ) M ∗ 2 M ∗
P P
3. Calcular τ̂M i=1 (Ti − T̄M ) , donde T̄M = (1/M ) i=1 Ti .
Ju -C

La clave radica en simular en la computadora muestras i.i.d. de tamaño n de la distri-


bución empı́rica F̂n . Tras pensar un poco, uno se da cuenta que esto es equivalente a que
D

cada X∗i se obtiene de muestrar con distribución uniforme y con reemplazo sobre los valores
observados {X1 , X2 , . . . , Xn } . Esto es como “muestrear de la muestra” y por ello el méto-
AT

do bootstrap es un método contenido en una metodologı́a general llamada re-muestreo (ver


Lunneborg [91]).
La idea pareciera ser paradójica, pues aparentemente se obtiene más información que la
muestra original X1 , X2 , . . . , Xn conlleva por medio de un proceso de obtención de muestras
artificiales en la computadora. La paradoja se explica notando que no se trata más que de un
método numérico para aproximar τ (F̂n ). Se invoca a τ (F̂n ) como un estimador consistente
Pr ∗
de τ (F ), lo cual significa que τ (F̂n ) −→ τ (F ). Por otra parte, la cantidad τ̂M aproxima a
n→∞
∗ Pr
τ (F̂n ) en el sentido τ̂M −→ τ (F̂n ) para todo n fijo. La paradoja nace del malentendido
M →∞

∗ Pr
τ̂M −→ τ (F ).
M →∞

Existe también la idea de bootstrap paramétrico. Aplica cuando se tiene un modelo es-
tadı́stico {F (x; θ) | θ ∈ Θ} , y la muestra original da lugar a un estimador consistente de θ
dado por θ̂ (por ejemplo, el estimador máximo verosı́mil de θ). El algoritmo se modifica
nuevamente en el Paso 1, generando muestras artificiales con la distribución F (x; θ̂) en lugar
de F̂n :
5.4. Estimación 163

1. Simular X∗1 , . . . , X∗n i.i.d. F (x; θ̂), y calcular T ∗ = T (X∗1 , . . . , X∗n ).



2. Repetir el Paso 1 un número grande de veces, M, para conseguir T1∗ , . . . , TM .

= (1/M ) M

P ∗ 2
PM ∗
3. Calcular τ̂M i=1 (Ti − T̄M ) , donde T̄M = (1/M ) i=1 Ti .

Ejemplo 5.4.16. En el ejemplo que hemos llamado juguete, supongamos que T = p̂ y


que el interés radica en estimar Var(p̂). Por razones teóricas hemos ya visto que Var(p̂) =
p(1 − p)/n. Sin embargo, por motivos didácticos podemos suponer que tal fórmula no fuese
conocida. Los métodos bootstrap aplicarı́an para obtener estimaciones de Var(p̂) con base

16 T
en una muestra X1 , . . . , Xn . El no-paramétrico conlleva simular mediante remuestreo de la

20 A
muestra original, mientras que el paramétrico simuları́a variables Bernoulli independientes
con probabilidades p̂. En ambos casos, se obtendrı́an cantidades que aproximan a p̂(1 − p̂)/n.
lio IM
Más aun, en esta situación ambos métodos (paramétrico y no-paramétrico) consisten de
mecanismos equivalentes para generar observaciones X∗1 , . . . , X∗n .

Si la caracterı́stica de interés fuese otra diferente a la varianza utilizada en la ilustración,


Ju -C

entonces en el Paso 3 habrı́a que sustituir por un estimador consistente de esa caracterı́stica.
Por ejemplo, si el interés fuese E(T ) se podrı́a utilizar la media muestral de las Ti∗ .
La noción general de bootstrap será utilizada por Chazal [35], y Fasy et al. [52] para
D

obtener estimaciones numéricas de cantidades relacionadas con diagramas de persistencia en


ATD. La caracterı́stica de interés en aquella situación será un cuantil de la distribución de
AT

cierta estadı́stica T en el contexto de ATD y en el Paso 3 se utilizarı́a un cuantil empı́rico



de los valores T1∗ , . . . , TM . Algunos de esos detalles se verán en una sección más adelante.

5.4.5. Estimación de densidades


Cambiamos a un problema estadı́stico de estimación que tiene aplicaciones en ATD muy
directas, especialmente para la construcción de filtraciones. Supongamos que X1 , . . . , Xn es
una muestra de puntos que tienen alguna densidad f (x) absolutamente continua que es
desconocida. El objetivo de la disciplina llamada estimación de densidades (ver Silverman
[121]), consiste del estudio de estadı́sticas que sean estimadores fˆ(x) de f (x) para todo x.
Un histograma es de facto un estimador de densidad formal, no obstante su primera
introducción suele ocurrir aun en educación elemental. En efecto, el estimador histograma
no es más que una función escalonada fˆ(x) tal que si n → ∞ y el número de clases con la
Pr
cual se construye también va a infinito, entonces fˆ(x) −→ f (x) ∀x.
n→∞
La clase de estimadores kernel (o núcleo, en español) es una clase general muy útil y
conveniente de estimadores de densidad. Se describe a continuación para dimensión uno.
164 Capı́tulo 5. Inferencia Estadı́stica

RDefinición 5.4.17. Una función K : R → R simétrica alrededor de cero, y tal que


K(u) du = 1 recibe el nombre de kernel (o núcleo). Notar que no necesariamente se pide
K ≥ 0, por lo que no necesariamente es una función de densidad absolutamente continua.
Sea X1 , . . . , Xn una muestra de variables aleatorias. Para toda x ∈ R se define el esti-
mador de densidad tipo kernel por
n  
ˆ 1 X Xi − x
fK,h (x) = K ,
nh i=1 h

16 T
donde h > 0 es una constante llamada ancho de banda.
La heurı́stica de este estimador es poner una masa de probabilidad de ancho h sobre cada

20 A
uno de los puntos obtenidos en la muestra. Si K es continua, entonces el estimador kernel es
una función continua de x (cosa que no sucede con el estimador histograma). El parámetro
lio IM
h juega el papel de un parámetro de suavizamiento, en el sentido de que su valor controla
el grado de rugosidad de la función fˆK,h (x) (valor alto de h corresponde a función suave, y
valor pequeño a función rugosa).
Ju -C

Una primera caracterı́stica que puede analizarse fácilmente es la noción de consistencia:


Proposición 5.4.18. Sean X1 , . . . , Xn observaciones independientes e idénticamente dis-
tribuidas con función de densidad absolutamente continua f (x) y x ∈ R fijo. Bajo ciertas
D

condiciones sobre K y f se cumple que


AT

Pr
fˆK,h (x) −→ f (x),
n→∞, h↓0

es decir, el estimador kernel es consistente para la densidad f (x).


Demostración. Para x fijo, y h > 0 fijo, por la ley de los grandes números se cumple
n      Z ∞  
1 X Xi − x Pr 1 X−x 1 u−x
K −→ E K = K f (u) du
nh i=1 h n−→∞ h h −∞ h h
Z ∞
= K(y)f (x + hy) dy.
−∞

Tomando ahora el lı́mite cuando h ↓ 0, se obtiene que


Z ∞ Z ∞ Z ∞
K(y)f (x + hy) dy −→ K(y)f (x) dy = f (x) K(y) dy = f (x)
−∞ h↓0 −∞ −∞

por ser K un kernel. (Entre las premisas del resultado se ponen condiciones que permitan
realizar el intercambio entre integral y lı́mite aludido).
5.5. Pruebas de hipótesis 165

En la teorı́a de estimación de densidades se estudian también métodos óptimos para la


selección del ancho de banda h, para la selección del kernel K, ası́ como modificaciones para
tomar en cuenta diversas complicaciones.
La generalización a mayores dimensiones de un estimador kernel basado en una muestra
de vectores aleatorios X1 , . . . , Xn de dimensión d está dada por
n
1 X
fˆK,H (x) = K H −1/2 [x − Xi ] ,

n |H|1/2 i=1

16 T
donde H es una matriz cuadrada, R Rsimétrica y definida positiva, y K es un kernel simétrico
multivariado (lo cual significa · · · K(x1 , . . . , xd )dx1 · · · dxd = 1). Cuando H toma la forma

20 A
diag(h21 , . . . , h2d ), y K la forma K1 (x1 ) · · · Kd (xd ), con cada Ki un kernel univariado, se obtiene
una forma frecuentemente utilizada dada por
lio IM
n    
1 X X i1 − x 1 X id − x d
fˆK,h (x) = K1 · · · Kd .
nh1 h2 · · · hd i=1 h1 hd
Ju -C

La noción de una densidad estimada con una nube de puntos ha sido invocada para
asuntos de ATD (ver Chazal, y Fasy et al.). Sea fˆ(x) un estimador de densidad multivariada
basado en observaciones de una nube de datos P. Se definen los conjuntos de subnivel dados
D

por
AT

n o
Lu = x ∈ P | fˆ(x) ≤ u .

Claramente, Lu ⊆ Lu0 si u < u0 , lo cual es afı́n con la noción de filtración. Luego, el estimador
de densidad es instrumental para construir filtraciones alternativas a las filtraciones obtenidas
por incrementar radios de bolas alrededor de puntos x ∈ P.

5.5. Pruebas de hipótesis

5.5.1. Consideraciones básicas


Pasamos ahora a considerar soluciones para el problema de cuantificar incertidumbre
inductiva para el problema denominado prueba de hipótesis. Al igual que para estimación,
es un asunto controversial en teorı́a estadı́stica el establecer una forma correcta y única para
hacerlo. Existen diversas propuestas para abordarlo, y la razón inherente es debida a que
pueden proponerse diversas filosofı́as para realizar un razonamiento inductivo. Esto contrasta
166 Capı́tulo 5. Inferencia Estadı́stica

con un razonamiento deductivo, en el cual no se suscita polémica porque el resultado de una


deducción permanece invariante; lo único que puede cambiar es la vı́a de la deducción. (Por
ejemplo, dos maneras diferentes para demostrar un mismo teorema.)
No es el propósito en este momento despertar ni atender dicha controversia. En estadı́stica
matemática ello da lugar a debates entre la escuela de Neyman-Pearson y la escuela baye-
siana, por mencionar un ejemplo notable, histórico y actual. En este módulo se abordarán
nociones con el objeto de ilustrar los tipos de razonamientos a la luz de incertidumbre in-
ductiva, procurando cubrir conceptos que ya están siendo utilizados en la literatura de ATD.
En Robinson & Turner [116], esta metodologı́a es referida como NHST (null hypothesis

16 T
significance testing) y las ideas generales serán expuestas a continuación.
Supongamos que se ha planteado un problema legı́timo de prueba de hipótesis en el senti-

20 A
do descrito con anterioridad en la Sección 5.3. En esa ocasión, definimos una hipótesis como
un subconjunto de modelos estadı́sticos. Ahora nos restringiremos al caso llamado hipóte-
lio IM
sis simple, que consiste en una hipótesis integrada por un solo elemento. La nomenclatura
histórica es hipótesis nula, para esta hipótesis simple. La nomenclatura proviene de hipótesis
históricamente formuladas para comparar dos tratamientos entre sı́; la hipótesis de que am-
Ju -C

bos tratamientos son iguales se traduce a que la diferencia entre ellos es cero (de allı́ hipótesis
nula). El objetivo general es evaluar la plausibilidad de la hipótesis nula a la luz de datos
observados, X.
D

Ejemplo 5.5.1. En el ejemplo juguete, la hipótesis formada por el único valor, p = 1/2 es
una hipótesis simple. La hipótesis formada por modelos indexados por el conjunto [0, 1/2]
AT

no serı́a simple. Para entender la intención de la palabra plausibilidad, podemos aprovechar


también este mismo ejemplo. Si la muestra observada resulta en

X = (1, 1, 1, 1, 0, 1, 1, 1, 1, 1)

entonces la plausibilidad de la hipótesis p = 1/2 es baja, mientras que si la muestra hubiera


sido
X = (1, 0, 1, 1, 1, 0, 0, 1, 0, 1),
entonces la hipótesis p = 1/2 pasarı́a a ser más plausible. El punto de la teorı́a estadı́stica
es formalizar y cuantificar este razonamiento heurı́stico.

Ejemplo 5.5.2. En el contexto de ATD, Robinson & Turner [116] formulan hipótesis en
el lenguaje de diagramas de persistencia. La hipótesis formada por identidad entre dos o
más grupos de diagramas de persistencia es una hipótesis simple porque contiene un solo
elemento: la topologı́a es la misma entre grupos. Nótese el significado especial que tiene la
identidad entre grupos: que no hay diferencias entre pacientes sanos y enfermos, por ejemplo.
5.5. Pruebas de hipótesis 167

Sea H una hipótesis nula simple. Los elementos básicos para realizar una prueba de
significancia son dos (ver Sprott [123], Capı́tulo 6, o Wasserman [128]):

Una estadı́stica D(X) ≥ 0, que cumple tener la propiedad de ordenar muestras por
grado de evidencia en contra de la hipótesis nula. Esto significa, que si D(X1 ) ≥ D(X2 )
entonces la muestra X1 tiene más evidencia en contra de H que la muestra X2 .

Una función de distribución de probabilidad para D bajo la presunción de H. Esta


distribución se llama la distribución nula de D, denotada por F0 .

16 T
Cabe notar que el segundo ingrediente, la distribución F0 , no es más que la llamada

20 A
distribución muestral de D bajo H, según la nomenclatura establecida en la Definición 5.2.5.
lio IM
Ejemplo 5.5.3. En el ejemplo juguete, supongamos que la hipótesis nula de interés es
H : p = 1/2. Un ejemplo de una estadı́stica D que ordena muestras serı́a
Ju -C

X n
D(X) = Xi − .

2
Otro ejemplo serı́a
D

D(X) = |p̂ − 1/2| .


AT

En palabras: D mide la discrepancia en el número de águilas respecto al valor n/2, el esperado


bajo la hipótesis nula. La distribución nula serı́a la distribución de D bajo la presunción de
que p = 1/2. El cálculo de la distribución nula
 X n 
Xi − ≤ x

P1/2
2
puede hacerse utilizando la distribución Bin(n, 1/2), o bien utilizando aproximaciones a la
distribución binomial por vı́a de la distribución normal.

Ejemplo 5.5.4. En ATD, sea la hipótesis nula el diagrama trivial y sea D(X) la distancia
cuello de botella entre el diagrama de persistencia obtenido y la diagonal. La estadı́stica
cumple la noción de ordenar nubes de puntos en términos de su grado de separación de la
hipótesis nula. ¿Cuál serı́a la distribución de D bajo la premisa de que la nube de datos
proviene de un objeto que no tiene más que la homologı́a trivial? Ello no es un problema
teórico accesible y por ello serán pertinentes las ideas de bootstrap, en su momento.
168 Capı́tulo 5. Inferencia Estadı́stica

5.5.2. El concepto de p-valor


Ante una hipótesis nula H, y definidos dos elementos constitutivos, una estadı́stica D, y
una distribución nula F0 , el siguiente paso es definir alguna manera de cuantificar el concepto
de plausibilidad de H a la luz de datos observados X.

Definición 5.5.5. Ante la hipótesis nula H, para una observación X, y estadı́stica de prueba
D con distribución nula F0 definimos el p-valor como

p := 1 − F0 [D(X)] = P0 [D > D(X)] .

16 T
En palabras: Es la probabilidad bajo la hipótesis nula de que la estadı́stica resulte mayor al

20 A
valor observado.
lio IM
Se trata de cuantificar el lugar en el que se encuentra el valor obtenido de D(X) en la
escala de valores de D que se obtendrı́an bajo la premisa de que H es cierta. Siendo una
probabilidad, el resultado es un número entre cero y uno; también se ilustra la noción de que
Ju -C

la incertidumbre inductiva está siendo abordada con un instrumento basado en probabilidad.


La interpretación es que entre más pequeño sea el p-valor, más evidencia representa X en
contra de la hipótesis H. Es una cuantificación de qué tan extremo es el valor observado de D
respecto a los valores tı́picos que se obtendrı́an para D si la hipótesis H fuese verdadera. Por
D

razones de lógica, no es correcto la interpretación contraria: Que un p-valor grande represente


evidencia a favor de H (ver Sprott [123], Capı́tulo 6).
AT

A la luz de su popularidad, el concepto de p-valor ha sido sujeto a escrutinio y crı́tica a


lo largo de los años (fue introducido por R. Fisher en 1925). Las crı́ticas se dividen en dos
grupos: Crı́ticas de orden filosófico, respecto a su interpretación matemática y contextual
(por ejemplo, no representa “la probabilidad de que H sea verdadera”), y crı́ticas de orden
práctico. Las crı́ticas de orden práctico versan sobre algunos asuntos primordiales:

Que usuarios de estadı́stica en ciencias exactas y ciencias sociales recurren a un p-valor


aun cuando el problema entre manos no es de prueba de hipótesis sino de estimación (o
algún otro problema). Se trata de un uso y costumbre fuertemente establecido, siendo
que significa la solución a un problema incorrectamente planteado.

Que aún en el caso de que sı́ sea un problema legı́timo de prueba de hipótesis, se recurre
al p-valor de manera obcecada, sin la consideración de otras posibilidades para afrontar
el mismo problema.

Que históricamente se ha transminado la noción de que en la escala de p-valores, el


valor 0.05 es un valor de referencia universal, de tal forma que si p < 0.05 entonces la
5.5. Pruebas de hipótesis 169

conclusión es “la hipótesis H es falsa” y en caso contrario “la hipótesis es verdadera”. El


valor 0.05 se ha constituido de manera perniciosa y equivocada en la literatura cientı́fica
en otras disciplinas, como un valor de referencia bajo el cual se toman decisiones
(inclusive existen ejemplos de polı́tica editorial en revistas cientı́ficas en las que se
instruye que si el p-valor no es menor a 0.05, que entonces ni siquiera será considerado
un manuscrito para su revisión).

La Sociedad Estadı́stica de Estados Unidos recientemente ha publicado una declaratoria


respecto a la postura frente al p-valor (ver [130]) debido a estas razones.

16 T
Ejemplo 5.5.6. En el ejemplo de juguete, supongamos que la hipótesis de interés es H :

20 A
p = 1/2, que la estadı́stica D está dada por D(X) = |p̂ − 1/2| , y que el valor observado de
D es d. El p-valor serı́a P0 (|p̂ − 1/2| > d), donde la notación P0 indica que el cálculo de
lio IM
probabilidad se realiza bajo la presunción p = 1/2.
En lugar de operar con la distribución binomial en este ejemplo, aprovecharemos la apro-
ximación que implica la asintoticidad normal de la estadı́stica p̂ que hemos verificado en un
Ju -C

ejemplo anterior. En efecto, sabemos que


p̂ − p
q
p(1−p)
D

para n grande tiene aproximadamente distribución normal estándar para cualquier valor de
AT

p, y en particular, si p = 1/2. Luego podemos realizar la siguiente aproximación:

P0 (|p̂ − 1/2| > d) = 1 − P0 (−d ≤ p̂ − 1/2 ≤ d)


 
−d p̂ − 1/2 d
= 1 − P0  q ≤ q ≤q 
1 1 1
4n 4n 4n
   
d −d
≈ 1 − Φ q  + Φ q  .
1 1
4n 4n

Si n = 100 y se observan 48 águilas entonces d = |48/100 − 1/2| = 0,02 y el p-valor serı́a


0.689, mientras que si se observan 8 águilas entonces d = |8/100 − 1/2| = 0.42 y el p-valor
serı́a 2,2 × 10−17 .

Ejemplo 5.5.7. En contexto ATD y diagramas de persistencia, supongamos que la hipótesis


nula es que la nube de datos proviene de un objeto con un diagrama trivial, y que la estadı́stica
170 Capı́tulo 5. Inferencia Estadı́stica

de prueba es D = dB [d, dgm0 ] , donde dB es la distancia cuello de botella entre dos diagramas
de persistencia, d = D(X) es el diagrama calculado con la muestra observada X y dgm0 es
el diagrama trivial.
Para implementar el concepto de p-valor se requiere la distribución de D bajo la presun-
ción de que la nube de datos sı́ proviene de un objeto donde no hay persistencia alguna. El
reto es entonces encontrar P0 (D > d). El gran problema es que aquı́, no hay un resultado
análogo al ejemplo anterior en el cual se conoce o se aproxima dicha probabilidad de manera
analı́tica. Por ello ingresarán al escenario otro tipo de métodos, incluyendo algunos basados
en el bootstrap.

16 T
Proposición 5.5.8. Si la distribución de D(X) bajo la hipótesis nula H es invertible, en-

20 A
tonces la distribución del p-valor es uniforme sobre (0, 1).
lio IM
Demostración. Sea F0 (x) la función de distribución de la estadı́stica D(X) bajo la hipótesis
nula. Primero notemos que F0 [D(X)] tiene distribución uniforme en (0, 1).En efecto, para
0 ≤ t ≤ 1,
Ju -C

F0 (t) = P0 [D(X) ≤ t] = P0 [F0 {D(X)} ≤ F0 (t)] .

Ahora, por definición p = 1 − F0 [T (X)] , y si F0 [T (X)] es uniforme, también lo es 1 −


D

F0 [T (X)].
AT

Este es un resultado sorprendente en un principio. Lo que dice es que cualquier desviación


de uniformidad en la distribución del p-valor serı́a interpretable como que la hipótesis H no
es plausible. Un p-valor chico (especialmente si tiende a ocurrir en experimientos repetidos)
es una de las maneras en que se rompe tal uniformidad. Tiene interpretación clara el sentido
en que H no es plausible (D(X) es inusualmente alto para la muestra X). Otras maneras de
violación a la distribución uniforme no tienen interpretación tan transparente (ver Sprott,
Capı́tulo 6 [123]).

5.5.3. Pruebas de hipótesis acerca de la media


El siguiente es un problema clásico en inferencia estadı́stica: Se cuenta con una muestra
aleatoria i.i.d. X1 , . . . , Xn , bajo la suposición de un modelo N(µ, σ 2 ), y la hipótesis nula de
interés está dada por H0 : µ = µ0 , donde la constante µ0 es conocida. Enunciaremos las
técnicas para abordar este problema no sólo porque representa un ejemplo adicional para
ilustrar conceptos fundamentales (estadı́stica de prueba y distribución nula), sino porque
serán invocadas de primera mano para construir ciertos campos aleatorios en el Capı́tulo 6.
5.5. Pruebas de hipótesis 171

Definición 5.5.9. La estadı́stica dada por

X̄n − µ0
T (X) = √ ,
Sn−1 / n
P 2
P 2
donde X̄n = Xi /n y Sn−1 = Xi − X̄n / (n − 1), recibe el nombre de estadı́stica de
prueba t de Student para la hipótesis µ = µ0 .

Notar que en efecto, se trata de una estadı́stica, en virtud de que el valor µ0 es conocido

16 T
2
porque la hipótesis nula de interés preexiste y se conoce. La notación Sn−1 se emplea para
2
P  2
hacer una distinción con la varianza muestral Sn = Xi − X̄n /n. No obstante existen

20 A
maneras de deducir o justificar la estadı́stica t con base en optimalidad y otras consideracio-
nes, no es ese el aspecto importante que aquı́ se desea resaltar. Basta notar que |T (X)| es una
lio IM
estadı́stica que efectivamente ordena muestras según la evidencia en contra de H0 : µ = µ0 ,
pues valores mayores de T se asocian con mayor contradicción con H0 . El ingrediente que
falta para poder implementar un p-valor como se ha visto, es la distribución de T bajo la
Ju -C

nula, es decir, su distribución muestral. En este sentido, el siguiente resultado es conducente.

Definición 5.5.10. Si X1 , . . . , Xn son i.i.d. N(µ, σ 2 ), con n > 1, entonces la distribución de


D

X̄n − µ
T (X) = √
AT

Sn−1 / n

se conoce como la distribución t con n − 1 grados de libertad. La notación a emplear


será T (X) ∼ t(n − 1).

Cabe notar que la distribución de T (X) no depende de µ ni de σ 2 , esto es, T (X) es una
cantidad pivotal. Es posible mostrar que la distribución t con ν > 1 grados de libertad tiene
soporte (−∞, ∞) y una función de densidad, dada por
− ν+1
Γ ν+1
 
2 x2 2
fν (x) = √ 1 + .
νπΓ ν2

ν

Se trata de una densidad simétrica, con forma de campana, aunque con colas más pesa-
das que una densidad normal estándar. El valor esperado (y la mediana) de esta densidad
es 0, para todo ν > 1, y la varianza está dada por ν/ (ν − 2) para ν > 2. Si ν = 2,la
varianza es ∞. Cuando ν → ∞ la densidad t con ν grados de libertad converge a la
densidad normal estándar. La relevancia inmediata de conocer esta distribución nula es
172 Capı́tulo 5. Inferencia Estadı́stica

que para todo µ0 , el cálculo


√ de un p-valor basado en un valor observado de la estadı́stica
t(x) = X̄n − µ0 / (Sn−1 / n) para la hipótesis H0 : µ = µ0 se calcula como
Z |t(x)|
p = Pµ0 (|T (X)| > |t(x)|) = 1 − 2 fn−1 (x) dx.
0
También existe un resultado para explicitar la distribución muestral de la varianza mues-
tral, que aparece en el denominador de la estadı́stica t. Su formulación requiere de la distri-
bución conocida como χ2 .
Definición 5.5.11. Para k = 1, 2, . . . la función de densidad dada por

16 T
1
gk (x) = k/2 xk/2−1 e−x/2

20 A
2 Γ (k/2)
para x > 0 recibe el nombre de densidad ji-cuadrada con k grados de libertad. La
lio IM
notación a emplear para la distribución de probabilidad que se induce con esta densidad
será χ2k .
El valor esperado de χ2k es k, y su varianza es 2k.
Ju -C

Proposición 5.5.12. Si X1 , . . . , Xn son i.i.d. N(µ, σ 2 ), con n > 1, entonces se cumple


2
(n − 1) Sn−1
∼ χ2n−1 .
D

σ2
2
Además, las estadı́sticas Sn−1 y X̄n son independientes.
AT

En en lenguaje de la Definición 5.2.6, esto no es más que decir que


2
(n − 1) Sn−1
σ2
es también una cantidad pivotal. Ello tiene implicaciones si el interés fuese formular pruebas
de hipótesis e intervalos de confianza para el parámetro σ 2 .

5.6. Aplicación de principios de inferencia en literatura


de ATD
A continuación veremos cómo los principios generales de inferencia estadı́stica expuestos
se han invocado para abordar problemas de inferencia estadı́stica en el contexto de ATD.
Se hace una selección de artı́culos en la literatura. Los materiales de inferencia estadı́stica
que se han elegido para presentar en secciones anteriores, en gran parte fueron ası́ definidos
porque en esta literatura se está presuponiendo cierta familiaridad con ellos.
5.6. Aplicación de principios de inferencia en literatura de ATD 173

5.6.1. Pruebas de hipótesis para homogeneidad entre grupos de


diagramas de persistencia
La hipótesis que plantean Robinson & Turner ([116]) es la de homogeneidad de grupos
(dos o más) de diagramas de persistencia. La motivación radica en la observación de nubes
de datos, digamos de individuos sanos y enfermos, para investigar si provienen de la misma
estructura. Motiva con la consideración de n diagramas de persistencia divididos en dos
grupos de tamaños n1 y n2 : X1,1 , X1,2 , . . . , X1,n1 y Y2,1 , Y2,2 , . . . , Y2,n2 . La hipótesis nula es
que todos estos diagramas provienen del mismo objeto.

16 T
El trabajo recurre a la distancia 2–Wasserstein entre dos diagramas de persistencia, dada
por

20 A
!1/2
X 2
W2 (X, Y ) = ı́nf kx − φ(x)k2 ,
lio IM
φ:X→Y
x∈X

aunque el método aplica para cualquier otra distancia k–Wasserstein, en particular para la
distancia cuello de botella,
Ju -C

dB (C, D) := W∞ (C, D) = ı́nf sup kx − φ(x)k∞ .


φ:C→D x∈C
D

Recordar que bajo el paradigma de la prueba de significancia de una hipótesis simple


utilizando un p-valor, lo primero que se requiere es una estadı́stica D, una función de los
AT

diagramas observados, que ordene muestras en el sentido de medir apartamiento de la hipóte-


sis nula. Con una motivación basada en pruebas convencionales en estadı́stica (pruebas t,
pruebas F en modelos lineales), se propone la siguiente estadı́stica. Sea L un rotulamiento
de los n diagramas, una partición de los ı́ndices {1, . . . n} en dos grupos. El agrupamiento
originalmente observado da lugar a un rotulamiento especı́fico LO , pero L será en lo que
sigue un rotulamiento arbitrario.
Para un k fijo en la distancia de Wasserstein, se define
2 n
m X m n
X 1 X
σχ2 1,2 (L) = Wk (Xm,i , Xm,j ).
m=1
2nm (nm − 1) i=1 j=1

La motivación o génesis de esta fórmula para la estadı́stica de prueba es interesante,


aunque no indispensable. Como nota para estadı́sticos, proviene de la comparación de dos
2 1 2
P
grupos mediante varianzas muestrales. Es sabido que la expresión σχ = n−1 (xi − x̄) puede
1
escribirse de manera alternativa como σχ2 = 2n(n−1) (xi − xj )2 , lo cual no depende de
PP
un concepto de media muestral x̄ sino solamente de comparaciones por pares. Como nota
adicional para estadı́sticos, esta forma de escribir la varianza muestral constituye un caso
174 Capı́tulo 5. Inferencia Estadı́stica

particular de una llamada U-estadı́stica (originalmente Hoeffding [67]; resumido de manera


introductoria en Serfling [120]), basada en un kernel (simétrico) de orden 2, que en general
se escribe como
1 X
U = n k(xi , xj ).
2 i6=j

Para el caso de la varianza muestral el kernel es k(x, y) = (1/2)(x − y)2 .


La estadı́stica propuesta, de manera heurı́stica, es la suma de varianzas por grupo. Lo
que es relevante reconocer en términos de su posible utilización para calcular un p-valor
es que en efecto, un valor grande de σχ2 1,2 (L) denota mayor heterogeneidad entre los dos

16 T
grupos divididos según L, es decir, que la hipótesis nula no se cumple. Una vez adoptada tal
estadı́stica de prueba, es necesario calcular o aproximar P0 (σχ2 1,2 (L) > l), donde l denota el

20 A
valor de la estadı́stica observada σχ2 1,2 (LO ), y P0 denota la medida de probabilidad bajo la
lio IM
presunción de la hipótesis de que los grupos son homogéneos.
A falta de una distribución teórica para P0 , lo que se propone es un concepto llamado
prueba de permutaciones (ver [61]), que tiene por objeto calcular empı́ricamente PO bajo
una distribución hipotética generada. El algoritmo consiste de lo siguiente, tomando como
Ju -C

entradas n1 + n2 diagramas de persistencia con rotulamiento LO :


1. Calcular σχ2 1,2 (LO ).
D

2. Clasificar al azar los diagramas en dos grupos de tamaños n1 y n2 para obtener el


rotulamiento L.
AT

3. Calcular σχ2 1,2 (L) y tomar nota acerca del hecho σχ2 1,2 (L) ≤ σχ2 1,2 (LO ).

4. Repetir Pasos 2–3 N veces y calcular la proporción de veces que se cumplió σχ2 1,2 (L) ≤
σχ2 1,2 (LO ).
El artı́culo después procede a ilustrar diversos ejemplos de datos simulados, para fines
de verificar que en efecto, se obtienen p-valores pequeños en situaciones bajo las cuales se
sabe que los grupos son heterogéneos. Varios resultados son congruentes con lo esperado.
Por ejemplo, se inyecta ruido (normal), llega el momento en que el ruido no permite que el
p-valor perciba diferencias. Complementa con un ejemplo de análisis de datos de referencia,
acerca de formas (siluetas), y otro sobre datos de resonancia magnética funcional. En ambos
casos se ilustra que el concepto de p-valor es útil para detectar diferencias entre grupos.
Para el caso de K > 2 grupos, la generalización natural de la estadı́stica de prueba
está dado por
K nm Xnm
X 1 X
σχ2 K (L) = Wk (Xm,i , Xm,j ).
m=1
2n m (nm − 1) i=1 j=1
5.6. Aplicación de principios de inferencia en literatura de ATD 175

En la discusión del artı́culo, se menciona que serı́an posibles otras posibilidades para la
estadı́stica de prueba, incluyendo la varianza de Frèchet, cuya definición se menciona más
adelante.

5.6.2. Subconjuntos de confianza para diagramas de persistencia


El objetivo propuesto en Fasy et al. ([52]) es aplicar razonamientos estadı́sticos para
diferenciar puntos en el diagrama de persistencia que pudieran considerarse como “ruido
topológico”, en contraste con “señal topológica”. Como veremos, la solución radica en la

16 T
construcción de subconjuntos de confianza para diagramas de persistencia.
El planteamiento comienza con ver los diagramas de persistencia como asociados a una

20 A
función de distancia. Si A es un subconjunto de RD , un ejemplo de tal función de distancia es
dA (x) = ı́nf y∈A ky − xk2 . A su vez, la distancia da lugar a los llamados conjuntos de subnivel,
lio IM
dados por Lt = {x | dA (x) ≤ t}. Cuando el conjunto A es una nube de puntos observada
S, entonces los subconjuntos de nivel son Lt = ∪x∈S B(x, t), dando lugar a una filtración
común a la cual se aplica la noción de homologı́a persistente. La notación dgm(f ) se emplea
Ju -C

para denotar el diagrama de persistencia construido con la distancia f , y la distancia L∞ se


invoca también, dada por kf − gk∞ = supx |f (x) − g(x)|.
Se repasan varias nociones que fueron tratadas durante el primer módulo. La llamada
D

estabilidad de la distancia cuello de botella se cumple para funciones continuas f ,g y se


escribe como
AT

W∞ [dgm(f ), dgm(g)] ≤ kf − gk∞ . (5.6.1)


La distancia de Hausdorff, dH entre dos subconjuntos compactos de RD se define de varias
maneras equivalentes (ver Sección 1.2.2). Si M es una d-variedad encajada en un subconjunto
compacto X de RD , y S ⊂ M , entonces

W∞ [dgmS , dgmM ] ≤ kdS − dM k∞ = dH (S, M ). (5.6.2)

Sea dgm0 el diagrama de persistencia teórico (desconocido) y sea dgm d el diagrama de


persistencia construido con la nube de datos observada Sn = {X1 , . . . , Xn }. Para una cons-
tante α ∈ (0, 1) predeterminada, la clave de la propuesta es encontrar una estadı́stica, cn =
cn (X1 , . . . , Xn ) tal que que se cumpla
h i
d dgm ) > cn ≤ α
P W∞ (dgm, 0

para todo dgm0 . La relevancia es que si ello es cierto, entonces se cumple que
h i
P W∞ (dgm, dgm0 ) ≤ cn > 1 − α.
d
176 Capı́tulo 5. Inferencia Estadı́stica

Implı́citamente en esta última relación, se encuentra un concepto generalizado de “región


de confianza” mencionado en una sección anterior. En efecto, si uno define
n o
Cn = dgm | W∞ (dgm,
d dgm) ≤ cn ,

lo que se obtiene es un conjunto de confianza para el diagrama de persistencia dgm0 , en el


siguiente sentido: P [Cn 3 dgm0 ] > 1 − α, sin importar quién sea dgm0 .
Notar que no se escribe igualdad con 1 − α, sino mayor que 1 − α. Esto es lo que se conoce

16 T
como un intervalo conservador. Uno quisiera especificar α para construir un conjunto con
probabilidad de cobertura exactamente 1 − α, pero en ocasiones es difı́cil encontrarlo ası́ y

20 A
uno se conforma con que sea mayor que 1 − α. Muy malo serı́a que uno pretenda 1 − α y que
la probabilidad de cobertura pudiese ser en realidad menor que 1 − α para algunos valores
lio IM
de dgm. Esto último no serı́a nada sensato, pues no ofrecerı́a garantı́a alguna sobre el control
de incertidumbre inductiva respecto a dgm que uno pretende ejercer.
Una parte importante y conveniente que se aporta en el artı́culo es la manera de repre-
Ju -C

sentar gráficamente parte de la información contenida en el conjunto de confianza Cn . Dicho


conjunto radica, en efecto, en el espacio de diagramas de persistencia, D, y serı́a difı́cil de
visualizar. Para entender una interpretación, es útil concebir el diagrama de persistencia
D

vacı́o, denotado aquı́ por dgm∅ . El diagrama vacı́o consiste de un diagrama diagonal, con la
interpretación de que no hay homologı́a interesante. En la Figura ?? se muestra de manera
abstracta lo que el conjunto Cn cumple en términos de cobertura. También se ilustra la per-
AT

tinencia de la distancia cuello de botella, en el sentido de que las vecindades de radio cn de


un punto z en el plano cartesiano son cuadrados de lado 2cn .
En lugar de intentar graficar el conjunto Cn , lo que se hace es identificar los puntos del
diagrama de persistencia observado dgm d tales que provocan W∞ (dgm, d dgm ) > cn . En la

distancia cuello de botella participa la noción de apareamientos óptimos (biyecciones) entre
los puntos de dgm
d y de dgm . Los puntos z de dgm

d causantes de que W∞ (dgm, d dgm ) > cn

son exactamente aquellos cuya vecindad cuadrada de √ radio c n no intersectan la diagonal.
Esto sugiere que si se traza una franja con distancia 2cn perpendicular a la diagonal, que
entonces los puntos z causantes de que W∞ (dgm, d dgm ) > cn corresponden exactamente

con aquellos que están fuera de esa franja (ver Figura ??). Con este dispositivo, en lugar de
buscar graficar Cn , lo que se representa es el conjunto de puntos z del diagrama de persistencia
que producirı́an que el diagrama dgm∅ no sea cubierto por el conjunto de confianza Cn . A
estos puntos z se les denomina como portadores de una señal topológica, y los puntos que se
encuentran dentro de la franja como ruido topológico (principio de la Sección 4 del artı́culo).
Es importante señalar que este rotulamiento de señal vs. ruido está subordinado a la confianza
(1 − α) × 100 %. No se trata de una aseveración determinı́stica, sino probabilı́stica.
5.6. Aplicación de principios de inferencia en literatura de ATD 177

16 T
20 A
lio IM
Ju -CD
AT

Figura 5.1: Interpretación de franja de confianza para un diagrama de persistencia. Los


diagramas de Venn ilustran como universo el conjunto de todos los diagramas de persistencia,
D. El punto dgm
d representa el diagrama construido con la nube de datos observada; dgm0 es
el diagrama real desconocido; y dgm∅ el diagrama vacı́o, cuya
n gráfica consiste exclusivamente
o
de una diagonal. El conjunto de confianza definido por Cn = dgm | W∞ (dgm, d dgm) ≤ cn se
denota por el subconjunto delineado con trazo punteado. Los páneles (a) y (b) representan
casos en los que el conjunto Cn ha sido existoso para cubrir a dgm0 . La constante cn ha
sido seleccionada para que esto último ocurra con probabilidad 1 − α. Sin embargo, existe
una probabilidad α de que no se logre cobertura, como ha ocurrido por azar en el pánel
(c). Si se quisiera hacer disminuir α, entonces los conjuntos Cn tendrı́an que ser de mayor
extensión, produciendo mayor grado de incertidumbre.
√ En el pánel (d) se muestra que una
franja dibujada a distancia perpendicular 2cn de la diagonal funciona como dispositivo
gráfico para rotular puntos que son una señal, en el sentido de que la posición de un punto
d dgm ) > cn . En tal caso Cn resulta no cubrir al diagrama vacı́o dgm ,
provoca que W∞ (dgm, ∅ ∅
como ocurre en los páneles (b) y (c). Por lo tanto, los puntos localizados por dentro de dicha
franja diagonal pueden interpretarse con confianza (1 − α) × 100 % como que no representan
una caracterı́stica relevante, debido a que no son causales de una diferencia significativa con
relación al diagrama vacı́o, dgm∅ . Correspondientemente, a estos puntos en la franja se les
atribuye una variación debida sólo a ruido provocado por muestreo.
178 Capı́tulo 5. Inferencia Estadı́stica

Ası́, un punto fuera de la franja descrita deberá ser interpretado meramente como sos-
pechoso de ser una cualidad real sugerida por la nube de datos, más no una aseveración
con certeza absoluta. La noción de cualidad real en este sentido, se entiende como algo que
difiere del diagrama vacı́o dgm∅ .
Ahora bien, con base en la desigualdad 5.6.2, de hecho lo que se aborda en el artı́culo es
una estadı́stica cn tal que P [dH (Sn , M ) > cn ] ≤ α, o equivalentemente P [dH (Sn , M ) ≤ cn ] >
1 − α. Esto se debe a que dH (Sn , M ) ≤ cn implica W∞ (dgm, d dgm ) ≤ cn , de donde se
0
obtendrı́a la desigualdad

16 T
h i
d dgm ) ≤ cn ≥ P [dH (Sn , M ) ≤ cn ] > 1 − α.
P W∞ (dgm, 0

20 A
El artı́culo de facto considera cuatro estadı́sticas cn (X1 , . . . , Xn ) y demuestra para ellos
que asintóticamente P [dH (Sn , M ) > cn ] ≤ α. Lo hace con base en suposiciones técnicas rigu-
lio IM
rosas sobre la medida de probabilidad P (Sección 3 del artı́culo). Los métodos están basado
en diversas propuestas de aproximación (remuestreo, concentración de medida, método de
shells, y estimación de densidades), y el artı́culo contiene detalles técnicos para demostrar
Ju -C

que cada propuesta produce un cn que en efecto cumple la cota de probabilidad de cobertura
(Sección 4 del artı́culo y apéndices). Las técnicas probabilı́sticas para establecer la proba-
bilidad de cobertura están basadas en resultados variados que versan sobre propiedades de
D

dH (Sn , M ). El acceso a estos resultados, y la estabilidad, permitieron trabajar propiedades


de dH (Sn , M ) en lugar de W∞ (dgm,
d dgm ).
h 0 i
AT

El hecho de que la desigualdad P W∞ (dgm, d dgm0 ) ≤ cn > 1−α puede no ser “ajustada”
(ver Definición B.1.14 en Apéndice B), es un asunto mencionado en Chazal et al. (2014), del
cual se deriva una idea basada en bootstrap directamente sobre valores de W∞ en lugar de dH .
Ver la Sección 6 (“Bottleneck bootstrap”, de ese artı́culo). La librerı́a TDA de R contiene
una
√ función para realizar bootstrap, y graficar la lı́nea paralela a distancia perpendicular
2cn aquı́ expuesta. Un comentario interesante en Chazal es que este esquema de bootstrap
permite tomar en cuenta diagramas de persistencia de una dimensión de interés, en lugar
de todas las dimensiones juntas, lo cual darı́a lugar a valores de cn mejor sintonizados y que
corresponden a cotas más “ajustadas” para la cobertura.

5.6.3. Inferencia estadı́stica basada en panoramas de persistencia

Bubenik ([22]) presenta y desarrolla la idea de un resumen topológico alternativo a los


diagramas de barras y diagramas de persistencia. Se trata del panorama de persistencia
(persistence landscape), presentado en la Sección 2.6. En lo que sigue se hará énfasis en las
5.6. Aplicación de principios de inferencia en literatura de ATD 179

ventajas que ello ofrece, y en particular, en cómo se explotan para abordar algunos problemas
de inferencia estadı́stica utilizando principios generales expuestos con anterioridad.
El panorama de persistencia λn (t) = λ(n, t) es una función aleatoria, de N × R+ a
R (ver Sección 2.6) o bien de R2 × R+ a R si se extiende el valor n a todo R mediante
dne. Este concepto contrasta fuertemente con el diagrama de persistencia, que es un objeto
aleatorio con valores en el espacio de diagramas de persistencia. Este último espacio es
geométricamente engorroso; es un espacio métrico (con la métrica Wasserstein, o cuello de
botella), pero no es espacio lineal ni espacio completo (Mileyko et al. [94]). La información
codificada en un diagrama de barras, uno de persistencia, o uno de panoramas es equivalente.

16 T
En el diagrama de persistencia, el diagrama de barras se relaciona con las bases de los
triángulos isósceles, el diagrama de persistencia con las cúspides de las “montañas”.

20 A
Cuando se recurre al diagrama de persistencia (o el diagrama de barras), el primer defecto
desde una perspectiva de estadı́stica es la carencia de una noción operativa de media. Como
lio IM
hemos visto, la noción de media es crucial para que muchos problemas de inferencia estén
bien definidos. Por ejemplo, hemos visto ya que los problemas de estimación y de pruebas
de hipótesis pueden parafrasearse en términos de conceptos de medias. La definición misma
Ju -C

de una observación aberrante (outlier) tiene que ver con una discrepancia respecto a la
media de una distribución de probabilidad. También, que la consistencia de un estimador
puntual inherentemente presupone que el lı́mite al cual se converge es único; de otra manera
D

no serı́a claro qué significa que “un estimador es consistente”. En el espacio de diagramas
de persistencia no existe la noción de “diagrama medio” como caracterı́stica probabilı́stica.
AT

Sı́ existe en un sentido de media de Fréchet, como sigue.

Definición 5.6.1 (Media y varianza total de Fréchet). Sea M un espacio métrico con métrica
d, y X1 , X2 , . . . , Xn una colección de puntos sobre M. Definimos la función
n
X
G(x) = d2 (x, Xi ).
i=1

Una media de Fréchet se define por

m = arg mı́n G(x).


x∈M

La varianza total de Fréchet se define por v = G(m).

Como comentario, en estadı́stica elemental, cuando el espacio métrico es R, se obtienen


medias comunes:

1. Si d(x, y) = |x − y| , la media de Fréchet es la media aritmética.


180 Capı́tulo 5. Inferencia Estadı́stica

p
2. Si d(x, y) = |x − y| se obtiene una mediana muestral.
+
3. Si M = R√ y d(x, y) = |log(x) − log(y)| se obtiene la llamada media geométrica dada
por m = n X1 · · · Xn .
P
4. Con la métrica d(x, y) = |1/x − 1/y| se obtiene la media armónica, m = n/ (1/Xi ) .

Es importante notar que la media de Fréchet puede no ser única, ni en ejemplos cuando
M = R ni cuando M es el espacio de diagramas de persistencia (En Bubenik, Figura 3, se
muestran dos ejemplos simples y especı́ficos para ilustrarlo). Por ello, la media de Fréchet

16 T
no es un buen candidato para formalizar nociones de consistencia.
El hecho de que el panorama de persistencia habita en un espacio de funciones, permite

20 A
de inmediato recurrir a la noción de norma. Para habilitar un enfoque probabilı́stico, se
concibe que λ es un elemento aleatorio sobre el espacio (S, A, µ), con λ : S −→ R y S o
lio IM
N × R o R × R. Para 1 ≤ p < ∞ se define
Z 1/p
p
kλkp = |f | dµ
Ju -C

Usando la medida producto de conteo (sobre N) y Lebesgue (sobre R), se obtiene


D


!1/p
X
kλkp = kλ(k, t)kpp
AT

k=1

si λ es un panorama de persistencia, λ : N × R → R.
Esto a su vez da lugar a que los panoramas tengan una estructura de espacio de Banach,
Lp (S), para lo cual es factible desarrollar teorı́a de probabilidad (Ledoux & Talagrand [89]).
La nube de datos se concibe como un elemento aleatorio de un espacio de probabilidad
(Ω, F, P ) y el panorama de persistencia como un valor aleatorio en Lp (S). Si X1 , X2 , . . . , Xn
son nubes de datos aleatorios i.i.d., y λ1 , λ2 , . . . , λn los correspondientes panoramas, entonces
el panorama medio tiene una definición muy natural:
n
1X
λ̄n = λ̄n (k, t) = λi (k, t).
n i=1

Serı́a deseable que este concepto de media tuviera convergencia en algún sentido. Ello darı́a
mucha claridad a lo que significarı́a “consistencia”.
La teorı́a de probabilidad sobre espacios de Banach establece con claridad el significado
de E (λ) (integral de Pettis), ası́ como lo que significa convergencia (en probabilidad, y casi
5.6. Aplicación de principios de inferencia en literatura de ATD 181

segura). En el Apéndice C, se incluyen algunos elementos primordiales de probabilidad en


espacios de Banach. Se derivan dos resultados ulteriores importantes, que generalizan lo
que sucede sobre Rk para variables aleatorias i.i.d. y que son explotados de manera crucial
para asuntos de inferencia estadı́stica: una ley de los grandes números, y un teorema central
del lı́mite. Parafraseados en términos de panoramas, lo que estos resultados establecen son
propiedades de convergencia. Consistencia significa
c.p,1
Λ̂n (k, t) −→ E(Λ),

16 T
y asintoticidad normal que
√ h n i
n Λ̂ − E (Λ)

20 A
converge en distribución a cierto proceso gaussiano. Nota: El artı́culo está recurriendo a la
lio IM
convención de que una letra mayúscula denota un elemento aleatorio (Λ) mientras que una
letra minúscula (λ) denota un valor observado calculado con la muestra observada.
También es aplicable la noción de funcionales del panorama, que son de la forma
Ju -C

Z
Y = f Λ.
D

Para tales funcionales pueden construirse intervalos de confianza (asintóticos) para E(Y ) de
la forma
AT

Sn
Ȳn ± zα/2 √
n
1 n
donde Sn2 = n−1 2
P
i=1 (Yi − Ȳn ) . La construcción es idéntica a la presentada a propósito
del ejemplo juguete (Teorema 5.4.6), en el cual la consistencia y la asintoticidad normal del
estimador p̂ fueron utilizadas para obtener un intervalo de confianza asintótico para p.
Estos resultados también habilitan algunas pruebas de hipótesis de manera inmediata.
Como ejemplo, si se observan nubes de puntos sobre dos poblaciones y el interés radicara en
investigar si es cierto que f Λ = f Λ0 para un funcional dado, entonces las ideas de p-valores
asintóticos basados en la estadı́stica
Ȳ − Ȳ 0
q
SY2 S2
n
+ nX0

es aplicable. La asintoticidad normal permitirı́a aproximar los p-valores, exactamente como se


hizo para el ejemplo juguete. Nota para estadı́sticos: Se trata de la generalización inmediata
del tema de pruebas t para comparar las medias de dos poblaciones.
182 Capı́tulo 5. Inferencia Estadı́stica

Como ejemplo de un funcional concreto, Bubenik ofrece el siguiente, tras mencionar que
la selección de funcional obedece al entendimiento que se tenga acerca de los datos ası́ como
el objetivo especı́fico. Suponer que el soporte del panorama es

{1, 2, . . . , K} × [−B, B].

Definiendo
f (k, t) = 1, (t ∈ [−B, B] y k ≤ K)
se obtiene

16 T
K
X
kf Λk1 = kΛk k1 ,

20 A
k=1

lo cual es imaginar que hay K componentes topológicas dominantes que juntas son capaces
lio IM
de distinguir diferencias entre una población y otra.
El artı́culo procede a mostrar ejemplos con datos simulados sobre anillos enlazados, toros
vs esferas, etc. para fines de ilustrar que el panorama promedio se aproxima con promedios
Ju -C

empı́ricos, y que el funcional anteriormente mencionado en efecto, es eficaz para detectar


diferencias entre grupos de nubes de puntos.
Finalmente, el artı́culo postula y demuestra en su Sección 5 resultados de estabilidad.
D

Se define la métrica entre dos diagramas de persistencia dgm y dgm0 con panoramas λ y λ0
como
AT

Λp (dgm, dgm0 ) = kλ − λ0 kp .
También se demuestra una cota inferior para la distancia cuello de botella:

Λ∞ (dgm, dgm0 ) ≤ W∞ (dgm, dgm0 ).

5.6.4. Inferencia estadı́stica robusta para diagramas de persisten-


cia
Chazal et al. ([35]) comienza por destacar que la construcción de diagramas de persis-
tencia en general tienen el defecto de no ser robustos. Por ello se refiere a que una pequeña
modificación en la nube de datos puede resultar en un diagrama de persistencia muy diferen-
te. Literalmente, se menciona que un solo punto modificado—denominado valor aberrante
o outlier —puede alterar radicalmente el resultado. En este sentido, la robusticidad es un
subtema de inferencia estadı́stica que tiene que ver con el estudio de procedimientos que no
sean en extremo sensibles a valores aberrantes (ver Huber & Ronchetti, 2009).
5.6. Aplicación de principios de inferencia en literatura de ATD 183

En su parte introductoria, el artı́culo recurre a la asociación de un diagrama de persisten-


cia con una función de distancia (al igual que lo hacen Fasy et al.) entre un conjunto S ⊂ Rd
y un punto x ∈ Rd , con la notación ∆S (x) = supy∈S kx − yk . Ası́ mismo, se recuerdan las
ideas de subconjuntos de nivel Lt = {x | ∆S (x) ≤ t} , la distancia cuello de botella W∞ entre
diagramas de persistencia, y la estabilidad

W∞ (dgm1 , dgm2 ) ≤ sup k∆S1 (x) − ∆S2 (x)k .


x

Cuando el conjunto S consta de una nube de puntos observada, {X1 , . . . , Xn } , como

16 T
arranque para analizarse con ATD, la notación se convierte en

20 A
ˆ
∆(x) = mı́n kx − Xi k ,
Xi
lio IM
y se denomina función de distancia empı́rica. Esta notación “gorro” es congruente con las
ideas de parámetro y estimador señaladas en la Sección 5.4.1, y el calificativo “empı́rica”
tiene el mismo empleo al aludido para la función de distribución empı́rica. De hecho, se
Ju -C

procede a formular el siguiente resultado de consistencia, en un lenguaje muy propio de


estadı́stica:
D

 
ˆ
P sup ∆(x) − ∆S (x) > ε −→ 0, ∀ε > 0.

x n→∞
AT

Los subconjuntos de subnivel basados en la distancia empı́rica se vuelven


n o [n
ˆ
Lt = x | ∆(x) ≤ t = B(Xi t).
i=1

El artı́culo reconoce explı́citamente un modelo para la distribución de puntos contenidos


en la nube observada. Es de la forma

P = πR + (1 − π)(Q + Φσ ),

donde π ∈ (0, 1) es una proporción de mezcla, R es una distribución para aberrantes, Q es


una distribución con soporte S, y Φσ es una distribución con ruido con escala σ (tı́picamente,
y por ejemplo, Nd (0, σ 2 I)). Se trata de modelos de probabilidad del tipo explorado en estas
notas, y en el lenguaje de la Sección 5.2.1 se trata de un modelo semi-paramétrico.
Chazal et al., para fines de evitar la falta de robusticidad, proceden a la propuesta de
distintas funciones de distancia (que a la postre definen los conjuntos de subnivel para fines
184 Capı́tulo 5. Inferencia Estadı́stica

de calcular homologı́a en ATD). La primera distancia alternativa es la DTM (distance to


measure, de Chazal et al. [34]), denotada por δP,m . Se define como

1 m −1
Z
2
δP,m (x) = Fx (u) du,
m 0

donde 0 < m < 1 y Fx (t) = P(kX − xk2 ≤ t), y X es un vector aleatorio con distribución
P. Esta distancia posee varias propiedades (ver Chazal et al. [34], [35]). Aquı́, bastará notar
que una idea fundamental es que un solo punto en la nube no es por sı́ mismo un valor

16 T
aberrante, sino que tiene que ocurrir con alta probabilidad para tener un efecto sobre la
distancia (y por ende, sobre el diagrama de persistencia que corresponde). La selección de

20 A
la constante m es arbitraria, pero más adelante en el artı́culo se discuten algunos criterios
para su elección. Recurriendo a la distribución empı́rica Pn , que asigna probabilidad 1/n a
lio IM
cada punto observado Xi , se obtiene la distancia DTM empı́rica, dada por
1 X
δ̂ 2 (x) := δP2 n ,m (x) = kXi − xk2 ,
k
Ju -C

Xi ∈Nk (x)

donde k = dmne y Nk (x) = {k vecinos más cercanos a x de entre X1 , . . . , Xn } . Se demues-


tran propiedades de asintoticidad normal para la estadı́stica δ̂ 2 (x).
D

Con ideas similares a las aplicadas por Fasy et al. [52], se desarrolla una manera de
obtener bandas de confianza para δ. Fijando α ∈ (0, 1), se define cα por
AT

√ 
P n||δ̂ − δ||∞ > cα = α.

Pr
Supongamos que hay una estadı́stica ĉα = ĉα (X1 , . . . , Xn ) tal que ĉα −→ cα . Entonces se
obtendrı́a  
ĉα
P ||δ̂ − δ||∞ ≤ √ → 1 − α,
n
y debido a estabilidad, se deriva un conjunto de confianza conservador (Ver Sección 5.6.2)
para la distancia cuello de botella entre el diagrama real y el diagrama estimado, en virtud
de que    
ˆ dgm) ≤ √ c α ĉ α
P W∞ (dgm, ≥ P ||δ̂ − δ||∞ ≤ √ −→ 1 − α.
n n
Para ĉn , Chazal et al. proponen el bootstrap no-paramétrico, consistente en simular
pseudo-obervaciones de la distribución Pn (como vimos en la Sección 5.4.4, se
trata de
muestrear con reemplazo de la muestra observada) y calcular las cantidades δ̂ ∗ − δ .


5.6. Aplicación de principios de inferencia en literatura de ATD 185

La propuesta de bootstrap se acompaña de la demostración formal de que el procedimiento


bootstrap funciona. Para referencia, esto quiere decir que para todo ε > 0
√ ∗ 2 h i2 √ 2
  h i   h i  
2

P P n δ̂ − δ̂ ≤ t | X1 , . . . , Xn − P n δ̂ − [δ] ≤ t > ε −→ 0,
∞ ∞

lo cual recoge de que el método numérico dictado por el bootstrap posee propiedades de
convergencia, condicional a la muestra original que se ha observado. En el artı́culo también
se propone un esquema diferente de bootstrap, denominado bootstrap cuello de botella, bajo



el cual en lugar de calcular y guardar valores de δ̂ − δ , se realiza con W∞ (dgm
ˆ , dgm).
ˆ

16 T

Con esto último, la esperanza es obtener un intervalo menos conservador, con una cota más

20 A
cercana a 1 − α.
En cuanto a la selección de la constante m, se propone una idea basada en “cantidad de
lio IM
información significativa” (Guibas, et al. [62]). Para estadı́sticos, se presenta un fenómeno
similar al estira y afloje que hay con un parámetro de suavizamiento: El valor óptimo de m
no resulta ser ni muy chico ni muy grande.
Chazal et al. también proponen una segunda distancia alternativa, basada en la noción
Ju -C

de un estimador de densidades tipo kernel (ver Sección 5.4.5). El análogo de la distancia


empı́rica basada en esta idea está dada por
D

v
u1 n X n n
u X
2X
D̂K (x) = t Kh (Xi , Xj ) + K h (x, x) − Kh (x, Xi ),
n2 i=1 j=1 n i=1
AT

donde la elección más común para el kernel es


!
kx − yk2
Kh (x, y) = exp − .
2h2

Se demuestra que los conjuntos de subnivel son aproximadamente {x | p̂h (x) ≤ t} , donde p̂h
es el estimador de densidad tipo kernel para X dado por
n
1 X
p̂h (x) = √ d Kh (x, Xi ).
n 2πh i=1
Esto reitera el papel que juega el tema de estimación de densidades en ATD. De nuevo, no
basta que un solo dato aislado sea aberrante, sino que la distancia reacciona a un grupo
de ellos. Por ello se hereda una noción de robusticidad tras esta propuesta. En el artı́culo
también se demuestran propiedades analı́ticas que posee esta distancia basada en estimación
de densidades.
186 Capı́tulo 5. Inferencia Estadı́stica

5.7. Ejercicios
Ejercicio 5.7.1. Si X1 , . . . , Xn son observaciones independientes cada una con distribución
N (µ, σ 2 ), entonces una estadı́stica suficiente para θ = (µ, σ 2 ) está dada por
X X 
T = Xi , X2i .

Ejercicio 5.7.2. Utiliza el teorema de factorización de Neyman-Fisher para demostrar que


si T es una estadı́stica suficiente para θ, que entonces una función de T también lo es. Por

16 T
otra parte, si g es una función uno a uno, entonces T es suficiente para g(θ).
Ejercicio 5.7.3. Si τ (F ) = xdF (x), entonces τ̂ = τ (F̂n ) = n1
R P

20 A
Xi = X̄n .
2
Ejercicio 5.7.4. Si X1 , . . . , Xn son variables aleatorias
 i.i.d.√N(µ, σ ) entonces la distribu-
lio IM
2
ción de Xn es N(µ, σ /n) y la distribución de Xn − µ / (σ/ n) es N(0, 1).
 √
Esto último es como decir que Xn − µ / (σ/ n) es una cantidad pivotal. Nota: Otra
manera de percibir el teorema central del lı́mite es notando  que√hay condiciones, aunque no
Ju -C

se trate de muestreo normal, para concluir que Xn − µ / (σ/ n) es asintóticamente una


cantidad pivotal.
Ejercicio 5.7.5. En el ejemplo que hemos llamado juguete, supongamos que T = p̂ y que el
D

interés radica en estimar Var(p̂). Verifica que en esta situación el remuestreo bootstrap pa-
ramétrico y no-paramétrico da lugar a procesos equivalentes, y que ambos aproximan numéri-
AT

camente a la cantidad p̂(1−p̂)


n
.
Ejercicio 5.7.6. En el ejemplo juguete, demuestra que
 2 

I (p) = −E log f [X; p] = p(1 − p),
∂ 2p
con lo cual se verifica el teorema de asintoticidad normal para el estimador máximo verosı́mil.
Ejercicio 5.7.7. Para el caso de muestro i.i.d. bajo el modelo N(µ, σ 2 ) verifica que
X 2
Sn2 = Xi − Xn /n

es el estimador máximo verosı́mil para el parámetro σ 2 y que no es insesgado, mientras que


2
X 2
Sn−1 = Xi − Xn / (n − 1)

es insesgado para σ 2 .
5.7. Ejercicios 187

Ejercicio 5.7.8. Sean X1 , . . . , Xn observaciones i.i.d. con varianza σ 2 (no necesariamente


2
normal). Demuestra que Sn−1 es insesgado para σ 2 .

Ejercicio 5.7.9. Sean X1 , . . . , Xn observaciones i.i.d. N(µ, σ 2 ). Sea fν (x) la densidad t con
n − 1 grados de libertad. Define la contante tα/2 > 0 por aquella que cumple
Z ∞
alpha
fn−1 (x) dx = .
tα/2 2

Demuestra que

16 T
 √ √ 
Xn − tα/2 Sn−1 / n, Xn + tα/2 Sn−1 / n

20 A
es un intervalo de confianza (1 − α) × 100 % para µ.
lio IM
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 6

Persistencia de campos aleatorios

16 T
20 A
lio IM
6.1. Introducción
Ju -C

Utilizando la teorı́a desarrollada hasta el momento, conceptualizaremos las ideas relativas


a campos aleatorios y su relación con persistencia.
En primer lugar, tenemos la siguiente tendencia a diversificar el espacio muestral.
D

Definición 6.1.1. Una variable aleatoria X es una función medible


AT

X : (Ω, A, P) −→ (X, µσ ),

donde (X, µσ ) es cualquier espacio medible y (Ω, A, P) es cualquier espacio de probabilidad.

Observar que a diferencia de la definición de la Sección 3.1, el espacio X puede ser cual-
quier espacio con una medida asociada µσ . Tenemos entonces incluidos en esta definición una
gran cantidad de ejemplos como variables aleatorias discretas, escalares, vectores aleatorios
de dimensión finita o matrices aleatorias. En estos casos, los espacios medibles van desde los
discretos N, Z hasta los continuos R, Rq , Rm×n .
Un poco más general, tenemos sucesiones aleatorias con espacio medible RN , funciones
aleatorias con espacio muestral R[0,1] ; o bien, procesos a tiempo continuo X = (Xt )t∈[0,1] . Para
los casos más particulares del análisis de datos tenemos las gráficas aleatorias con espacio
muestral el conjunto potencia de {1, . . . , n}2 .
Más aún, podemos considerar que las variables aleatorias tienen valores en una variedad
M . Esto da pie a la noción de objetos geométricos aleatorios en general como por ejemplo
curvas aleatorias con espacio muestral (R3 )[0,1] .

189
190 Capı́tulo 6. Persistencia de campos aleatorios

Hasta este punto no estamos considerado la fuente de tales datos, cómo es que se toman las
muestras o con qué tipo de equipos de registro, etc. Además, también tenemos que considerar
el aumento de complejidad al obtener los datos, en tales casos la información tiene un peso
computacional y en ocasiones con cierta estructura. Todos estos ejemplos muestran que la
idea de variable aleatoria y más generalmente, la de campo aleatorio, están en la base de
todo tipo de procesamiento de datos. Dicha complejidad es notoria en el problema de la
dimensionalidad de los objetos geométricos asociados.
Si tomamos el marco teórico visto hasta ahora en ATD, tenemos una nube de puntos
aleatorios Pn = {X1 , . . . , Xn } con Xi variable aleatoria con valores en Rd . Luego, construimos

16 T
un complejo simplicial aleatorio, por ejemplo para  > 0 tenemos los complejos de Rips
R(Pn , ) o los complejos de Cech C(Pn , ). Recordar que el caso del complejo de Rips es un

20 A
complejo bandera, o bien, que su 1–esqueleto determina completamente el complejo. Esto
es, volvemos a la noción de gráfica aleatoria.
lio IM
Luego, el espacio muestral serı́a la familia Cn de complejos simpliciales con n nodos. La
pregunta estriba en quién serı́a la σ–álgebra asociada a dicho conjunto, la cual se especifica
usando las funciones indicadoras y medibles 1||Xj −Xk ||< para cada Xj , Xk en la muestra. Esto
Ju -C

es, la preimágen de cada vértice, cada cara y cada simplejo de un complejo simplicial son
medibles en (Rd )n . Por lo tanto, Cn es un espacio de medida con la topologı́a discreta.
Observación 6.1.2. En general, la observación anterior está presente en cada trabajo de
D

ATD que lo requiera sin hacer mención al hecho “trivial” de que la topologı́a de Cn es la
topologı́a asociada a la colección de todos los subconjuntos de Cn .
AT

Podemos concluir que tenemos un proceso aleatorio (K )>0 indexado por R y con valores
en Cn .
Para esta sección queremos remarcar que trabajaremos con el mecanismo especı́fico ge-
nerador de datos ATD aleatorios usando superniveles de campos aleatorios.

6.2. Teorı́a fundamental


En este apartado consideraremos como mecanismo generador de persistencia los campos
aleatorios. Formalmente tenemos la siguiente definición.
Definición 6.2.1. Dado un conjunto compacto U ⊂ Rd , un campo aleatorio sobre U es
una familia de variables aleatorias
(Xu )u∈U = (X(u))U ,
sobre un mismo espacio de probabilidad (Ω, A, P).
6.2. Teorı́a fundamental 191

Un campo aleatorio puede ser pensado como una variable aleatoria con valores trayecto-
rias del tipo
ω ∈ Ω 7−→ (X(·)(w))U .
Para poder manejar este concepto utilizamos lo siguiente. Sean Fu1 ,...,um distribuciones
sobre Rm con m ∈ N, y u1 , . . . , um ∈ U . Esta familia es consistente si
Fu1 ,...,um (x1 , . . . , xm ) = Fuσ(1) ,...,uσ(m) (xσ(1) , . . . , xσ(m) ),
con (x1 , . . . , xm ) ∈ Rm y σ una permutación de m–elementos {1, . . . , m}.

16 T
De tal forma que si consideramos una toma ω ∈ Ω y para cada u ∈ U , Xu (ω) es una
función en RU . Ası́, usando el Teorema de Extensión queremos encontrar una familia de

20 A
distribuciones consistentes que sea compatible con el modelo requerido. En general, conside-
ramos la σ–álgebra generada por conjuntos del tipo
lio IM
{g ∈ RU : (g(u1 ), . . . , g(um )) ∈ B};
donde u1 , . . . , um ∈ U , m ∈ N y B ∈ B(Rm ).
Ju -C

Con estas nociones, podemos enunciar ahora la versión más general del Teorema de
Extensión de Kolmogorov, uno de los teoremas más importantes de la matemática del siglo
XX.
D

Teorema 6.2.2 (Extensión de Kolmogorov). Sea U un espacio Polaco, Fu1 ,...,um una familia
de distribuciones consistente sobre U y m ∈ N. Entonces, existe un espacio de probabilidad
AT

(Ω, A, P), un campo aleatorio


Xu : (Ω, A, P) −→ R
y una medida Q sobre (RU , σ(RU )) tales que, la aplicación
(Ω, A, P) −→ (RU , σ(RU ), Q)
ω 7−→ (Xu (ω))U
es medible y (Xu1 , . . . , Xum ) tiene distribución Fu1 ,...,um .
En particular, se puede tomar (Ω, A, P) = (RU , σ(RU ), Q) con P = Q. Si C ∈ σ(RU ) es
tal que P(C) = 1, trabajamos en lugar del espacio (RU , σ(RU ), P) con el espacio
(C, σ(RU )|C , PC ),
con σ–álgebra inducida
σ(RU ) = {A ∩ C : A ∈ σ(RU )}.
Tenemos pues con estos conceptos varias generalizaciones de conceptos previamente tra-
tados.
192 Capı́tulo 6. Persistencia de campos aleatorios

Definición 6.2.3. Sea (Xu )U un campo aleatorio sobre U . Definimos la función de valor
medio µ : U −→ R como
µ(u) = E(Xu ).
La función de covarianza σ : U × U −→ R se define como

σ(u, v) = Cov(Xu , Xv ) = E[(Xu − µ(u))(Xv − µ(v))].

También consideramos la función de correlación ρ : U × U −→ R dada por


Cov(Xu , Xv )

16 T
ρ(u, v) = Corr(Xu , Xv ) = .
Var(Xu )Var(Xv )

20 A
Teorema 6.2.4 (Caracterización). Una función σ : U 2 −→ R de un campo aleatorio sobre
U , es de convarianza, si y sólo si, σ es función simétrica y la matriz que define es degenerada
lio IM
no-negativa; esto es
m
X
βi βj σ(ui , uj ) ≥ 0, u1 , . . . , um ∈ U, β1 , . . . , βm ∈ R.
Ju -C

i,j=1

Demostración. La primera implicación es inmediata de la definición de una función de co-


varianza σ.
D

Para el otro caso consideremos la familia de distribuciones


AT

Fu1 ,...,um = Nm (0, (σ(ui , uj )1≤i,j≤m )) ,

la cual es consistente. Luego, por el Teorema de Extensión, existe un campo aleatoro Xu con
tales distribuciones, de dimensión finita y por tanto con tal función de covarianza σ.
Para la construcción de funciones de covarianza tenemos varios casos:

1. Para el caso multivariado Z ∼ N(0, hI), con h > 0,


1 2
σ(u, v) = e h2 ||u−v|| .

2. Si tenemos una función (tipo kernel) K : U × U −→ R con


Z
K 2 (u, s)ds < ∞,
U

entonces Z
σ(u, v) = K(u, s)K(u, v)dv.
U
6.2. Teorı́a fundamental 193

3. Sean gj : U −→ R una familia numerable de funciones y αj > 0, entonces definimos la


función de covarianza ∞
X
σ(u, v) = αj gj (u)gj (v).
j=1

Vamos a considerar el espacio de funciones cuadrado integrables en U :


 Z 
2
L2 (U ) = g : U −→ R : g (u)du < ∞ .

16 T
U

El cual como hemos visto anteriormente (Sección 3.4.3) es un espacio de Hilbert con el

20 A
producto punto Z
hf, gi = f gdλ,
lio IM
U
con λ la medida de Lebesgue. De hecho podemos considerar también el espacio de Hilbert
(aleatorio) L2 (Xu ) como sigue.
Ju -C

Definición 6.2.5. Sea (Xu )U un campo aleatorio sobre U ⊂ RD , con E(Xu ) = 0 y E(X2u ) <
∞. Definimos
D

L2 = {ai Xu1 + · · · + am Xum : a1 , . . . am ∈ R, u1 , . . . , um ∈ U } ,


AT

con el producto interno


hψ, ηi = E(ψ, η), ψ, η ∈ L2
y norma p
||η|| = E(η 2 ), η ∈ L2 .
Entonces, (L, h , i) es un espacio euclidiano y su completación L2 (X) es el espacio de
Hilbert asociado al campo Xu .
Teorema 6.2.6 (Mercer). Sea U ⊂ Rd compacto y σ : U 2 −→ R función de covarianza
continua. Entonces, existen funciones {gj }j∈N ortonormales en L2 (U ) y constantes λj ≥ 0
tales que
X∞
σ(u, v) = λj gj (u)gj (v)
j=1

donde la convergencia es absoluta y uniforme sobre U 2 . Además,


Z
σ(u, v)gj (v)dv = λj gj (u).
U
194 Capı́tulo 6. Persistencia de campos aleatorios

La demostración de este resultado usa la descomposición espectral de un operador lineal


compacto sobre L2 (U ).
Usando este resultado se obtiene el teorema de desarrollo de Karhunen–Loeve.

Teorema 6.2.7 (Karhunen–Loeve). Bajo las mismas hipótesis tenemos que



X
Xu = Zj gj (u),
j=1

16 T
donde la convergencia es en media cuadrática (L2 ), las funciones gj son de Mercer y las
variables

20 A
Z
Zj = Xu gj (u)du, u ∈ U,
lio IM
son no correlacionadas, E(Zj ) = 0 y Var(Zj ) = λj .

En el resultado anterior las integrales de las variables Zj son en el sentido de convergencia


en media cuadrática de sumas de Riemann. Llamamos a las funciones gj y a los escalares λj ,
Ju -C

autofunciones y autovalores de la covarianza σ respectivamente.

Observación 6.2.8. El resultado anterior lo que quiere decir es que para generar un campo
D

aleatorio, basta generar las variables aleatorias Zj con las propiedades del teorema.
Más aún, dicho resultado funciona para el sistema coordenado cartesiano actual asociado
AT

a Rd , e incluso para el sistema coordenado asociado a espacios de Hilbert de dimensión


infinita. La diferencia importante es que en este caso los coordenadas obtenidas son aleatorias
y son no correlacionadas.

Enunciamos ahora el caso particular en que estas componentes aleatorias se distribuyen


de manera normal.

Definición 6.2.9. Un campo aleatorio (Xu )U se dice gaussiano si para cada u1 , . . . , um en


U y m ∈ N, se satisface:
(Xu1 , . . . , Xum ) ∼ Nm (·, ·).

De tal forma que usando los resultados anteriores, podemos definir campos aleatorios
gaussianos de una manera muy peculiar.

Proposición 6.2.10. Si tenemos funciones ϕj : U −→ R y αj ≥ 0 tales que



X √
αj |ϕj (u)| < ∞, ∀u ∈ U.
j=1
6.3. Campos aleatorios motivados por neuroimágenes 195

Si además las variables Zj ∼ N(0, αj ) son independientes, entonces



X
Xu = Zj ϕj (u)
j=1

define un campo aleatorio gaussiano.

En general y dependiendo del contexto, usaremos las notaciones

16 T
(Xu )u∈U = (X(u))u∈U

20 A
para denotar a un campo aleatorio X sobre U ⊂ RD .
lio IM
6.3. Campos aleatorios motivados por neuroimágenes
Ju -C

Un ejemplo de campo aleatorio lo tenemos con el concepto de “imágenes funcionales”.


Dado cualquier dominio U y Xi campos independientes e idénticamente distribuidos, o bien
réplicas aleatorias de un mismo campo X,
D

(Xi (u))u∈U
AT

se llaman (neuro)imágenes funcionales independientes.


Supongamos además que los campos {Xi } son gaussianos con media µ(u) = E(Xi (u)) y
covarianza σ(u, v) = cov(X(u), X(v)). Para cada u ∈ U escribimos
n
1X
X(u) := Xi (u)
n i=1

y si además u está fijo, un estimador consistente de la varianza del campo está dado por
n
1 X
S 2 (u) = Var(X(u))
d =σ
b(u, u) = (Xi (u) − X(u))2 .
n − 1 i=1

De tal forma que


(n − 1)S 2 (u) ∼ χ2(n−1) ;
esto es, (n − 1)S 2 (u) se distribuye como una variable aleatoria χ cuadrada con n − 1 grados
de libertad (ver Sección 5.5.3).
196 Capı́tulo 6. Persistencia de campos aleatorios

Precisando, consideramos los campos aleatorios

ηj (u) = LTj (X1 (u), . . . , Xn (u)),

tal que los {Lj } son ortonormales. Entonces, usando el Teorema de Extensión de Kolmogorov
{ηj (u)}U es una familia de campos gaussianos indepedientes y además

E(ηj (u)) = 0 y Var(ηj (u)) = 1.

Definición 6.3.1. Un campo (Y(u))U se dice χ–cuadrado con l grados de libertad si

16 T
l

20 A
X
Yj (u) = ηj2 (u),
j=1
lio IM
donde los campos (ηj (u))U son campos aleatorios gaussianos independientes y estándar.

Definición 6.3.2. Un campo del tipo


Ju -C

X(u) √
T (u) = n
S(u)
D

se dice un campo t–student (con n − 1 grados de libertad). Ver la distribución t–student en


AT

la Sección 5.5.3.

Entonces podemos motivar con dos tipos de preguntas que provienen de estadı́stica en
neuroimágenes (campos) (X(u)):

1. (Activación) ¿ Cómo es la función media µ(u) = E(X(u)) ?

2. (Conectividad) ¿ Cómo es la función de correlación ρ(u, v) = Corr(X(u), X(v)) ?

En este módulo daremos una respuesta a la pregunta de cómo son topológicamente o en


su forma. Tenemos la siguiente proposición.

Proposición 6.3.3. Sean X1 , . . . , Xn son réplicas de un campo aleatorio X : U −→ R, U


subconjunto compacto de RD , con media µ y función de covarianza σ : U 2 −→ R. Entonces
se satisfacen:

1.
Pr
X(u) −→ µ(u), u ∈ U.
6.4. Aproximación de homologı́a persistente de campos aleatorios 197

2. n
1X Pr
σ
b(u, v) = (Xi (u) − X(u))(Xi (v) − X(v)) −→ σ(u, v), u, v ∈ U.
n i=1

3. Si los autovalores λj asociados a σ son distintos, entonces


Pr
bj (u) −→ Pr
λ λj y bj (u) −→ γj (u),
γ u ∈ U.

La demostración de este resultado se encuentra en la literatura de análisis de datos

16 T
funcionales (FDA por sus siglas en inglés).

20 A
También podemos preguntaros por el nivel de significación 0 < α < 1 para determinar
un estimador  para el conjunto de activación; es decir, queremos calcular
lio IM
n o
P ∃u ∈ Â : µ(u) = 0 ≤ α

utilizando
Ju -C

 = {u ∈ U : |T (u)| > c(α)}


donde los c(α) satisfacen la definición de la t–student anterior.
D

Observar que esto ya nos da una conexión con la persistencia de subconjuntos (o supra-
conjuntos) de nivel y la teorı́a de Morse. Además, estamos pensando que el dominio de un
campo aleatorio es continuo y que quizás nuestros estimadores en este caso pueden requerir
AT

cierta suavidad sobre sus formas. Sin embargo, usando ciertas propiedades sobre la con-
volución podremos obviar estas consideraciones ya que las funciones serán infinitamente
diferenciables.

6.4. Aproximación de homologı́a persistente de cam-


pos aleatorios
Dada f : U −→ R función con U compacto de Rd , usando las ideas anteriores definimos
las filtraciones por subcojuntos de nivel (o de Morse) asociadas como sigue,

Ur = {u ∈ U : f (u) ≤ r}

y las inclusiones entre subconjuntos de nivel

Ur ⊂ Ur0 (r ≤ r0 ).
198 Capı́tulo 6. Persistencia de campos aleatorios

La problemática general en homologı́a persistente de campos aleatorios es considerar una


aproximación de f como un campo aleatorio fˆ : U −→ R y construir

Ûr = {u ∈ U : fˆ(u) ≤ r}.

Por lo tanto el problema es inferir la homologı́a persistente de f sobre la base de homologı́a


persistente de fˆ.
En particular, algunos ejemplos anteriormente vistos caen en este contexto, como es el
caso de una muestra aleatoria distribuida con cierta densidad, la cual está soportada sobre

16 T
una variedad M ⊂ Rd . También el caso de funciónes tipo distancia asociadas a nubes de
puntos sobre conjuntos compactos o variedades (muestreo discreto de objetos 3D o 2D y

20 A
reconstrucción de variedades donde vivan vectores de rasgos Xi ∈ Rp . Otro ejemplo es el
de neuroimágenes funcionales con alta resolución espacial (fMRI) y la activación (usando la
lio IM
media) o la conectividad (usando la correlación).
Ju -C

6.4.1. Aproximación de la media de un campo aleatorio


El modelo probabilı́stico a considerar es el siguiente: Sean X1 , . . . , Xn réplicas de un
D

campo aleatorio
X : U −→ R, U ⊂ RD compacto.
AT

Además, para cada u ∈ U escribimos,

f (u) = µ(u) = E(X(u))

y
n
1X
fˆ(u) = Xi (u) = X̄(u).
n i=1
Luego, usando el teorema de estabilidad para diagramas de persistencia asociados a subcon-
juntos de nivel de funciones, y con la misma notación e hipótesis que hasta ahora, tenemos
el siguiente resultado.

Teorema 6.4.1. Supongamos que la convarianza σ del campo X es continua y que las apli-
caciones respectivas f , fˆ son mansas (con probabilidad 1). Si además
!
|X(u) − f (u)|
E máx p ≤L<∞
u∈U σ(u, u)
6.4. Aproximación de homologı́a persistente de campos aleatorios 199

y los campos Xi son gaussianos. Entonces:

C
E(dB (dgm(fˆ), dgm(f ))) ≤ √ ;
n
p
donde C = L máxU σ(u, u).

Demostración.

16 T
E(dB (dgm(fˆ), dgm(f ))) ≤ E(||f − fˆ||) = E(máx |X̄(u) − f (u)|)
U

20 A
p !
σ(u, u) √ p
= E máx √ | n/ σ(u, u)(X̄(u) − f (u))|
U n
lio IM
1  √ p 
= √ máx E máx | n/ σ(u, u)(X̄(u) − f (u))|
n U U
1
Ju -C

p
= √ L máx σ(u, u).
n U
D

Observación 6.4.2. Usando además teorı́a de máximos de campos aleatorios tenemos una
AT

cota de tipo exponencial, lo cual aproxima las probabilidades y por tanto nos dice que, con
probabilidad 1, el diagrama de persistencia de fˆ converge al diagrama de persistencia de f .

En la tesis doctoral y el trabajo posterior de O. Bobrowski con R. Adler, se ofrecen


condiciones suficientes para que una función sea mansa.
Para la gente que trabaja en estadı́stica uno de los estimadores importantes es el de
log–verosı́mil :
n
1 1X
fˆ(u) = ln(u) = ln g(Yi , u);
n n i=1

donde g es la densidad y las Yi se toman de una muestra aleatoria con respecto a g. Ası́:
Z
Efˆ(u) = g(x, u) ln(g(s, u))ds = −K(·, ·).
200 Capı́tulo 6. Persistencia de campos aleatorios

6.4.2. Aproximación de función de regresión sobre una variedad


En este apartado revisamos algunas partes del artı́culo de Bubenik [23], en el cual se
considera el modelo probabilı́stico siguiente: Sea f : M −→ R una función suave y M una
variedad compacta de dimensión d < D. Sean (Xi , Yi ) ∈ M × R con i = 1, . . . , n, tales que

Yi = f (Xi ) + i ; E(i ) = 0, Var(i ) = σ 2

y las variables {i } independientes.


Consideramos

16 T
f ∈ Λ(β, L) = g : M −→ R : |g(x) − g(x0 )| ≤ Lρ(x, x0β ) ;


20 A
con ρ la distancia geodésica sobre la variedad M . (Observar que esto generaliza las nociones
lio IM
de Hölder continuidad para variedades).
Definimos β
  2β+d
ln(n)
Ju -C

ψn :=
n
y decimos que {xi1 , . . . , xim } un conjunto de puntos asintóticamente equidistantes si
D

λd (M )1/d
ı́nf ρ(xij , xik ) ∼
m
AT

j6=k

cuando m −→ ∞. Sea λ(m) el mayor entero tal que


n
[
B(xij , 1/λ(m)) = U.
j=1

Lema 6.4.3. Existe C1 tal que


lı́mλ(m)−d ≤ C1 .

Tomemos d/β
L(2β + d)m

m = m(n) = C1 ,
δC0 dψn
donde δ > 0 y
σ 2 λd (M )(β + d)d2
 
d/(2β+d)
C0 = L ,
ωd−1 β 2
con ωd−1 el volumen de la esfera Sd−1 .
6.5. Caracterı́stica de Euler de códigos de barras de campos gaussianos estándar 201

Definimos X
fˆ(x) = abj 1Aj (x),

Aj = {x ∈ M : dg (x, xij ) = mı́n dg (x, xik )}


1≤k≤m
y Pn
K(xi , xij )Yi
abj = Pi=1
n ;
i=1 K(xi , xij )
con !
C0 ψn −1/β

16 T
K(x, x0 ) = (1 − τ dg (x, x0β ), τ= .
L

20 A
En particular, se saben los siguientes resultados.
lio IM
Lema 6.4.4.
E(||fˆ − f ||∞ ) = O(C0 ψn ).
Ju -C

Teorema 6.4.5 (Bubenik). Con la notación e hipótesis en esta sección se satisface:


 β/2β+d
ln n
lı́mE(dB (fˆ, f )) ≤ C ,
D

n n
y
AT

d2
C = Ld/2β+d σ 2 λd (M ) .
β 2 ωd−1

6.5. Caracterı́stica de Euler de códigos de barras de


campos gaussianos estándar
Por último, vamos a analizar un caso más del trabajo de Adler et al. El escenario proba-
bilı́stico es el siguiente.
Sea f : U −→ R un campo aleatorio gaussiano estándar, esto es f (u) ∼ N(0, 1) para
cada u ∈ U . Más aún, requerimos que f sea de clase C 2 casi seguramente. Consideramos
además la distribución conjunta de f y f 00 tal que sea no degenerada y C la covarianza de
f 00 . Supongamos también que existen K, α > 0 tal que

|C(t, t) + C(s, s) − 2C(t, s)| ≤ K| ln dg (t, x)|−(1+α) .


202 Capı́tulo 6. Persistencia de campos aleatorios

Del primer capı́tulo sabemos que si U0 es una variedad de dimensión d, una de las formas
de definir la caracterı́stica de Euler de U0 es:

d
X
χ(U0 ) = (−1)k βk .
k=0

Para el caso de los códigos de barras también podemos definir la caracterı́stica de Euler.

Definición 6.5.1 (Adler–Bobrowski). Sea P H∗ el código de barras asociado a una filtración.

16 T
Para cada barra B ∈ P H∗ , sean b(B) el nivel en que nace la barra y d(b) el nivel en que

20 A
muere la barra. La caracterı́stica de Euler del código de barras P H∗ se define como
X
lio IM
χ(P H∗ ) := (−1)µ(B) `(B);
B∈P H∗

donde µ(B) es la dimensión del grupo de homologı́a asociado a la barra B y


Ju -C

`(B) = d(B) − b(B).


D

Dicha caracterı́stica de Euler para códigos de barras está vinculada a la distribución de


máximos de campos aleatorios, con el propósito de estudiar estimadores adecuados para χ
AT

de una filtración cualquiera.


Enunciaremos algunas fórmulas que se obtienen de resultados asociados a caracterı́stica
de Euler.
En primer lugar, tenemos la fórmula gaussiana cinética (Adler–Taylor 2007). Sea U una
variedad de clase C 2 y ciertos supuestos adicionales débiles sobre U (i.e. U es una variedad
estratificada).

Teorema 6.5.2. Usando la notación y supuestos anteriores

d
X
E(χ(f −1 (D)) = (2π)−j/2 Lj (U )Mγj (D),
i=1

con D = (−∞, a].

En el resultado anterior tenemos que Lj (U ) es la curvatura “Lipschitz Killing” de U y


Mγj (D)es el funcional de Gauss–Minkowski de D.
6.5. Caracterı́stica de Euler de códigos de barras de campos gaussianos estándar 203

Teorema 6.5.3 (Bobrowski). Consideramos para cada a ∈ R los códigos de barras a nivel
a, P H∗ (f, a) = P H∗ (f −1 (−∞, a]). Se tiene que:
d
X
E(χ(P H∗ (f, a))) = χ(U )[ϕ(a) + aΦ(a)] + ϕ(a) (2π)−j/2 Lj (U )Hj−2 (a),
j=1

con ϕ la densidad, Φ es la función de distribución gaussiana estándar y Hj−2 es una función


de Hermite de orden j − 2.

16 T
Para la demostración de este teorema se desarrolla una teorı́a de integración de funciones
(reales) sobre una variedad con respecto a la “medida” dada por la caracterı́stica de Euler

20 A
Z
f ddχe.
lio IM
U
Ju -CD
AT
204 Capı́tulo 6. Persistencia de campos aleatorios

6.6. Ejercicios
Ejercicio 6.6.1. Definir otras medidas de probabilidad sobre Cn no generadas sobre nodos
i.i.d. Xi , i = 1, . . . n.

Ejercicio 6.6.2. Hacer un análisis similar para v.a. con valores en complejos simpliciales
de Cech con n nodos.

Ejercicio 6.6.3. Probar que el espacio subyacente o polı́topo |K| a un complejo simplicial
es medible considerándolo en la familia de conjuntos compactos en Rd con la topologı́a de

16 T
Borel asociada a la métrica dH .

20 A
Ejercicio 6.6.4. Si Z es una variable aleatoria con valores en U y Z = −Z en ley, entonces
lio IM
σ(u, v) = E(eihu−v,Zi )

es simétrica no–negativa.
Ju -CD
AT
Capı́tulo 7

16 T
Estimación de números de Betti y
topologı́a estocástica
20 A
lio IM
Ju -C

7.1. Topologı́a de densidades paramétricas


D

El objetivo de esta sección es describir los códigos de barra teóricos para los números de
AT

Betti de algunas densidades paramétricas en la esfera que se presentaron en la Sección 3.5.4.


Estos códigos dependen de los parámetros de la densidad. Se incluye el cálculo de algunos
valores esperados de números de Betti, y la estimación de máxima verosimilitud de ellos y
los códigos de barra. El material de esta sección se tomó del artı́culo de Bubenik y Kim [24],
presentando varios cálculos que en dicho artı́culo se dan por hecho.
En concreto, primero se establecen las filtraciones a tratar, Čech y Morse, y se define
la función β0 (x, θ), los cuales constituirán la base de los cálculos siguientes, especialmente
al enfocarnos en los códigos de barra Betti-0. De ahı́ se procede a trabajar con un ejemplo
de juguete, la distribución uniforme en S1 , aprovechando su sencillez para efectuar varios
cálculos explı́citos y dar un sabor un poco más concreto de la idea de calcular códigos de
barra teóricamente sin necesidad de recurrir a cálculos computacionales.
A partir de ahı́ se trabajarán dos ejemplos concretos, siendo las distribuciones von Mises
y von Mises-Fisher en S1 y Sd−1 respectivamente. En ambos casos se calcularán sus códigos
de barra y sus funciones β0 para el código de barra Betti-0. Finalmente, esto se utilizará para
acotar la distancia entre el código de barras actual teórico de la distribución, y el código de
barras obtenido a través de la estimación de parámetros de la misma distribución.

205
206 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Definiciones preliminares
Sea fθ , θ ∈ Θ una función de densidad en una variedad M con respecto a la distribución
uniforme µ. Para poder calcular la persistencia topológica como antes, consideramos dos
filtraciones particulares:

Filtración de Morse: dada por conjuntos de excursión de subniveles,

M≤r = {x ∈ M | fθ (x) ≤ r} , r ∈ R.

16 T
Filtración de Čech: dada por conjuntos de excursión de superniveles,

20 A
 
1
M≥ 1 = x ∈ M | fθ (x) ≥ , r ∈ R.
lio IM
r r

La filtración de Morse ya fue tratada en la Sección 6.4, mientras que en la filtración de


Čech vemos que cuando r → 0, M≥ 1 → ∅, y cuando r → ∞, M≥ 1 → M . Notando que
Ju -C

r r
a medida que r crece, M≥ 1 se va conformando de los puntos de mayor densidad. Es decir,
r
las filtraciones consideran primero los conjuntos de puntos más aglomerados (con mayor
D

densidad en la variedad) y a medida que el tiempo r transcurre, va agregando puntos más


dispersos. Esto coincide con la filtración de Čech tratada en estas notas, pues en ella vimos
que los subconjuntos de puntos con menor distancia entre ellos tienden a formar rápidamente
AT

complejos simpliciales, mientras que los puntos lejanos del resto tienden a ser los últimos en
ser absorbidos por el complejo simplicial principal.
Sea X una muestra aleatoria de puntos con densidad fθ en una variedad M . El objetivo
principal de nuestro trabajo será deducir teóricamente el comportamiento de los códigos de
barra si efectuásemos los cálculos habituales de homologı́a persistente a la nube de puntos
X usando la filtración de Morse o de Čech. Para ello nos será de mucha utilidad hallar la
función Betti-0 β0
Para definirla, primero definimos la función gθ : [0, ∞] → [0, 1] como
Z
gθ (r) = fθ dθ.
M≥1/r

Como fθ es una densidad, gθ es no decreciente para cada θ ∈ Θ, donde gθ (0) = 0 y


gθ (∞) = 1. Definimos entonces la función Betti-0 β0 : (0, 1] × Θ → [0, ∞] como el cuantil de
gθ :
β0 (x, θ) := ı́nf r.
gθ (r)≥x
7.1. Topologı́a de densidades paramétricas 207

Si gθ es continua y creciente, notemos β0 (x, θ) = gθ−1 (x).


Intuitivamente, si efectuásemos nuestro cálculo de persistencia usual y ordenamos los
intervalos de persistencia de Betti-0 de manera vertical (en lugar de horizontal como se
acostumbra) de menor a mayor, β0 describe la función determinada por las puntas superiores
de cada intervalo. De ahı́ que estudiar el comportamiento asintótico de β0 (x, θ) para θ fijo
y x −→ 1 dirá el comportamiento de los números Betti-0 a lo largo del tiempo dada una
filtración (de Čech o de Morse). En otras palabras, la función nos indica la rapidez con la
cual los puntos de X conforman un único complejo simplicial conexo.
Para motivar las virtudes de este enfoque analı́tico al momento de enfrentarnos a los

16 T
cálculos de persistencia, desarrollaremos un ejemplo bastante sencillo pero ilustrativo.

20 A
Densidad uniforme en S1
lio IM
Sea f la densidad uniforme en S1 . Sea X = {X1 , . . . , Xn } una muestra aleatoria con esta
densidad. Antes de proseguir con nuestro acercamiento teórico, debemos de desarrollar cierto
vocabulario.
Sea α ∈ [0, 1) tal que X1 = e2πiα . Ası́, para k = 2, . . . , n sea Uk ∈ [0, 1) tal que
Ju -C

Xk = exp(2πi(α + Uk )). Notemos que Uk ∼ Unif[0, 1). Éstos son reordenados de modo que

0 := Un:0 < Un:1 < . . . < Un:n−1 < Un:n := 1.


D

Ası́, reordenamos las {Xk } como {Xn:k } en correspondencia con las {Un:k } y para cada
AT

k = 1, . . . , n definimos Sk = Un:k − Un:k−1 , siendo S = {S1 , . . . , Sn } el conjunto de espaciados


entre cada par de puntos Xk , Xk+1 vecinos, los cuales finalmente ordenamos

0 := Sn:0 < Sn:1 < . . . < Sn:n−1 < Sn:n = 1.

7.1.1. Intervalos de persistencia y esperanza de códigos de barra


Consideremos la filtración de Vietoris-Rips y la métrica de longitud de arco más corta
1
multiplicada por 2π de modo que S1 tiene circunferencia 1. Recordemos que R(X, r) denota
el complejo Vietoris-Rips construido a partir del contrapeso de radio r para cada punto de
X, como se detalló en la sección 1.3.1.
Consideremos primero el comportamiento de los números Betti-0; es decir, el compor-
tamiento de las componentes conexas en el complejo de Rips. Cuando r = 0, vemos que
R(X, r) = X, teniéndose n componentes conexas distintas. A medida que r incrementa, los
primeros dos puntos a unir (formar un 1-simplejo) en X serán los dos puntos más cercanos
entre sı́, digamos Xk1 , Xk2 . Puesto que la distancia entre dichos puntos es Sn:1 , vemos que
cuando Sn:1 ≤ r < Sn:2 , R(X, r) es el complejo simplicial con cada Xi como 0-simplejo,
208 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

además de único 1-simplejo [Xk1 , Xk2 ]. En este caso, ahora sólo se tienen n − 1 componentes
conexas distintas.
Ahora supongamos que la distancia entre Xl1 , Xl2 es Sn:2 , de modo que si Sn:2 ≤ r < Sn:3 ,
R(X, r) es el complejo simplicial tendrá a cada Xi como 0-simplejo, además de 1-simplejos
[Xk1 , Xk2 ], [Xl1 , Xl2 ]. Ası́, se tendrán n − 2 componentes conexas distintas. Al proseguir, no-
tamos que r ∈ [Sn:k , Sn:k+1 ] ⇒ β0 (R(X, r)) = n − k. En particular, cuando r ≥ Sn:n−1 , vemos
que R(X, r) consiste de una única componente conexa. Entonces los intervalos de persistencia
Betti-0 son la colección
{[0, Sn:i )}n−1
i=1 ∪ {[0, ∞]}.

16 T
Examinemos ahora el caso de los intervalos de persistencia Betti-1, en particular, quere-
mos hallar el intervalo de persistencia Iτ donde τ es la 1-cadena dada por

20 A
τ := (Xn:1 , Xn:2 ) + . . . + (Xn:n−1 , Xn:n ) + (Xn:n , Xn:1 ),
lio IM
el polı́gono convexo circunscrito por S1 . Más aún, notemos que para cualquier otra 1-cadena
σ que se forma mientras r crece, al momento en que ésta aparece, también aparece una
2-cadena que la tiene como frontera. Es decir, el intervalo de persistencia de σ es trivial.
Ju -C

Para resumir el comportamiento de los intervalos Betti-1, tenemos un lema:


Lema 7.1.1. Si Sn:n < 12 , el código de barras de Betti-1 es un único intervalo de persistencia
D

Iα = [Sn:n , s) con s ∈ [ 13 , 12 ).
Observación: Notemos que la mayor distancia posible entre dos puntos en S1 es 12 . Si Sn:n ≥ 21 ,
AT

entonces X se concentra en un semicı́rculo. Vemos que cuando r ≥ 12 , todos los puntos se


unen con todos, formando instantáneamente un n-simplejo completo, el cual ciertamente no
tendrá 1-ciclos. De ahı́ que exigimos Sn:n < 12 .
Demostración. Notemos que τ no se forma sino hasta que r ≥ Sn:n . Por la observación
previa, vemos que r ≥ 12 implica la desaparición de τ .
Como Sn:n < 12 , la realización geométrica de τ es un n-ágono que contiene al centro de
1
S . Si r ≥ Sn:n , debe de existir una 2-cadena
X
σ := [Xi , Xj , Xk ]
i,j,k

tal que ∂σ = τ al triangular dicho n-ágono.


Debe de existir entonce un 2-simplejo [Xi , Xj , Xk ] cuya realización geométrica contiene
al centro. Vemos que el r más pequeo posible para que [Xi , Xj , Xk ] pueda ser 2-simplejo en
primer lugar es r = 13 , en el caso que [Xi , Xj , Xk ] forma un triángulo equilátero.
Por ende, τ se vuelve una frontera cuando r = s, para algún s ∈ [ 13 , 12 ).
7.1. Topologı́a de densidades paramétricas 209

Observación: Si Sn:n ≥ 31 es posible que s = Sn:n de modo que Iτ también es trivial. Por
ejemplo, consideremos X = {X1 , X2 , X3 } distribuidos como un triángulo equilátero.
Para saber que tan probable es que ocurran casos degenerados como los planteados en
ambas observaciones previas, recurrimos a un teorema clásico
Teorema 7.1.2 (Whitworth, 1897). Si S es un conjunto de n espaciados en S1 distribuidos
de manera uniforme en [0, 1], entonces
 
n−1 n
X
k+1
P(Sn:n > x) = (−1) (1 − kx) , ∀ x > 0.
k

16 T
k≥1
kx<1

20 A
n−1
Usando Whitworth, vemos que P(Sn:n > 21 ) = 2n−1n
y P(Sn:n > 13 ) < n 23 , las cuales
en ambos casos tienden a 0 muy rápidamente a medida que n crece, por lo que casi siempre
lio IM
podremos ignorar ambas observaciones.
Continuando con la notación anterior, ahora usaremos otro resultado
Ju -C

Teorema 7.1.3. Para 1 ≤ i ≤ n, el valor esperado de los espaciados es dado por


i n
1X 1 X 1
E(Sn:i ) = = .
D

n j=1 n + 1 − j j=n+1−i j

Ası́, el código de barras Betti-0 esperado consiste de los intervalos


AT

(" i
!)n−1
1X 1
0, ∪ {[0, ∞]}.
n j=1 n + 1 − j
i=1

La función Betti-0
Para calcular la función Betti-0 a partir del código de barras consideremos

n β̃0 := ESn:d(n−1)xe .

La función
R1 Betti-0(n) es una versión normalizada de n β0 (x, 0) = cnn β̃0 (x, 0) de manera tal
que 0 n β0 (x, 0)dx = 1. A partir de aquı́ haremos varias observaciones.
Calculamos
d(n−1)xe n
cn X 1 cn X 1
n β0 (x, 0) = = .
n j=1
n+1−j n j
j=n+1−d(n−1)xe
210 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

R1 1 1
Como 0 ESn:d(n−1)xe dx = n−1
ESn:1 + ... + n−1
ESn:n−1 al ser la integral de una función
escalonada, vemos
P −1
ESn:i n−1
cn = = ,
n−1 1 − ESn:n

pues
n
X n
X n−1
X
Sn:i = 1 ⇒ ESn:i = 1 ⇒ ESn:n = 1 − ESn:1 .

16 T
i=1 i=1 i=1

20 A
cn
Nótese que lı́mn→∞ ESn:n = 0, por lo que lı́m = 1.
n→∞ n
lio IM
Además, cuando n es grande, d(n − 1)xe es muy parecido a (n − 1)x. Usando L’Hôpital
calculamos
   
n 1
Ju -C

lı́m log = log lı́m = − log(1 − x).


n→∞ n + 1 − d(n − 1)xe n→∞ 1 − x
D

Finalmente, observemos a partir de la definición de integral que para todo 1 ≤ k ≤ n se


tiene:
AT

 n  1 Z n dx X n Z n
1 1 1 dx 1 n
+ log = + < < + = + log .
n k n k x j=k
j k k x k k

Tomando k = n + 1 − d(n − 1)xe y combinándola con todas estas observaciones previas


podemos enunciar:

Teorema 7.1.4. Para 0 < x < 1, n → ∞, obtenemos n β0 (x, 0) → − log(1 − x).

Por último graficamos n β0 (x, 0) para n = 10 y n = 100 junto con f (x) = − log(1 − x)
y corroboramos que en efecto, − log(1 − x) refleja el comportamiento asintótico de los picos
de cada intervalo de persistencia Betti-0, donde los intervalos fueron ordenados de menor a
mayor colocados verticalmente como se muestra en la figura 1 .

1
Imagen tomada directamente de [24]
7.1. Topologı́a de densidades paramétricas 211

16 T
20 A
lio IM
Figura 7.1: n β0 (x, 0) para n = 10 y n = 100 junto con f (x) = − log(1 − x)
Ju -C

7.1.2. Códigos de barra de ciertas densidades paramétricas


D

Una vez motivados por el ejemplo de juguete expuesto, procedemos a tratar de calcular
teóricamente los códigos de barra de densidades un poco más elaboradas y en otras varie-
AT

dades. En concreto, trataremos las densidades von Mises y von Mises-Fisher en S1 y Sp


respectivamente, y sus códigos de barras bajo las filtraciones de Čech y Morse.

La distribución von Mises


Sea M = S1 = {eiθ | x ∈ [−π, π)} el cı́rculo unitario y consideremos la densidad von Mises
de parámetros (m, κ) ∈ [−π, π) × [0, ∞) dada por
1
fm,κ = exp[κ cos(θ − m)], x ∈ [−π, π),
I0 (κ)

con I0 (κ) la función de Bessel modificada de primer tipo y orden 0, donde


Z 1
(κ/2)α
Iα (κ) = eκt (1 − t2 )α−1/2 dt
Γ(α + 1/2)Γ(1/2) −1
y Γ es la función Gama. Supondremos además que m = 0 para simplificar el modelo, siendo
ası́ κ el único parámetro.
212 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Recordemos que S1≥ 1 = {θ ∈ S1 | fκ (θ) ≥ 1r }. Consideremos para r > 0


r
  
1 r
αr,κ = arc cos log ,
κ c(κ)
1
donde c(κ) es un constante dada por c(κ) = I0 (κ)
. Vemos que αr,κ cumple fκ (αr,κ ) = r.
Como | cos θ| ≤ 1, vemos que
eκ 1
máx fκ = , mı́n fκ = .
I0 (κ) eκ I0 (κ)

16 T
Aprovechando la forma de la gráfica de arc cos, obtenemos fácilmente el siguiente resul-

20 A
tado que resume el comportamiento de S≥ 1 , S≤r a lo largo del tiempo.
r
lio IM
Ju -CD
AT

Figura 7.2: arc cos con rango [−π, π)

Figura 7.3: arc cos con rango [π, 3π)


7.1. Topologı́a de densidades paramétricas 213

1
Lema 7.1.5. 1. Para 0 ≤ r < máx fκ
, S1≥ 1 = ∅ y para r < mı́n fκ , S1≤r = ∅.
r

1 1
2. ≤r< , S1 1 = {θ : −α 1 ,κ ≤ θ ≤ α 1 ,κ }.
máx fκ mı́n fκ ≥ r r r

3. mı́n fκ ≤ r < máx fκ , S1≤r = {θ : αr,κ ≤ θ ≤ 2π − αr,κ }.


1
4. r ≥ mı́n fκ
, S1≥ 1 = S1 y r ≥ máx fκ , S1≤r = S1 .
r

16 T
Demostración. 1. Si 0 ≤ r < máx1 fκ , vemos que fκ (θ) ≥ 1r ⇒ fκ (θ) > máx fκ . Si r <
mı́n fκ , ; fκ (θ) ≤ r ⇒ fκ (θ) < mı́n fκ . En ambos casos, es imposible que exista tal θ.

20 A eκ
lio IM
2. Notemos que fκ (0) = = máx fκ y que mı́n fκ < f (α 1 ,κ ) = f (−α 1 ,κ ) = 1r ≤
I0 (κ) r r
1
máx fκ . Por la geometrı́a de arc cos, vemos que S≥ 1 son en efecto todos los puntos
r
entre α 1 ,κ y −α 1 ,κ (como los marcados en la lı́nea azul en la figura 7.2)
Ju -C

r r

3. Análogo al anterior, fκ (π) = [eκ I0 (κ)]−1 = mı́n fκ y mı́n fκ ≤ fκ (αr,κ ) = fκ (2π−αr,κ ) =


r < máx fκ de modo que S1≤r consta de todos los puntos entre αr,κ y 2π − αr,κ (como
D

los marcados en la lı́nea naranja en la figura 7.3)


AT

4. Observación análoga al primer inciso de este lema.

Filtración de Morse
Primero estudiemos los intervalos de persistencia bajo la filtración de Morse. Del lema
anterior vemos que

1. r < mı́n fκ ⇒ S1≤r = ∅.

2. mı́n fκ ≤ r < máx fκ ⇒ S1≤r es contraı́ble, pues el segmento naranja de figura 7.3 es
un segmento de arco de un cı́rculo, como en figura 7.4. Al ser contraı́ble su grupo de
homologı́a de dimensión 1 es trivial.

3. r ≥ máx fκ ⇒ S1≤r = S1 .
214 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

De ahı́ que el código de barras Betti-0 para la filtración de


Morse consiste de un único intervalo
 
1
[mı́n fκ , ∞] = κ ,∞
e I0 (κ)

y el código de Betti-1 es un único intervalo


 κ 
e
[máx fκ , ∞] = ,∞ , Figura 7.4: Arco de cı́rculo
I0 (κ)

16 T
mientras que el resto de códigos de barra son triviales, pues lo

20 A
son en S1 .
lio IM
Filtración de Čech y la función Betti-0
Ju -C

Ahora consideremos la filtración de Čech. Para ello dividimos el análisis en dos casos:
κ = 0 y κ > 0.
1 0
D

Si κ = 0, el caso de distribución uniforme, entonces f0 (θ) = e = 1 pues


I0 (0)
AT

Z 1  
1 2 −1/2 1 t=1 1 π −π
I0 (0) = (1 − t ) dt = [arcsin(t)]t=−1 = − = 1,
Γ(1/2)2 −1 π π 2 2

por lo que máx fκ = mı́n fκ = 1. Aunando al lema anterior, vemos que


1 1
r< ⇒ S1≥ 1 = ∅ y r ≥ ⇒ S1≥ 1 = S1 .
1 r 1 r

Volviendo a la definición de la función β0 , vemos que


Z (
0, r < 1
g0 (r) = f0 (θ) dθ =
S11 1, r ≥ 1
r

por lo que β0 (x, 0) = ı́nf r = 1 ∀ x ∈ (0, 1].


g0 (r)≥x

Si κ > 0, primero calculamos los intervalos de persistencia.


7.1. Topologı́a de densidades paramétricas 215

1
1. r < máx fκ
⇒ S1≥ 1 = ∅.
r

1 1
2. ≤r< ⇒ S1≥ 1 es contraı́ble, y su grupo de homologı́a de dimensión 1
máx fκ mı́n fκ r

es trivial.
1
3. r ≥ ⇒ S1≥ 1 = S1 .
mı́n fκ r

De ahı́ que el código de barras Betti-0 para la filtración de Morse consiste de un único

16 T
intervalo    
1 I0 (κ)
,∞ = ,∞

20 A
máx fκ eκ
y el código de Betti-1 es un único intervalo
lio IM
 
1
, ∞ = [eκ I0 (κ), ∞] ,
mı́n fκ
Ju -C

mientras que el resto de códigos de barra son triviales, pues lo son en S1 .


D

R
Sea x ∈ [0, 1] y supongamos β0 (x, κ) = r. Como κ > 0, gκ (r) = S1
fκ (θ) dθ es continua
1
≥r
y creciente. Ası́,
AT

Z
x= fκ (θ) dθ.
S11
≥r

Redefinimos ahora αr,κ ∈ [0, π] tal que fκ (ακ,r ) = 1r . Entonces


1
r= .
fκ (αr,κ )

Para ψ ∈ [0, π], sea Fκ (ψ) = 0
fκ (θ) dθ, la cual es creciente pues fκ es no negativa. Como
fκ es par,
Z Z αr,κ
x= fκ (θ)dθ = fκ (θ)dθ = 2Fκ (αr,κ ).
S1 ≥ r1 −αr,κ

Entonces αr,κ = Fκ−1 ( x2 ) y por ende


1
β0 (x, κ) = r = .
fκ (Fκ−1 ( x2 ))
216 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Como fκ , Fκ son suaves, por Teorema de la Función Inversa, Fκ−1 también lo es, de modo
que x
β0 (x, κ) = (Fκ−1 )0 .
2

Para corroborar, vemos que fκ → 1 cuando κ → 0, de modo que en particular fκ (Fκ−1 ( x2 )) →


1 también. Entonces β0 (x, κ) → 1 = β0 (x, 0) cuando κ → 0.
También podemos describir la gráfica de r = β0 (x, κ) paramétricamente como

16 T
 
1

20 A
hκ (t) = 2Fκ (t), , t ∈ [0, π].
fκ (t)
lio IM
la cual al graficarse luce como se ve en la figura siguiente.2
Ju -CD
AT

La distribución von Mises-Fisher


Sea ahora M = Sd−1 , para d ≥ 3 y consideremos la densidad unimodal von Mises-Fisher
dada por
>
fm,κ = c(κ)eκx m , x ∈ Sd−1 ,
con parámetros (κ, m) ∈ [0, ∞) × Sd−1 y
 κ d/2−1 1
c(κ) =
2 Γ(d/2)Id/2−1 (κ)
2
Imagen tomada directamente de [24]
7.1. Topologı́a de densidades paramétricas 217

una constante normalizadora respecto a la medida uniforme.


Una simple manipulación algebraica
Z Z  d/2−1  
> > 2 1
c(κ) exp(κx m) dx = 1 ⇒ exp(κx m) dx = Γ Id/2−1 (κ),
Sd−1 Sd−1 κ 2
donde
 d/2−1   Z 1
(κ/2)d/2−1
Z
> 2 1
exp(κx m) dx = Γ eκt (1 − t2 )d/2−3/2 dt
d−1 κ 2 Γ((d − 1)/2))Γ(1/2) −1

16 T
S
Γ( d−1 + 1 Z 1
)
= d−1 2 2
eκt (1 − t2 )(d/2−1)−1/2 dt,

20 A
1
Γ( 2 )Γ( 2 ) −1

y nos permite reescribir c(κ) como


lio IM
−1
B( d−1 , 12 )−1
Z
> 2
c(κ) = exp(κx m) dx = R1 ,
Sd−1 eκt (1 − t2 )(d/2−1)−1/2 dt
Ju -C

−1

donde B(·, ·) es la función Beta, la cual es dada por:


Z 1
D

Γ(x)Γ(y)
B(x, y) = tx−1 (1 − t)y−1 dt =
0 Γ(x + y)
AT

cuando Re(x), Re(y) > 0.


En particular, dado que en general si w tal que Re(w) > − 12 , entonces
Z 1 √
2 w−1/2 πΓ(w + 1/2)
(1 − t ) dt = ,
−1 Γ(w + 1)
de modo que
−1 √ "√ #−1
Γ( d−1 )Γ( 12 ) 1
Γ( d−1 d
− 1
Z
d−3 ) π πΓ( )
c(0) = 2
(1 − t2 ) 2 dt = d−12 2 2
= 1.
Γ( d−1
2
+ 12 ) −1 Γ( 2 + 12 ) Γ( d2 )

Por otro lado, de la desigualdad de Cauchy-Schwarz vemos que |xT m| = |hx> mi| ≤
||x||||m|| ≤ 1, por lo que

máx fκ = c(κ)eκ , mı́n fκ = c(κ)e−κ .


218 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Notemos que el máximo y el mı́nimo no dependen de m. De hecho, por simetrı́a, las


homologı́as no dependen de m. De ahı́ que nos preocuparemos únicamente por el parámetro
κ.
Al igual que en la densidad von Mises, dado mı́n fκ ≤ r ≤ máx fκ fijo, consideremos
 
1 r
αr,κ = log ∈ [−1, 1]
κ c(κ)

la cual es creciente al fijar el parámetro κ y además cumple

16 T
c(κ) exp(καr,κ ) = r.

Filtración de Morse
20 A
lio IM
Similar al lema 7.1.5, establecemos

Lema 7.1.6. 1. r < mı́n fκ ⇒ Sd−1


≤r = ∅.
Ju -C

2. r ≥ máx fκ ⇒ Sd−1
≤r = S
d−1
.
D

3. mı́n fκ ≤ r < máx fκ ⇒ Sp−1


≤r = {x ∈ S
d−1
| x> m ≤ αr,κ }.
AT

Observación: En el segundo caso, Sd−1


≤r es la cerradura de S
d−1
menos un cono circular recto
d−1
con vértice 0 centrado en m. En particular, S≤r es contraı́ble, de modo que su grupo de
homologı́a de dimensión 1 es trivial.
Combinando este último lema junto con la observación vemos que bajo la filtración de
Morse, el código de barras Betti-0 es un único intervalo [mı́n fκ , ∞), el código de barras
Betti-(p − 1) es [máx fκ , ∞), mientras que el resto son vacı́os, pues lo son en Sd−1 .

Filtración de Čech y la función Betti-0


Al igual que en la sección anterior, deducimos fácilmente el siguiente lema:

Lema 7.1.7. 1. 0 ≤ r < 1


máx fκ
⇒ Sd−1
≥1
= ∅.
r

1 1
2. ≤r< ⇒ Sd−1
≥ r1
= {x ∈ Sd−1 | x> m ≥ α 1 ,κ }.
máx fκ mı́n fκ r

3. r ≥ 1
mı́n fκ
⇒ Sd−1
≥1
= Sd−1 .
r
7.1. Topologı́a de densidades paramétricas 219

Observación: En el segundo caso notemos que Sd−1 ≥ r1


es la intersección de Sd−1 con un cono
circular de vértice 0 centrado en m. En particular, es contraı́ble por lo que su homologı́a de
dimensión 1 es trivial.
Combinando este último lema junto con la observación vemos que bajo la filtración de
Čech, el código de barras Betti-0 es un único intervalo [ máx1 fκ , ∞), el código de barras Betti-
(p − 1) es [ mı́n1 fκ , ∞), mientras que el resto son vacı́os.

Continuando de manera análoga al caso von Mises, consideremos dos casos para deducir

16 T
la función Betti-0.

20 A
Si κ = 0, entonces f0 = c(0) = 1 de modo que
(
lio IM
∅, r<1
Sd−1
≥1
= d−1
.
r S , r≥1
Ju -C

Entonces (
Z
0, r < 1
gκ (r) = f0 (x)dx =
Sd−1
1
1, r ≥ 1
≥r
D

y por ende
AT

β0 (x, 0) = ı́nf r = 1,
gκ (r)≥x

lo cual coincide con nuestros cálculos con la densidad von Mises.

Si κ > 0, mediante coordenadas polares, obtenemos

Z
x = gκ (r) = fκ (ξ)dξ
Sd−1
1≥r
log(rc(κ))
Z arc cos(− )
sp−2 κ
= c(κ) eκ cos θ sinp−2 θdθ
sp−1 0

p
donde sp−1 = 2π 2
Γ( p2 )
. Si κ > 0, gκ (r) es creciente de modo que β0 (x, κ) = gκ−1 (x) para x ∈ [0, 1].
220 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

También podemos describir la gráfica de β0 en términos paramétricos como


log(rc(κ))
!
sp−2 arc cos(− κ ) κ cos θ p−2 e−κ cos t
Z
hκ (t) = c(κ) e sin θdθ,
sp−1 0 c(κ)

con t ∈ [0, π].

7.1.3. Estimación estadı́stica de códigos de barra


En esta última sección daremos un par de resultados del comportamiento de los códigos de

16 T
barra reales versus un código de barra estimado. Daremos cotas a las diferencias absolutas

20 A
en los casos particulares cuando estamos trabajando con las densidades von Mises y von
Mises-Fisher.
lio IM
Estimando con la densidad von Mises-Fisher
Sean X1 , . . . , Xn variables aleatorias en Sd−1 independientes idénticamente distribuidas
Ju -C

con densidad von Mises-Fisher f de parámetros m, κ desconocidos. Si tenemos una muestra


X = {x1 , . . . , xn }, nos interesa estimar los parámetros de la densidad. Para ello, consideremos
la función de verosimilitud obtenida a partir de X,
D

n n
>
Y Y
L(m, κ; X) = f (xi ; m, κ) = c(κ)eκxi m .
AT

i=1 i=1
Pn
Considerando el estadı́stico r = i=1 xi , tenemos la función de log verosimilitud
n
X
l(m, κ; X) = [log c(κ) + κx> >
i m] = n log c(κ) + κr m.
i=1

Para obtener los estimadores de máxima verosimilitud, consideremos el multiplicador de


Lagrange
L(m, κ, λ) = n log c(κ) + κr> m + λ(1 − m> m)
y suponiendo que µ̂, κ̂ son los máximos, obtenemos el sistema de ecuaciones
∂L κ̂
= κ̂r − λ(2m̂) = 0 ⇒ m̂ = r. (7.1.1a)
∂m 2λ
∂L c0 (κ̂) c0 (κ̂)
=n + r> m̂ = 0 ⇒ n = −r> m̂. (7.1.1b)
∂κ c(κ̂) c(κ̂)
∂L
= 1 − m̂> m̂ = 0 ⇒ m̂> m̂ = 1. (7.1.1c)
∂λ
7.1. Topologı́a de densidades paramétricas 221

Tomando norma al cuadrado en ambos lados de la primera ecuación


 2
2 κ̂ κ̂ κ̂
||m̂|| = ) ||r||2 ⇒ 1 = ||r|| ⇒ λ = ||r||.
2λ 2λ 2
Sustituyéndolo en la primera ecuación
κ̂ r
r= = m̂
2(κ̂/2||r||) ||r||
de modo que al sustituir en la segunda ecuación

16 T
c0 (κ̂) ||r||
=−

20 A
.
c(κ̂) n
lio IM
d
Por otro lado, para facilitar la notación, sean s := 2
− 1, ξ = 2s Γ( d2 ), de modo que
κs
c(κ) = .
ξIs (κ)
Ju -C

Derivando respecto a κ,
sκs−1 ξIs (κ) − ξκs Is0 (κ) κ2 κIs0 (κ) κIs0 (κ)
   
0 s s
− −
D

c (κ) = = = c(κ) ,
[ξIs (κ)]2 ξIs (κ) κ ξIs (κ)2 κ ξIs (κ)2
es decir,
AT

c0 (κ) I 0 (κ) s
− = s − .
c(κ) Is (κ) κ
Ahora bien, aprovechando la igualdad (ver [1])
κIs+1 (κ) = κIs0 (κ) − sIs (κ)
obtenemos
c0 (κ) Is+1 (κ) s s Is+1 (κ) Id/2 (κ)
− = + − = = =: Ad (κ)
c(κ) Is (κ) κ κ Is (κ) Id/2−1 (κ)
concluyendo ası́ en particular,
c0 (κ̂) ||r||
− = Ad (κ̂) =
c(κ̂) n
siendo ası́ los estimadores de máxima verosimilitud dados por
||r|| r
κ̂ = A−1
d , m̂ = .
n ||r||
222 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Al ser estimadores de máxima verosimilitud, tenemos el comportamiento asintótico (ver


Proposición 5.4.4)
√ L
n(κ̂ − κ) → N (0, A0−1
p )

donde N (µ, σ 2 ) denota a la distribución normal de media µ y varianza σ 2 y A0p es la infor-


mación de Fisher.
Si βiM , βiČ denotan los códigos de barra para Betti-i bajo las filtraciones de Morse y Čech

16 T
respectivamente, enunciamos

20 A
Teorema 7.1.8. Para la distribución von Mises-Fisher en Sd−1 y κ ∈ [κ0 , κ1 ] con 0 < κ0 ≤
lio IM
κ1 < ∞ fijos,
1
E(D[βiM (fκ̂ ), βiM (fκ )]) ≤ C(κ)n− 2 , n→∞ ∀ i,
Ju -C

1
E(D[βiČ (fκ̂ ), βiČ (fκ )]) ≤ C(κ)n− 2 , n→∞ ∀ i ≥ 1,

para alguna constante C(κ).


D

Observación: Aprovechando que los intervalos en los códigos de barra de la distribución von
AT

Mises-Fisher son sencillos, de la definición de distancia D vemos que

D([a, ∞), [b, ∞)) = |a − b|.

Demostración. Recordemos que los únicos códigos de barra no necesariamente triviales ocu-
rren en las dimensiones i = 1 e i = d − 1. De la observación anterior y aprovechando nuestras
construcciones teóricas de códigos de barra en la sección anterior, vemos que

1. d[β0M (fκ̂ ), β0M (fκ )] = |c(κ̂)e−κ̂ − c(κ)e−κ |.

M M
2. d[βp−1 (fκ̂ ), βp−1 (fκ )] = |c(κ̂)eκ̂ − c(κ)eκ |.


3. d[βp−1 Č
(fκ̂ ), βp−1 (fκ )] = |c(κ̂)−1 eκ̂ − c(κ)−1 eκ |.

Enfoquémonos únicamente en la primera igualdad. Por teorema del valor medio, existe
7.1. Topologı́a de densidades paramétricas 223

κ∗ entre κ y κ̂ tal que



E|c(κ̂)eκ̂ − c(κ)eκ | = E|(c(κ∗ ) + c0 (κ∗ ))eκ (κ̂ − κ)|
Z

= [(c(κ∗ ) − c0 (κ∗ )eκ (κ̂ − κ)]κdf ]
Z  21 Z  12
∗ 0 ∗ κ∗ 2 2
≤ [(c(κ ) − c (κ )e ] df ] ((κ̂ − κ)κ) df
1
≤ C ∗ (κ)(E|κ̂ − κ|2 ) 2

16 T
1
≤ C(κ)n− 2 .

20 A
Para las otras dos igualdades el resultado es completamente análogo.
lio IM
Caso particular d = 3
Enfoquémonos ahora en el caso particular cuando d = 3 en la variedad S2 . En este caso,
muchos cálculos pueden hacerse de manera explı́cita.
Ju -C

Calculamos
B(1, 21 )−1 1
2 κ
c(κ) = R 1 = = ,
exp(κt) dt 2 sinh κ/κ sinh κ
−1
D

p
1 x −x 2π 2
pues sinh x = 2
(e − e ). Por otro lado, si sp−1 = p , vemos que
Γ( 2 )
AT

2π 2π 3/2
s1 = = 2π, s2 = = 4π.
Γ(1) Γ( 23 )
s1
de modo que s2
= 12 . Además,
Z
exp(κ cos θ)
eκ cos θ sinp−2 θdθ = − ,
κ
por lo que

log(rc(κ))
s1 arc cos(− κ ) κ cos θ
Z
gκ (r) = c(κ) e sin θdθ
s2 0
 
1 exp(κ) 1
= c(κ) −
2 κ κrc(κ)
exp(κ) 1
= − .
2 sinh κ 2rκ
224 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Como β0 (x, κ) = gκ−1 (x) para x ∈ [0, 1], al invertir


exp(κ) 1
gκ (r) = x = −
2 sinh κ 2rκ
1 2 sinh κ
⇒ exp(κ) = = 2rκ
−x exp(κ) − 2x sinh κ
2 sinh κ
2 sinh κ
⇒r=
2κ[exp(κ) − x[exp(κ) − exp(−κ)]
exp(κ) − exp(−κ)
= ,

16 T
2κ[(1 − x) exp(κ) + x exp(−κ)]

20 A
y ası́
exp(2κ) − 1
β0 (x, κ) = .
2κ[(1 − x) exp(2κ) + x]
lio IM
Notemos que β0 (x, κ) → 1 cuando κ → 0 como era de esperar, pues por L’Hôpital
exp(2κ) 1
→ = 1.
Ju -C

[(1 − x) exp(2κ) + x] + κ[2(1 − x) exp(2κ) + x] 1+0


Finalmente, también notamos que β0 (x, κ) → 0 cuando κ → ∞ para toda x ∈ (0, 1).
D
AT

Figura 7.5: Gráfica de β0 cuando d = 3

Y en este caso en particular podemos enunciar


Teorema 7.1.9. Para la distribución von Mises-Fisher en S2 y κ > 0 fijo
E||β0 (x, κ̂) − β0 (x, κ)||∞ ≤ C(κ)n−1
cuando n → ∞.
7.1. Topologı́a de densidades paramétricas 225

Demostración. Por Teorema del valor medio, existe κ∗ entre κ y κ̂ tal que

β0 (x, κ̂) − β0 (x, κ) = β0 (x, κ∗ )(κ̂ − κ),
∂κ
con
∂ −(1 − x)e4κ + (1 + 2κ − 2x)e2κ + x
= .
∂κ 2κ2 [(1 − x)e2κ + x]2
Para x ∈ (0, 1], vemos que la derivada es acotada por
e4κ + (1 + 2κ)e2κ + 1

16 T
.
2κ2

20 A
Aprovechando que podemos calcular explı́citamente A3 (κ) = coth κ − κ1 , se sigue un
razonamiento análogo al teorema previo.
lio IM
Observaciones
Ju -C

El enfoque estadı́stico a la persistencia ofrecido por [24] brinda una nueva manera de
entender objetos vitales en el análisis topológico de datos, como lo son los intervalos de
persistencia y los códigos de barra de números Betti. Es especialmente ilustrativo, como
D

se reflejó en el ejemplo de la distribución uniforme en el cı́rculo, pues a lo largo de su


desarrollo no depende de herramientas fuertes de topologı́a o computación, sino que brinda
una perspectiva más orientada a nociones de probabilidad y estadı́stica. De ahı́ que este
AT

enfoque pueda ser usado en conjunto al enfoque topológico-computacional usual para ampliar
el público potencial interesado en este tema.
El ejemplo de juguete presentado es sumamente didáctico, pues permite los cálculos
explı́citos de intervalos de persistencia y la esperanza de éstos, permitiendo el posterior
desarrollo de la función β0 y compararla con su comportamiento asintótico. Esto es relevante,
pues provee cierta intuición de como enfrentarse a densidades menos sencillas en variedades
menos simples, como lo es la von Mises-Fisher en Sd−1 . Son estas construcciones teóricas las
que posteriormente nos dan material concreto para plantear una comparación entre códigos
de barra teóricos y códigos de barra obtenidos al estimar con máximos verosı́miles. Esto
último es relevante, pues ofrece una manera de resolver el problema de que objeto concreto
usar para determinar si una estimación de códigos de barra es adecuada o no.
El trabajo [24] desarrolla otros ejemplos no tratados aquı́, como lo son las densidades
Bingham y Watson en Sd−1 , y la densidad von Mises matricial en el grupo de Lie de ro-
taciones en R3 . Por ejemplo, serı́a interesante tratar explı́citamente densidades en el toro,
aprovechando quizá la medida producto de dos cı́rculos; o incluso podrı́amos intentar den-
sidades en otras superficies como la botella de Klein. Ello implicarı́a también una revisión
226 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

quizá profunda en las propiedades analı́ticas y fórmulas útiles derivadas de cada densidad pa-
ra deducir todos los cálculos necesarios, que pueden ponerse pesados en una primera lectura,
tal como se reflejó en el caso de la densidad von Mises-Fisher.

7.2. Topologı́a de densidades no–paramétricas en va-


riedades

16 T
El propósito de esta sección es presentar algunos ejemplos de procesos puntuales sobre
variedades y estudiar la topologı́a de las funciones de densidad (distribución) asociadas a

20 A
dichos procesos. Nos referimos al trabajo de Bobrowski y Mukherjee ([18]).
Dada una nube finita de puntos P en un espacio euclidiano Rd , recordamos la función
lio IM
distancia a P ,
dP : Rd −→ R
x 7−→ ı́nf ||p − x||.
Ju -C

p∈P

Además, tenemos el –contrapeso o nervio


[
C(P, ) = d−1
P ([0, ]) = B(p, ).
D

p∈P
AT

En este apartado nos preguntamos cómo cambia la topologı́a de dicha unión de bolas y al
mismo tiempo como varı́an los puntos crı́ticos de la función dP , conforme escojamos el tipo
de proceso puntual asociado a P , o bien al cambiar el tamaño de la muestra.

7.2.1. La nube de puntos como un proceso puntual y su topologı́a


Los procesos puntuales que estudiaremos a continuación serán de dos tipos y estarán
soportados sobre una variedad m–dimensional cerrada

M ⊂ Rd , (m < d).

Consideremos f : M 7−→ R una función de densidad de probabilidad (acotada y medible).


Si X es una variable aleatoria en Rd con densidad f :
Z
F (A) := P(X ∈ A) = f (x)dx (∀A ⊂ Rd ).
A∩M

Los modelos son los siguientes:


7.2. Topologı́a de densidades no–paramétricas en variedades 227

1. Muestra aleatoria: Escogemos n puntos distribuidos a través de f :


i.i.d
χn = {X1 , . . . , Xn } ∼ f.

2. Proceso espacial de Poisson con intensidad λn := nf : Para cualquier región A ⊂ M, el


número de puntos en la región NA := |Pn ∩A| se distribuye como una variable aleatoria
Poisson,
NA := |Pn ∩ A| ∼ Poisson(nF (A)).

16 T
Además, dadas cualesquiera dos regiones disjuntas A, B ⊂ M , las variables aleatorias
NA y NB son independientes.

20 A
Ambos modelos son muy similares, salvo que en el primer caso tenemos exactamente
lio IM
n puntos y en el segundo se distribuyen como Poisson(n). Dado que además los procesos
de Poisson tienen ventajas computacionales, se enunciarán los resultados para este caso
particular. Sin embargo, bajo ligeros ajustes los resultados siguen siendo ciertos en el caso de
Ju -C

χn . Más aún, también se tienen resultados análogos para el caso en que la muestra se tome
sobre un espacio euclidiano Rd (ver [15]).
Por lo tanto, los objetos estocásticos a estudiar serán las uniones de bolas C(Pn , ) y la
función distancia dPn . Recordemos que al final del primer capı́tulo vimos cómo definir puntos
D

crı́ticos de cierto ı́ndice para la función distancia a una nube de puntos. Dada una sucesión
rn de enteros positivos (radios), analizaremos dos tipos de variables aleatorias:
AT

1. Números de Betti aleatorios: Para cada 0 ≤ k ≤ d − 1 consideramos el k–ésimo


número de Betti de C(Pn , rn ),

βk,n := βk (C(Pn , rn )).

2. Puntos crı́ticos locales aleatorios: Para cada 0 ≤ k ≤ d, sea Ck,n el conjunto de


puntos crı́ticos de ı́ndice k para la función dPn . Definimos el conjunto de puntos crı́ticos
locales
L
Ck,n := {c ∈ Ck,n : dPn (c) < rn } = Ck,n ∩ C(Pn , rn )
y su tamaño
L
Nk,n = |Ck,n |.

Sabemos que gracias a la teorı́a de Morse las familias

{βk,n }d−1
k=0 y {Nk,n }dk=0
228 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

están estrechamente relacionadas. En particular, queremos ver cuál es su comportamiento


conforme n −→ ∞ y rn −→ 0. Para el caso de los puntos crı́ticos de la función distancia en
espacios euclidianos tenemos el trabajo de Bobrowski y Adler (ver [16]).

Recordamos que un punto p ∈ Pn es crı́tico de ı́ndice k si existe un conjunto Y de k + 1


puntos, tal que, en una vecindad pequeña de p, dPn ≡ dY . Además, Y vive en una única
esfera de dimensión k − 1. Escribiremos:

• S(Y) para la (k − 1)–esfera que contiene a Y,

16 T
• r(Y) para el radio de dicha esfera y

20 A
• B(Y) para la bola abierta en Rd con centro p y radio r(Y).
lio IM
Para el caso de puntos crı́ticos locales, la condición a considerar serı́a

r(Y) ≤ .
Ju -C

Para poder enunciar los resultados a continuación, usaremos las siguientes funciones
indicadoras:
D


hc (Y) := 1{p ∈ conv◦ (Y)},
AT


hc (Y) := hc (Y)1[0,] (r(Y)),


gc (Y, Pn ) := hc 1{Pn ∩ B(Y) = ∅}.

Observamos que la primer función nos indica si el punto p está en el interior de la


envolvente convexa de los puntos en Y y por lo tanto es candidato a ser punto crı́tico. La
segunda nos indica la localidad y la última función nos indica si el punto p es un punto
crı́tico local de ı́ndice k.
Además de estas funciones, tendremos una función indicadora en subconjuntos Y de
tamaño k + 2, la cual prueba si un subconjunto forma un k–cIclo:

hb (Y) := 1{βk (C(Y, )) = 1}.


7.2. Topologı́a de densidades no–paramétricas en variedades 229

7.2.2. Teoremas lı́mite: Casos subcrı́tico, crı́tico y supercrı́tico


Similarmente al trabajo de Kahle sobre complejos geométricos aleatorios (ver [76]), el
comportamiento al lı́mite de las variables aleatorias se divide en tres regı́menes, dependiendo
del comportamiento sobre el número esperado de puntos en una bola geodésica de radio rn
sobre la variedad M . Esto es, dependiendo de qué valores tome el lı́mite de nrnm , donde m es la
dimensión de M . Los casos son: subcrı́tico cuando nrnm −→ 0, crı́tico cuando nrnm −→ λ > 0
y supercrı́tico cuando nrnm −→ ∞.
En primer lugar, unas observaciones comúnes:

16 T
• Los puntos crı́ticos de ı́ndice 0, o mı́nimos, de dPn son precisamente los puntos de Pn . O

20 A
bien,
N0,n = |Pn | ∼ Poisson(n).
lio IM
• Si el radio rn es suficientemente pequeño el nervio C(Pn , rn ) es homotópicamente equiva-
lente a un subconjunto M 0 ⊂ M , vı́a un retracto por deformación. Luego βm (M 0 ) = 0,
ası́ como βk (M ) = 0 para k > m. Por lo tanto,
Ju -C

βk,n = 0, (k ≥ m).
D

Por la teorı́a de Morse, también tenemos que

Nk,n = 0, (k > m).


AT

Caso subcrı́tico.
En el caso en que nrnm −→ 0 tenemos que el radio rn se va a cero con tanta rapidez,
que es muy improbable para los puntos conectarse y C(Pn , rn ) está muy esparcido. Ésta es
la llamada “fase de polvo”. Veremos que β0,n domina los otros números de Betti, los cuales
aparecen en órdenes descendente de magnitud.

Teorema 7.2.1. Si nrnm −→ 0, entonces:

1. Para 1 ≤ k ≤ m − 1:
E{βk,n } Var(βk,n )
lı́m = lı́m = µbk ;
n−→∞ nk+2 r m(k+1) n→∞ m(k+1)
nk+2 rn
n

donde
230 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Z Z
1
µbk = f k+2
(x)dx hb1 (0, y)dy.
(k + 2)! M (Rm )k+1

Además,

E{β0,n }
lı́m = 1.
n−→∞ n
2. Para 1 ≤ k ≤ m:
E{Nk,n } Var(Nk,n )

16 T
lı́m k+1 mk
= lı́m = µck ;
n−→∞ n rn n→∞ nk+1 rn
mk

20 A
donde
lio IM
Z Z
1
µck = f k+1
(x)dx hc1 (0, y)dy.
(k + 1)! M (Rm )k+1
Ju -C

En el resultado anterior estamos usando la notación y = (y1 , . . . , yk+1 ) ∈ (Rd )k+1 , y

hb (0, y) = hb (0, y1 , . . . , yk+1 ).


D

Como es usual en estos casos, encontrar una expresión más nı́tida de la integral anterior
es una tarea complicada.
AT

Observación 7.2.2. Como nrnm −→ 0, tenemos que

E{N0,n } >> E{N1,n } >> E{N2,n } >> · · · >> E{Nm,n }

E{β0,n } >> E{β1,n } >> · · · >> E{βm−1,n }


y
E{βk,n } ≈ E{Nk+1,n }, (k ≥ 1).
Donde an >> bn significa que an /bn −→ ∞ y an ≈ bn significa que an /bn −→ c > 0.
En otras palabras C(Pn , rn ) consiste principalmente de pequeñas partı́culas disconexas
con relativamente pocos vacı́os. Mientras el número de puntos crece es muy improbable ver
un ciclo y lo es menos si la dimensión aumenta.
De acuerdo al término de control nk+1 rnmk , la distribución en el lı́mite de Nk,n será la
siguiente.
Teorema 7.2.3 (Distribución lı́mite). Supongamos que nrnm −→ 0 y sea 1 ≤ k ≤ m,
7.2. Topologı́a de densidades no–paramétricas en variedades 231

1. Si lı́m nk+1 rnk = 0, entonces


L2
Nk,n −→ 0.
nk+1 rnk < ∞, entonces
P
Si además,
c.s.
Nk,n −→ 0.

2. Si lı́m nk+1 rnk = α > 0, entonces


L
Nk,n −→ Poisson(αµck ).

16 T
20 A
3. Si lı́m nk+1 rnk = ∞, entonces
lio IM
Nk,n − E(Nk,n ) L
−→ N (0, µck ).
(nk+1 rnmk )1/2

m(k+1)
Ju -C

Observación 7.2.4. El mismo teorema es cierto para βk,n , con el término de ajuste nk+2 rn
y la varianza lı́mite µbk . Además, para el caso del TCL en el tercer apartado se requiere que

nrnm ≤ n− , (para algún  > 0).


D
AT

Caso crı́tico
En el caso anterior observamos que el número de componentes conexas β0,n es de orden
n. En este caso tendremos que para cada k, este será el caso y el cálculo de números de Betti
se vuelve complicado. Aún ası́, tenemos lo ya mencionado.

Teorema 7.2.5. Si nrnm −→ λ ∈ (0, ∞) y 1 ≤ k ≤ m − 1:

E{βk,n } E{βk,n }
0 < lı́m inf ≤ lı́m sup < ∞.
n−→∞ n n−→∞ n
Por otro lado, como un punto crı́tico de ı́ndice k está siempre generado por k + 1 puntos,
podemos seguir aplicando técnicas similares al caso anterior para concluir.

Teorema 7.2.6. Si nrnm −→ λ ∈ (0, ∞) y 1 ≤ k ≤ m:

E{Nk,n }
lı́m = γk (λ),
n−→∞ n
232 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Var{Nk,n }
lı́m = σk2 (λ),
n−→∞ n
Nk,n − E{Nk,n } L
√ −→ N (0, σk2 (λ));
n
donde

λk
Z Z
m (0,y)f (x)
γk (λ) := f k+1 (x)hc1 (0, y)e−λωm r dydx
(k + 1)! M (Rm )k

y tenemos una expresión similar para σk2 (λ).

16 T
Donde ωm denota el volumen de la bola unitaria en Rm y r(0, y) es la función que asigna

20 A
el radio de la única esfera que contiene a (0, y).
Para este caso no podemos dar lı́mites exactos para los números de Betti. Sin embargo,
lio IM
usando los puntos crı́ticos de la función distancia, podremos encontrar teoremas lı́mite para
la caracterı́stica de Euler de C(Pn , rn ). Como hemos visto anteriormente, es un invariante
topológico muy simple y puede ser definido de varias maneras. Para nuestro caso tenemos
Ju -C

que
Xm
χn = χ(C(Pn , rn )) = (−1)k βk,n .
D

i=1
Luego, usando la teorı́a de Morse, también podemos calcular χn mediante los puntos crı́ticos
AT

de la función distancia,
Xm
χn = (−1)k Nk,n .
i=1
Podemos concluir el siguiente resultado.
Corolario 7.2.7. Si nrnm −→ λ > 0, entonces
m
E(χn ) X
lı́m =1+ γk (λ).
n−→∞ n k=1

Esto nos da una respuesta parcial, pues aunque no da lı́mites precisos para los números
de Betti en particular, si lo hace para el “resumen” hecho por la caracterı́stica de Euler. Más
aún, usando el teorema anterior se pueden obtener resultados para otro tipo de funcionales
distintos a la esperanza.
Experimentos numéricos ([79]) parecen sugerir que a diferentes rangos del radio existe a
lo más un solo grado de homologı́a que domina los otros:
χn ≈ (−1)k βk,n .
7.2. Topologı́a de densidades no–paramétricas en variedades 233

Si este resulta ser el caso, el resultado anterior podrı́a darnos lı́mites para la esperanza de
los números de Betti al menos en el grado dominante.

Caso supercrı́tico
En cuanto λ del caso anterior va tendiendo a infinito, el complejo C(Pn , rn ) se vuelve
más y más conexo y menos poroso. Ya no sucede que encontremos más y más vacı́os de cada
posible dimensión, la escala a la cual mayores cambios ocurren es

16 T
nrnm ∝ log n.

20 A
Para este caso tendremos que suponer
lio IM
fmin = ı́nf f (x) > 0.
x∈M

Intuitivamente si f (x) = 0, en una vecindad de x deberá haber relativamente pocos puntos


Ju -C

de Pn y quizás podrı́a verse como en los casos anteriores. Como veremos, para cierto radio
βk,n = βk (M )
Los lı́mites para los puntos crı́ticos siguen siendo muy similares.
D

Teorema 7.2.8. Si rn −→ 0 y nrnm −→ ∞, entonces para 1 ≤ k ≤ m:


AT

E{Nk,n }
lı́m = γk (∞),
n−→∞ n
Var{Nk,n }
lı́m = σk2 (∞)
n−→∞ n
y
Nk,n − E{Nk,n } L
√ −→ N (0, σk2 (∞));
n
donde Z
1 m (0,y)
γk (∞) := lı́m γk (λ) = hc (0, y)e−ωm r dydx.
λ−→∞ (k + 1)! (Rm )k

El estudio de los números de Betti se vuelve igual de complicado que antes. Sin embargo,
veremos que podemos encontrar un umbral para el cual βk,n = βk (M ) para todo k ≥ 0. Este
umbral estará dado por
nrnm = (ωm fmin )−1 log n.
Usaremos los siguientes resultados.
234 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Proposición 7.2.9 (Cobertura). Si nrnm ≥ C log n, entonces:

1. Si C > (ωm fmin )−1 , entonces

lı́m P(M ⊂ C(Pn , rn )) = 1.


n−→∞

2. Si C > 2(ωm fmin )−1 , entonces casi seguramente existe L > 0 (posiblemente aleatoria),
tal que para cada n > L tenemos que M ⊂ C(Pn , rn ).

16 T
Usando rn apropiadamente podemos observar que M es un retracto por deformación de
C(Pn , rn ) y con un poco más de maquinaria sobre los puntos crı́ticos de la función distancia

20 A
a Pn tenemos el resultado deseado.
lio IM
Teorema 7.2.10 (Convergencia de los números de Betti). Si rn −→ 0 y nrnm ≥ C log n,
entonces:

1. Si C > (ωm fmin )−1 , entonces


Ju -C

lı́m P(βk,n = βk (M ), ∀0 ≤ k ≤ m) = 1.
n−→∞
D

2. Si C > 2(ωm fmin )−1 , entonces casi seguramente existe L > 0, tal que para n > L,
AT

βk,n = βk (M ), ∀0 ≤ k ≤ m.

Es importante notar que en el resultado anterior el punto exacto de convergencia L es


aleatorio.
Con este teorema se da una respuesta a como inferir las propiedades topológicas de una
variedad M , a partir de una muestra aleatoria P tomada con cierta distribución sobre M .

7.3. Topologı́a de complejos aleatorios geométricos


En capı́tulos anteriores los complejos simpliciales se han utilizado para dotar a una nu-
be de puntos de una estructura topológica y algebraica para tratar de inferir propiedades
subyacentes del objeto geométrico o topológico del que se han tomado los datos. En par-
ticular, para esta construcción se han utilizado los complejos de Čech y de Vietoris-Rips.
Ambos complejos se pueden construir de manera abstracta o sobre puntos contenidos en un
espacio métrico. En esta sección puntualizaremos las diferencias y similitudes entre estas dos
7.3. Topologı́a de complejos aleatorios geométricos 235

maneras de construir estas estructuras y daremos algunas referencias para profundizar en el


estudio de ambas.
En el Capı́tulo 1 se dieron las definiciones de complejo simplicial y de complejo simplicial
abstracto. En los resultados y artı́culos que vamos a discutir en ésta y la siguiente sección
se utiliza otra convención, que comúnmente se usa en la literatura de ATD y topologı́a
estocástica, para llamar a estas dos estructuras. Para facilitar la lectura de las referencias
a los lectores interesados, adoptaremos en estas dos secciones la siguiente convención: A
los complejos simpliciales, contenidos en un espacio métrico especı́fico, por ejemplo Rn , les
llamaremos complejos simpliciales geométricos; y a los complejos simpliciales abstractos se

16 T
les llamará simplemente complejos simpliciales.
En estas notas, las estructuras de complejos que se han estudiado hasta este punto, siem-

20 A
pre han estado contenidas en un espacio métrico por lo que han sido complejos simpliciales
geométricos. Sin embargo, fueron los complejos simpliciales (abstractos) los primeros que se
lio IM
estudiaron desde un punto de vista estocástico o probabilista por lo que es de suma impor-
tancia conocer las diferencias y similitudes entre ambas estructuras y saber qué ingredientes
se necesitan al definir una estructura estocástica sobre complejos simpliciales (abstractos) o
Ju -C

sobre complejos simpliciales geométricos.

Complejos simpliciales aleatorios


D

El primer artı́culo en el que se estudian y definen los complejos aleatorios dos dimen-
sionales fue publicado en el año 2006 bajo el tı́tulo Homological connectivity of random
AT

2-complexes por Linial y Meshulam [102] . Posteriormente, en el 2009, Meshulam y Wallach


publican un artı́culo [100] en el que se hace la generalización a complejos aleatorios de cual-
quier dimensión. En estos dos artı́culos, tomaron como coeficientes para formar los grupos
de homologı́a (y cohomologı́a) a Z2 y Zl (para cualquier número primo l), respectivamente.
El principal resultado del artı́culo del 2006 y el primero que se conoce referente a complejos
simpliciales aleatorios es el siguiente.
Teorema 7.3.1 (Linial–Meshulam 2003-6). Si ω : N → R+ es una función tal que
lı́mn→∞ ω(n) = ∞ y tal que para toda n ∈ N se tiene 2 log n ≥ ω(n), entonces
(
0 p = 2 log n−ω(n)
lı́m P[{Y ∈ Y (n, p) | H 1 (Y ; Z2 ) = 0}] = n
.
n→∞ 1 p = 2 log n+ω(n)
n

En este teorema, Y (n, p) representa al espacio de probabilidad que tiene como posibles
resultados todos los complejos simpliciales 2 dimensionales en n puntos tales que su cero
esqueleto y uno esqueleto están completos, es decir, son los complejos simpliciales 2 di-
mensionales construidos sobre la gráfica completa Kn . Observar que el modelo Y (n, p) es
236 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

el análogo al modelo de Erdös-Renyi G(n, p) (en el que cada arista estará presente en la
gráfica, de manera independiente respecto a las otras, con una probabilidad p y ausente
con una probabilidad de 1 − p, salvo que Y (n, p) está definido para complejos simpliciales 2
dimensionales).
Este resultado nos dice que para la estructura estocástica Y (n, p), hay un umbral fuerte o
bien definido para la propiedad de tener grupo de homologı́a de dimensión 2 (o β2,n ) distinto
del trivial; es decir, que para el cambio del caso subcrı́tico al crı́tico, la estructura Y (n, p)
tiene un umbral fuerte. En general, es deseable tener resultados asintóticos en el que se
encuentre un umbral fuerte o bien definido. Daremos enseguida una definición precisa de lo

16 T
que es un umbral fuerte o bien definido.
Una función f es un umbral fuerte, o bien definido, para una propiedad Q, de una

20 A
estructura estocástica X(n, p), dependiente de los parámetros n y p , si existe una función
g ≡ o(f ) tal que
lio IM
 
1 :p≥f +g
P[X(n, p) ∈ Q] →
0 : p ≤ f + g.
No sólo se ha estudiado la homologı́a de la estructura estocástica Y (n, p); en el 2011
Ju -C

Babson et al. publicaron un resultado que involucra al primer grupo de homotopı́a (para
conocer la definición y algunos resultados elementales del grupo de homotopı́a de un espacio
topológico, se puede consultar [98]).
D

Teorema 7.3.2. Sea  > 0 fijo, entonces


AT

(
n
1 p≥ √
n
lı́m P[{Y ∈ Y (n, p) | π1 (Y ; Z2 ) = 0}] = n√−
.
n→∞ 0 p≤ n

Como ya mencionamos, la generalización del modelo de Linial-Meshulam a dimensiones


mayores es el modelo de Meshulam-Wallach [100]. En este modelo, para dimensión d, se
define Y d (n, p) como el conjunto que contiene a todos los complejos simpliciales sobre n
puntos, con el (d − 1)-esqueleto completo y cada simplejo de dimensión d estará presente
en el complejo con una probabilidad de exito p y ausente con una probabilidad de 1 − p.
Representaremos al complejo simplicial en n puntos con el (d − 1)-esqueleto completo como
(d−1) (d)
∆n y al complejo simplicial en n puntos con el (d)-esqueleto completo como ∆n . El
principal resultado de [100] es el siguiente.
Teorema 7.3.3 (Meshulam–Wallach, 2009). Sea n ∈ N y l un número primo (esto permi-
(d−1) (d)
tirá que Zl tenga estructura de campo). Si ∆n ⊂ Y ⊂ ∆n , entonces
(
0 p = d log n−ω(n)
n
lı́m P[Hd (Y ; Zl ) = 0] = d log n+ω(n) .
n→∞ 1 p= n
7.3. Topologı́a de complejos aleatorios geométricos 237

Observar que en este resultado no sólo se generaliza la dimensión de los complejos simpli-
ciales sino que también se construyen los grupos de homologı́a sobre cualquier campo Zl con
l un número primo. Este resultado aún se desconoce para el grupo de los enteros Z y no es
posible deducirlo directamente del teorema de R. Meshulam y N. Wallach pues el problema
es que podrı́a haber l-torsión si se deja crecer l respecto de n.
Como caso particular en el que d = 1, de este resultado recuperamos el resultado clásico
de Erdös-Renyi [50] para el caso del modelo estocástico G(n, p), en el que la conectividad
de una gráfica coincide con que el grupo de homologı́a de dimensión cero tenga un sólo
generador, que en este caso es Z2 .

16 T
Teorema 7.3.4 ( Erdös y Renyi, 1959). Si ω : N → R+ es una función tal que lı́mn→∞ ω(n) =

20 A
∞ y tal que para toda n ∈ N se tiene log n ≥ ω(n), entonces
(
lio IM
0 p = log n−ω(n)
n
lı́m P[{G ∈ G(n, p) | G es conexa}] = ;
n→∞ 1 p = log n+ω(n)
n
(
Ju -C

log n−ω(n)
0 p= n
lı́m P[{G ∈ G(n, p) | G sin vértices aislados}] = log n+ω(n) ;
n→∞ 1 p= n
(
log n−ω(n)
D

0 p= n
lı́m P[{G ∈ G(n, p) | H0 (G; Z2 ) = Z2 }] = log n+ω(n) .
n→∞ 1 p= n
AT

La cualidad del modelo Y (n, p) de que tiene su uno esqueleto completo (y en general en el
modelo de Meshulam-Wallach que tiene su (d−1)-esqueleto completo), es una particularidad
que no es necesaria que se cumpla en un modelo más general de complejos aleatorios. Un
modelo más general de complejos simpliciales abstractos aleatorios se puede construir sobre
gráficas aleatorias, que por lo general pertenecen al modelo binomial (modelo de Erdös-
Renyi) G(n, p), o al modelo uniforme G(n, m) (en el que cada gráfica se elige de manera
n 
uniforme de todas las (m2 ) gráfica en n vértices y m aristas). Definiremos en seguida una
estructura estocástica con estas caracterı́sticas que resulta en una generalización del modelo
Linial-Meshulam-Wallach.
Un complejo bandera sobre una gráfica H, denotado por X(H) se define como el complejo
maximal que tiene a la gráfica H como su uno esqueleto, es decir, las caras i-dimensionales de
X(H) corresponderán a las subgráficas completas contenidas en H con i+1 puntos. Observar
que este modelo usa una definición parecida a la definición del complejo de Vietoris-Rips,
dada en el Capı́tulo 1, salvo que no hay necesidad en este caso de determinar los elemen-
tos del complejo mediante una función de distancia pues se está trabajando con complejos
simpliciales abstractos.
238 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Una vez que ya se sabe cómo se van a construir los complejos sobre una gráfica determi-
nada, podemos definir la estructura estocástica utilizando el modelo de Erdös-Renyi G(n, p).
Definimos el complejo bandera aleatorio X(n, p) como el complejo bandera asociado a la
estructura de gráficas aleatorias G(n, p). Es decir, sobre cada gráfica G obtenida con el mo-
delo G(n, p) se construye un complejo bandera X(G). Como cualquier complejo simplicial es
homeomorfo a un complejo bandera (invitamos al lector a verificar por qué se cumple esto),
entonces con el modelo estocástico X(n, p) se logra tener un espacio de probabilidad que
abarca muchas estructuras topológicas dependiendo de la n que se elija, en particular si se
hace n → ∞.

16 T
Los siguientes tres teoremas referentes a la estructura X(n, p), fueron tomados de los
artı́culos de Kahle [75], [77] y [79], este último en coautoria con Meckes. El primer resultado

20 A
da un umbral para pasar del caso subcrı́tico al crı́tico; el segundo teorema establece una
función de crecimiento para la esperanza de los números de Betti en el caso crı́tico (existe un
lio IM
resultado análogo que involucra la varianza de los números de Betti); y el tercer resultado
es un teorema de lı́mite central que caracteriza la distribución al lı́mite de los números de
Betti. Recomendamos, como ejercicio, comparar los siguientes resultados con los resultados
Ju -C

que se encuentran en las secciones anteriores en este capı́tulo.


Teorema 7.3.5. Sea k ≥ 1 y α > 0 fija. Si p = n−α y X ∈ X(n, p), entonces
D

(
1
0 α < (2k+1)
lı́m P[Hk (X; Z) = 0] = .
n→∞ 1 α > k1
AT

Teorema 7.3.6. Sea k ≥ 1 y 1


k+1
<α< 1
k
fija. Si p = n−α y X ∈ X(n, p), entonces

E[βk ]
lı́m  (k+1) = 1.
n→∞ n
k+1
p 2
1
Teorema 7.3.7 (Kahle–Meckes). Sea k ≥ 1 y k+1 <α< 1
k
fija. Si p = n−α y X ∈ X(n, p),
entonces
βk − E[βk ] L
p −→ N (0, 1).
Var[βk ]
Antes de pasar a analizar lo complejos simpliciales aleatorios geométricos, vamos a resu-
mir las caracterı́sticas de los complejos simpliciales (abstractos) aleatorios desde un punto
de vista estructural.
Para definir una estructura estocástica, sobre conjuntos de complejos simpliciales abs-
tractos, es necesario primero determinar qué caracterı́sticas tendrán los complejos sobre los
que se quiere definir el espacio de probabilidad.
7.3. Topologı́a de complejos aleatorios geométricos 239

Una de estas caracterı́sticas que hay que definir es el número de puntos que tendrá el cero
esqueleto (que se ha estado denotando por n). Para el caso de complejos aleatorios abstractos
para determinar su cero esqueleto no es necesario dar más información que su cardinalidad.
Queremos hacer énfasis en que, como ya se dijo, en el caso de complejos simpliciales abstractos
únicamente es necesario elegir una n y el cero esqueleto quedará totalmente determinado
por este número; en cambio, en los complejos simpliciales geométricos esto no basta pues
además hay que determinar la posición de los n puntos en el espacio métrico sobre el que se
esté trabajando.
Una vez que se tiene definido el cero esqueleto, se tiene que establecer una forma de

16 T
determinar qué simplejos formarán parte del complejo. Por ejemplo, en el caso del mode-
lo Linial-Meshulam-Wallach d-dimensional se trabaja con complejos que tengan el (d − 1)

20 A
esqueleto completo y que estén contenidos en el d-esqueleto; en el caso de los complejos ban-
dera que se construyen sobre una gráfica, a los cuales no se les limita respecto a la dimensión
lio IM
máxima que puedan alcanzar sus simplejos, su estructura queda totalmente determinada por
la gráfica subyacente que se elija.
El siguiente ingrediente que necesitamos es determinar el espacio de probabilidad adecua-
Ju -C

do dependiendo del modelo que se quiera definir sobre el conjunto de complejos simpliciales
que ya elegimos. Comúnmente éste dependerá de dos parámetros: de una variable que deter-
mina el número de puntos que habrá en el cero esqueleto del complejo y una probabilidad p
D

que determinará los simplejos que conformarán al complejo simplicial. Por ejemplo, en el ca-
so del modelo Linial-Meshulam-Wallach d-dimensional, la probabilidad de éxito p determina
AT

qué simplejos de dimensión d estarán presentes en el complejo simplicial.


Una referencia para estudiar otros resultados importantes en torno a los complejos sim-
pliciales abstractos es el artı́culo de Kahle [78]. Para estudiar a los complejos simpliciales
aleatorios 1-dimensionales, es decir, las gráficas aleatorias, recomendamos el libro de Bollobás
[21] y para conocer otras estructuras estocásticas definidas sobre estructuras de combinatoria
y matemáticas discretas recomendamos el libro de Alon y Spencer [2]. Ahora continuaremos
analizando el tipo de estructuras estocásticas que se pueden construir sobre complejos sim-
pliciales geométricos.

Complejos simpliciales geométricos aleatorios


Primero veremos un ejemplo de complejos geométricos aleatorios (1-dimensionales) y
después, analizando este ejemplo, se determinarán los ingredientes esenciales que permiten
crear una estructura estocástica sobre complejos simpliciales geométricos.
La estructura estocástica que vamos a definir será sobre las gráficas geométricas; comen-
cemos por definir lo que es una gráfica geométrica. Para un conjunto de puntos X ∈ Rd
y un real positivo r definimos la gráfica geométrica G(X, r) como la gráfica con vértices
240 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

V (G) = X y aristas E(G) = {{x, y} | d(x, y) ≤ r}. Observar que en esta definición, para la
construcción de la gráfica geométrica, se parte de un conjunto de puntos X contenido en un
espacio métrico y las aristas (o uno simplejos) que conformarán a la gráfica (o al comple-
jo simplicial 1-dimensional) se determinan por medio de la función distancia en el espacio
métrico en el que se encuentren los puntos (en este caso es Rd ).

En el caso de complejos aleatorios geométricos, para introducir la parte estocástica, en


comparación con los complejos simpliciales (abstractos), ya no hay una probabilidad de
éxito p que permita determinar qué simplejos formarán parte del complejo. Como se ve en la

16 T
definición anterior de gráficas geométricas, lo que determina si un simplejo forma parte del
complejo es únicamente la posición que los puntos guarden entre sı́ respecto a la distancia

20 A
del espacio métrico, y por supuesto, el parámetro r que uno elija.
lio IM
Pero entonces, ¿en dónde está la parte estocástica en estas estructuras geométricas?
Aunque el lector ya conoce la respuesta (porque todas las estructuras que se han visto
en secciones anteriores son estructuras estocásticas definidas sobre complejos simpliciales
Ju -C

geométricos o sobre espacios más generales como lo son los campos aleatorios estudiados en
el Capı́tulo 6), en lo que resta de la sección, analizaremos con cuidado cómo es que se dota de
la parte estocástica a una estructura de complejos geométricos que se quiera estudiar desde
D

un punto de vista probabilista. La intensión de este estudio detallado (y en algún sentido


repetitivo con respecto al contenido previo de estas notas), es que se conozcan a detalle las
AT

partes que conforman estas estructuras estocásticas y que en un momento dado, si alguna
aplicación en ATD ası́ lo requiere o por curiosidad matemática, el lector pueda crear sus
propias estructuras estocásticas sobre complejos geométricos en los que esté interesado en
modelar y entender.

Para responder a la pregunta que se hizo en el párrafo anterior en el caso particular


de gráficas geométricas, cuando los puntos se toman en R, necesitamos como ingrediente
estocástico, elegir una función de densidad de probabilidad f : Rd → R y una sucesión
de variables aleatorias que tomen valores en Rd y que sean independientes e idénticamente
distribuidas {x1 , x2 , ...} con función de distribución común f . Ahora sı́ podemos definir una
estructura estocástica sobre las gráficas geométricas. Para una n ∈ N y un real positivo r, la
gráfica geométrica aleatoria G(Xn , r) es la gráfica geométrica construida sobre los vértices
Xn . Observar que por la manera en la que definimos gráfica geométrica, cada par de vértices
x, y de G(Xn , r) estarán conectados mediante una arista si y sólo si d(x, y) ≤ r. Es importante
mencionar que (de forma análoga a las estructuras estocásticas sobre complejos aleatorios
geométricos que se han estudiado en otros capı́tulos de estas notas) la función de densidad f
con la que determinamos la nube de puntos sobre la que se va a construir la gráfica aleatoria,
7.3. Topologı́a de complejos aleatorios geométricos 241

es una función Lebesgue medible, no–negativa, acotada y que cumple


Z
f (x)dx = 1.
Rd

De manera esquemática y resumida, las gráficas geométricas aleatorias las construimos


determinando los siguientes tres elementos:

1. Se eligió un entorno geométrico, es decir, un espacio métrico que en este caso fue Rd .

16 T
2. Se decidió generar al conjunto de vértices (0-esqueleto) mediante una sucesión de {xi }
variables i.i.d. en Rd con función de densidad f acotada y medible y para un n ∈ N se

20 A
toma el conjunto Xn = {x1 , ..., xn } como el conjunto de vértices.
lio IM
3. Establecimos condiciones geométricas para poder decidir cuáles aristas se incluirán en
la gráfica. Se eligió incluir aquellas cuyos vértices u, v cumplan d(u, v) ≤ r en donde r
es un número positivo que se fija en la construcción de la gráfica aleatoria.
Ju -C

La familia de espacios de probabilidad definidos sobre gráficas geométricas que obtenemos


son G(Xn ; r). Es una familia de espacios de probabilidad porque se tendrá un espacio para
cada r ≥ 0 y cada n que se elija.
D

En general, ¿cómo se construye una estructura estocástica sobre un conjunto de complejos


simpliciales geométricos?
AT

1. Se elige el entorno geométrico. Por lo general un espacio métrico.

2. El conjunto de puntos (0-esqueleto) es generado con un proceso aleatorio definido en


el espacio métrico elegido en 1. Aquı́ es necesario por supuesto tener una medida de
probabilidad o función de probabilidad definida en el espacio métrico. Este proceso
aleatorio puede ser, por ejemplo, una sucesión de variables aleatorias i.i.d. definidas en
el espacio métrico en el que va a vivir el complejo simplicial, o un proceso de Poisson
definido en dicho espacio. Estas dos estructuras se estudiaron en las primeras dos
secciones de este capı́tulo y se puede consultar también el Apéndice D para conocer
más a detalle los procesos de Poisson.

3. Se establecen condiciones geométricas para poder decidir cuáles de los posibles sim-
plejos que se pueden construir sobre el 0-esqueleto, ya elegido como en 2, se incluirán
en el complejo simplicial. Aquı́ se utiliza por lo general la métrica del espacio (en la
sección anterior esta elección se hacia al fijar una radio r o rn ) en combinación con
alguna manera de decidir cuáles simplejos estarán contenidos en el complejo simplicial.
Por ejemplo el complejo de Vietoris-Rips o el complejo de Čech.
242 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

Esto permite construir espacios de probabilidad basados en conjuntos de complejos geométri-


cos. Los casos que más se han estudiado a lo largo de estas notas son los complejos geométri-
cos aleatorios de Vietoris-Rips y de C̆ech, es decir, las familias de espacios de probabilidad
R(Xn ; r) y C(Xn ; r).
Hacemos notar que uno de los objetivos principales del contenido estudiado en el Capı́tulo
3 y Capı́tulo 4 fue construir medidas de probabilidad en algunas superficies o variedades en
las cuales se tiene una métrica. Esto dota al lector con un amplio catálogo de posibilidades
para definir el punto 2 al momento de construir una estructura estocástica en un conjunto
de complejos simpliciales geométricos.

16 T
Es importante puntualizar que al resolver problemas planteados en ATD provenientes de
una nube de puntos, por lo general, se desconoce cómo se han elegido los tres puntos en la

20 A
lista anterior. Por ejemplo, se puede desconocer el entorno geométrico del cual proviene el 0-
esqueleto; en este caso, se busca hacer inferencia para determinar en qué espacio métrico vive
lio IM
la nube de puntos que se tiene. Las herramientas más usadas para inferir el espacio métrico
del que se ha tomado el cero esqueleto fueron estudiadas en el Capı́tulo 5 (por ejemplo, los
diagramas de persistencia). También existe la posibilidad de desconocer la manera en la que
Ju -C

se ha elegido el punto 2, es decir, desconocer la medida de probabilidad definida sobre el


espacio métrico con la cual se genera el 0-esqueleto; en este caso la inferencia se harı́a para
determinar dicha distribución.
D

En esto radica la importancia de explorar de manera teórica estructuras de complejos


simpliciales geométricos variando cualquiera de los tres puntos de la lista anterior, para
AT

contar con hipótesis nulas que permitan hacer inferencia sobre una gran gama de posibles
espacios métricos con alguna medida de probabilidad definida sobre ellos.
Para aquellos interesados en profundizar en el tema de gráficas geométricas aleatorias,
recomendamos el libro de Penrose [109]. En él se puede estudiar a detalle algunas carac-
terı́sticas de gráficas geométricas aleatorias que también se han generalizado a los complejos
geométricos aleatorios. Por ejemplo, la conexidad (medida en homologı́a con β0 ) y los cuatro
posibles casos, que son cualitativamente diferentes, que se mencionaron en la sección anterior:
caso subcrı́tico, caso crı́tico, caso supercrı́tico y el régimen conectado. Consideramos que mu-
chos otros de los resultados referentes a gráficas geométricas aleatorias se pueden generalizar
a mayores dimensiones definiendo adecuadamente la estructura de complejos geométricos
aleatorios (o alguna otra estructura estocástica según sea el caso) que se necesite según el
modelo que se quiera explorar.
En la siguiente sección veremos los resultados publicados en un artı́culo de Kahle, Bo-
browsky y Skraba [19], en el que analizan una estructura estocástica, definida sobre complejos
aleatorios geométricos, determinada por:

1. El espacio métrico: [0, 1]d .


7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 243

2. Como proceso probabilista para determinar el cero esqueleto: un proceso de Poisson


definido en [0, 1]d como se definió en este capı́tulo.
3. Las condiciones geométricas para poder decidir cuáles de los posibles simplejos que se
pueden construir sobre el 0-esqueleto: los complejos simpliciales de Vietoris-Rips y el
complejo de Čech.
Esta es justo la estructura que se estudió en la sección anterior. La diferencia con los resul-
tados que ya enunciamos radica en que definiremos una variable aleatoria que nos dará he-
rramientas para entender el comportamiento probabilista de algunas caracterı́sticas de los

16 T
diagramas de persistencia que puedan ser generados con esta estructura estocástica.

20 A
lio IM
7.4. Persistencia maximal en los ciclos de complejos
aleatorios geométricos
Ju -C

Hasta ahora, la manera que más se ha utilizado en estas notas para resumir la información
de una nube de puntos, para poder inferir la estructura topológica o geométrica que pudiera
tener, ha sido mediante los números de Betti. Nos hemos dado cuenta de que no es posible
D

asignar un sólo número de Betti a un diagrama de persistencia ya que su valor varı́a dentro
de un mismo diagrama según el radio que se utilice para calcular los complejos simpliciales.
AT

La elección del radio al que se calculan los números de Betti, para hacer inferencia, se hace
buscando que aquellos elementos que más perduran en el diagrama de persistencia sean
captados por el radio que se elija, es decir, se le da mayor importancia a aquellos elementos
de los grupos de homologı́a que perduran más en el proceso de variar el radio con el cual se
construyen los complejos simpliciales.
Serı́a de gran utilidad poder asignar un sólo valor real a un diagrama de persistencia que
pudiera darnos información suficiente para poder hacer inferencia respecto a la nube de pun-
tos que se esté estudiando. Además, serı́a deseable que este valor reflejara los elementos de los
grupos de homologı́a que perudaran más en el diagrama de persistencia, que tenga estabilidad
probabilistica (que para este valor se cumpliera algún teorema tipo lı́mite central o ley de los
grandes números) y que fuera computacionalmente calculable. En el 2015 Bobrowski, Khale
y Skraba publicaron un artı́culo [19] en el que definen y estudian la persistencia maximal de
los ciclos k-dimensionales en complejos simpliciales aleatorios geométricos. Intuitivamente,
con el valor real positivo que da la persistencia maximal de los ciclos k-dimensionales, se
busca medir el agujero k-dmensional más grande y con esta medida poder hacer inferencia
topológica y geométrica sobre una nube de puntos, basándose en un sólo valor que resume
al diagrama de persistencia k-dimensional.
244 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

En esta sección vamos a dar una introducción a la propuesta que hacen Bobrowski, Khale
y Skraba de resumir un diagrama de persistencia mediante persistencia maximal de los ciclos
en complejos simpliciales geométricos aleatorios. Enunciaremos con detalle la definición de
la persistencia maximal de los ciclos y los resultados principales que obtuvieron respecto
a sus propiedades probabilı́sticas. Mencionaremos también la manera en la que se puede
utilizar la persistencia maximal de los ciclos para hacer inferencia tpológica sobre una nube
de puntos y comentaremos brevemente los resultados que se obtuvieron en [19], respecto a la
persistencia maximal de los ciclos, al hacer simulaciones bajo un modelo uniforme de Poisson
de intensidad n definido en el cubo unitario d-dimensional.

16 T
Precisemos el modelo en que estaremos trabajando: vamos a elegir puntos en el cubo
d-dimensional [0, 1]d mediante un proceso aleatorio de Poisson homogéneo con intensidad

20 A
n, que en secciones anteriores hemos estado representando como Pn . Sobre una nube de
puntos ası́ elegida vamos a construir complejos simpliciales geométricos bajo los modelos
lio IM
de Vietoris-Rips y de Čech, los cuales hemos estado denotando por C(Pn , r) y R(Pn , r).
Recordamos también del Capı́tulo 1 que para una nube de puntos Pn , representamos por
U(Pn , r) a la unión de bolas d-dimensionales de radio r centradas sobre cada uno de los
Ju -C

puntos pertenecientes a Pn .
El resultado principal de [19] demuestra que para toda d ≥ 2 y toda 1 ≤ k ≤ d − 1, la
persistencia maximal de los ciclos k-dimensionales (que definiremos más adelante, pero de
D

manera intuitiva mide, como ya se comentó, la persistencia del agujero k-dmensional más
grande ) bajo los modelos C(Pn , r) y R(Pn , r), tiene, con alta probabilidad cuando n → ∞,
AT

persistencia del órden de


  k1 !
log n
Θ .
log log n

Recordamos que dos funciones f , g cumplen que f es del orden de Θ(g) si existen n0 ∈ N
y k0 , k1 números reales tales que k0 g(n) ≤ f (n) ≤ k1 g(n) para toda n ≥ n0 .
Antes de enunciar la definición precisa de la persistencia maximal de los ciclos k- di-
mensionales, vamos a recordar las definiciones de diagrama de persistencia y su relación con
la homologı́a persistente; esperamos resaltar con esto la importancia de estudiar de manera
detallada las estructuras algebráicas que se están utilizando al hacer ATD.
Dado un conjunto de puntos P ∈ Rd , los conjuntos C := {C(P, r)}r=∞ r=∞
r=0 , R := {R(P, r)}r=0
r=∞
y U := {U(P, r)}r=0 , son ejemplos de filtraciones. Hemos visto que para cada r que se elija
se pueden definir los grupos de homologı́a asociados a C(P, r), R(P, r) o U(P, r). También
sabemos que al aumentar el parámetro r los grupos de homologı́a que resulten no serán los
mismos para dos valores de r distintos.
En general, la estructura que nos permite tener en un sólo objeto la información ho-
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 245

mológica de cada uno de los elementos de una filtración F, es la homologı́a de persistencia


asociada a la filtración F, que denotaremos en lo que resta de esta sección como P H∗ (F).
En nuestros ejemplos, para las filtraciones C, R y U, obtenemos las homologı́as persistentes
respectivas P H∗ (C), P H∗ (R) y P H∗ (U).
Es importante tener en cuenta que dentro de la homologı́a persistente P H∗ (F), asociada
a una filtración F, se tiene toda la información referente a la k-homologı́a (en nuestro caso,
esto se cumple para toda k que tenga sentido dependiendo del espacio métrico en el que
se construyan los complejos simpliciales geométricos) de cada uno de los elementos de la
filtración F; esta información se encuentra en el conjunto de grupos de homologı́a P Hk (F).

16 T
También pertenecen a la estructura P H∗ (F), todas las funciones simpliciales (correspondien-
tes a la inclusión de dos elementos de la filtración) definidas entre los grupos de homotopı́a

20 A
asociados a dos elementos de la filtración. Una de las herramientas que más se han utilizado
y estudiado en estas notas son los diagramas de persistencia cuya relación con la homologı́a
lio IM
persistente P H∗ (F) asociada a una filtración consiste en que para cada 1 ≤ k ≤ d − 1
podemos asociar a P Hk (F) un diagrama de persistencia. Recordamos que en el diagrama
de persistencia asociado a P Hk (F) se encuentra la información del nacimiento y muerte de
Ju -C

cada uno de los k-ciclos pertenecientes a P Hk (F) y es esta información la que jugará un
papel esencial en el concepto de persistencia maximal de los ciclos k- dimensionales.
Con esta notación establecida y en base a la relación que existe entre diagramas de
D

persistencia y la homologı́a persistente, ya podemos definir de forma precisa la persistencia


maximal de los ciclos asociados a complejos simpliciales geométricos. Comenzaremos por
AT

dar la definición de lo que es la persistencia de un k-ciclo contenido en P Hk (C), P Hk (R) o


P Hk (U).
Definición 7.4.1. Sea P Hk (n) el conjunto de los k-grupos de homologı́a asociados a cual-
quiera de las filtraciones C, R o U. Para cada ciclo γ ∈ P Hk (n) denotamos por γbirth y γdeath
los tiempos (es decir el radio r) de nacimiento y muerte asociados al ciclo γ. Definimos la
persistencia de γ como
γdeath
π(γ) = .
γbirth
Observamos que esta manera de definir la persistencia de un ciclo γ, difiere de la definición
usual que consiste en calcular la diferencia entre los tiempos de nacimiento y muerte asociados
al ciclo, es decir, γdeath − γbirth . En el código de barras asociado al diagrama de persistencia,
esta diferencia corresponde a la longitud de la barra asociada al k-ciclo γ. Los motivos que
comentan los autores (de [19]) para definir la persistencia de un ciclo con la razón de su
nacimiento y su muerte en lugar de su diferencia son las siguientes:
Si para alguna k se tiene que para todos los k-ciclos o la mayorı́a de los k-ciclos γ
se cumple que γdead = o(γbirth ), lo cual ocurre para algunos modelos de complejos
246 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

aleatorios geométricos, entonces no será posible distinguir aquellos que tienen una
persistencia mayor mediante la diferencia γdeath − γbirth ya que en este caso γdeath −
γbirth ≈ γdead .

La definición de la persistencia de un ciclo dada por π(γ) = γγdeath


birth
, es invariante bajo el
reescalamineto de los datos. Esta es una ventaja respecto a la definición de persistencia
dada por γdeath − γbirth que evidentemente no es invariante bajo reescalamiento. Esto es
importante ya que las propiedades topológicas que pretendemos medir con la homologı́a
persistente nos hablan de la forma de los objetos topológicos y no de su tamaño.

16 T
Las construcciones de los complejos simpliciales que más se utilizan en ATD dependen

20 A
de los complejos de Vietoris-Rips y de Čech que como se vio en el Capı́tulo 2 están
relacionados mediante un factor de proporcionalidad, es decir, su relación se puede
lio IM
dar mediante un factor multiplicativo. Por este motivo, al tomar la definición de la
persistencia de un ciclo γ mediante la razón π(γ) = γγdeath
birth
, se tendrá para ambos
complejos simpliciales (de Vietoris-Rips y Čech) cualquier resultado que se demuestre
Ju -C

para alguno de ellos (modificando las cotas encontradas por un factor multiplicativo
adecuado).
D

Una vez que se tiene la definición de persistencia para un k-ciclo contenido en P Hk (n),
podemos definir la persistencia maximal de los ciclos asociados a complejos simpliciales
geométricos.
AT

Definición 7.4.2. Sea P Hk (n) el conjunto de los k-grupos de homologı́a asociados a cual-
quiera de las filtraciones C, R o U. Definimos la persistencia maximal de los k-ciclos, que
denotaremos por Πk , como el máximo de las persistencias de todos los k-ciclos contenidos
en P Hk (n), es decir,
Πk := máx π(γ).
γ∈P Hk (n)

Es importante notar que pudimos usar en la definición al máximo de todas las persis-
tencias de los k-ciclos porque estamos construyendo a P H∗ (n) sobre un conjunto finito de
puntos que nos da el proceso de Poisson aleatorio Pn . Observar que Πk es un valor real
positivo que resume la homologı́a persistente (y por ende el diagrama de persistencia junto
con el código de barras asociado a éste) ya que toma en cuenta todos los posibles radios r
y en este sentido no es una variable aleatoria que dependa de r; los números de Betti que
hasta el momento se han estudiado como variables aleatorias sı́ dependen del radio que se
elija y por ende no pueden resumir toda la información topológica contenida en P H∗ (n).
Ahora que ya tenemos la definición precisa de lo que es la persistencia maximal en complejos
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 247

simpliciales geométricos bajo los modelos C, R y U, podemos explorar un poco más a detalle
el resultado principal que demuestran en [19], que grosso modo afirma lo siguiente:
  k1
log n
Πk (n) ∼ .
log log n

Este resultado (según [19] y hasta donde sabemos por nuestra propia investigación bibliográfi-
ca) es el primer resultado que analiza probabilisticamente la homologı́a persistente de com-
plejos aleatorios geométricos.

16 T
Ya se han visto en capı́tulos anteriores resultados probabilistas referentes a la homologı́a
persistente asociada a otras estructuras que no son complejos aleatorios geométricos. Por

20 A
ejemplo, en el Capı́tulo 6 se vieron resultados que estudian la homologı́a persistente (los
diagramas de persistencia) asociados a códigos de barras de campos aleatorios gaussianos
lio IM
estándar en los que se estudia la caracterı́stica persistente de Euler. En el Capı́tulo 5 se vieron
varios resultados referentes a la homologı́a persistente de n puntos elegidos mediante variables
aleatorias i.i.d. en diferentes espacios métricos. Dentro de este esquema se encuentran los
Ju -C

resultados del artı́culo de P. Bubenik y P. Kim [24] (discutidos en la Sección 7.1) en donde
se toman las variables i.i.d en el cı́rculo y usan la estadı́stica de óden para describir la
distribución lı́mite de los diagramas de persistencia. Hasta donde sabemos, este es el primer
D

artı́culo publicado en el que se estudia la homologı́a persistente en un sentido aleatorio.


Invitamos al lector, a manera de ejercicio, a determinar en cada resultado que se ha enunciado
AT

en estas notas si se refieren a la homologı́a persistente o si se refieren a la homologı́a una vez


que se ha fijado un radio para la construcción de los complejos simpliciales.

El teorema principal de la persistencia maximal de los ciclos Πk


Ya que tenemos una idea clara de lo que significa tener resultados probabilistas que se
refieran a la homologı́a persistente de alguna estructura de topologı́a estocástica, vamos a
enunciar el teorema principal de [19] y a bosquejar la demostración sin entrar en detalles
técnicos. Definimos primero
  k1
log n
∆k (n) = ;
log log n
que, como comentamos al comienzo de esta sección, cumple que con alta probabilidad Πk =
Θ(∆k (n)). Esto se enuncia con más formalidad en el siguiente teorema:

Teorema 7.4.3. Sea Pn un proceso de Poisson en el cubo unitario [0, 1]d y sea P Hk (n)
el k-ésimo diagrama de persistencia de C(Pn , r) o de R(Pn , r). Entonces existen constantes
248 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

positivas Ak y Bk tales que


 
Πk (n)
lı́m P Ak ≤ ≤ Bk = 1.
n→∞ ∆k (n)

Recordamos que el tema de Procesos de Poisson se explica con detalle en el Apéndice D.


Conjeturan Bobrowski, Kahle y Skraba, en base en evidencias que obtuvieron en las
simulaciones que comentamos más adelante, que Πk cumple algo mucho más fuerte que este
resultado. Ellos conjeturan que se cumple una ley de los grandes números para Πk , es decir,

16 T
que existen Ck tal que Ak ≤ Ck ≤ Bk tales que

20 A
Πk (n)
lı́m = Ck .
n→∞ ∆k (n)
lio IM
La demostración del Teorema 7.4.3 se puede dividir en dos partes principales. En la primer
Πk (n)
parte se demuestra que con alta probabilidad existe la cota superior a la razón ∆ k (n)
. Para
Ju -C

encontrar esta cota superior se demuestra primero un lema que permite acotar los ciclos; este
es un resultado no probabilista en el que sólo intervienen propiedades topológico algebráicas
de los complejos aleatorios geométricos que se están construyendo basados en el proceso de
Poisson homogéneo Pn en el cubo unitario [0, 1]d . Después, en base al resultado obtenido en
D

este primer lema, se usa teorı́a de probabilidad para poder obtener (en un segundo lema) las
cotas en un sentido probabilista. En la segunda parte de la demostración, de forma análoga
AT

a lo que se hizo para la cota superior, se prueba que con alta probabilidad existe la cota
Πk (n)
inferior a la razón ∆ k (n)
.

Encontrando una cota superior para Πk (n)


Encontrar con alta probabilidad una cota superior para Πk (n), equivale a demostrar que
existe una constante Bk > 0 que depende sólo de k y de d, tal que con alta probabilidad se
cumple
  k1
log n
Πn (n) ≤ Bk ∆k (n) = Bk .
log log n
Este resultado se sigue de los siguientes dos lemas:

Lema 7.4.4. Sea γ ∈ P Hk (n) con γbirth = r y π(γ) = p. Entonces existe una constante C1
tal que C(n, r) contienne una componente conexa con por lo menos m = C1 pk vértices. La
constante C1 depende de k y d únicamente.
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 249

Lema 7.4.5. Sea α > 0 fijo. Entonces existe una constante C2 > 0 que depende sólo de α y
d, tal que si
C2
nrd ≤
(log n)α
y
log n
m ≥ α−1 ,
log log n
entonces con alta probabilidad C(n, r) no contiene componentes conexas con más de m vérti-
ces.

16 T
20 A
Encontrando una cota inferior para Πk (n)
Encontrar con alta probabilidad una cota superior para Πk (n), equivale a demostrar que
lio IM
existe una constante Ak > 0 que depende sólo de k y de d, tal que con alta probabilidad se
cumple
  k1
log n
Ju -C

Πn (n) ≥ Ak ∆k (n) = Ak .
log log n
Para demostrar que existe esta cota basta con probar que con alta probabilidad existe un
k-ciclo γ ∈ P Hk (n) tal que π(γ) ≥ Ak ∆k (n). Este resultado se sigue de los siguientes dos
D

lemas:
AT

Lema 7.4.6. Si para cada 1 ≤ j ≤ m se tiene que | Si,j ∩ Pn |= 1, y | Qi ∩ Pn |= m.


Entonces existe un k-ciclo γ ∈ P Hk (n) tal que

1 L
π(γ) ≥ √ × .
4 d l
1
Lema 7.4.7. Sea nld = (log n)−α tal que α > kd y sea L = Ak ∆k (n)l en donde Ak ≤ (C4 α)− k .
Entonces
lı́m P(E) = 1.
n→∞

El teorema principal de la persistencia maximal de los ciclos Πk bajo otras es-


tructuras estocásticas y en otros espacios métricos
Aunque los resultados anteriores se tienen para el modelo de complejos aleatorios geométri-
cos construidos sobre puntos obtenidos mediante un proceso de Poisson homogéneo Pn en el
cubo unitario [0, 1]d , con los respectivos ajustes en las demostraciones de los cuatro lemas
que acabamos de enunciar, es posible obtener los mismos resultados para puntos elegidos
250 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica

mediante un proceso de Poisson no homogéneo y para espacios métricos compactos que no


sean necesariamente el cubo unitario [0, 1]d . Bajo estos nuevos esquemas la función de compa-
ración ∆k (n) seguirá cumpliendo los resultados anteriores pero las cotas superior e inferior
dependerán del proceso estocástico con el que se obtenga la nube de puntos y el espacio
métrico que se elija.

Simulaciones de Πk en el cubo unitario


En [19], dedican una sección a los resultados que obtuvieron de simulaciones que reali-

16 T
zaron para explorar el comportamiento de Πk (n) para el complejo de Čech en dimensiones
d=2,3 y 4. Para generar el proceso de Poisson Pn , usaron la implementación de Mersenne

20 A
Twister y el cálculo de los diagramas de persistencia lo hicieron con la librerı́a PATH.
En varios proyectos que los alumnos del curso desarrollaron, resultó ser computacional-
lio IM
mente muy costoso o imposible calcular los diagramas de persistencia para dimensiones d=2
o d=3 incluso utilizando los complejos de Vietoris-Rips. Llama la atención entonces que, en
las simulaciones que reportan, pudieran realizar los cálculos de diagramas de persistencia pa-
Ju -C

ra experimentos computacionales que involucraron entre 100 y 1,000,000 puntos. Esto les fue
posible porque en los cálculos de los diagramas de persistencia, para evitar el costo compu-
tacional de calcular el complejo de Čech en dimensiones d=2 y 3, usaron la librerı́a CGAL
para calcular la filtración α y los α-complejos (basados en las triangulaciones de Delaunay,
D

tema abordado en un proyecto que desarrolló un equipo de alumnos que tomaron este curso)
lo cual es homotópicamente equivalente a los complejos de Čech, por lo que se obtienen
AT

grupos de homologı́a isomorfos a los obtenidos con los complejos de Čech y en consecuencia
los diagramas de persistencia no son distintos a los que obtendrı́an al usar los complejos de
Čech.
Referimos al lector a [105] para obtener más información de las librerı́as que hemos
mencionado en los párrafos anteriores y en general para tener un panorama de las librerı́as
que más se utilizan al realizar cálculos computacionales en ATD.
Apéndice A

Análisis de componentes principales

16 T
20 A
(PCA)
lio IM
Este es un tema tı́picamente cubierto en cursos de estadı́stica multivariada. Una referencia
Ju -C

clásica recomendada es Jolliffe [70], para la consulta de mayores detalles. Aquı́ damos un
breve resumen de la técnica aplicada a vectores aleatorios. La idea también se ha extendido
para datos funcionales (Ramsay & Silverman, 2005), y para datos sobre variedades, bajo el
D

nombre de análisis de geodésicas principales (Fletcher [55]). Las técnicas de componentes


principales han sido referidas en la literatura de TDA. Como ejemplo, en Bendich et al. [11],
AT

las componentes principales (funcionales) se correlacionan con puntos crı́ticos de homologı́a


de grados 0 y 1 para entender la estructura del sistema vascular en cerebros humanos.
El contexto elemental es que se cuenta con una muestra i.i.d. de vectores aleatorios de
dimensión d, o nube de datos, digamos X1 , X2 , . . . , Xn , donde Xi = (Xi1 , . . . , Xid )T . El
objetivo es encontrar una base ortogonal de un subespacio de Rd que posea una dimensión
p con p < d, y tal que la nube de datos se concentre mayoritariamente sobre el subespacio
de Rp correspondientemente generado. No siempre puede lograrse lo anterior con éxito, pero
cuando es posible, se dice haber logrado una reducción de dimensionalidad, en el sentido de
que en lugar de estudiar una nube de datos en Rd , se simplifica a una nube de datos en Rp .
Las p coordenadas de los puntos originales de Rd , que no son más que combinaciones lineales
de las entradas de cada Xi , reciben el nombre de componentes principales.
Un ejemplo artificial y sencillo, pero ilustrativo en R2 , es el denotado en la Figura ??. La
nube de datos está formada por puntos de la forma  (X1 , √
X2 ) que
√ se concentran
√ alrededor
√ de la
recta x2 = x1 . La base ortonormal en R2 dada por (1/ 2, 1/ 2), (−1/ 2, 1/ 2) da lugar
al sistema de ejes indicados con lı́neas punteadas, rotulados en la figura como Y1 y Y2 . Estos
nuevos ejes cumplen con describir la nube de datos primordialmente a través de la coordenada
Y1 , en el sentido de que las coordenadas Y2 resultan ser casi constantes. En este sentido se dice

251
252 Apéndice A. Análisis de componentes principales (PCA)

que la coordenada Y1 es una reducción de dimensionalidad de (X1 , X2 ). Matemáticamente, lo


anterior se describe como la búsqueda de un cambio de base (o transformación ortonormal),
que cumpla la siguiente condición: Que la primera coordenada posee la mayor variabilidad
posible, la segunda coordenada la segunda variabilidad posible, y ası́ sucesivamente. En la
figura, la orientación de los nuevos ejes es tal que Y1 posee la mayor variabilidad posible.
Haberlo hecho ası́ produjo que la segunda coordenada haya resultado con una variabilidad
muy reducida, debido a la estructura latente en la nube de datos original.

16 T
20 A
lio IM
Ju -CD

Figura A.1: Ejemplo de una nube de datos en R2 , para los cuales una rotación de ejes, de
AT

(X1 , X2 ) a (Y1 , Y2 ), es efectiva para reducción de dimensionalidad. La dirección del eje Y1


produce la mayor varianza posible, mientras que la dirección ortogonal Y2 contiene ya muy
poca variación.

Lo anterior se formaliza y generaliza para cualquier d con la siguiente proposición. La


demostración (ver Jolliffe [70]) está basada en conceptos elementales de álgebra lineal, y en
propiedades generales de matrices de covarianza.
Proposición A.1.8. Sean X = (X1 , . . . , Xd )T un vector aleatorio y Σ = (cov [Xi , Xj ])1≤i,j≤d
su matriz de covarianza. Sean λ1 ≥ λ2 ≥ . . . ≥ λd los valores propios de Σ, y e1 , e2 , . . . , ed
los correspondientes vectores propios, donde ei = (ei1 , . . . , ei1 )T . Sea el vector Y el vector
aleatorio en Rd formado por las combinaciones lineales
Y1 = e11 X1 + · · · + e1d Xd , (A.1.1)
..
.
Yd = ed1 X1 + · · · + edd Xd .
253

Entonces las variables aleatorias Y1 , . . . , Yd cumplen lo siguiente:

1. Var(Yi ) = λi , i = 1, . . . , d.

2. Var(Y1 ) ≥ Var(Y2 ) ≥ · · · ≥ Var(Yd ).

3. Cov(Yi , Yj ) = 0 si i 6= j.

4. Cov (Y) = diag (λ1 , . . . , λd ) .

16 T
En notación matricial, (A.1.1) puede escribirse como Y = V T X, donde V T en cada fila
contiene los vectores propios de Σ. Esto es, las componentes principales resultan ser una

20 A
rotación de X.
lio IM
El problema de componentes principales basado en una nube de datos se topa con la
dificultad de que Σ no es conocida. Por esta razón, el tema de PCA es en el fondo un
problema de inferencia estadı́stica. La idea es reemplazar la matriz Σ por una estimación
consistente, la matriz de covarianza empı́rica, Σ̂. Supongamos que se cuenta con una muestra
Ju -C

observada de vectores aleatorios, x1 , . . . , xn , donde xi = (x1i , . . . , xdi )T . Una aplicación de


PCA en la práctica se afronta con el siguiente algoritmo, radicado por completo en la arena
de cálculos de álgebra lineal:
D

Pn
1. Se calcula la media empı́rica en Rn , dada por x̄ = (1/n) i=1 xi .
AT

2. Se calcula la matriz de covarianza empı́rica. Con notación matricial, está dada por
n
1 X
Σ̂ = (xi − x̄) (xi − x̄)T .
n − 1 i=1

3. Se encuentran los valores propios λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂d de Σ̂, y los correspondientes
vectores propios ê1 , ê2 , . . . , êd .

4. Se calculan los vectores ŷ1 , . . . , ŷn con entradas

ŷ1i = ê11 x1i + · · · + ê1d xdi ,


..
.
ŷdi = êd1 x1i + · · · + êdd xdi ,

para i = 1, . . . , n.
254 Apéndice A. Análisis de componentes principales (PCA)

Las variables ŷi se llaman las componentes principales, y los coeficientes êij las cargas de
la i-ésima componente principal. Por construcción, la primera componente principal recoge
la mayor varianza posible, la segunda componente la segunda varianza, y ası́ sucesivamente.
Puesto que tr(Σ̂) = di=1 λ̂i , el cociente
P

λ̂i
λ̂1 + · · · + λ̂d
posee la interpretación de ser la proporción de varianza explicada por la i-ésima componente

16 T
principal respecto a la variación total. Si la proporción

20 A
λ̂1 + · · · + λ̂p
≈1
λ̂1 + · · · + λ̂d
lio IM
para un valor de p considerablemente menor que d, se dice que se ha reducido la dimensio-
nalidad.
En una aplicación concreta, los valores calculados de las p componentes principales en
Ju -C

caso de haber reducido la dimensión, se utilizan para facilitar el análisis de datos. Mediante la
utilización de los valores yji para j = 1, . . . , p en lugar de xji para j = 1, . . . , d, tı́picamente se
simplifican tareas estadı́sticas de predicción, conglomeración, clasificación, etc. Sin embargo,
D

también es posible buscarle interpretación a los valores de cada vector de cargas, êi . Ası́,
por ejemplo hay veces que resulta que la primera componente principal se relaciona con un
AT

subconjunto especı́fico de variables al que se le puede otorgar una interpretación con acuerdo
en el contexto concreto.
Es muy pertinente mencionar—especialmente en el contexto de ATD que nos ocupa—que
cuando la dimensión d es grande y el número de datos n, es comparativamente pequeño, que
es bien sabido que la técnica de componentes principales no arroja resultados útiles. Esta
situación se conoce en estadı́stica como high dimension low sample size; ver Jung & Marron
[73]. El origen del problema es que la matriz Σ̂ resulta ser un muy mal estimador de la matriz
Σ, aunque también participan razones geométricas que tienen que ver con alta dimensión d,
como se detalló en la Sección 3.1.3.
La técnica de análisis de componentes principales sólo es adecuada para datos que están
en un espacio vectorial, aunque han habido extensiones para datos sobre variedades. La idea
primordial consiste de encontrar subespacios lineales que concentren la nube de datos. Como
hemos visto en el curso, el punto de ATD es analizar estructura sin tener que recurrir a
tal reducción por vı́a de subespacios, sino con herramientas de homologı́a en la dimensión
original.
Apéndice B

Probabilidad en espacios métricos

16 T
20 A
polacos
lio IM
Se presentan brevemente varios conceptos y resultados de probabilidad en espacios métri-
Ju -C

cos y convergencia de variables aleatorias con valores en estos espacios. Si bien en muchas
aplicaciones se trabaja en espacios euclidianos, hay situaciones en donde éste no es el ca-
so. Ponemos énfasis en los tipos de convergencia de las variables aleatorias, similar a los
D

considerados para variables aleatorias reales en la Sección 3.1.2.


En esta sección (X, ρ) es un espacio métrico separable y completo (polaco), con σ–álgebra
de Borel B(X). Como antes, escribimos
AT

Br (x) = {y ∈ X : ρ(x, y) < r}.

Regularidad de medidas
Para un espacio de medida arbitrario tenemos.

Definición B.1.9. Dado un espacio de medida (X, A, µ), un conjunto A ∈ A es un átomo


si

(i) µ (A) > 0, y

(ii) Si B ⊂ A, y µ (B) < µ (A), entonces µ (B) = 0.

Dado un espacio de medida (X, A, µ), decimos que µ es una medida no atómica si no
tiene átomos.
En particular, si µ es una medida no atómica, µ ({x}) = 0, ∀ {x} ∈ A.

255
256 Apéndice B. Probabilidad en espacios métricos polacos

Consideremos el espacio de medida dado por X = {1, . . . , n}, A =2X y µ = # (A).


Entonces µ tiene átomos en {1} , . . . , {n}.
En general, dada una distribución discreta F , la medida de Lebesgue-Stieltjes µF tiene
átomos en el conjunto de puntos donde la variable aleatoria tiene probabilidad positiva. Una
distribución continua F es tal que µF no tiene átomos.
Definición B.1.10. Sea (X, ρ) un espacio métrico Polaco, con σ–álgebra de Borel B(X) y
sea µ una medida σ−finita en (X, B(X)). Se dice que µ es:

(i) Localmente finita o de Borel si para cada x ∈ X existe 0 < r < ∞ tal que

16 T
µ(Br (x)) < ∞.

20 A
(ii) Regular interior si para cada A ∈ B(X)
lio IM
µ(A) = sup {µ(K) : K ⊂ A, K compacto} ,

(iii) Regular exterior si para cada A ∈ B(X)


Ju -C

µ(A) = ı́nf {µ(U ) : A ⊂ U, U abierto} ,


D

(iv) Regular si es regular interior y regular exterior,

(v) Medida de Radon si es regular interior y de Borel.


AT

Definición B.1.11. Consideremos los siguientes espacios de medidas en (X, B(X))

M+ (X) := {medidas de Radon en (X, B(X))} ,

M+
f (X) := {medidas finitas en (X, B(X))} ,

P(X) := {medidas de probabilidad en (X, B(X))} .


Un primer resultado es el siguiente, cuya demostración puede verse en [85].
Teorema B.1.12. Sea (X, ρ) un espacio métrico polaco, con σ–álgebra de Borel B(X) y sea
µ ∈ M+
f (X). Entonces

(a) Para cada  > 0, existe un compacto K ⊂ X con µ(X\K) < .

(b) µ es regular.
+
(c) En este caso M+
f (X) ⊂ M (X), es decir, una medida regular finita es de Radon.
257

Corolario B.1.13. Una medida de probabilidad en un espacio métrico polaco es de Radon.

Un concepto que nos encontraremos frecuentemente cuando hablemos de convergencia de


medidas es el siguiente

Definición B.1.14. Una familia de medidas F ⊂M+


f (X) es tensa o apretada (tight) si
para  > 0 existe un compacto K ⊂ X con

sup {µ(X\K) : µ ∈ F} < .

16 T
Tipos de convergencia en espacios métricos

20 A
Sea (Ω, A, µ) un espacio de medida σ-finita y (X, ρ) un espacio métrico polaco, con σ–
álgebra de Borel B(X). La desigualdad de Markov se escribe como sigue: Sean X, Y variabes
lio IM
aleatorias con valores en X y 0 < p < ∞. Entonces, para cualquier  > 0
1
P (d(X, Y)) > ) ≤ E [(d(X, Y))p ] . (B.1.1)
Ju -C

p

Además Z ∞
P (d(X, Y) > x) dx = E [(d(X, Y))] . (B.1.2)
D

Definiremos los conceptos de convergencia casi donde quiera, convergencia en medida y


AT

convergencia de medidas.
Primero necesitamos asegurar que la función distancia asociada con las transformaciones
medibles es también medible.

Lema B.1.15. Sean f, g : Ω → X transformaciones medibles con respecto a A/B(X). En-


tonces la transformación H : Ω → [0, ∞), ω → d(f (w), g(w)) es A/B([0, ∞))-medible.

Similar al caso real en la Sección 3.1.2, tenemos los siguientes tipos de convergencia. De
hecho, comenzamos con un tipo de convergencia más general que convergencia en probabili-
dad.

Definición B.1.16. Sean {Yi }i≥1 , Y funciones de Ω a X medibles con respecto a A/B(X).
Decimos {Yi }i≥1 , converge a Y
µ
(i) en µ-medida, y escribimos Yn −→ Y, si para cada A ∈ A con µ(A) < ∞ y para cada
>0
µ ({ρ(Yn , Y) > } ∩ A) −→ 0, (n −→ ∞).
258 Apéndice B. Probabilidad en espacios métricos polacos

c.t.p.µ
(ii) µ-casi en todas partes, y escribimos Yn −→ Y, si existe un conjunto N ∈ A, con
µ(N ) = 0 tal que
ρ(Yn (ω), Y(ω)) → 0, (n −→ ∞), ∀ω ∈ Ω \ N.

Si µ es una medida de probabilidad, {Yi }i≥1 , Y son variables aleatorias. En este caso la
Pr
convergencia en medida se llama convergencia en probabilidad y escribimos Yn −→ Y, y la
convergencia casi donde quiera se llama convergencia con probabilidad uno o convergencia
c.p,1
casi segura, y escribimos Yn −→ Y.

16 T
El hecho de que X es un espacio métrico polaco nos da la unicidad módulo funciones casi

20 A
donde quiera de los lı́mites en medida y casi donde quiera.
Convergencia casi donde quiera implica convergencia en medida, pero el recı́proco no es
lio IM
cierto. Recomendamos el Capı́tulo 6 del libro de Klenke [85] para un estudio sistemático de
este tema.
Con respecto a convergencia en distribución o en ley de variables aleatorias y medidas
en espacios métricos, también llamada convergencia débil de medidas, su definición es como
Ju -C

sigue.
Sea Cb (X) como el conjunto de todas las funciones continuas y acotadas de X en R. Re-
cordemos de la Sección 3.5.1 que si Y es una variable aleatoria en un espacio de probabilidad
D

(Ω, A, P) con valores en X, su distribución es la medida PY en (X, B(X)) dada por


AT

PY (A) = P(Y−1 (A)), A ∈ B(R).


Definición B.1.17. Sea X un espacio métrico polaco.

(i) Sean µ, µ1 , µ2 , ...medidas en M+ f (X). Decimos que (µn )n≥1 converge débilmente a µ y
w
escribimos µn −→ µ, si
Z Z
lı́m f dµn = f dµ, ∀f ∈ Cb (X).
n→∞

(ii) Sean Y, Y1 , Y2 ...variables aleatorias con valores en X. Decimos que (Yn )n≥1 converge
L w
en distribución o ley, y escribimos Yn −→ Y, si PYn −→ PY .

El hecho de que X es un espacio métrico polaco asegura la unicidad del lı́mite de conver-
gencia débil y en distribución.
En el estudio de este tipo de convergencia, la propiedad de familia de medidas tensas en
el sentido de la definición B.1.14 es esencial.
Como en el caso real, tenemos las siguientes relaciones entre tipos de convergencia.
259

Proposición B.1.18. (a) Sean Xn , n ≥ 1, X variables aleatorias en X, entonces


c.p,1 Pr L
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.

Pr L
(b) Si X es variable aleatoria degenerada, entonces Xn −→ X ⇔ Xn −→ X.
c.p,1 Pr
(c) Si Xn −→ X (Xn −→ X) y g es una transformación continua de X a otro espacio polaco
c.p,1 Pr
Y, entonces g(Xn ) −→ g(X) (g(Xn ) −→ g(X)).

16 T
Asimismo, tenemos el correspondiente teorema de Slutsky similar al caso real.

20 A
Teorema B.1.19 (Slutsky). Sean Xn , Yn , n ≥ 1, X variables aleatorias con valores en X.
L Pr L
Si Xn −→ X y ρ(Xn , Yn ) −→ 0 entonces Yn −→ X.
lio IM
Para el estudio de convergencia débil de medidas de probabilidad en espacios métricos,
la referencia clásica es el libro de Billingsley [13]. Existen referencias modernas como por
Ju -C

ejemplo el Capı́tulo 13 del libro de Klenke [85].


Para hablar de sumas de variables aleatorias en X se requiere que éste sea un espacio
lineal. Esta es una de las razones del siguiente apéndice.
D
AT
AT
Ju -CD
lio IM
20 A
16 T
Apéndice C

16 T
20 A
Variables aleatorias en espacios de
lio IM
Banach
Ju -C

Este es un tema que pocas veces se presenta en cursos de probabilidad avanzada. En la


D

literatura de ATD se ha usado en el contexto de panoramas de persistencia como se explica


en la Sección 5.6.3. A diferencia del material de probabilidad en espacios métricos vistos
AT

en el Apéndice B, ahora estamos interesados en la estructura de espacio vectorial y poder


considerar resultados asintóticos en probabilidad como ley de grandes números y teorema
central del lı́mite, los cuales se refieren a lı́mites de sumas de variables aleatorias. La principal
dificultad que se encuentra, es que en un espacio de Banach de dimensión infinita la bola
unitaria no es compacta. Esto impacta en el hecho de que no se pueda tener una medida
gaussiana con matriz de covarianza la identidad y por ello el teorema central del lı́mite
considera distribuciones normales con otras covarianzas, las cuales poseen la propiedad de
ser operadores traza, es decir cuya serie de valores propios es finita. Ası́ mismo, en los espacios
de Banach de dimensión infinita no existe una medida de referencia universal, como es el
caso de la medida de Lebesgue y otras presentadas en la Sección 3.5.2. En general, para el
tema de probabilidad en espacios de Banach se recomienda el libro de Ledoux y Talagrand
[89] y otros que mencionamos más adelante.

Recordemos que un espacio de Banach es un espacio vectorial con norma k·k el cual es
completo, es decir, toda sucesión de Cauchy es convergente. Ejemplos de espacios de Banach
son Rd con la norma euclidiana y los espacios Lp (µ), 1 ≤ p ≤ ∞ para una medida µ vistos
en la Sección 3.4.3.

261
262 Apéndice C. Variables aleatorias en espacios de Banach

Variables aleatorias en Rd
Consideremos primero el caso de variables aleatorias en Rd con la métrica euclidiana

kAk = tr(AA> )1/2 .




Sea (Ω, A, P) un espacio de probabilidad y X : Ω → Rd , X(ω) = (X1 (ω), . . . , Xd (ω)). En-


tonces X es una variable (vector) aleatorio si X−1 (A) ∈ A, ∀A ∈ B(Rd ). En cursos de
probabilidad multivariada se prueba que X es variable aleatoria, sı́ y sólo si cada Xi es una
variable aleatoria real, lo cual es también equivalente a que la funcional lineal hX, hi = Xh>

16 T
es una variable aleatoria real para cada h ∈B(Rd ) no aleatoria. La esperanza de X existe si

20 A
y sólo si Z
kXk dP < ∞,
lio IM

lo cual es equivalente a que E |Xi | < ∞ para cada i = 1, ..., n, en cuyo caso la esperanza de
X es el vector
Ju -C

EX = (EX1 , . . . , EXd ).
Cuando Z
D

2
E kXk = kXk2 dP < ∞,

AT

se define la matriz de covarianza


h i
Cov(X) = E (X−EX)> (X−EX) ,

la cual es una matriz d × d definida nonegativa y cumple que

Cov(X)(h1 , h2 ) = E [hX−EX, h1 i hX−EX, h2 i] , ∀h1 , h2 ∈ B(Rd ).

Resumimos los teoremas lı́mites clásicos universales para sumas de variables aleatorias
independientes con valores en el espacio euclidiano Rd .

Teorema C.1.20 (Ley Débil de los Grandes Números en Rd ). Sean {Yi }i≥1 variables alea-
torias independientes ePidenticamente distribuidas con valores en Rd y con media EY y
E kYk2 < ∞. Si Sn = nj=1 Yj , entonces

Sn P r
−→ EY.
n
263

Teorema C.1.21 (Ley Fuerte de los Grandes Números en Rd ). Sean {Yi }i≥1 variables
aleatoriasPindependientes e identicamente distribuidas con valores en Rd , y con media EY.
Si Sn = nj=1 Yj , entonces
 
Sn
P lı́m = EY = 1.
n−→∞ n

Teorema C.1.22 (Teorema del Lı́mite Central en Rd ). Sean {Yi } variables aleatorias in-
d
dependientes
Pn e independientes con valores en R , con media EY y matriz de covarianza Σ.
Sea Sn = j=1 Yj , entonces

16 T
1 L
√ Σ−1/2 (Sn − EY) −→ Z

20 A
n
lio IM
donde Z es una variable aleatoria con distribución gaussiana estándar Nd (0,Id ). Es decir
1 L
√ (Sn − EY) −→ ZΣ
n
Ju -C

donde ZΣ es una variable aleatoria con distribución gaussiana multivariada Nd (0,Σ).


D

Variables aleatorias y momentos en un espacio de Banach


Consideremos ahora un espacio de Banach B de dimensión infinita con norma k·k , σ-
AT

álgebra de Borel B(B) y sea B∗ el espacio topológico dual de B, es decir el espacio de las
funcionales lineales f : B → R continuas. Sea (Ω, A, P) un espacio de probabilidad. En este
caso hablamos de dos tipos de medibilidad y esperanza: débil y fuerte, los cuales no siempre
son los mismos.
Sea X :B → R una función. Decimos que X es medible en el sentido débil si para toda
f ∈ B∗ , f (X) es una variable aleatoria real. Decimos que X es medible en el sentido fuerte si
X−1 (A) ∈ A, ∀A ∈ B(B). Si el espacio de Banach B es separable, los conceptos de medibilidad
débil y fuerte coinciden y decimos que X es variable aleatoria con valores en B. De ahora en
adelante consideramos a B como un espacio de Banach separable. Se sigue fácilmente que
sumas de variables aleatorias en B y multiplicación de escalares por una variable aleatoria
son también variables aleatorias.
Decimos que una variable aleatoria X tiene media o esperanza, si E kXk < ∞ en cuyo
caso se define la esperanza EX como el único elemento de B dado por la integral de Pettis
de X:
Ef (X) = f (EX) para toda f ∈ B∗ .
Se cumple que kEXk ≤ E kXk .
264 Apéndice C. Variables aleatorias en espacios de Banach

Si E kXk2 < ∞ se define la covarianza de X como la forma simétrica nonegativa bilineal


Cov(X) en B∗ definida por
(Cov(X))(f1 , f2 ) = E [f1 (X−EX)f2 (X−EX)] , f1 , f2 ∈ B∗ .
Se tiene que Cov(X) es una forma bilineal continua y se cumple que si X1 y X2 son inde-
pendientes, entonces Cov(X1 + X2 ) = Cov(X1 ) + Cov(X2 ).

Teoremas lı́mite en un espacio de Banach

16 T
Los conceptos de convergencia casi segura, convergencia en probabilidad y convergencia
débil son los mismos que para elementos aleatorios en un espacio métrico polacos presentados

20 A
en el Apéndice B, con la métrica ρ(·, ·) = k· − ·k . De hecho, dado que tiene sentido hablar
de sumas de variables aleatorias en un espacio de Banach B, tenemos una versión distinta
lio IM
del teorema de Slutsky que para espacios métricos polacos, en el caso en que además B es
una álgebra de Banach, es decir existe una multiplicación en B tal que si A, B están en B,
también AB está en B.
Ju -C

Teorema C.1.23 (Slutsky). Sea B una álgebra de Banach. Sean Xn , Yn , Zn , n ≥ 1, X, Y, Z


variables aleatorias en B y a, c constantes en B. Si se satisfacen:
D

L Pr Pr
Xn −→ X, Yn −→ a, y Zn −→ c;
entonces
AT

L
Xn Yn +Zn −→ aX + c.
La ley de grandes números se cumple para sumas de variables aleatorias con valores en
un espacio de Banach.
Teorema C.1.24 (Ley Débil de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
con valores en B, independientes y con la misma distribución de la variable aleatoria Y en
B, con media EY y E kYk2 < ∞. Si Sn = nj=1 Yj , entonces
P

Sn P r
−→ EY.
n
Teorema C.1.25 (Ley Fuerte de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
con valores en B, independientes
Pn y con la misma distribución de la variable aleatoria Y en
B, con media EY. Si Sn = j=1 Yj , entonces
 
Sn
P lı́m = EY = 1.
n−→∞ n
265

Un primer problema para el estudio del teorema central del lı́mite en espacios de Banach
de dimensión infinita, es la no existencia de una distribución gaussiana estándar, es decir con
covarianza la identidad. Esto se debe a la no compacidad de la bola unitaria de un espacio
de Banach de dimensión infinita.
Decimos que una variable aleatoria Z con valores en un espacio de Banach separable B
tiene una distribución gaussiana, si para cada f ∈ B∗ , f (Z) tiene una distribución gaussiana
real con media cero. Se tiene que EZ = 0, E kZk2 < ∞ y por lo tanto la covarianza Cov(Z)
existe. En este caso

16 T
 
1
E exp {if (Z)} = exp − Φ(f, f ) , ∀f ∈ B∗
2

20 A
lio IM
donde Φ(f, f ) = Cov(Z))(f, f ) = E [f 2 (Z))]. Para un estudio sistemático de medidas gaus-
sianas en espacios de Banach se puede consultar el libro de Kuo [88].
La validez de un teorema central del lı́mite en un espacio de Banach separable de dimen-
Ju -C

sión infinita depende del tipo del espacio de Banach, según su comportamiento respecto a
una desigualdad sobre la norma de la suma de variables aleatorias independientes. Esto se
refiere a espacios de Banach de los llamados tipo p y cotipo p. Para un estudio sistemático
y completo del teorema central del lı́mite en espacios de Banach, se recomienda el libro de
D

Araujo y Giné [4].


Para fines de la literatura en estadı́stica en ATD es suficiente el siguiente teorema central
AT

del lı́mite para espacios de Banach Lp (X, A, µ), 2 ≤ p < ∞ donde µ es una medida σ-finita
en X. El espacio de Banach Lp (X, A, µ) es separable si A es numerablemente generada, es
decir, existe una subfamilia numerable C ⊂ A tal que σ(C) = A. Si X es un espacio métrico
separable, entonces A = B(X) es numerablemente generada.

Teorema C.1.26 (Teorema del Lı́mite Central). Sea X un espacio métrico separable, µ una
medida σ-finita en B(X) y B =Lp (X, B(X), µ), 2 ≤ p < ∞. Sean {Yi } variables aleatorias
con valores en B independientes con la misma distribución de P
una variable aleatoria Y en
B con EY = 0, E kYk < ∞ y covarianza Cov(Y). Sea Sn = nj=1 Yj . Entonces
2

1 L
√ Sn −→ Z
n

donde Z es una variable aleatoria en B con distribución gaussiana con covarianza Cov(Z) =
Cov(Y).
266 Apéndice C. Variables aleatorias en espacios de Banach

Densidades en un espacio de Banach, inferencia estadı́stica y estimación de ho-


mologı́a: algunas preguntas
1. Como se ha visto en los Capı́tulos 5 y 6 de estas notas, el contar con una función de
densidad permite usar métodos de inferencia estadı́stica y construir conjuntos de nivel
para estimar homologı́a persistente.

2. Otra implicación de la no existencia de una medida de referencia universal en un


espacio de Banach separable de dimensión infinita B, es la no existencia de una medida
de referencia y por ello de una densidad natural. Sin embargo, en el caso de medidas

16 T
gaussianas µ y ν en B, se cumple que estas son equivalentes o son singulares en el
sentido de la Definición de 3.4.21. Además, en el primer caso es posible encontrar

20 A
fórmulas explı́citas para las densidades
lio IM
dν du
f= , g= .
dµ dν
Ju -C

Se recomienda el Capı́tulo II del libro de Kuo [88] para este tema.

3. En el caso particular de la medida gaussiana µw (medida de Wiener) inducida por el


proceso de Wiener en el espacio de Banach C[0, T ] de la funciones continuas en [0, T ]
D

con la norma del supremo, es posible considerar medidas equivalentes (de traslaciones
admisibles) a µw y hacer inferencia estadı́stica sobre parámetros de interés usando la
AT

correspondiente densidad y el método de máxima verosimilitud; ver por ejemplo el


libro de Basawa y Rao [10].

4. Hasta donde sabemos no se ha usado la densidad en el modelo en (3) para estimar


homologı́a persistente en el proceso de Wiener y sus traslaciones admisibles.
Apéndice D

Medidas de Poisson para conjuntos

16 T
20 A
aleatorios de puntos
lio IM
El objetivo de este apéndice es resumir algunas de las propiedades de procesos estocásticos
Ju -C

de Poisson en el espacio euclidiano d-dimensional. Estos procesos o medidas aleatorias han


sido ampliamente usados en modelación de puntos aleatorios en tiempo y/o espacio. En
particular en el estudio de formas en geometrı́a estocástica, y en ATD y topologı́a estocástica
D

como se muestra en el Capı́tulo 7 de estas notas. Para un estudio sistemático desde el punto
de vista de probabilidad se recomienda el libro de Kingman [83]. El libro de Small [122]
contiene aplicaciones de procesos de Poisson en teorı́a de formas y geometrı́a estocástica. En
AT

particular, el proceso de Poisson es un modelo útil para generar formas aleatorias debido a
algunas de sus propiedades geométricas, las cuales se presentan al final de este apéndice.
El caso d = 1 es de suma importancia y es presentado en la mayorı́a de los cursos de
probabilidad elemental.
Comenzamos con elementos bien conocidos sobre la distribución de Poisson y la aproxi-
mación de Poisson, los cuales revelan que estos modelos son útiles en el estudio de eventos
raros.

Distribución de Poisson y la Aproximación de Poisson


Recordemos que una variable aleatoria X tiene distribución de Poisson Poiss (µ) si
toma valores enteros no negativos y
e−µ
P (X = k) = πk (µ) = µk k≥0
k!
donde µ puede tomar cualquier valor µ > 0. Tres caracterı́sticas de una variable aleatoria
X ∼ Poiss (µ) son las siguientes:

267
268 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos

1. E (X) = µ.
2. Var (X) = µ.

3. La función generadora de momentos φ (t) = EtX = eµ(e −1) , para cada t ∈ [−1, 1].
t

La génesis de esta distribución es que aparece como una ley de eventos raros, de acuerdo
al siguiente resultado conocido como aproximación de Poisson, el cual es un teorema
lı́mite para sumas de arreglos triangulares.

16 T
Teorema D.1.27. Para cada n ≥ 1, sea 0 < pn < 1, y {ξin }i=1,...n variables independientes
con distribución Bernoulli con probabilidad de éxito pn , es decir P(ξin = 1) = pn = 1−P(ξ ni =

20 A
0). Consideremos la variable aleatoria
n
lio IM
X
Sn = ξin . (D.1.1)
i=1

la cual tiene distribución Binomial B(n, pn ) dada por


Ju -C

 
n k
P (Sn = k) = p (1 − pn )n−k , k = 0, ..., n (D.1.2)
k n
D

Supongamos que npn → µ > 0 cuando n → ∞. Entonces


AT

lı́m P (Sn = k) = µk e−µ /k!, k = 0, 1, 2, ....


n→∞

L
En otras palabras, Sn −→ X ∼ Poiss (µ) .
Observación D.1.28. (a) Si bien el resultado anterior es usualmente resaltado como una
fórmula de cálculo para aproximar la distribución binomial (D.1.2), su importancia ma-
yor está en la interpretación probabilista como ley de eventos raros: A medida que
n es grande y por lo tanto pn pequeña, en la sumandos ceros en suma aleatoria (D.1.1)
tiene una muy alta probabilidad.
(b) Al igual que la ley de los grandes números y el teorema del lı́mite central vistos en la
Sección 3.1.2, la aproximación de Poisson es un resultado universal bien conocido en el
sentido de su validez más allá de sumas de variables aleatorias Bernoulli. Una explicación
muy sencilla de este fenómeno se encuentra en el artı́culo [110], donde se consideran
sumas (D.1.1) de arreglos triangulares de variables aleatorias en una familia amplia de
distribuciones discretas, con la propiedad que la probabilidad del cero tiene a uno cuando
n → ∞.
269

(c) Un enfoque moderno a la aproximación de Poisson usando el método de Chen-Stein se


expone en el libro de Barbour et al. [8].
En ocasiones es útil extender la definición de Poiss (λ) para incluir los casos extremos 0
e ∞. Poiss (0) serı́a la distribución concentrada en el 0

P (X = 0) = 1,

y Poiss (∞) la distribución concentrada en +∞

16 T
P (X = +∞) = 1.

20 A
Una de las propiedades más importantes de la distribución de Poisson es su aditividad,
cuya prueba es trivial.
lio IM
Teorema D.1.29. Si X y Y son variables aleatorias independientes con distribuciones
Poiss (µ1 ) y Poiss (µ2 ), entonces X + Y ∼ Poiss (µ1 + µ2 ).
Ju -C

Por inducción, podemos ver fácilmente que este resultado es cierto para cualquier suma
finita de variables aleatorias independientes.
Es fácil probar que la distribución de Poisson es infinitamente divisible, esto es, da-
D

da una variable aleatoria X con distribución Poisson Poiss (µ), para toda n > 0 pode-
mos encontrar n variables aleatorias P independientes X1 , . . . , Xn con distribución Poisson
Poiss (µ1 ) , . . . , Poiss (µn ) tales que ni=1 Xi ∼ Poiss (µ).
AT

Teorema D.1.30. Sea {Xj }∞ j=1 una sucesión de variables aleatorias independientes, donde
Xj ∼ Poiss (µj ) j = 1, 2, . . .. Si
X∞
σ= µj
j=1

converge, entonces

X
S= Xj
j=1
P∞
converge con probabilidad 1 y S ∼ Poiss (σ). Por otro lado, si j=1 µj diverge, entonces S
diverge con probabilidad 1.
Luego de este resultado parece más natural haber definido Poiss (0) y Poiss (∞). Con esta
convención, si tenemos variables aleatorias independientes
P Xj con distribuciones Poiss (µj )
respectivamente, su suma tiene distribución Poiss ( µj ), y esto es cierto sin importar que
haya un número infinito de ellas, incluso si algunos µj son 0 o ∞.
270 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos

Supongamos que X1 , . . . , Xn son variables aleatorias independientes


P con Xj ∼ Poiss (µj ).
Entonces S = PX1 +· · ·+Xn tiene distribución Poiss (σ) con σ = µj , y entonces, si r1 , . . . , rn
son tales que rj = s tenemos que
n r
µj j e−µj
 s −σ
Y σ e
P (X1 = r1 , . . . , Xn = rn | S = s) =
j=1
rj ! s!
s!  µ1 r1
  µ rn
n
= ··· .
r1 ! · · · rn ! σ σ

16 T
Estas son las probabilidades de una distribución multinomial M (s, p1 , . . . , pn ), con pi = µσi .
Para el caso en el que n = 2, tenemos que si X y Y son variables aleatorias Poisson

20 A
independientes (X ∼ Poiss (µ1 ) y Y ∼ Poiss (µ2 )), dado que X + Y = m, la distribución
condicional de X es B (m, p), donde
lio IM
E (X)
p= .
E (X) + E (Y)
Ju -C

Hay un resultado muy útil, que parecerı́a ser el converso del anterior. Supongamos que
N ∼ Poiss (µ) , y que la distribución condicional de M dado N es B (N, p) para alguna
constante p. Esto es
D

 
s t
P (M = t | N = s) = p (1 − p)s−t .
t
AT

Entonces, para m, k ≥ 0, cálculos directos dan

P (M = m, N − M = k) = P (N = m + k) P (M = m | N = m + k)
e−µ µm+k m + k m
 
= p (1 − p)k
(m + k)! m
e−µp (µp)m e−µ(1−p) (µ (1 − p))k
= .
m! k!
Ası́, M y N − M son variables aleatorias independientes Poisson con medias µp y µ (1 − p)
respectivamente.

Procesos de Poisson
Motivación: Un Proceso de Poisson con espacio de estados S definido en un espacio de
probabilidad (Ω, A, P), es una función Π : Ω → S ∞ donde S ∞ es el conjunto de todos los
subconjuntos numerables de S.
271

Queremos que algunos de los conjuntos en S ∞ funcionen como conjuntos de prueba en


el siguiente sentido: si A es un conjunto de prueba, el número de puntos de Π en A es

N (A) := # {Π (ω) ∩ A} .

Dado que esta expresión depende de ω, N (A) es una función

N (A) : Ω → {0, 1, . . . , ∞}

y necesitamos que ésta sea una función medible para cada conjunto de prueba A. Esto es,

16 T
supondremos que para cada conjunto de prueba A y para cada n,

20 A
{ω : N (A) = n} = {ω ∈ Ω : N (A) (ω) = n} ∈ A.
lio IM
Entonces las funciones N (A) son variables aleatorias, y podemos imponer condiciones en
sus distribuciones y distribuciones conjuntas. En pocas ocasiones es necesario ser cuidadosos
al elegir los que serán nuestros conjuntos de prueba. Esto porque casi siempre podemos
Ju -C

construir conjuntos de prueba complicados a partir de otros más simples. Por ejemplo, si
S = R, es suficiente pedir que los intervalos abiertos (a, b) sean conjuntos de prueba.
P Todo
conjunto abierto G es la unión numerable de intervalos abiertos Aj , N (G) = j N (Aj ) es
D

una variable aleatoria si las N (Aj ) también lo son. Todo conjunto cerrado F es la intersección
de una sucesión decreciente de conjuntos abiertos Gi , y N (F ) = lı́mi→∞ N (Gi ). De este
AT

modo podemos ver que N (A) es una variable aleatoria bien definida para todo subconjunto
A. Podemos hacer lo mismo para S = R2 e incluso para Rd . Más adelante definiremos
formalmente lo que es un Proceso de Poisson en un espacio de estados S.
El espacio de estados S donde tendremos los puntos de un Proceso de Poisson, usual-
mente será un espacio euclidiano d-dimensional, o más generalmente una variedad en Rd .
Sin embargo, no necesitamos hacer uso de las propiedades de los espacios euclidianos, sólo
es necesario poder encontrar una familia de subconjuntos de S para ser utilizados como
conjuntos de prueba para contar los puntos aleatorios. Esto es, necesitamos una familia de
subconjuntos de S para los que a función

N (A) = # {Π ∩ A}

sea una variable aleatoria bien definida. La forma más natural de hacer esto es suponer
que S es un espacio medible. Esto es, estamos suponiendo que existe un espacio de medida
(S, AS , µ) donde AS es la familia de conjuntos de prueba que queremos. Si A ∈ AS diremos
que A es un conjunto medible. Además necesitamos asegurar que hay suficientes conjuntos
medibles para poder distinguir puntos individuales. Esto se puede hacer suponiendo que la
272 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos

diagonal D = {(x, y) ; x = y} es un conjunto medible en el espacio S × S (i.e. D ∈ AS × AS ),


o sea que
∀x ∈ S (x, x) ∈ AS ×AS ,
que en particular nos dice que
∀x ∈ S {x} ∈ AS .
Cuando S = Rd , tomaremos como conjuntos medibles a los conjuntos de Borel de Rd .
La condición de que la diagonal D sea medible en S × S = R2d se cumple, pues D es un
conjunto cerrado en R2d .

16 T
Definición D.1.31. Un proceso de Poisson en un espacio de estados S, es un subconjunto

20 A
aleatorio numerable Π de S, tal que
(i)Para cualesquiera A1 , . . . , An ∈ A tales que Ai ∩Aj = ∅ ∀i 6= j, las variables aleatorias
lio IM
N (A1 ) , . . . , N (An ) son independientes, y
(ii) La variable aleatoria N (A) tiene distribución Poisson Poiss (µ), donde µ = µ (A),
con 0 ≤ µ (A) ≤ ∞.
Ju -C

Diremos que Π1 , Π2, . . . son procesos de Poisson independientes, si para cada conjunto
medible A, las variables aleatorias N1 (A) , N2 (A) , . . . son independientes. Ası́, si µ (A) < ∞,
el conjunto Π ∩ A es finito con probabilidad 1, y vacı́o si µ (A) = 0. Si µ (A) = ∞, Π ∩ A es
D

infinito numerable con probabilidad 1. Tenemos que, para A ∈ A, como N (A) ∼ Poiss (µ)
AT

E (N (A)) = µ (A) .
S∞
Si A1 , A2, . . . son disjuntos con n=1 An = A,

X
N (A) = N (An )
n=1

y

!
X
E (N (A)) = E N (An )
n=1

X
µ (A) = µ (An ) .
n=1

Ası́, µ es una medida en S, es decir, con esta µ, (S, AS , µ) es un espacio de medida. Llama-
remos a µ la medida media del proceso de Poisson Π.
273

Observemos que no toda media puede ser una medida media. Supongamos que la medida
µ en S tiene un átomo en x ∈ S, esto es 0 < µ ({x}) = m. Entonces un proceso de Poisson
con medida media µ serı́a tal que
 0 −m
m1 e−m

me
P (N ({x}) ≥ 2) = 1 − +
0! 1!
−m −m
= 1 − e − me > 0

lo cual contradice el hecho de que N (A) sea una variable aleatoria bien definida ∀A ∈ AS ,

16 T
pues N ({x}) = # {Π ∩ {x}} ≤ 1. Ası́, una medida media debe ser no atómica, en el sentido
que

20 A
µ ({x}) = 0 ∀x ∈ S.
Cuando S = Rd , la medida media en la mayorı́a de los casos interesantes está dada en
lio IM
términos de una intensidad f , donde f es una función de medida positiva en S, tal que
Ju -C

Z
µ (A) = f (x) dx.
A

Si f es continua en x ∈ S, entonces, para una vecindad pequeña A de x,


D

µ (A) ∼ f (x) |A|


AT

R
donde |A| = A dx es la medida de Lebesgue de A. Ası́ f (x) |A| es la probabilidad aproximada
de un punto de Π de caer en un conjunto pequeño A, y es más grande en regiones donde λ
es grande que en las que λ es pequeña. En el caso en que f = c es constante, de tal modo
que
µ (A) = c |A|
decimos que tenemos un proceso de Poisson homogéneo.
Consideremos el caso cuando S = R, y supongamos que µ es finita en conjuntos acotados.
Entonces la medida µ está determinada de manera única por sus valores en intervalos (a, b].
Definamos una función M : R → R,

µ (0, t] si t ≥ 0
M (t) = .
−µ (t, 0] si t < 0

M es una función creciente y

µ (a, b] = M (b) − M (a) .


274 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos

Entonces µ está determinada por la función M (µ es la medida de Lebesgue-Stieltjes asociada


a la función creciente M ).
Es fácil checar que µ es no atómica (en el sentido que µ ({x}) = 0 ∀x ∈ S) si y sólo si M
es continua.
Si además M puede escribirse como
Z t
M (t) = f (x) dx,
0

entonces µ se ve como

16 T
Z
µ (A) = f (x) dx,

20 A
A

y en particular, para un proceso de Poisson homogéneo con intensidad f = c tenemos,


lio IM
M (t) = ct.
Ju -C

Teorema de Superposición
D

El teorema de superposición es un corolario casi inmediato del Teorema de Aditividad


AT

Numerable. Basta probar el siguiente lema.

Lema D.1.32. Sean Π1 y Π2 procesos de Poisson independientes en S, y sea A un conjunto


medible con µ1 (A) y µ2 (A) finitas. Entonces Π1 y Π2 son disjuntos en A con probabilidad 1

P (Π1 ∩ Π2 ∩ A = ∅) = 1.

Teorema D.1.33. Sea {Πn }∞ n=1 una familia de procesos de Poisson independientes en S
donde Πn tiene media µn para cada n. Entonces su superposición

[
Π= Πn
n=1

es un proceso de Poisson con media



X
µ= µn .
n=1
275

Teorema D.1.34. Sea Π un proceso de Poisson con medida media µ en S, y sea S1 un


subconjunto medible de S. Entonces el conjunto aleatorio
Π1 = Π ∩ S1
puede ser visto como un proceso de Poisson en S con medida media
µ1 (A) = µ (A ∩ S)
o como un proceso de Poisson en S1 en el que la medida media es la restricción de µ en S1 .

16 T
Teorema de Mapeo

20 A
Si el espacio de estados de un Proceso de Poisson es mapeado en otro espacio de estados,
entonces, los puntos aleatorios transformados por el mapeo también forman un proceso de
lio IM
Poisson. Sólo hay que tener cuidado cuando la función no es inyectiva, y para esto basta
ver cómo se transforma la medida media bajo el mapeo. Sea Π un proceso de Poisson en un
espacio de estados S, con medida media µ, y sea f : S → T una función y T otro espacio de
Ju -C

estados (o el mismo S). Supongamos que f es medible en el sentido de que


f −1 (B) = {x ∈ S ; f (x) ∈ B}
es un subconjunto medible de S para todo subconjunto medible B ⊂ T . Queremos probar
D

que el conjunto aleatorio f (Π) ⊂ T es un proceso de Poisson. Consideremos


N ∗ (B) = # {f (Π) ∩ B}
AT

el número de puntos de f (Π) en un conjunto medible B. En tanto los puntos f (x) , x ∈ Π


sean distintos,
N ∗ (B) = # {x ∈ Π ; f (x) ∈ B} = N f −1 (B)


que tiene distribución Poiss (µ∗ ), donde


µ∗ = µ∗ (B) = µ f −1 (B) .


Más aún, si los conjuntos B1 , . . . , Bk son disjuntos, también lo son sus imágenes inversas, de
tal forma que las variables aleatorias N ∗ (Bi ) son independientes. Ası́ f (Π) es un proceso de
Poisson en T en tanto los puntos f (Π) , X ∈ Π sean distintos. La medida µ∗ es la medida
inducida de µ por la función f . Sin embargo la condición de inyectividad de f |Π no es trivial,
tomemos por ejemplo f constante.
Teorema D.1.35. Sea Π un proceso de Poisson con medida media σ-finita µ en un espacio
de estados S, y sea f : S → T una función medible tal que la medida inducida de µ por f ,
µ∗ es no atómica. Entonces f (Π)es un proceso de Poisson en T , teniendo a µ∗ como medida
media.
276 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos

Teorema de Existencia
Teorema D.1.36. Sea µ una medida no atómica en un espacio de estados S que puede ser
expresada en la forma
X∞
µ= µn , µn (S) < ∞.
n=1

Entonces existe un proceso de Poisson en S con medida media µ.

Propiedades geométricas de un proceso de Poisson

16 T
Varias propiedades geométricas de un Proceso de Poisson homogéneo Π en un espacio

20 A
euclidiano Rd se cumplen con probabilidad uno; ver [122]. Por ejemplo, cada punto de un
Proceso de Poisson Π tiene un único vecino mas cercano. Recordemos que un vecino más
lio IM
cercano de un punto x en Rd es un elemento de Π que tiene una distancia mı́nima de x entre
todas los puntos de Π. Más aún, con probabilidad uno existe un único k–ésimo vecino más
cercano.
Ju -C

Recordemos que un conjunto de d + 1 puntos de un Proceso de Poisson Π en Rd están


en posición general si el envolvente convexo de los puntos de Π tiene interior no vacı́o. Se
puede probar también que con probabilidad uno para un proceso de Poisson en Rd , todos
D

los conjuntos de d + 1 puntos están simultáneamente en posición general.


Asimismo, con probabilidad uno, los elementos de un proceso de Poisson Π tienen la
AT

propiedad de no esfericidad. Es decir, para cualquier conjunto de d + 1 puntos de un Proceso


de Poisson se puede extraer una esfera (d − 1)-dimensional para d ≥ 2, y además con
probabilidad uno tal esfera no tocará ningún otro elemento del Proceso de Poisson.
En paticular, a partir de un proceso de Poisson podemos generar una descomposición
coherente de Rd en simplejos d–dimensionales, cuyos vértices están en los puntos del proceso
mismo.
Sean X1 , . . . , Xd+1 partı́culas de un proceso de Poisson Π en Rd . Sea ∆ = ∆(X1 , . . . , Xd+1 )
el simplejo d–dimensional cuyos vértices son las d + 1 partı́culas del proceso. Decimos que
∆ es un simplejo de Delaunay del proceso de Poisson si la esfera (d − 1)-dimensional
que pasa a través de X1 , . . . , Xd+1 no abarca ninguna otra partı́cula en su interior.
Se puede probar que con probabilidad uno los simplejos de Delaunay de un proceso de
Poisson en Rd forman una teselación. En el sentido de que la colección de simplejos de
Delaunay {∆j } satisface que los interiores de los simplejos son disjuntos por pares y además
d
S
j ∆j = R . Esto es, la teselación de Delaunay de un proceso de Poisson representa un
modelo generador estocástico de formas simpliciales en dimensiones mayores.
Bibliografı́a

16 T
[1] M. Abramowitz, I.A. Stegun, Handbook of Mathematical Functions. Dover, 1974.

20 A
[2] N. Alon, J. H. Spencer, The Probabilistic Method. Wiley–Interscience, 2008.
lio IM
[3] G. W. Anderson, A. Guionnet, O. Zeitouni, An Introduction to Random Matrices. Cam-
bridge University Press, 2010.
Ju -C

[4] A. Araujo, E. Giné, The Central Limit Theorem for Real and Banach Valued Random
Variables. Wiley, 1980.

[5] J. Arsuaga, T. Borrman, R. Cavalcante, G. Gonzalez, C. Park. Microarrays 4, 339-369,


D

2015.
AT

[6] K. B. Athreya, S. N. Lahiri, Measure Theory and Probability. Springer, 2006.

[7] A. Banerjee, I.S. Dhillon, J. Ghosh, S. Sra,, Clustering on the Unit Hyperspher using
von Mises-Fisher Distributions. Journal of Machine Learning Research 6, 1345-1382,
2005.

[8] A. Barbour, L. Holst, S. Janson, Poisson Approximation. Oxford University Press, 1992.

[9] R. G. Bartle, The Elements of Integration. Wiley & Sons, 1966.

[10] I. V. Basawa, B.L.S. Rao, Statistial Inference for Stochastic Processes. Academic Press,
1981.

[11] P. Bendich, J. S. Marron, E. Miller, A. Pieloch, S. Skwerer, Persistent homology analysis


of brain artery trees. The Annals of Applied Statistics, 10, 198-218, 2016.

[12] A. Bhattacharya, R. Bhattacharya, Nonparametric Inference on Manifolds: With Ap-


plications to Shape Spaces. Cambridge University Press, 2012.

277
278 Bibliografı́a

[13] P. Billingsley, Convergence of Probability Measures. Wiley, 1968.

[14] P. Billingsley, Probability and Measure. Wiley & Sons, 1995.

[15] O. Bobrowski, Algebraic Topology of Random Fields and Complexes. PhD Thesis, Duke
University, 2012.

[16] O. Bobrowski, R. J. Adler, Distance functions, critical points and topology for some
random complexes. arXiv: 1107.4775, 2011.

16 T
[17] O. Bobrowski, M. Kahle, Topology of random geometric complexes: a survey. ar-
Xiv:1409.4734, 2014.

20 A
[18] O. Bobrowski, S. Mukherjee, The topology of probability distributions on manifolds.
lio IM
Probability Theory and Related Fields, 161, 2015.

[19] O. Bobrowski, M. Kahle, P. Skraba, Maximally persistent cycles in random geometric


Ju -C

complexes. arXiv:1509.04347, 2015.

[20] J. Boissonat, F. Chazal, M. Yvinec, Computational Geometry and Topology for Data
Analysis. In progress.
D

[21] B. Bollobás, Random graphs. Modern Graph Theory, 215-252, 1998.


AT

[22] P. Bubenik, Statistical topological data analysis using persistence landscapes. Journal
of Machine Learning Research, 16, 77-102, 2015.

[23] P. Bubenik, G. Carlsson, P. T. Kim, Z. Luo, Statistical topology via Morse theory, per-
sistence and nonparametric estimation. Contemporary Mathematics, 516, 75-92, 2010.

[24] P. Bubenik, P. T. Kim, A statistical approach to persistent homology. Homology, Ho-


motopy and Applications, 9, 337-362, 2007.

[25] G. Carlsson, Topology and data. A M S Bulletin, 46, 2009.

[26] G. Carlsson, T. Ishkhanov, V. De Silva, A. Zomorodian, On the local behavior of spaces


of natural images. International Journal of Computer Vision 76, 1-12, 2008.

[27] G. Carlsson, et al. Topological Data Analysis and Machi-


ne Learning Theory. Birs Final Report, October 15-19, 2012.
http://www.birs.ca/workshops/2012/12w5081/report12w5081.pdf
Bibliografı́a 279

[28] G. Carlsson, A. Zomorodian, A. Collins, L. Guibas, Persistence barcodes for shapes. In


Proccedings of the 2004 Eurographics/ACM SIGGRAPH, ACM Press, 2004.

[29] I. Chavel, Riemannian Geometry, A Modern Introduction. Second Edition, Cambridge


University Press, 2016.

[30] J.M. Chan, Network and Algebraic Topology of Influenza Evolution, PhD Dissertation,
Columbia University, 2013.

[31] J.M. Chan, G. Carlsson, R. Rabadan, Topology of viral evolution. Proceedings of the

16 T
National Academy of Sciences 110, 18566-18571, 2013.

20 A
[32] F. Chazal, D. Cohen–Steiner, L. J. Guibas, M. Glisse, S. Oudot, Proximity of persistent
modules and their diagrams. In Proccedings of the 25th ACM Symposium of Compu-
lio IM
tational Geometry, 2009.

[33] F. Chazal, D. Cohen–Steiner, L. J. Guibas, F. Memoli, S. Oudot, Gromov–Hausdorff


stable signatures for shapes using persistence. Computer Graphics Forum, 2009.
Ju -C

[34] F. Chazal, D. Cohen–Steiner, Q. Mérigot, Geometric inference for probability measures.


Foundations of Computational Mathematics, 11, 733-751, 2011.
D

[35] F. Chazal, B. T. Fasy, F. Lecci, B. Michel, A. Rinaldo, L. Wasserman, Robust topological


inference: Distance to a measure and kernel distance. arXiv:1412.7197v1 [math.ST],
AT

2014.

[36] F. Chazal, V. de Silva, M. Glisse, S. Oudot, The structure and stability of persistence
modules. arXiv:1207.3674 [math.AT], 2012.

[37] J.P.R. Christensen, On some measures analogous to Haar measure. Mathematica Scan-
dinavica, 26, 103-106, 1970.

[38] J.P.R. Christensen, Uniform measures and spherical harmonics. Mathematica Scandi-
navica, 26, 293-302, 1970.

[39] M.K. Chung, P. Bubenik, P.T. Kim, Persistence diagrams of cortical surface data. In
Information in Medical Imaging, 386-397, Springer, 2004.

[40] D. Cohen–Steiner, H. Edelsbrunner, J. Harer, Stability of persistence diagrams. In Proc-


cedings of the 21st ACM Symposium of Computational Geometry, 2005.

[41] L. Devroye, Non-uniform Random Variate Generation. Springer, 1986.


280 Bibliografı́a

[42] P. Diaconis, D. Freedman, A dozen de Finettiy-style results in search of a theory, Annales


de I´I.H.P. Probabilités et Statistiques, 23, 397-423, 1987.
[43] P. Diaconis, S. Holmes, M. Shahshahani, Sampling from a manifold. Advanced in Modern
Statistical Theory and Applications: A Festschrift in honor of Morris L. Eaton. IMS
Collections, 10, 102-125, 2013.
[44] J. A. Domı́nguez-Molina, V. Pérez Abreu, Notas de Medida e Integración. En prepa-
ración, disponibles por petición.

16 T
[45] M. L. Eaton, Multivariate Statistics: A Vector Space Approach. Wiley, 1983.

20 A
[46] H. Edelsbrunner, John, L. Harer. Computational Topology: An Introduction. American
Mathematical Society, 2010.
lio IM
[47] H. Edelsbrunner, D. Letscher, A. Zomorodian, Topological persistence and simplifica-
tion. Discrete Computation & Geometry, 28, 2002.
Ju -C

[48] B. Efron, Bootstrap methods: another look at the jackknife. The Annals of Statistics,
7, 1-26, doi:10.1214/aos/1176344552, 1979.
[49] B. Efron, Robert Tibshirani, An Introduction to the Bootstrap. Chapman & Hall/CRC,
D

1993.
AT

[50] P. Erdös, A. Rényi. On random graphs. Publicationes Mathematicae Debrechen, 6, 290-


297, 1959.
[51] Espinoza, M. E., Homologı́a persistente. Notas Proyecto ATD-CIMAT, 2015,
http://atd.cimat.mx
[52] B. T. Fasy, F. Lecci, A. Rinaldo, L. Wasserman, S. Balakrishan, A. Singh, Confidence
sets for persistence diagrams. Annals of Statistics, 42, 2301-2339, 2014.
[53] H. Federer, Geometric Measure Theory. Springer, 1996.
[54] N. I. Fisher, Statistical Analysis of Circular Data. Cambridge University Press, 1993.
[55] P.T. Fletcher, C. Lu, S. M. Pizer, S. Joshi, Principal geodesic analysis for the study
of nonlinear statistics of shape. IEEE Transactions on Medical Imaging, 23, 995-1005,
2004.
[56] G. Franzoni, The Klein Bottle: Variations on a Theme. Notices of the American Mat-
hematical Society, 59, 1076-1082.
Bibliografı́a 281

[57] W. Fulton, Algebraic Topology: A First Course. Springer–Verlag, 1995.

[58] R. Ghrist, Elementary Applied Topology. ed. 1.0. Createspace, 2014.

[59] J. A. González, Teorı́a de Morse discreta y gráficas de Reeb aplicadas a ATD, Notas
Proyecto ATD-CIMAT, 2015, http://atd.cimat.mx

[60] V. A. González, Aplicación de análisis topológico de datos a nichos ecológicos. Tesis


de Licenciatura en Matemáticas, Universidad de Guanajuato, 2016. Proyecto ATD-
CIMAT, http://atd.cimat.mx

16 T
[61] P. Good, Permutation, Parametric, and Bootstrap Tests of Hypothesis. Springer, 2005.

20 A
[62] L. Guibas, D. Morozov, D., Q. Mérigot, Witnessed k-distance. Discrete & Computational
lio IM
Geometry, 49, 22–45, 2013.

[63] U. Grenander, Probabilities on Algebraic Structures. Dober, 2008.


Ju -C

[64] U. Grenander, Abstract Inference. Wiley, 1981.

[65] P. R. Halmos, Measure Theory. Springer Verlag, 1974.


D

[66] A. Hatcher, Algebraic Topology. Cambridge University Press, 2002.


AT

[67] W. Hoeffding, A class of statistics with asymptotically normal distribution. The Annals
of Mathematical Statistics, 19, 293-325, 1948.

[68] J.M. Ibarra, Modelos de homologı́a persistente en filogenética. Tesis de Licencia-


tura en Matemáticas, Universidad de Guanajuato, 2016. Proyecto ATD-CIMAT,
http://atd.cimat.mx

[69] A.M. Ibekwe, J. Ma, D.E. Crowley, C.H. Yang, A. M Johnson, T.C. Petrossian, P.Y.
Lum, Topological data analysis of escherichia codi o157:h7 and non-o157 survival in
soils. Frontiers in Cellualr and Infection Microbiology 4, 122, 2014.

[70] I.T. Jolliffe, Principal Component Analysis, Wiley Online Library, 2005.

[71] F. Jones, Lebesgue Integration on Euclidean Space. Jones and Bartlett Books in Mat-
hematics, 1993.

[72] O. Jones, Introduction to Scientific Programming and Simulation Using R. CRC Press,
2014.
282 Bibliografı́a

[73] S. Jung, J.S. Marron, PCA Consistency in High Dimension, Low Sample Size Context.
The Annals of Statistics, 37, 4104–4130, 2009.

[74] M. Kac, Probability Theory and Related Topics in Physical Sciences, Wiley, 1959.

[75] M. Kahle, Topology of random clique complexes. Discrete Mathematics, 309, no. 6,
1658-1671, 2009.

[76] M. Kahle, Random geometric complexes. Discrete & Computational Geometry, 45, no.
3, 553-573, 2011.

16 T
[77] M. Kahle, Sharp vanishing thresholds for cohomology of random flag complexes. ar-

20 A
Xiv:1207.0149, 2012.
lio IM
[78] M. Kahle, Topology of random simplicial complexes: a survey. A M S Contemporary
Mathematics 620, 201-222, 2014.

[79] M. Kahle, E. Meckes, Limit theorems for Betti numbers of random simplicial complexes.
Ju -C

Homology Homotopy and Applications, 15, no. 1, 2013.

[80] J. T. Kent, A. M. Ganaeiber, K. V. Mardia, A new method to simulate the Birgham and
D

related distributions in directional data analysis with applications. arXiv:1310.81110v1,


2013.
AT

[81] D.G. Kendall, D. Barden, T.K. Carne, H. Le, Shape and Shape Theory. Wiley, 1999.

[82] J. F. C. Kingman, Random walks with spherical symmetry. Acta Mathematica, Vol. 109,
11-53, 1963.

[83] J. F. C. Kingman, Poisson Process. Oxford, 1996.

[84] B. Kirchhiem, D. Preiss, Uniformly distributed measures in Euclidean spaces. Mathe-


matica Scandinavica, 90, 152-160, 2002.

[85] A. Klenke, Probability Theory: A Comprehensive Course. Springer, 2008.

[86] D. E. Knuth, The Art of Computer Programming. Second Edition. Addison-Wesley,


1981.

[87] V. Kurlin, A Homologically persistent skeleton is a fast and robust descriptor for a
sparse cloud of inters points and saliency features in noisy 2D images. Lecture Notes in
Computer Science 9256, 606-617, 2015.
Bibliografı́a 283

[88] H. H. Kuo, Gaussian measures in Banach spaces. Lecture Notes in Mathematics 463,
Springer, 1975.

[89] M. Ledoux, M. Talagrand, Probability in Banach Spaces: Isoperimetry and Processes.


Springer, 2011.

[90] M. Lesnick, Studying the shape of data using topology. The Insti-
tute Letter Summer 2013, Institute for Advanced Study, Princeton,
https://www.ias.edu/ideas/2013/lesnick-topological-data-analysis.

16 T
[91] C. Lunneborg, Data Analysis by Resampling. Duxbury Press, 1999.

20 A
[92] K. V. Mardia, P. Jupp, Directional Statistics. Wiley, 2000.
lio IM
[93] G. Marsaglia, Choosing a point from the surface of a sphere. The Annals of Mathematical
Statistics 43, 645-646, 1972.
Ju -C

[94] Y. Mileyko, S. Mukherjee, J. Harer. Probability measures on the space of persistence


diagrams. Inverse Problems 27, No 12, 2011.

[95] J. Milnor, Morse theroy. Based on lecture notes by M. Spivak and R. Wells. Annals of
D

Matemathics Studies, 51, Princeton University Press, 1963.


AT

[96] Jean–Marie Morvan, Generalized Curvatures. Springer, 2008.

[97] M. E. Muller, A note on a method for generating points uniformly on N -dimensional


sphere. Communications of the Association for Computing Machinary 2, 19-20.

[98] J. R. Munkres, Topology. Prentice Hall Inc., 1975.

[99] J. R. Munkres, Elements of Algebraic Topology. Addison–Wesley, Redwood City, Cali-


fornia, 1984.

[100] R. Meshulam, N. Wallach, Homological connectivity of random k–dimensional comple-


xes. Random Structures & Algorithms, 34, no. 3, 408-417, 2009.

[101] E. Munch, Applications of Persistent Homology to Time Varying Systems, PhD Dis-
sertation, Duke University, 2013.

[102] L. Nathan, R. Meshulam, Homological connectivity of random 2-complexes. Combina-


torica, 26, no. 4, 475-487, 2006.
284 Bibliografı́a

[103] M. Nicolau, A. J. Levine, G. Carlsson, Topological based data analysis identifies a


subgroup of breast cancers with a unique mutational profile and excellent survival.
Proceeedings of the National Academy of Sciences 108, 7265-7270, 2011.

[104] A. D. Nimer, Local uniform rectifiability of uniformly distributed measures. ar-


xiv.org/abs/1603.03415, 2016.

[105] N. Otter, M. Porter, U. Tillmann, P. Grindod, H. Harrington, A roadmap for the


computation of persistent homology. arXiv:1506.08903v4 [math.AT], 2016.

16 T
[106] S. Palau C, Medida en grupos topológicos. Tesis de Licenciatura en Matemáticas,
UNAM, 2010. http://132.248.9.195/ptb2010/agosto/0660062/Index.html.

20 A
[107] L. Parida, F. Utro, D. Yorukoglu, A.P. Carrieri, D. Kuhn, S. Basu, Topological signatu-
lio IM
res for population admixture. In Research in Computational Molecular Biology, 261-275,
Springer, 2015.

[108] V. Patrangenaru, L. Ellingson, Nonparametric Statistics on Manifolds and Their Ap-


Ju -C

plications to Object Data Analysis. CRC Press/Chapman & Hall, 2016.

[109] M. Penrose, Random Geometric Graphs. Oxford University Press, 2003.


D

[110] V. Pérez-Abreu, Poisson approximation to power series distributions. American Sta-


tistician, 45, 46-49, 1991.
AT

[111] V. Pérez-Abreu, C. Tudor, Functional limit theorems for traces in the Dyson-Brownian
motion. Communications on Stochastic Analysis 1, 415-428, 2007.

[112] D. Preiss, Geometry of measures in Rn : distribution, rectifiability, and densities. Annals


of Mathematics, 125, 537-643, 1987.

[113] J. Ramsay, B.W. Silverman, Functional Data Analysis. Second Edition, Springer-
Verlag, 2005.

[114] L. K. Rivera E., Análisis estadı́stico de trayectorias sobre la esfera: Un caso de es-
tadı́stica sobre variedades. Tesis de Maestrı́a en Probabilidad y Estadı́stica, CIMAT,
2016. Proyecto ATD-CIMAT, http://atd.cimat.mx

[115] C. P. Robert, G. Casella, Introducing Monte Carlo Methods With R. Springer, 2010.

[116] A. Robinson, K. Turner, Hyphotesis testing for topological data analysis.


http://arxiv.org/abs/1310.7467, 2016.
Bibliografı́a 285

[117] G. Roussas, An Introduction to Probability and Statistical Inference. 2nd Edition, Aca-
demic Press, 2014.

[118] L. Santaló, Integral Geometry and Geometric Probability. 2nd Edition, Cambridge Uni-
versity Press, 2004.

[119] G. R. Shorack, J. A. Wellner, Empirical Processes with Applications to Statistics.


SIAM, 2009.

[120] R. Serfling, Approximation Theorems of Mathematical Statistics. Wiley, 1980.

16 T
[121] B.W. Silverman, Density Estimation for Statistics and Data Analysis. CRC Press,

20 A
1986.
lio IM
[122] C. G. Small, The Statistical Theory of Shape. Springer, 1996.

[123] D. Sprott, Statistical Inference in Science. Springer, 2000.


Ju -C

[124] J. R. Thompson, Simulation: A Modeler’s Approach. Wiley, 2000.

[125] T. Tjur, Probability Based on Radon Measures. Wiley, 1980.


D

[126] L.W. Tu, An Introduction to Manifolds. Springer, Second edition, 2011.


AT

[127] R. van de Weygaert, G. Vegter, H. Edelsbrunner, B. J. T. Jones, P. Pranav, C. Park,


W. A. Hellwing, B. Eldering, N. Kruithof, E. G. P. Box, J. Hidding, J. Feldbrugge, E.
ten Have, M. van Engelen, M. Caroli, M. Teillaud. Alpha, Betti and the megaparsec
Universe: on the topology of the cosmic web. Transactions on Computational Science
XIV, 60-101, 2011.

[128] L. Wasserman, All of Statistics. Springer, 2004.

[129] https://rafaelgonzalez.shinyapps.io/TDA final/

[130] http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108

[131] A. J. Zomorodian, Topology for Computing. Cambridge University Press, 2009.

[132] A. J. Zomorodian, The tidy set: a minimal simplicial set for computing homology of
clique complexes. In Proccedings of the 26th Symposium of Computational Geometry,
257-266, 2010.
Centro de
Investigación en
Matemáticas, A.C.

PERSISTENCIA, PROBABILIDAD
E INFERENCIA ESTADÍSTICA PARA
ANÁLISIS TOPOLÓGICO DE DATOS

PROYECTOS FINALES DEL CURSO


Esqueleto de Homología persistente para aproximar fronteras
de objetos en una imagen
María Alejandra Valdez, Omar Radhames Urquídez

Método para simular puntos uniformemente distribuidos


sobre una superfcie en Rn
Gilberto Flores, Yair Hernández

Análisis topológico de datos utilizando Mapper y complejos testigo


Jesús Manuel Pérez Angulo

Julio 2016
P ROYECTO FINAL DE LA C LASE :
P ROBABILIDAD E I NFERENCIA E STADÍSTICA PARA A NÁLISIS T OPOLÓGICO DE D ATOS

ESQUELETO DE HOMOLOGÍA PERSISTENTE PARA


APROXIMAR FRONTERAS DE OBJETOS EN UNA

16 T
IMAGEN
20 A
lio IM
Ju -CD

A LUMNOS :
AT

M ARÍA A LEJANDRA VALDEZ C ABRERA


O MAR R ADHAMES U RQUÍDEZ C ALVO

L ICENCIATURA EN M ATEMÁTICAS
U NIVERSIDAD DE G UANAJUATO

P ROFESORES :
F ERMÍN R EVELES
V ÍCTOR P ÉREZ -A BREU
M IGUEL N AKAMURA
R OLANDO B ISCAY
Resumen
Las imágenes en dos dimensiones normalmente tienen puntos en los cuales se presentan
discontinuidades en el color y brillo. Al conjunto de estos puntos se le conoce como los
bordes de la imagen. La detección de estos bordes es un problema usual en el procesamiento
de imágenes y en visión computacional, además de tener aplicaciones en otras áreas como
medicina y biología.
En el presente proyecto se presenta un método para detectar puntos que pertenecen a los
bordes de una imagen dada, para después crear un grafo que aproxime dichos bordes. Para
esto se siguen los siguientes pasos:

Obtener una versión de la imagen en escala de grises.

16 T
Utilizar un método basado en mezclas gaussianas para segmentar dicha imagen.
20 A
A partir de la imagen segmentada se encuentra una nube de puntos sobre los bordes
lio IM
Utilizar un método basado en homología persistente para crear un grafo que se aproxi-
me a los bordes de la imagen.
Ju -C

El método de segmentación está basado en el artículo de Huang y Chang (2008), mientras


que el método para la creación del grafo está basado en el artículo de Vitaly (2015). Los
D

algoritmos utilizados fueron programados en dos lenguajes de programación, el lenguaje R


AT

para la obtención de la nube de puntos y python para la creación del grafo a partir de esta
nube de puntos.

1
Índice general

1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1. Para el pre-proceso de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . 4

16 T
2.2. Definiciones Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.
2.3. 20 A
Resultados importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obtención de la nube de puntos C . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
8
lio IM
3.1. Segmentación de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Ju -C

3.3. Encontrar puntos cercanos a los bordes . . . . . . . . . . . . . . . . . . . . 15


4. Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1. Creación del grafo HoPeS’(C ) . . . . . . . . . . . . . . . . . . . . . . . . . . 15
D

4.2. Suavización del grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19


AT

5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7. Cosas por hacer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2
1. INTRODUCCIÓN

1. I NTRODUCCIÓN
El problema de detectar los bordes de un imagen es un problema que actualmente
sigue siendo un tema de investigación en áreas como procesamiento de imágenes y visión
computacional. Para su solución se han planteado varios métodos tales como métodos
basados en la función gradiente, métodos que buscan ajustar funciones a los bordes, métodos
basados en segundas derivadas, métodos de enlace basados en segmentación, entre otros.
Sin embargo ningún método que se ha planteado resuelve cualquier caso de detección, esto
en parte a que los bordes pueden deberse a diferentes razones, por ejemplo discontinuidad
en la profundidad de la imagen, discontinuidad de la orientación de las superficies, cambios
en las propiedades de los materiales o variaciones en la iluminación de la escena mostrada.

16 T
Mientras que algunos métodos funcionan mejor para algunos casos, otros pueden funcionar
mejor para otros casos. Así pues, se sigue en la búsqueda de nuevos métodos que funcionen
de manera más general.
20 A
lio IM
En un caso ideal la detección de bordes devuelve las fronteras de los objetos que se
encuentran sobre la imagen. El problema que se ataca en este proyecto es, dada una nube
de puntos que se suponen sobre las fronteras de los objetos, extraer de esta una estructura
Ju -C

informativa. Esta estructura debe de resumir información topológica de la frontera sobre las
que están dichos puntos, en especial la cantidad de cíclos uno dimensionales debería indicar,
D

en el mejor de los casos, la cantidad de objetos sobre la imagen. Esto podría ser de interés
para varias aplicaciones, por ejemplo la detección de tumores en imágenes cerebrales.
AT

El método tradicional para la construcción de dicha estructura es elegir una escala,


digamos el radio o el número de vecinos, y construir a partir de la nube de puntos un grafo
de vecinos. Sin embargo la manera de elegir dicha escala no siempre es la mejor para todas
las imágenes y procuraremos evitar tener que elegirla de manera manual. Aquí se propone
un método que no necesita elegir un parámentro de escala inicial.
Para este trabajo se supone la existencia de cierto grafo G desconocido que describe
apropiedamente las fronteras de los objetos en la imagen. Supondremos además que la nube
de puntos C dada cumplirá que cada punto que pertenece a ella está lo suficientemente
cerca de dicho grafo. Por medio de esta nube se busca encontrar un grafo que comparta los
primeros grupos de homología de G, de esta forma manteniendo la información importante
de las fronteras.
Además de lograr esto la estructura que se propone en este proyecto presenta ciertas
ventajas:

Si la nube de puntos tiene un total de n puntos, entonces la estructura tiene tamaño

3
2. PRELIMINARES

O(n) y puede ser calculada en un tiempo O(n log(n))

La estructura es invariante a reescalamientos y rotaciones de C.

Es estable bajo perturbaciones de muestras C obtenidas a partir de un grafo desconoci-


do G ⊂ R2 .

2. P RELIMINARES

2.1. Para el pre-proceso de la Imagen


Como se mencionó en el resumen del proyecto, uno de los primeros pasos que se hicieron

16 T
fue segmentar la imagen. Antes de proceder a explicar como funciona el algoritmo, se debe
20 A
tener en claro lo que esto significa. Para esto daremos la definición de segmentar una imagen.
lio IM
Definición: Dada una imagen, se le llamará segmentar dicha imagen al proceso de divi-
dir los pixeles en cierta cantidad de grupos homogéneos y asignar a cada grupo un color
específico.
Ju -C

En particular para este proyecto, cuando se hable de segmentar la imagen, la cantidad de


D

grupos serán únicamente 2, uno blanco y uno negro, puesto que el objeto de interés son los
puntos que están en las orillas de estos dos grupos.
AT

Además también se mencionó que el método que se utiliza para segmentar está basado
en mezclas gaussianas. La siguiente definición será útil al momento de explicar el algoritmo
para segmentar la imagen.

Definición: Se define la función de densidad de k mezclas gaussianas a la función de den-


sidad dada por:

k
f (x|{αi , µi , σi }) = αi G i (x|µi , σi ),
X
i =1
Pk
donde 0 ≤ αi ≤ 1, i =1 αi = 1, y G i es una función de densidad gaussiana con media {µi } y
desviación estándar σi , para todos los valores i ∈ {1, 2, . . . , k}.

2.2. Definiciones Importantes


Algo que se debe notar del algoritmo descrito en el artículo de Vitaly (2015) es que para
implementarlo se deben tener algunas nociones básicas de grafos. Es por esto que en esta

4
2. PRELIMINARES

sección se deberán definir algunas de estas nociones con las que el lector quizás no este
familiarizado.
Uno de los grafos que se utilizan, y de hecho es el primero que se obtiene en el algoritmo,
es el mínimo árbol recubridor, cuya definición se muestra a continuación.

Definición 1: Dada una nube de puntos C , el mínimo árbol recubridor es el árbol que tiene
como vértices los puntos de C y la suma total de las longitudes de las aristas del árbol es
menor o igual a la de cualquier otro árbol con vértices en C . Se denota por MST(C ).

Como se ha mencionado antes, al implementar el algoritmo para la detección de bordes


en la imagen, se está suponiendo la existencia de un grafo desconocido que aproxima los
bordes de la imagen. La nube de puntos con la que trabajamos se supone cercana a los

16 T
bordes, por lo que debe ser cercana también al grafo. Sin embargo es válido preguntarse que
20 A
tan cercana es la nube de puntos al grafo que se busca aproximar. Para esto se tomarán en
cuenta las siguientes dos definiciones.
lio IM
Definición 2: Dada una nube de puntos C ⊂ R2 y un número α > 0, se define al α-Offset,
denotado por C α , como el subconjunto de R2 de todos los puntos que están a una distancia
Ju -C

de a lo más α de algún punto de C .


D
AT

Definición 3: Se dice que la nube de puntos C es una ²-muestra de un grafo G ∈ R2 si G ⊂ C ²


y C ⊂ G ² . Así pues cualquier punto de C es a lo más a una distancia ² de algún punto de G y
cualquier punto de G está a lo más a una distancia ² de algún punto de C .

Los siguientes objetos definidos no son directamente utilizados en el algoritmo. Sin


embargo en la siguiente sección se utilizan para demostrar resultados que son necesarios
para justificar la validez del algoritmo y por esto es necesario conocerlos también.

Definición 4: Dado una nube de puntos C y un valor α > 0, entonces de define el bosque
reducido MST(C , α), como el grafo que se obtiene a partir de MST(C ) al remover todas las
aristas de longitud mayor a 2α.

5
2. PRELIMINARES

Definición 5: Se dice que un grafo G recubre a una nube de puntos C , si el conjunto de los
vértices de G coincide con C .

Definición 6: Un grafo G recubre C α si G tiene vértices en todos los puntos de C y cuales-


quiera vertices de G están en la misma componente conexa de G si y sólo si están en la misma
componente conexa de C α .

Recordando que durante el algoritmo no sólo se construye un grafo que aproxima los
bordes, sino también el primer diagrama de persistencia ([3] Definición 2.3.1) de la nube de
puntos dada, se debe tener en cuenta de qué manera este grafo se relaciona con el diagrama.
La respuesta a esta pregunta proviene de ciertas aristas especiales que tendrá el grafo y cuya

16 T
definición es la siguiente.

20 A
Definición 8: Dada la filtración de los complejos de Vietoris-Rips ([3] Definición 1.3.9)
lio IM
R(C , 0) ⊂ R(C , α0 ) ⊂ R(C , α1 ) ⊂ . . . ⊂ R(C , ∞),

se le llama a e una arista de k crítica si al aparecer esa arista en la filtración, se crea un


Ju -C

nuevo agujero. Esta arista estará relacionada con el punto (b, d ) en el primer diagrama de
persistencia, donde b es el momento de nacimiento del agujero (es decir cuando aparece e),
D

y d corresponde al momento de muerte de dicho agujero.


AT

Al obtener el diagrama de persistencia, el siguiente paso será determinar qué puntos


tienen la suficiente persistencia para considerarse importantes y no descartables. Para realizar
esta tarea, se utilizarán los objetos definidos en la Definición 9.

Definición 9: Para una nube de puntos C y el primer diagrama de persistencia, se define


como una brecha diagonal como a la franja {0 ≤ a < y − x < b} que no tiene ningún punto del
diagrama en su interior. Se llama la brecha diagonal más ancha, denotada por dgap(C ) a la
brecha diagonal con el ancho |dgap(C )| = b −a más grande. Sea dgm’(R(C , α)) el subdiagrama
de persistencia que consiste únicamente en los puntos sobre dgap(C ). La escala crítica,
denotada por α(C ) es el b máximo de todos los puntos (b, d ) ∈ dgm’(R(C , α)).

Hechas ya las definiciones anteriores, se pueden definir ahora los grafos de mayor interés
para el problema. Los grafos que se definen en la Definición 10 son los grafos preliminares que
darán paso al grafo definido en la Definición 11. Este último grafo es aquel que tomaremos
como aproximación para los bordes de la imagen.

6
2. PRELIMINARES

Definición 10: Dada una nube de puntos C , se define el esqueleto de homología persistente,
denotado por HoPeS(C ), como la unión de MST(C ) y todas las aristas críticas. El esqueleto
reducido HoPeS(C , α) es obtenido a partir de HoPeS(C ) al remover todas las aristas de longitud
mayor a 2α y todas las aristas críticas e tales que su punto correspondiente (b e , d e ) cumple
d e ≤ α.

Definición 11: Para una nube de puntos C , el esqueleto derivado, denotado por HoPeS’(C )
es el grafo obtenido a partir de HoPeS(C ) al remover:

(1) Todas las aristas de longitud mayor a 2α(C ).

(2) Todas las aristas críticas con muerte≤ α(C ) o con (nacimiento,muerte) debajo de dgap(C ).

16 T
20 A
Para validar el uso de HoPeS’(C ) como una aproximación de los bordes de la imagen, se
lio IM
requiere probar el Teorema 2 de la siguiente sección. La siguiente definición es necesaria
tanto para entender el teorema como para la demostración del mismo.
Ju -C

Definición 12: Dado un grafo G, un cíclo que no se autointersecta L en el grafo se llama


básico si rodea una región acotada de R2 − G. Cuando α incrementa, el agujero rodeado por
el α-Offset L α nace en α = 0 y muere en la escala α = ρ(L), a la que se le llama el radio del
D

ciclo L. Así que el agujero inicial rodeado por L tiene el tiempo de vida [0, ρ(L)). En general
si α aumenta, se pueden crear nuevos agujeros en algún punto α > 0. Supongase que estos
AT

están rodeados por L 1 , . . . , L k en sus momentos de nacimiento. A θ(G) = max j =1,...,k ρ(L j ) se
le llama el grosor de G.

Finalmente, el algoritmo que se describe en el artículo de Vitaly utiliza una nociones muy
conocidas de geometría computacional que se definen a continuación.

7
2. PRELIMINARES

Definición 13: La triangulación de Delaunay de una nube de puntos C se define como una
triangulación de los puntos que cumple que si p 1 , p 2 , p 3 son vértices de un triángulo en la
triangulación, entonces en el interior del circuncírculo de este triángulo no hay ningún otro
punto de C . Se denota por Del(C ).

Definición 14: Para una nube de puntos C y cierto punto p ∈ C , se tiene que la celda de
Voronoi de p es el conjunto de todos los puntos que están más cerca de p que de cualquier
otro punto en C . Es decir V (p) = {q ∈ R2 : d (p, q) ≤ d (p 0 , q)∀p 0 ∈ C }.

2.3. Resultados importantes

16 T
Un resultado de geometría computacional es que la triangulación de Delaunay contiene
20 A
a todos los triángulos con vertices p, q, r ∈ P tales que V (p) ∩ V (q) ∩ V (r ) 6= ;. Teniendo en
cuenta esto es posible demostrar que el complejo de Vietoris-Rips R(C , ∞) coincide con
lio IM
Del(C ), si consideramos que los triángulos formados por la triángulación son 2-simplejos
en Del(C ). Así pues, la filtración de complejos de Vietoris-Rips es una filtración para la
Ju -C

triángulación de Delaunay.
De esto tenemos que Del(C ) se obtiene al agregar aristas y triángulos en estos puntos
críticos:
D

Una arista entre puntos p i y p j se agrega en α = 12 d (p i , p j ).


AT

Un triángulo acutángulo se agrega en α = r , donde r es el radio del circuncírculo de


dicho triángulo.

Un triángulo no acutángulo se agrega en α = 12 l , donde l es la longitud del lado más


largo del triángulo.

En el resto de esta sección se dedicará a demostrar resultados que ayudan a validar el


por qué HoPeS 0 (C ) es una buena aproximación a los bordes de una imagen. Todos estos
resultados y sus demostraciones correspondientes pueden ser encontrados en el artículo de
Vitaly (2015).
El primer resultado que se verá muestra que MST(C ) es un objeto óptimo para describir
la topología 0-dimensional de C a través de todas las escalas α. Este resultado se utilizará
más adelante para probar una proposición más adelante.

8
2. PRELIMINARES

Lema 1: Dada una nube C y una escala α ≥ 0, el bosque reducido MST(C , α) tiene el mínimo
de longitud total de aristas entre todos los grafos que recubren a C α .
Demostración: Sean e 1 , e 2 , . . . , e m ⊂ MST(C ) todas las aristas que son más largas que 2α.
Entonces MST(C ) = MST(C , α) ∪ e 1 ∪ . . . ∪ e m . Supongamos que existe un grafo G que recubre
a C α y que es más corto que MST(C , α). Entonces G ∪ e 1 ∪ . . . ∪ e m recubre a C y es más corto
que MST(C ), lo que es una contradicción.
ä

El siguiente lema que se presenta es una garantía de que la estructura HoPeS(C ) es


invariante bajo rotaciones y a transformaciones de escalamiento uniforme. Puesto que
HoSeS’(C ) es derivado de esta estructura, también será invariante.

16 T
Lema 2: Dada una nube de puntos C , la estructura HoPeS(C ) es invariante bajo cualquier
20 A
transformación afín cuya matrix 2 × 2 tiene los dos eigenvalores iguales.
Demostración: Sea A : R2 → R2 la transformación afín con los dos eigenvalores iguales a
lio IM
λ. Entonces todos los discos, α-offsets C α y complejos R(C , α) son escalados por el factor λ.
Así que el esqueleto de homología persistente HoPeS(C ) tiene la misma estructura topológica,
Ju -C

pero todos los puntos (nacimiento, muerte) del diagrama de persistencia son multiplicados
por λ.
D

Uno de los requisitos que se busca que se cumpla es que se mantengan las propiedades
AT

topológicas de la filtración en nuestra estructura creada. En particular se busca que se


mantenga el primer grupo de homología, ya que esto está relacionado con la cantidad de
1 cíclos de la imagen, es decir la cantidad de objetos en la imagen en un caso ideal. La
proposición 1 asegura este requisito, y los siguientes tres lemas se utilizan para demostrar
esta proposición.

Lema 3: Dada una nube de puntos C y cualquier escala α ≥ 0, se tiene que HoPeS(C , α) ⊂
R(C , α).
Demostración: Por la definición 10 tenemos que todas las aristas de HoPeS(C , α) tienen
una longitud de a lo más 2α. Por la definición de un complejo de Vietoris-Rips, todas las aristas
de R(C , α) son las aristas de Del(C ) con una longitud de a lo más 2α. De esto HoPeS(C , α) ⊂
R(C , α).
ä
Ahora bien, la función inclusión i : HoPeS(C , α) → R(C , α) induce un homomorfismo
i ∗ : H1 (HoPeS(C , α)) → H1 (R(C , α)).

9
2. PRELIMINARES

Lema 4: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce un
isomorfismo i ∗ : H1 (G) → H1 (S). Si agregamos un arista crítica e tanto a G como a S que crea
una nueva clase de homología γ ∈ H1 (S ∪ e), entonces i ∗ se puede extender a un isomorfismo
H1 (G ∪ e) → H1 (S ∪ e).
Demostración: Sea L ⊂ G ∪ e el cíclo que contiene a la arista e. Entonces H1 (G sup e) ∼
=
H1 (G) ⊕ 〈[L]〉. Considera L como un ciclo i (L) ⊂ S ∪ e. obtenemos que H1 (S ∪ e) ∼
= H1 (S) ⊕
〈[i (L)]〉. Así extendemos i ∗ a un isomorfismo H1 (G) ⊕ 〈[L]〉 → H1 (S) ⊕ 〈[i (L)]〉.
ä

Lema 5: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce
un isomorfismo i ∗ : H1 (G) → H1 (S). Supongamos que γ ∈ H1 (S) muere después de añadir

16 T
un triángulo T al complejo S. Sea e la arista más larga de T . Entonces i ∗ desciende a un
isomorfismo H1 (G − e) → H1 (S ∪ T ).
20 A
Demostración: Añadiendo el triángulo T a S mata a la clase de homología [∂T ], así
lio IM
que H1 (S ∪ T ) ∼
= H1 (S)/〈[∂T ]〉. Al borrar e de ∂T ⊂ G hace al grupo de homología más pe-
queño, haciendo que H1 (G − e) ∼ = H1 (G)/〈[∂T ]〉. Así pues, i ∗ desciende a un isomorfismo
H1 (G)/〈[∂T ]〉 → H1 (S)/〈[∂T ]〉
Ju -C

Proposición 1: Para una nube de puntos C y cualquier escala α, la inclusión i : HoPeS(C , α) →


D

R(C , α) induce un isomorfismo en los primeros grupos de homología.


AT

Demostración: Tomando α0 lo suficientemente pequeña, R(C , α0 ) coincide con la nube


desconectada C , así que H1 (R(C , α0 )) es trivial. Cada vez que una clase de homología nace
o muere en H1 (R(C , α)), por los lemas 4 y 5, el isomorfismo inducido por la inclusión de
HoPeS(C , α) en R(C , α) se mantiene.
ä

Una vez demostrado que en efecto existe un isomorfismo entre H1 HoPeS(C , α) y H1 R(C , α),
el Teorema 1 nos afirma que este grafo es la mejor opción entre los grafos que cumplen esto
basándose en que es el más pequeño en longitud de aristas. La Proposición 2 se utiliza para
demostrar dicho teorema.

Proposición 2: Sea α > 0. Sea G ⊂ R(C , α) un grafo que recubre a R(C , α) y H1 (G) → H1 (R(C , α))
el isomorfismo inducido por la inclusión. Sean (b i , d i ), i = 1, . . . , m todos los puntos de
dgm(R(C , α)), contando multiplicidades, tales que {nacimiento < α < muerte}. Entonces la
longitud de G está acotada por debajo por la longitud total de MST(C , α) más 2 m
P
i =1 b i .

10
2. PRELIMINARES

Demostración: Sea G 1 ⊂ G el subgrafo que consiste en todos las aristas que no desco-
nectan a G y sea e 1 ⊂ G 1 la arista más larga de algún triángulo. Al quitar e 1 de G, tenemos
que H1 (G) es más pequeño. De esto hay un ciclo L 2 ⊂ G que contiene e 1 y que representa a
una clase γ1 ∈ H1 (R(C , α)). Digamos que dicha clase corresponde al punto (b 1 , d 1 ). De esto
tenemos que |e 1 | ≥ 2b 1 , ya que de lo contrario γ1 nacería antes de α = b 1 . Podemos definir
G 2 ⊂ G − e 1 de manera análoga y proceder de la misma manera. De esta manera obtenemos
e 1 , e 2 , . . . , e m tales que m
P Pm
i =1 |e i | ≥ 2 i =1 b i .
Después de remover e 1 , e 2 , . . . , e m , tenemos que G − (e 1 ∪ e 2 ∪ . . . ∪ e m ) aun recubre a
R(C , α), porque siempre elegimos una arista que no desconectaba a G. De esto la longitud de
MST(C , α) aún es más pequeña que la longitud de G − (e 1 ∪ e 2 ∪ . . . ∪ e m ), por el lema 1.
ä

16 T
Teorema 1: Para cualquier nube de puntos C y cualquier escala α > 0, el grafo HoPeS(C , α)
20 A
tiene la mínima longitud total de aristas sobre todos los grafos G ⊂ C α que recubren a C α e
lio IM
inducen un isomorfismo en los primeros grupos de homología H1 (G) → H1 (C α ).
Demostración: HoPeS(C , α) satisface la condición de homología de la proposición 1.
Sean γ1 , . . . , γm clases correspondientes a todos los m puntos (b i , d i ) en dgm(R(C , α)), con-
Ju -C

tando multiplicidades, en {nacimiento ≤ α < muerte}. Entonces γ1 , . . . , γm forman una base


de H1 (R(C , α)) ∼
= H1 (HoPeS(C , α)). Tenemos que la longitud total de HoPeS(C , α) es igual a la
D

longitud total de aristas de MST(C , α) más 2 m


P
i =1 b i . Por la proposición 2, esta longitud es la
menor posible.
AT

Lema 6: Dada una nube de puntos C , el grafo HoPeS’(C ) es un subgrafo de HoPeS(C , α(C )),
donde α(C ) es la escala crítica definida antes.
Demostración: Por definición todas las aristas de HoPeS(C , α(C )) tienen una longitud de
a lo más 2α(C ) y todas las aristas críticas cumplen que su momento de muerte es mayor a α(C ).
La definición de HoPeS’(C ) agrega la restricción de que todas las arístas críticas en HoPeS’(C )
corresponden a puntos sobre dgap(C ). De esto claramente HoPeS’(C ) ⊂ HoPeS(C , α(C )).
ä

Lema 7: La dimensión de H1 (HoPeS’(C )) equivale a la cantidad de puntos (b, d ) en dgm’(R(C , α)),


contando multiplicidades tales que d > α(C ).
Demostración: La dimensión de H1 (HoPes’(C )) equivale al número de clases de homo-
logía cuyo (nacimiento, muerte) en dgm(R(C , α)) están sobre dgap(C ) y muerte> α(C ). Por la
definición de α(C ), cualquier nacimiento l eqα(C ), así que contamos todos los (nacimiento,

11
2. PRELIMINARES

muerte) ∈ dgm’(R(C , α)) con nacimiento≤ α(C ) <muerte. Todos estos m puntos están en una
correspondencia 1-1 con las aristas críticas de HoPeS’(C ). ä

El Teorema 2 es el resultado más importante de esta sección, puesto que es la expli-


cación del por qué, bajo ciertas condiciones, se puede tomar HoPeS’(C ) como una buena
aproximación de los bordes de la imagen.

Teorema 2: Sea C cualquier ²-muestra de un grafo G ⊂ R2 con un grosor θ(G) ≥ 0 y m ≥ 1


ciclos basicos con radios ordenados ρ 1 ≤ . . . ≤ ρ m . Si

ρ 1 > 7² + θ(G) + máx {ρ i −1 − ρ i },


i =1,...,m−1

16 T
entonces la escala crítica α(C ) < ² y el esqueleto HoPeS’(C ) es una 2²-muestra de G, y tiene el
tipo de homotopía de G.
20 A
Demostración: H1 (G) es generado por los m ciclos básicos L 1 , . . . , L m . Estos m ciclos dan
lio IM
puntos (0, ρ i ) en dgm(G α ). Todos los demás puntos de en diagrama vienen de agujeros más
pequeños de G α nacidos después. La máxima persistencia muerte-vida de estos agujeros
está acotado por arriba por θ(G).
Ju -C

La condición dada ρ 1 > 7² + θ(G) + máxi =1,...,m−1 {ρ i −1 − ρ i } garantiza que la brecha más
ancha {θ(G) < y − x < ρ 1 } en dgm(G α ) es más ancha que cualquier otra brecha, incluyendo
D

las brechas con ancho ρ i +1 − ρ i .


Por el teorema de estabilidad ([3] Teorema 2.7.3) cualquier punto (0, ρ i ) ∈ dgm(G α ),
AT

i ≥ 2, no puede saltar más bajo que la lineal y − x = ρ i − 2², ni más alto que y − x = ρ i + ².
Así que la brecha más ancha entre estos puntos perturbados tiene un ancho de a lo más
máxi =1,...,m−1 {ρ i −1 − ρ i } + 3². Todos los puntos cerca de la diagonal tienen brechas diagonales
no más anchas que θ(G) + 2². De esto en todos los casos la segunda brecha más ancha en
dgm(G α ) tienen un ancho más pequeña que ρ 1 − 4² − θ(G). De esto dgap(C ) subre la franja
{θ(G) + 2² < y − x < ρ 1 − 2²} ⊂ dgap(G) ⊂ dgm(G α ).
De esto el subdiagrama dgm’(R(C , α)) sobre la linea y − x = ρ 1 − 2² contiene sólo pertur-
baciones eh los puntos originales (0, ρ i ) en la brecha vertical {0 ≤ x < ²}. Por su definición, la
escala crítica α(C ) es el máximo nacimiento en dgm’(R(C , α)). Estos puntos están a lo más a
una distancia ² de sus puntos correspondientes (0, ρ i ). De esto la escala crítica α(C ) < ².
Todas las muertes de los puntos en dgm’(R(C , α)) son más grandes que ρ 1 − 2² > ² > α(C ).
De esto HoPeS’(C ) contiene todos las aristas críticas correspondientes a los m puntos en
dgm’(R(C , α)). Así pues, H1 (HoPeS’(C )) tiene la dimensión esperada m.

La desigualdad del Teorema significa que los ciclos del grafo G tienen tamaño comparable,

12
3. OBTENCIÓN DE LA NUBE DE PUNTOS C

es decir el radio más pequeño ρ 1 es más grande por un buen margen a cualquier brecha ρ i +1 −
ρ i . De esto la brecha diagonal {θ(G) < muerte − nacimiento < ρ 1 } en el diagrama dgm(G α )
del grafo G permanecerá suficientemente ancha para ser automáticamente reconocida en el
diagrama perturbado de dgm(R(C , α)) para cualquier ²−muestra C de G.
ä

Una vez demostrado este último teorema, se deben aclarar bajo que suposiciones se
puede afirmar que HoPeS’(C ) es una aproximación apropiada de los bordes. Lo que se está
suponiendo es la existencia de un grafo desconocido G que es el descriptor ideal de los bordes
de la imagen. Se debe suponer que G cumple con las condiciones del Teorema 2. Además se
supone también que la nube de puntos C es una ²-muestra de G. De esto el Teorema 2 afirma

16 T
que HoPeS’(C ) y G tienen el mismto tipo de homotopía, y que HoPeS’(C ) es una 2²-muestra
de G, lo que se puede considerar como afirmar que estos dos grafos están cerca el uno del
otro.
20 A
lio IM
3. O BTENCIÓN DE LA NUBE DE PUNTOS C
Ju -C

3.1. Segmentación de la Imagen


D

En nuestro programa se carga la imagen y ésta se convierte a una imagen en escala de


grises. Para esto en cada pixel se suman los tres valores RGB y al final se divide cada suma
AT

entre la suma máxima que resultó. De esta forma se tiene en todos los pixeles de la imagen
una intensidad de gris entre 0 y 1.
Una vez hecha la imagen de intensidades de grises, primero se buscará segmentar la
imagen en dos regiones. Para esto buscamos un valor T entre 0 y 1 que dependerá de los
valores de todos los pixeles y representará el punto de separación entre las dos regiones

¡ ¢
T = T {g (i , j )} ,

donde g (i , j ) representa el valor en escalas de grises del pixel en la posición (i , j ). Para la


segmentación de la imagen a cada pixel en la posición (i , j ) se le asignará un valor p(i , j ) de
tal forma que:

 0, si f (i , j ) < T,
p(i , j ) =
 1, si f (i , j ). ≥ T

Para determinar el valor de T se utilizará el algoritmo EM, descrito más adelante, pa-

13
3. OBTENCIÓN DE LA NUBE DE PUNTOS C

ra ajustar a el histograma de valores de intensidad de grises de la imagen una mezcla de


distribuciones gaussianas.
Lo primero que hace nuestro programa es calcular dicho histograma y ajustar una función
de densidad por medio de la función “density"de R. Para dicha función de densidad se
encuentran los máximos locales y se ordenan de manera decreciente. Llamaremos L a la
cantidad total de máximos locales encontrados para la función de densidad.
En nuestro programa para estimar una mezcla de k gaussianas que se ajuste bien al
histograma de intensidad se utiliza el algoritmo E M . Como valores iniciales para el algoritmo
tomamos a los primeros k máximos locales como las k medias {µi }, los promedios de las
distancias entre estos máximos locales y los mínimos locales que los rodean como las k
desviaciones estándar {σi } y tomamos como valores iniciales para todos los αi a k1 .

16 T
De esta forma se llamará al algoritmo E M un total de L veces, variando el valor de k
20 A
desde 1 hasta la cantidad total de máximos locales. Después de ajustar estas L mezclas
gaussianas, se eligirá la que mejor se ajuste al histograma. Para esto calculamos para cada
lio IM
mezcla gaussiana su log-verosimilitud, que es

N
Ju -C

l ({αi , µi , σi }) = log f (x j |{αi , µi , σi }),


X
j =1

donde N es la cantidad total de intensidades en la imagen (es decir la cantidad de pixeles en


D

la imagen). De esta forma la mezcla gaussiana con la log-verosimilitud más grande es la que
mejor se aproxima a el histograma y es la mezcla elegida.
AT

Finalmente elegida la mezcla gaussiana que mejor se aproxima a el histograma, el valor


de T es

1 Xm
T= µi ,
m i =1
donde m es la cantidad de gaussianas con las que se formó la mezcla gaussiana elegida.

3.2. Algoritmo EM
El algoritmo EM consiste en dos pasos:

1. El paso M: En este paso se calcula para cada valor x i en los pixeles de la imagen la
probabilidad de provenir de cada una de las k distribuciones gaussianas. En la iteración
s esto se calcula con la fórmula

14
4. PROCEDIMIENTO

α(s)
j
G j (x i |µ(s)
j
, σ(s)
j
)
(s)
ω j (x i ) =P (s) (s) (s)
.
k
r =1 αr G r (x i |µr , σ j )

2. El paso E: En este paso se estiman mejores parámetros {α j , µ j , σ j } utilizando los valores


calculados en el paso anterior y con el método de estimador de máxima verosimilitud.
De esta forma los nuevos parámetros se calculan por

1 X N
α(s+1)
j
= ω j (x i )(s) ,
N i =1

16 T
1
µ(s+1) ω j (x i )(s) x i ,
X
j
=
N α(s+1)
j i =1
20 A 1 N
lio IM
[σ(s+1) ]2 = ω j (x i )(s) (x i − µ(s+1)
X
j j
).
N α(s+1)
j i =1
Ju -C

3.3. Encontrar puntos cercanos a los bordes


Teniendo ya la imagen segmentada en dos regiones, debemos encontrar una nube de
D

puntos cercanos a las fronteras de los objetos, es decir puntos que esten cerca de la frontera
entre las dos regiones. Por motivos de complejidad computacional para el resto del proyecto,
AT

buscamos que la cantidad de puntos en nuestra nube sean a lo más un 6 % de la cantidad


total de pixeles en la imagen.
Para cada pixel x encontramos el promedio de intensidades en el recuadro de 5 × 5 que
rodea a dicho pixel en la imagen segmentada, sea Avg(x) dicho promedio. Determinamos
que x pertenece a nuestra nube de puntos si y sólo si p(x) < a · Avg(x), donde p(x) es el valor
de intensidad en el pixel x y a ≥ 1 es un factor que elegimos de tal manera que la cantidad de
puntos elegidos para nuestra nube de puntos no supere el 6 % de la cantidad total de pixeles.
Esta nube de puntos la guardamos en una nueva matriz.

4. P ROCEDIMIENTO

4.1. Creación del grafo HoPeS’(C )


Una vez obtenida la nube de puntos C, lo primero que hacemos es construir la trián-
gulación de Delaunay Del(C), que coincidirá con el complejo de Vietoris-Rips R(C , ∞). En

15
4. PROCEDIMIENTO

nuestro algoritmo recorreremos las filtración

C = R(C , 0) ⊂ R(C , ²1 ) ⊂ R(C , ²2 ) ⊂ . . . ⊂ R(C , ∞) = Del(C ),

empezando con ² = ∞ y disminuyendo ² de manera continua. Hay que determinar en qué


momento aparecieron los simplejos en Del(C) en nuestra filtración.
Tenemos que en la filtración el momento en que el simplejo aparece depende de la forma
del simplejo. Se presentan las siguientes reglas, ya descritas anteriormente:

Si el simplejo es un triángulo acutángulo, el momento en el que aparece es igual a la


longitud del radio del circuncírculo. Es decir en la filtración un 2-simplejo acutángulo
aparece cuando ² = r , donde r es el radio del circuncírculo.

16 T
20 A
lio IM
Ju -CD
AT

Si el simplejo es un triángulo no acutángulo, el momento en el que aparece es igual


a la mitad de la longitud del lado más largo. Es decir en la filtración un 2-simplejo no
acutángulo aparece cuando ² = 2l , donde l es la mitad de la longitud del lado más largo
del triángulo.

16
4. PROCEDIMIENTO

Si el simplejo es un segmente, el momento en el que aparece es igual a la mitad de su


longitud. Es decir en la filtración un 1-simplejo aparece cuando ² = 2l , donde l es la
mitad de la longitud.

Ahora bien, en nuestro algoritmo quitamos estos simplejos de la triángulación de De-

16 T
launay precisamente en los momentos antes descritos, puesto que vamos retrocediendo
en la filtración. Nótese que cuando quitamos un triángulo, aparece una nueva región en
20 A
R2 − R(C , ²) y cuando quitamos una arista se unen dos regiones. Durante nuestro algoritmo
lio IM
mantenemos una estructura de bosque de búsqueda con nodos abstractos que están en una
correspondencia 1-1 con las regiones de cada triángulo y la región exterior a la triángulación.
Inicialmente en esta estructura hay un único nodo que corresponde a la región externa.
Ju -C

Cuando se quita un triángulo aparece un nuevo árbol con un único nodo y cuando se quita
una arista se unen dos árboles. Es necesario aclarar que cuando varios simplejos se quitan en
D

el mismo momento, primero quitaremos todos los 2-simplejos y luego todos los 1-simplejos.
A continuación se muestra una imagen donde se aprecia la manera en la que avanza el
AT

algoritmo en cada momento en el que se debe quitar un simplejo.

p
p 10
R(C , ∞) R(C , 5) R(C , 2
)

17
4. PROCEDIMIENTO

p p
5
R(C , 1,5) R(C , 2) R(C , 2
)

16 T
20 A
lio IM
p
R(C , 1) R(C , 22 )
Nótese que en las filtraciones generalmente cuando aparece una arista que forma un
ciclo se toma ese momento como el nacimiento del agujero que rodea este ciclo y cuando
Ju -C

aparece un 2-simplejo que cierra este agujero, este momento se toma como la muerte de
éste.
D

De esa forma en nuestro algoritmo cuando se quita un triángulo en el tiempo ²t , guar-


damos el momento como la muerte de una región. Cuando se unen dos regiones al quitar
AT

una arista, se conserva como momento de muerte de esa región fusionada el momento más
grande ²t 1 de muerte entre las dos regiones. Además se compara el momento de muerte de la
otra región ²t 2 con el momento ²e en que quitamos esta arista, ya que el momento en que
quitamos esta arista coincide con el nacimiento de esta región. De esta forma definimos dos
tipos de aristas especiales:

Arista crítica: Una arista que al momento de quitarse, este ²e es estrictamente menor
que el momento de muerte de la región más jóven ²t 2 . Por ejemplo en nuestra figura e
es una arista crítica. Esta arista estará asociada con el punto (²e , ²t 2 ) en el diagrama de
persistencia.

Arista externa: Una arista que al momento de quitarse, las dos regiones que "fusiona.eran
ya en ese momento la misma región. Por ejemplo en nuestra figura la arista f es una
arista externa. Nótese que al quitar una de estas aristas, nuestro grafo se vuelve un
grafo no conexo. Puesto que nos interesa que el grafo final sea un grafo conexo (ya que
va a ser el MST(C )), estas aristas se guardan para ser agregadas al final en el grafo.

18
5. RESULTADOS

El algoritmo acaba cuando todas las regiones son una sola, es decir cuando ya no hay
ningún cíclo en el grafo. Después de agregar las aristas externas, para asegurarnos que el
grafo coincida con el MST(C ), debemos decidir que aristas críticas agregamos para conseguir
HoPeS’(C ).
Para esto nos fijamos en el diagrama de persistencia formado durante el algoritmo, puesto
que guardamos todos los puntos asociados a aristas críticas.

16 T
20 A
lio IM
En este diagrama buscamos la franja más ancha entre dos puntos tal que no contenga
puntos del diagrama en el interior, es decir dgap(C ). Para formar HoPeS’(C ), tomamos en
Ju -C

cuenta sólo las aristas críticas que corresponden a puntos sobre dgap(C ) y muerte > α(C ) . En
el diagrama mostrado arriba se pueden ver que sólo tres cíclos son considerados importantes.
D

Se agrega al grafo las aristas críticas asociadas a estos puntos, que son por lo tanto las aristas
que cierran estos ciclos.
AT

4.2. Suavización del grafo


Por último se suaviza el grafo resultante de la siguiente manera: se toma la escala crítica
α(C ). Por el teorema 2, esta escala es una cota inferior del ruido ² implícito entre C y G. De
esto 2α(C ) es el estimador más pequeño de la distancia entre ² perturbaciones del mismo
punto. Usando esta distancia, se quitan todos los caminos hacia un vértice de grado 1 que
tengan una longitud menor o igual a 2α. Además simplificamos los caminos entre vértices de
grado distinto a 2 con segmentos de recta que tengan al menos ese tamaño.

5. R ESULTADOS
A continuación se muestran algunos resultados obtenidos con nuestro algoritmo. Para
cada imagen se muestra: La imagen original, el resultado de la segmentación, la nube de

19
5. RESULTADOS

puntos en los bordes y el grafo final. Además se mostrarán las aproximaciones realizadas
sobre el histograma de cada imagen y el diagrama de persistencia utilizado.
Imagen 1:

16 T
20 A
lio IM
Ju -CD
AT

La primera imagen que se muestra tiene bordes muy distinguibles a simple vista, puesto
que el color del fondo es muy distinto al color de los objetos en la imagen (el halcón y la rama
del árbol). Considerando esto se obtiene un resultado final esperado, que tiene una gran
semejanza, visualmente, con lo que se mostraba en la imagen originalmente.
Según el diagrama de persistencia generado por el algoritmo hay dos objetos en la imagen,
ya que sólo hay dos puntos por encima del dgap(C ) correspondientes cada uno a un 1-cíclo
en el grafo. Viendo el resultado se vuelve claro que uno de esos objetos es el halcón, aunque
el resultado mezcló dicho halcón con parte de la rama. Esto es entendible si se observa que el
tono de gris de la rama no cambiar tanto del gris del halcón. El otro .objeto"que existe en la
imagen corresponde al agujero que forma la rama a la derecha. Aunque este no es un objeto

20
5. RESULTADOS

en sí, como está totalmente rodeado por una rama, no sorprende tampoco que este lo tomara
como un objeto en la imagen.
Imagen 2:

16 T
20 A
lio IM
Ju -CD
AT

Al ver esta segunda imagen, en el resultado es claro que parte del grafo generado no
está realmente sobre las orillas de los objetos, sino en el interior, en especial el interior del
sombrero y la pluma. Esto refleja el problema que se comentó en la introducción sobre que

21
5. RESULTADOS

un cambio drástico de luz no necesariamente implica el final de un objeto y el comienzo de


otro. Puede deberse también a cambio de textura, como implica la textura de la pluma en el
sombrero.
El resultado del algoritmo se sigue apreciando, ya que en el resultado final se distinguen
el rostro, la pluma, el cabella, el sombrero, etc. Según el diagrama de persistencia solamente
hay tres objetos importantes en la imagen. Observando el grafo generado podríamos ver que
uno de esos objetos es el cabello y otro de ellos es parte del sombrero, sin considerar la pluma.
Sin embargo el tercer objeto no se determina tan fácilmente, y lástimosamente no señala el
rostro como objeto, lo cual hubiera sido deseable.
Imagen 3:

16 T
20 A
lio IM
Ju -CD
AT

En esta imagen se vuelve a observar el problema que vimos en la segunda imagen. La


textura en el cabello de la mujer provoca que se señalen bordes que realmente no pertenecen
a las orillas de los objetos en la imagen.
El diagrama de persistencia nos dice que hay únicamente dos objetos en la imagen

22
5. RESULTADOS

importantes. Uno de ellos, según se aprecia es el rostro de la mujer. El otro se puede ver que
es la parte del cuello que está más iluminada. Este no es un resultado tan bueno, puesto que
no señala ni el libro ni el cabello de la mujer.
Viendo la segmentación que se obtuvo por nuestro algoritmo, se podría concluir que
la razón por la que parte del cuello fue señalada como un objeto en la imagen es porque
al segmentar quedó un gran espacio en blanco en esa área. Al ser espacios tan grandes los
dos señalados, puede que el libro, siendo un objeto más pequeño, ya no haya sido tomado
en cuenta por el dgap(C ). Esto en especial porque el ancho de dicha franja en esta imágen
es más ancha que las dos anteriores, sugiriendo gran diferencia de tamaño entre los cíclos
tomados en cuenta y los que no se tomaron en cuenta.
Imagen 4:

16 T
20 A
lio IM
Ju -CD
AT

En esta última imagen se tomó una cantidad menor de puntos para la nube C . De esta
forma podemos ver como se comporta el algoritmo con menos información de parte de la

23
6. CONCLUSIONES

nube de puntos. La aproximación que se obtuvo ya no se asemeja de manera tan precisa a la


forma de la imagen original como las imágenes mostradas anteriormente. Sin embargo aún
se logra distinguir la forma de un ave en el grafo generado.
El diagrama de persistencia indica que en la imágen hay dos objetos. Uno de ellos es
el ave sobre la rama. Sin embargo, el otro es un claro error, puesto que donde muestra un
1-cíclo no hay ningún objeto y se ve sobre todo fondo. Este error se explica si se considera
que la imágen original tiene una pequeña hoja al fondo, a la derecha del ave. Al hacer la nube
de puntos, algunos puntos sobre esa hoja se incluyeron, provocando el cíclo errado.

6. C ONCLUSIONES

16 T
A pesar de que los resultados obtenidos muestran grafos que sí se asemejan a lo que
20 A
se mostraba en la imagen original, la utilización de homología persistente por sí sola
no logró arreglar el problema de diferenciar bordes que provienen de las orillas de los
lio IM
objetos y bordes que aparecen por otras razones (texturas, diferentes profundidades,
etc.). Se podría intentar diferentes métodos para la obtención de la nube de punto, para
Ju -C

probar si alguno da mejores resultados.

Para imágenes que muestren objetos cuyo tono sea contrastante con el tono del fondo,
D

el diagrama de persistencia nos da una manera clara de cuantificar la cantidad de


objetos en la imágen. Sin embargo, por lo poco frecuente que son estas imágenes, no se
AT

puede confiar mucho en el diagrama de persistencia para obtener dicha información.

7. C OSAS POR HACER


Un defecto que le podríamos encontrar a este proyecto es el hecho de que la utilización
de la brecha dgap(C ) nos obliga a trabajar bajo suposiciones fuertes que podrían no ser
necesariamente ciercas para alguna imagen. Por ejemplo, podría darse que un grafo
cercano a la frontera de los objetos de cierta imagen no tenga un grosor mayor a 0.
Una mejora que se podría realizar en el proyecto, en vista de esto, es utilizar la idea de
la existencia de el grafo G que buscamos y construir subconjutnos de confianza para
los diagramas de persistencia de C para diferencias ruido de señales topológicas ([3]
sección 5.6.2).

En el presente proyecto la conclusión de si los resultados fueron satisfactorios o no


se realizó de manera visual, lo que puede no ser objetivo. Otra mejora posible para el

24
7. COSAS POR HACER

proyecto podría ser el implementar alguna manera de cuantificar el nivel de confianza


en los resultados, por ejemplo usar un grupo de prueba en el cual ya se tengan grafos
que se consideren buenas aproximaciones.

16 T
20 A
lio IM
Ju -CD
AT

25
8. REFERENCIAS

8. R EFERENCIAS
1. Huang, Zhi-Kai; Chau, Kwok-Wing

A new image thresholding method based on Gaussian mixture model.

Applied Mathematics and Computation 205, p. 899-907, 2008

2. Kurlin, Vitaly.

A Homologically Persistent Skeleton is a fast and robust descriptor for a sparse cloud of
interest points and saliency features in noisy 2D images.

Lecture Notes in Computer Science, v. 9256, p. 606-617 2015

16 T
3. Reveles, Fermín; Pérez- Abreu, Víctor; Nakamura, Miguel; Biscay, Rolando

20 A
Persistencia, Probabilidad e Inferencia Estadística para Análisis Topológico de Datos.
lio IM
Ju -CD
AT

26
AT
Ju -CD
lio IM
20 A
16 T
Método para simular puntos uniformemente distribuidos
sobre una superficie en Rn

Proyecto final de la clase:


Probabilidad e Inferencia Estadı́stica para Análisis Topológico de Datos

Centro de Investigación en Matemáticas, A.C.

16 T
20 A
lio IM
Ju -CD
AT

Alumnos:
Gilberto Flores
Yair Hernández

Licenciatura en Matemáticas
Universidad de Guanajuato

Profesores:
Fermı́n Reveles (Topologı́a)
Vı́ctor Pérez-Abreu (Probabilidad)
Miguel Nakamura (Inferencia Estadı́stica)
Rolando Biscay (Campos Aleatorios)

1
Índice
1. Introducción 3

2. Descripción del método 3

3. Método de aceptación-rechazo 4

4. Algunas observaciones 6

5. Simulaciones 7

6. Estimación de homologı́a persistente 10

7. Conclusiones 13

16 T
20 A
lio IM
Ju -CD
AT

2
1. Introducción
En este proyecto se presenta un algoritmo para simular puntos uniformemente distribuidos
sobre una superficie parametrizada m-dimensional contenida en Rn (m < n). Este trabajo se basa
en gran parte en el artı́culo de Diaconis, et al [2], el cual presenta el ejemplo del toro. Aquı́ se
explica con más detalle el método de aceptación-rechazo para este contexto y se presentan como
ejemplos la banda de Möbius y la botella de Klein, para la cual se utiliza una parametrización que
aparece en el artı́culo de Franzoni [4]. También se presentan estimaciones de los números de Betti
con simulaciones en el toro y la botella de Klein, utilizando la filtración dada por el estimador de
densidad tipo kernel.
El desarrollo del algoritmo consiste de 2 partes. En la primera parte se encuentra una función
de densidad correspondiente a una distribución uniforme sobre la superficie dada. En la segunda
parte se utiliza el método de aceptación-rechazo para simular los puntos a partir de la densidad
obtenida en la primera parte.

16 T
2. Descripción del método

20 A
Una idea que surge cuando se tiene una variedad parametrizada y se desean simular datos
lio IM
uniformemente distribuidos es simular parámetros uniformemente distribuidos (en el dominio) y
mapear estos Q puntos. En eln contexto de superficies parametrizadas se tiene generalmente una
función de m i=1 [ai , bi ] en R , de modo que elegir un punto de manera uniforme en el dominio
equivale a tomar un punto xi con distribución uniforme en el intervalo [ai , bi ], para i = 1, . . . , m
Ju -C

(xi , xj independientes para i 6= j) y ver qué punto corresponde a (x1 , . . . , xm ) en la superficie dada,
mediante la parametrización que se tenga. Por ejemplo, para el toro, con la parametrización que
se da en la sección 4 de este trabajo, el dominio es [0, 2π] × [0, 2π]. Luego elegir un punto con
D

distribución uniforme en el dominio equivale a elegir dos puntos (independientes) con distribución
uniforme en [0, 2π] y utilizar dicha parametrización para ver qué punto le corresponde sobre la
AT

superficie del toro. Posteriormente veremos ejemplos donde esta técnica proporciona resultados
distintos a lo deseado (que regiones con la misma área tengan unaQconcentración similar de puntos).
Es importante notar que si el dominio no es de la forma m i=1 [ai , bi ], distribución uniforme
en el dominio no necesariamente es equivalente a una distribución uniforme en cada uno de los
parámetros; por ejemplo, si el dominio es un cı́rculo (en R2 ), distribuir uniformemente en cada
coordenada dará puntos que pueden estar incluso fuera del dominio.
El método que se presenta es el expuesto en Diaconis et al. [2] y éste se basa en la fórmula
del área y en la medida de Hausdorff, ambas presentadas en las notas del curso (Teorema 3.6.8
y Definición 3.6.5). En la presentación correspondiente a este proyecto se incluyeron éstos re-
sultados y otro material de las secciones [1.6: Variedades] y [3.6: Probabilidades en variedades II:
medida geométrica], al cual aquı́ sólo se hace referencia. Por una parte la medida de Hausdorff nos
permite hablar del volumen de cualquier conjunto y, por otra parte, la fórmula del área
Z Z
m
g(f (x))Jm f (x)λ (dx) = g(y)N (f |A , y)Hn (dy)
A Rn

nos dice cómo obtener una muestra de cierta distribución con respecto a la medida de Hausdorff
desde una distribución en los parámetros. En nuestro caso f es la parametrización de la superficie
M que nos interesa y A es el dominio de f . Ahora bien, en la fórmula del área la integral es sobre
todo Rn , que en nuestro caso es R3 , pero N (f |A , y) = 0 para los y 6∈ f (A) y por lo tanto esta

3
integral es sobre M . Luego el problema se reduce a obtener puntos distribuidos según la densidad
dada por J2 f / vol(M ).
Dado que la función de densidad que resulta en los parámetros puede adquirir una forma muy
general se emplea el método de aceptación-rechazo para simularla.

3. Método de aceptación-rechazo
El método de aceptación-rechazo, mencionado en la introducción del Capı́tulo 4 de las notas
del curso, tiene como objetivo simular variables aleatorias con una densidad dada a partir de
simulaciones con otra densidad. En la presente sección presentamos algunos de los resultados más
relevantes respecto a este método. Se sugiere al lector revisar además el capı́tulo [3: Probabilidad]
de las notas del curso.
Sean f, g : Rm → R densidades tales que existe c > 0 tal que cg(x) ≥ f (x) para todo x ∈ Rm
(integrando ambos lados sobre todo Rm se tiene que si existe tal c se debe tener c ≥ 1). Supongamos

16 T
que se puede simular una variable aleatoria X con densidad g. Consideremos el siguiente algoritmo:

Se genera X con densidad g.

20 A
Se genera U independiente uniforme en [0, 1].
lio IM
Se hace T = c fg(X)
(X)
.

Se repiten los pasos anteriores hasta que U T ≤ 1. Cuando se cumpla la condición anterior
Ju -C

se hace Y = X.

Entonces Y tiene densidad f . Para verificarlo se utilizarán dos teoremas que se enuncian y
D

demuestran en Devroye [1].

Teorema 1. Sean X un vector aleatorio con densidad f en Rm , U independiente con distribución


AT

uniforme en [0, 1], y c > 0. Entonces (X, cU f (X)) se distribuye uniformemente en A = {(x, u) :
x ∈ Rm , 0 ≤ u ≤ cf (x)}. Si (X, V ) ∈ Rm+1 se distribuye uniformemente en A, entonces X tiene
densidad f en Rm .

Demostración. Sea B ⊆ A boreliano y Bx = {u : (x, u) ∈ B}. Aplicando el teorema de Tonelli


(Teorema 3.4.12 de las notas del curso) se tiene
Z Z Z
1 1
P ((X, cU f (X)) ∈ B) = du f (x)dx = du dx.
Rm Bx cf (x) c B

Pero c es igual al volumen de A, ası́ que X se distribuye uniformemente en A.


m
R Veamos ahora la segunda parte. Mostraremos que para todo B ⊂ R boreliano, P (X ∈ B) =
B
f (x)dx. En efecto,

P (X ∈ B) = P ((X, V ) ∈ B1 = {(x, v) : x ∈ B, 0 ≤ v ≤ cf (x)})


RR
dv dx
Z Z
B1 1
= RR = cf (x)dx = f (x)dx.
A
dv dx c B B

4
Teorema 2. Sean X1 , X2 , . . . una sucesión de v.a.i.i.d. con valores en Rm y A ∈ B(Rm ) tal que
P (X1 ∈ A) = p > 0. Sea Y la primera Xi que toma un valor en A. Entonces Y tiene una
distribución dada por
P (X1 ∈ A ∩ B)
P (Y ∈ B) = , B ∈ B(Rm ).
p
En particular, si X1 tiene distribución uniforme en A0 (A0 ⊇ A), entonces Y se distribuye unifor-
memente en A.
Demostración. Para B ⊂ Rm boreliano se tiene

X
P (Y ∈ B) = P (X1 ∈/ A, . . . , Xi−1 ∈
/ A, Xi ∈ B ∩ A)
i=1
X∞
= (1 − p)i−1 P (X1 ∈ A ∩ B)
i=1

16 T
1 1
= P (X1 ∈ A ∩ B) = P (X1 ∈ A ∩ B).
1 − (1 − p) p

20 A
Si X1 se distribuye uniformemente en A0 ,
lio IM
R R R
P (X1 ∈ A ∩ B) dx dx dx
P (Y ∈ B) = = AR0 AB · R A0 = RAB ,
P (X1 ∈ A) A0
dx AA0
dx A
dx
que corresponde a la distribución uniforme en A.
Ju -C

Veamos entonces que Y dada por el método de aceptación rechazo tiene densidad f . Por la
primera parte del teorema 1, los (X, cU g(X)) ∈ Rm+1 generados se distribuyen uniformemente en
D

la región bajo cg. Luego por el teorema 2, (Y, cU g(Y )) se distribuye uniformemente en la región
bajo f , y por la segunda parte del teorema 1, Y tiene densidad f .
AT

En la práctica lo que se desea es minimizar el número de “rechazos”. Observamos que


Z  
f (x)
P (f (X) ≥ cU g(X)) = P U≤ dx
Rm cg(x)
Z Z
f (x) 1 1
= dx = f (x)dx = .
Rm cg(x) c Rm c
Entonces si N es el número de iteraciones para obtener Y , tenemos
P (N = i) = (1 − p)i−1 p,
ası́ que el número esperado de iteraciones es 1/p = c. Luego valores de c cercanos a 1 darán
algoritmos más eficientes. Sin embargo no siempre es fácil tener valores de c cercanos a 1, pues eso
requiere que la densidad de g sea similiar a f , que puede tener una forma general.
Las densidades obtenidas en el contexto dado tienen formas muy variadas, ası́ que daremos una
forma general de aplicar el método de aceptación rechazo para simular en base a dichas densidades.
Supongamos que se tienen p, q > 0 fijas (pero desconocidas) tales que se pueden calcular los
valores de pg, qf , y tales que pg(x) ≥ qf (x) para todo x ∈ Rm . Integrando sobre Rm ambos lados
se tiene p ≥ q, de modo que c := p/q ≥ 1. Entonces
g(X) pg(X)
c = ,
f (X) qf (X)

5
ası́ que conocer los valores pg, qf bastan para aplicar el método de aceptación-rechazo. Por ejemplo,
supongamos que se conoce f salvo por una constante de normalización; esto es, se conoce qf .
También supongamos que conocemos una constante k que acota qf en su soporte. Entonces la
función constante k es un múltiplo pg de la densidad uniforme g en el soporte de f . Esta densidad
uniforme es fácil de simular porque usualmente se tendrá que elQsoporte de f será el dominio de
una parametrización de una variedad; esto es, será de la forma m i=1 [ai , bi ]. Conociendo qf y una
constante k tal que k ≥ qf (x) para todo x ∈ Rm la implementación del método aceptación-rechazo
quedarı́a como sigue:

Simulamos X con distribución g; es decir, con distribución uniforme en el soporte de f .

Simulamos U con distribución uniforme en [0, 1].

Hacemos T = c fg(X)
(X)
= pg(X)
qf (X)
= k
qf (X)
.

Se repite hasta que U T ≤ 1, y se hace entonces Y = X.

16 T
4. Algunas observaciones

20 A
lio IM
En el proyecto se trabajó con superficies y en este caso la siguiente observación es de especial
interés por las implicaciones que tiene.
Si M ⊂ R3 es una superficie
 y f :M 0 ⊂ R2 → R3 una parametrización de ésta; denotemos a
∂f1 ∂f2 ∂f3
por ∂f y a ∂f 1 ∂f2 ∂f3
por ∂f

, , , , .
Ju -C

∂x ∂x ∂x ∂x ∂y ∂y ∂y ∂y
Ahora bien, en los puntos p ∈ M donde Df |u=f −1 (p) es de rango máximo se tiene que
 
∂f ∂f
D

|f −1 (p) , |f −1 (p)
∂x ∂y
AT

es una base de Tp (M ), que ha sido definido en la sección 1.6.3 de las notas, y por lo tanto
podemos preguntarnos por la matriz, con respecto a esta base, asociada al producto punto en
Tp (Mp) inducido por el producto punto de R3 . Si denotamos a dicha matriz por Ip , se puede ver
que det(Ip ) = J2 f |u=f −1 (p) . p
De ésto, la densidad que obtenemos en los parámetros es la función dada por det(Ip )/ vol(M ).
Ası́, obtenemos que si esta densidad pes la densidad de la distribución uniforme en los parámetros,
0
la parametrización debe satisfacer det(Ip ) = vol(M )/ vol(M ).
Lo anterior nos indica que no en todas las superficies puede encontrarse una parametrización
para la cual una muestra de la distribución uniforme en los parámetros tenga como imagen una
muestra con la distribución uniforme con respecto a la medida geométrica. Más aún, lo anterior nos
indica la manera en que la geometrı́a intrinseca de la superficie está influyendo en la distribución
de los parámetros.
En el proyecto se simularon puntos en la botella de Klein, en el toro y en la banda de Möbius.
Para el caso de la botella de Klein se empleó la parametrización de Dickson, presentada en Franzoni
[4].
Especı́ficamente las parametrizaciones empleadas para cada objeto son las siguientes:

6
1. Toro:

x = (R + r cos(θ)) cos(φ),
y = (R + r cos(θ)) sin(φ),
z = r sin(θ),

donde (θ, φ) ∈ [0, 2π] × [0, 2π] y 0 < r < R.

2. Botella de Klein:
(
6 cos(u)(1 + sin(u)) + 4(1 − 12 cos(u)) cos(u) cos(v) si 0 ≤ u ≤ π,
x=
6 cos(u)(1 + sin(u)) + 4(1 − 12 cos(u)) cos(v + π) si π < u ≤ 2π,
(
16 sin(u) + 4(1 − 21 cos(u)) sin(u) cos(v) si 0 ≤ u ≤ π,
y=
16 sin(u) si π < u ≤ 2π,

16 T
1
z = 4(1 − cos(u)) sin(v),
2

20 A
con (u, v) ∈ [0, 2π] × [0, 2π].
lio IM
3. Banda de Möbius
v
x = (R + u cos( )) cos(v),
2
Ju -C

v
y = (R + u cos( )) sin(v),
2
v
z = u sin( ),
D

2
donde (u, v) ∈ [−w, w] × [0, 2π] con w > 0.
AT

5. Simulaciones
Existen implementaciones más simples para casos particulares (por ejemplo, J2 tiene una forma
sencilla para el toro), pero para una superficie parametrizada (x(u, v), y(u, v), z(u, v)) se tiene el
siguiente procedimiento:

1. Programar funciones coordenadas x(u, v), y(u, v), z(u, v).

2. Programar (explı́citamente) derivadas parciales de x, y, z respecto de u, v.

3. Calcular J2 de dicha parametrización.

4. Programar aceptación-rechazo utilizando J2 y una constante que lo acote.

5. Obtener muestra de tamaño deseado y evaluar los puntos en las funciones del paso 1.

Como ha sido mencionado anteriormente, la forma de la función de densidad obtenida en


los parámetros puede ser muy general. Para ilustrar lo siguiente se presentan las gráficas de las
funciones de densidad de los parámetros obtenidas para el caso de la botella de Klein y para el
caso de la banda de Möbius (en ese orden, sin dividir entre las constantes de normalización):

7
Es claro que dichas densidades son distintas a la densidad que se tendrı́a simulando puntos
con distribución uniforme en el dominio (como se describe al inicio de la sección 2), pues en ese
caso las densidades son una función constante en el dominio. Un proyecto futuro puede consistir
en estudiar teoricamente las densidades presentadas anteriormente.
A continuación presentamos ilustraciones para 500 puntos generados por el método mencionado,

16 T
comparando con 500 puntos obtenidos con distribución uniforme en el dominio.

20 A
Toro, con medida de Hausdorff:
lio IM
Ju -CD
AT

Toro, uniforme en el dominio:

8
Botella de Klein, con medida de Hausdorff

Botella de Klein, uniforme en el dominio:

16 T
20 A
lio IM
Ju -CD

Banda de Möbius, con medida de Hausdorff:


AT

9
Banda de Möbius, uniforme en el dominio:

6. Estimación de homologı́a persistente

16 T
Para el cálculo de los diagramas de persistencia se ha empleado como filtración la dada por

20 A
un estimador de densidad tipo kernel, que fueron presentados en la sección 5.4.5 de las notas del
curso. Conviene tomar ésta sobre otras, por que se espera que con este tipo de filtración se noten
lio IM
las diferencias entre las nubes de puntos generados con una y otra distribución.
Las especificaciones técnicas de la computadora donde se realizaron son:
Ju -C

Procesador: 1.60GHz 4 nucleos,

Memoria RAM: 6.00 GB,


D

Sistema operativo: Ubuntu 14.04 64 bits.


AT

Los diagramas presentados a continuación se obtuvieron con el software R, empleando las


funciones bootstrapBand y gridDiag de la librerı́a TDA. En los cuatro diagramas de persistencia se
ha utilizado una banda de confianza del 95 %.
Los diagramas que tienen como tı́tulo “Medida H.” corresponden a la distribución uniforme
con respecto a la medida de Hausdorff; los que tienen como tı́tulo “Uniforme” corresponden a
la distribución uniforme en el dominio, n corresponde al número de puntos que se utilizan, h
corresponde al ancho de banda del estimador de densidad y by a la distancia de la malla empleada
para evaluar la función de densidad estimada.
Sobre la implementación conviene mencionar algunas observaciones. Para este tipo de filtración
conviene tomar un número grande de puntos, pues proporcionará un mejor estimador de densidad,
y en contraste con otras filtraciones (como la de Rips), el tiempo que toma calcular el diagrama de
persistencia no se ve muy afectado por el número de puntos. Teniendo entonces un número grande
de puntos (7500 en esta implementación), el desempeño queda determinado por los parámetros
by y h. Para el parámetro by conviene tomar valores pequeños, pues con una malla con puntos
distanciados omitirá caracterı́sticas de interés; pero no debe ser tan pequeño, pues el tiempo
que toma calcular la banda de confianza incrementa muy rápido. El valor de h no afecta mucho
el tiempo de la implementación, pero también es (evidentemente) de gran importancia: valores
muy pequeños causarán variaciones abruptas en el estimador de densidad alrededor de los datos
(lo cual se verá reflejado con mucho “ruido” topológico) y con valores muy grandes se perderán

10
mı́nimos/máximos del estimador de densidad (lo cual se verá reflejado con omisión de componentes
de interés en el diagrama de persistencia).
Sabemos que los números de betti, tomando los coeficientes en Z2 , de la botella de Klein y del
Toro son; β0 = 1, β1 = 2 y β2 = 1. Como veremos a continuación, para el caso de los diagramas de
persistencia calculados con la distribución uniforme respecto a la medida de Hausdorff, los puntos
que quedan fuera de la banda (los que pueden ser interpretados como señal topológica y no como
ruido) son aquellos que se esperan (los número de puntos negros, rojos, azules corresponden a β0 ,
β1 y β2 respectivamente).
Los primeros dos diagramas corresponden a los obtenidos tomando puntos en el toro con la
distribución especificada en cada imagen. La primera observación que surge al compararlos es que,
como se mencionó anteriormente, en el diagrama que corresponde a los puntos con distribución
uniforme respecto a la medida de Hausdorff se obtienen los puntos esperados.

16 T
20 A
lio IM
Ju -CD
AT

11
16 T
20 A
lio IM
Los dos diagramas siguientes corresponden a los obtenidos tomando puntos en la botella de
Klein con la distribución especificada en cada imagen.
Ju -CD
AT

12
16 T
20 A
lio IM
Notemos que en ambos casos, tanto para la botella de Klein como para el Toro, la distribución y
el tipo de filtración ha marcado una gran diferencia entre los diagramas de persistencia obtenidos.
Por ejemplo, en el caso del último diagrama, basándonos en los puntos fuera de la banda tendrı́amos
Ju -C

que la estimación de los números de betti son 1, 0 y 1, que no corresponden a la botella de Klein
sino a una esfera.
D

7. Conclusiones
AT

La medida de Hausdorff permite relacionar las propiedades intrı́nsecas de la variedad donde los
datos se encuentran, lo cual es esencial cuando se está simulando sobre variedades: si se desea, se
puede evitar concentrar datos en ciertas regiones. Esto proporciona un camino para retroalimentar
las técnicas vistas hasta ahora en el análisis topológico de datos, y aquellas que se desarrollen
posteriormente.
Desde el punto de vista computacional, se resalta poder omitir el tener que normalizar Jm f
(lo cual requiere integrar numéricamente). Sin embargo, si se trabaja en altas dimensiones, una
dificultad ineludible es el cálculo de un determinante al evaluar Jm f en varios puntos, pues en altas
dimensiones esto es costoso.
Visualmente es evidente que distribuciones distintas proporcionan gráficas distintas, ası́ que un
problema que se desprende es: dada una nube de puntos distribuida sobre una superficie dada,
inferir caracterı́sticas de la distribución de la cual provienen. En caso de que se tengan datos
provenientes de dos o más distribuciones, se podrı́a emplear MAPPER (proyecto elaborado por
Pérez Angulo) para ilustrar con mayor claridad las diferencias entre ellas.
Otro tema que de aquı́ se puede desprender es utilizar las técnicas presentadas en otros proyectos
para comparar los códigos de barras y diagramas de persistencia generados.
En el artı́culo de Franzoni [4] se encuentran parametrizaciones que dan formas distintas a la
“clásica”(que es la que se utiliza en este proyecto), sobre las cuales también se pueden simular
puntos utilizando los procedimientos aquı́ descritos. Un posible tema a tratar a futuro es comparar

13
las estimaciones de homologı́a persistente como se hizo aquı́ con el toro y una parametrización de
la botella de Klein.

Referencias
[1] Devroye, Luc. Non-uniform Random Variate Generation. New York: Springer-Verlag, 1986.

[2] Diaconis, Persi, Susan Holmes y Mehrdad Shahshahani. “Sampling from a Manifold.”Advances
in Modern Statistical Theory and Applications: A Festschrift in Honor of Morris L. Eaton
Institute of Mathematical Statistics Collections (2013): 102-25.

[3] Federer, Herbert. Geometric Measure Theory. Berlin: Springer, 1996.

[4] Franzoni, Gregorio. “The Klein Bottle: Variations on a Theme.”Notices of the American Mat-
hematical Society 59.08 (2012): 1076.

16 T
20 A
lio IM
Ju -CD
AT

14
ANÁLISIS TOPOLÓGICO DE DATOS
UTILIZANDO MAPPER
Y COMPLEJOS TESTIGO
Proyecto final de la clase:
Probabilidad e Inferencia Estadística para Análisis Topológico de Datos
Centro de Investigación en Matemáticas, A.C.

16 T
20 A
lio IM
Ju -CD
AT

Alumno:

Jesús Manuel Pérez Angulo


Maestría en Probabilidad y Estadística
profesores
Fermín Reveles (Topología)
Víctor Pérez-Abreu (Probabilidad)
Miguel Nakamura (Inferencia Estadística)
Rolando Biscay (Campos aleatorios)
Índice

1. Introducción 3

I Marco teórico 4
2. Complejos testigo 4
2.1. Denición de W (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Elección de los puntos de referencia L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Familias anidadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Algoritmo Mapper 5
3.1. Construcción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1. Motivación y antecedentes topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.2. Estructura multiresolución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2.1. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

16 T
3.2.2. Espacios parametrales de dimensiones mayores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3. Funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

20 A
3.3.1. Kernel gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3.2. Exentricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3.3. Laplacianos de grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
lio IM
3.3.4. Componentes de la SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4. Agrupamiento jerárquico 8
4.1. Distancia mínima o similitud máxima (Single linkage) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Ju -C

5. Descomposición en Valores Singulares 8


D

II Uso de software 9
6. Paquetería TDA de R 9
AT

6.1. Complejo Vietoris-Rips . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9


6.2. Bandas de conanza en diagramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

7. Javaplex en Matlab 11
7.1. Complejo testigo fuerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7.2. Complejo testigo débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

8. Python Mapper 12

III Análisis de características homológicas, geométricas y de costo computacional 16


9. Contexto 16

10.Circulo unitario 17
10.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
10.2. N(0,1), ruido σ = 0.003 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
10.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
10.4. N(0,Σ), ρ = 0.95 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
10.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
10.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
10.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
10.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
10.9. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1
10.10.Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
10.11.Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.12.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
10.13.Cauchy(0,3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
10.14.Cauchy(0,3), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
10.15.Cauchy(0,3), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

11.Doble anillo 31
11.1. N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.2. N (0, 1), ruido σ = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
11.3. N (0, 1), ruido σ = 0.009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

12.Esfera unitaria 35
12.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
12.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
12.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
12.4. N3 (0, Σ), ρ = (0.9, 0.5, 0.8) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
12.5. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

16 T
12.6. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
12.7. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

20 A
12.8. Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
12.9. Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
12.10.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
lio IM
13.Toro 44
13.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
13.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Ju -C

13.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47


13.4. N (0, Σ), ρ = 0.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
13.5. N (0, Σ), ρ = 0.9, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
13.6. N (0, Σ), ρ = 0.9, ruido σ = 0.1 .
D

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
13.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
13.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
AT

13.9. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53


13.10.Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
13.11.Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
13.12.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

IV Observaciones y conclusiones 57

2
Resumen
En este proyecto se abordan dos alternativas a las construcciones simpliciales usuales vistas en el curso. La primera

son los complejos testigo, mismos que se basan en una submuestra de una nube de datos dada, de donde a partir de tal

selección se construye el complejo simplicial utilizando la muestra completa como soporte. La segunda alternativa es

utilizar un algoritmo llamado Mapper, el cual centra su idea en la selección de funciones de referencia y en un método

estadístico particular: el clustering. Esto con un propósito simple, construir un grafo que exprese las características

geométricas de nuestra nube de datos. Se presentan los resultados de un estudio de simulación comparativo entre

estos dos algoritmos y el ya conocido Vietoris-Rips, analizando diversos escenarios de distribuciones y ruido sobre las

variedades S1 , S2 y T2 , utilizando distintos tamaños de muestra para cada una. Finalmente, se presenta también un

pequeño tutorial sobre el software actual disponible para calcular persistencia y una implementación en Python del

algoritmo Mapper.

1. Introducción

Sabemos que una de las problemáticas principales al aplicar el Análisis Topológico de Datos es el costo o viabilidad

16 T
computacional. De los primeros enfoques para el cálculo de la homología persistente fue la ltración de ƒech, la cual
llegado un punto en la misma, crea simplejos con dimensión muchísimo más grande que la del espacio ambiente así como

20 A
un sin número de simplejos en cada paso. Una forma de relajar el cálculo de la homología usando la ltración de ƒech es
mediante la ltración de Vietoris-Rips, pero aún ésta sigue presentando el problema de encontrar simplejos de dimensión
lio IM
mucho mayor a la del espacio ambiente de nuestros datos.
En este proyecto presentamos algunas alternativas presentadas por Carlsson, De Silva, Mémoli y Singh (ver [2] y [6]).
En el primer enfoque se presentan los complejos testigo, mismos que se basan en una selección de puntos de referencia L de
una nube de puntos mediante un método particular de muestreo. A partir de ellos se construye un complejo simplicial que
Ju -C

evite sobremanera la construcción de simplejos innecesarios así como el incremento en la dimensionalidad de los mismos. El
segundo enfoque es el algoritmo Mapper, el cual se basa en elección de funciones que van de la nube de puntos a un espacio
euclideano, así como de métodos de agrupamiento (clustering) para crear simplejos de dimensión pequeña (regularmente
1 y 2) que nos permitan describir la estructura de los datos.
D

Uno de los objetivos de este proyecto es evaluar la aplicación de estas técnicas, explorando ventajas y desventajas de las
mismas y con respecto al algoritmo Vietoris-Rips. Para ello, realizamos un estudio de simulación comparativo entre estos
métodos, ante diversos escenarios controlados de diferentes distribuciones y tipos de ruido sobre una misma variedad. Se
AT

consideran tres variedades y se utilizan distintos tamaños de muestra ya que el costo computacional depende del tamaño
de cada una de estas variedades.
En la Parte I de este trabajo presentamos una breve descripción del método de agrupamiento jerárquico poniendo
especial énfasis en el modelo Single linkage clustering, así como la explicación de la descomposición en valores singulares
(SVD) de una matriz de tamaño m×n arbitrario, pues son las herramientas principales que se utilizan en el algoritmo
Mapper, el cual que se describe en esta misma sección. También se presentan conceptos y el desarrollo teórico de los
complejos testigo.
Dado que el proyecto se basa fuertemente en la realización de simulaciones, así como de manipulación de los datos
para realizar nuestro análisis, en la Parte II de este documento damos una breve introducción a las paqueterías que se
utilizarán para las simulaciones y análisis en este proyecto, las cuales incluyen la paquetería TDA del software estadístico
R, las librerías de Javaplex implementadas en Matlab, así como una aplicación compilada sobre Python, llamada Python
Mapper. La intensión de esta parte es que el lector tenga un primer acercamiento al software utilizado en el ATD.
La parte central de nuestro proyecto se presenta en la Parte III, donde se realiza una serie de simulaciones sobre
el círculo unitario S1 , la esfera unitaria S2 y el toro tridimensional T2 usando las técnicas de simulación de variables
aleatorias presentadas en el Capítulo 4 de las notas del curso. En base a estas simulaciones, realizamos un análisis de los
resumenes topológicos, donde interpretamos la persistencia de características homológicas, así como algunas características
geométricas que nos brinda Mapper para las nubes de datos generadas, tratando de ver similitudes y diferencias entre
cada algoritmo, y comparando también su eciencia computacional. Como resúmenes presentamos: los diagramas de
persistencia, códigos de barra y grafos Mapper.
Por último, en la parte IV damos conclusiones de todos los hallazgos encontrados a lo largo del proyecto, así como
algunas recomendaciones y proyectos a desarrollar a corto plazo.

3
Parte I

Marco teórico

2. Complejos testigo

La idea de los complejos testigo es que estos imiten el comportamiento de las triangulaciones de Delaunay en la
geometría intrínseca de un conjunto de datos X. Se toma un conjunto de puntos de referencia L⊂X y el resto de los
puntos toman un rol para determinar qué simplejos aparecen en el complejo simplicial. Sin embargo, su interpretación no
es tan difícil como la de una triangulación de Delaunay.

2.1. Denición de W (D)


Sea D la matriz n×N que contiene las distancias entre el conjunto de los n puntos de referencia y los N datos en X.
Se dene el complejo testigo (estricto) W∞ (D) con conjunto de vértices {1, 2, ..., n} como sigue:
La arista σ = [ab] pertenece a W∞ (D) si y solo si existe un punto 1 6 i 6 N tal que D(a, i) y D(b, i) son las dos
entradas más pequeñas en la i−ésima columna de D, en algún orden.

16 T
Mediante inducción en p: supóngase que todas las caras del p−simplejo σ = [a0 a1 · · · ap ] pertenecen a W∞ (D).

20 A
Entonces, σ pertenece a W∞ (D) si y solo si existe un punto 1 6 i 6 N tal que D(a0 , i), D(a1 , i), ..., D(ap , i) son las
p+1 entradas más pequeñas de la i−ésima columna, en algún orden.
lio IM
En cada caso i es considerado un testigo de la existencia de σ.
Existe también una versión oja de un complejo testigo. Formalmente, se dene W1 (D) ⊇ W∞ (D) como sigue:

W1 (D) tiene el mismo 1− esqueleto que W∞ (D).


Ju -C

El p−simplejo σ = [a0 a1 · · · ap ] pertenece a W1 (D) si y solo si cada una de sus aristas pertenece a W1 (D).
Nota: Esta construcción se puede aplicar para cualquier matriz de distancias D, bajo la distancia euclidiana o cualquier
otra métrica. En particular, una alternativa importante es la métrica intrínseca del grafo DG , la cual se dene calculando
D

las distancias en un grafo adecuado G con vértices todos los puntos en X .En algunas situaciones es mejor utilizar la
métrica intrínseca.
AT

A partir de aquí, usamos la notación W (D) para referirnos a W1 (D).

2.2. Elección de los puntos de referencia L


Existen dos maneras de elegir los puntos de referencia: de manera aleatoria, o mediante un proceso iterativo llamado
maxmin. El proceso maxmin se dene como sigue:

Selecciónese `1 ∈ X de manera aleatoria.

Inductivamente, si `1 , `2 , ..., `i−1 han sido elegidos, sea `i ∈ X\{`0 , `1 , ..., `i−1 } el punto que maximiza la función

x 7→ mı́n{D(x, `1 ), D(x, `2 ), ..., D(x, `i−1 },

donde D es la métrica.

Continúese hasta que se hayan elegido el número deseado de puntos.

Los puntos elegidos mediante maxmin tienden a estar más espaciados, pero son suceptibles a tomar outliers. El número
de puntos de referencia a elegir deben ser tales que la razón N/n esté acotada. Los autores sugieren esta cota como 20 de
manera heurística debido a los experimentos realizados por ellos mismos.

4
2.3. Familias anidadas
Supóngase que D es una matriz n × N de distancias, como se denió antes. Para cada entero no negativo ν construímos
una familia de complejos simpliciales W (D; ε, ν) donde ε ∈ [0, ∞]. El conjunto de vértices de W (D; ε, ν) es {1, 2, ..., n}.
Denimos entonces:

Si ν = 0, entonces para i = 1, 2, ...N denimos mi = 0.


Si ν > 0, entonces para i = 1, 2, ..., N denimos mi como la ν−ésima entrada más pequeña de la i−ésima columna
de D.
La arista σ = [ab] pertenece a W (D; ε, ν) si y solo si existe un testigo i ∈ {1, 2, ..., N } tal que

máx(D(a, i), D(b, i)) 6 ε + mi .

El p−simplejo σ = [a0 a1 · · · ap ] pertenece a W (D; ε, ν) si y sólo si todas sus caras pertenecen a W (D; ε, ν); equiva-
lentemente si y sólo si existe un testigo 1 6 i 6 N tal que

máx(D(a0 , i), D(a1 , i), ..., D(ap , i)) 6 ε + mi

16 T
Nótese la identidad W (D; 0, 2) = W (D) = W1 (D). Los casos de ν = 0, 1, 2 son de particular importancia pues para:

20 A
ν = 0: La familia de complejos W (D; ε, 0) está cercanamente relacionada a la familia de complejos Rips R(L; ε).
Especícamente, se cumplen las siguientes inclusiones:
lio IM
W (D; ε, 0) ⊆ Rips(L; 2ε) ⊆ W (D; 2ε, 0).

ν = 1: Se puede interpretar como proveniente de una familia de cubiertas del espacio X mediante regiones de Voronoi
Ju -C

que rodean cada punto de referencia, las cuales se traslapan cuando ε → ∞.

nu = 2: Recuérdese que se tenía la siguiente identidad en ε=0


D

W (D; 0, 2) = W (D).

En la práctica, las familias con ν = 2 aparentemente dan intervalos de persistencia más claros, con poco ruido. Una
AT

explicación de esto se debe a la identidad recién mencionada, pues el complejo simplicial está esencialmente correcto
cuando ε = 0, por lo que es necesario incrementar un poco el valor de ε.

3. Algoritmo Mapper

3.1. Construcción
Se da primero, una idea general de la motivación topológica que da lugar a este nuevo método. Posteriormente se
presentan detalles sobre la implementación, así como la utilización de algunas funciones de referencia en las que se basa
el algoritmo.

3.1.1. Motivación y antecedentes topológicos

Ya se ha denido previamente el nervio de una cubierta U X , y se puede oibtener información extra de esta, de
de
una partición de unidad se puede obtener una función que vaya de X a N (U). Una partición de unidad subordinada a la
cubierta abierta nita U es una familia de funciones real valueadas {ψα }α∈A con las siguientes propiedades:

0 6 ψα (x) 6 1 para todo α ∈ A y x ∈ X .


P
σ∈A ψα (x) = 1 para todo x ∈ X .

La cerradura del conjunto {x ∈ X|ψα (x) > 0} está contenida en el conjunto abierto Uα .

5
Recordemos que podemos representar los puntos en un k−simplejo mediante sus coordenadas baricéntricas (r0 , r1 , ..., rk ).
Denamos T (x) ⊆ A como el conjunto de todos los x ∈ Uα . Denamos ρ(x) ∈ N (U) el punto en el simpejo
α tales que
generado por los vértices α ∈ T (x), cuyas coordenadas baricéntricas son (ψα0 , ψα1 , ..., ψαl ) donde {α0 , α1 , ..., αl } es alguna
enumeración del conjunto T (x). La función ρ resulta ser continua y además otorga una çoordenización"parcial al conjunto
X con valores en N (U).
Supongamos que tenemos un espacio X y una función continua f : X → Z a un espacio de parámetros Z , que además
el espacio Z cuenta con una cubierta abierta U = {Uα }α∈A , para un conjunto nito de índices A. Dada la continuidad de f ,
−1
los conjuntos f (Uα ) forman una cubierta abierta para X . Y para cada α, considérese la descomposición de f −1 (Uα ) en
−1
Sjα
sus componentes conexas, de modo que se pueda escribir f (Uα ) = i=1 V (α, i) donde jα es el número de componentes
−1
conexas en f (Uα ). Denotamos Ū a la cubierta de X obtenida de esta manera.

3.1.2. Estructura multiresolución

Para denir la multiresolución, necesitamos denir un mapeo de cubiertas, el cual, dadas dos cubiertas U = {Uα }α∈A
y V = {Vβ }βinB es una función f :A→B tal que para cada α ∈ A, se tiene que Uα ⊆ Vf (α) para cada α ∈ A. Se presenta
el siguiente

Ejemplo 1. Sean X = [0, N ], y ε > 0. Los conjuntos Ilε = (l − ε, l + ε + 1) ∩ X , para l = 0, 1, ..., N − 1 forman una
0

16 T
cubierta abierta Iε para X . Todas las cubiertas Iε tienen el mismo conjunto de índices, y para ε 6 ε , el mapeo identidad
ε ε
en el conjunto de índices es un mapeo de cubiertas dado que Il ⊂ Il .

20 A
Nótese que si tenemos dos cubiertas U y V y un mapeo de cubiertas f , entonces existe un mapeo inducido de complejos
simpliciales N (f ) : N (U → N (V , dado sobre los vértices por el mapeo f . En consecuencia, si tenemos una familia de
lio IM
cubiertas {Ui }i∈n y mapeos de cubiertas fi : Ui → Ui+1 para cada i, obtenemos un diagrama de complejos simpliciales y
mapeos simpliciales
N (f0 ) N (f1 ) N (fn−1 )
N (U0 ) −→ N (U1 ) −→ · · · −→ N (UN )
Retomando el caso del espacio X y la función f : X → Z, y un mapeo de cubiertas U → V, existe el correspondiente
Ju -C

mapeo de cubiertas Ū → V̄ .

3.2. Implementación
D

Se pasa de la idea teórica a la implementación mediante estadística, usando técnicas de agrupamiento para realizar la
partición del espacio de interés en componentes conexas.
AT

Primero, encontramos el rango I de la función restringida a los puntos dado. Particionamos el rango I en un conjunto
de intervalos más pequeños S que se traslapan para encontrar una cubierta de los datos dados. De modo que tenemos dos
p y la longitud de los intrvalos de S . Luego, para
parámetros para modicar la resolución, a saber el porcentaje de traslape
cada intervalo Ij ∈ S , Xj = {x|f (x) ∈ Ij }. Claramente la familia de conjuntos {Xj }
encontramos el conjunto de puntos
forman una cubierta para X . Para cada conjunto Xj encontramos clusters {Xjk }. De modo que tratamos cada cluster
como un vértice en nuestro complejo y dibujamos una arista entre los vértices siemrpe que Xjk ∩ Xlm 6= ∅.

3.2.1. Agrupamiento

Mapper no impone ningún tipo de condiciones sobre el algoritmo de agrupamiento, de modo que cualquiera que se
especique sobre el dominio puede funcionar.

3.2.2. Espacios parametrales de dimensiones mayores

Para obtener información sobre características de agujeros dimensionales de orden mayor es necesario contruir un
complejo simplicial de dimensión mayor utilizando el número de ltros requeridos. Así mismo, cualquier cubierta del
espacio parametral puede funcionar, pero deberíamos tener en cuenta que cuanto más intersecciones haya en esta habra
complejos simpliciales de orden mayor.
Consideraremos el caso particular R2
usando dos funciones ltro f1 , f2 y el rango de éstas cubierto por rectángulos.
Tenemos la región R = [mı́n f1 , máx f1 ]×[mı́n f2 , máx f2 ]. De modo que tenemos una cubierta de R tal que cada Ai,j , Ai+1,j
se intersectan al igual que cada Ai,j , Ai,j+1 . Un algoritmo para calcular un complejo simplicial reducido es el siguiente:

1. Para cada i, j , elíjanse los puntos para los cuales los valores de las funciones f1 , f2 caen en Ai,j . Encuéntrese los
clusters para este cojunto y consíderese que cada cluster representa un vértice (0−simplejo). Manténgase una lista
de vértices para cada Ai,j y un conjunto de índices para los puntos de cada cluster.

6
2. Para todos los vértices en los conjuntos {Ai,j , Ai+1,j , Ai,j+1 , Ai+1,j+1 }, si la intersección de los clusters asociados
con los vértices es no vacía añadimos una arista (1− simplejo).

3. Cuando los clusters correspondientes a cualesquiera 3 vértices tengan intersección no vacía, añadimos un triángulo
(2−simplejo) con esos 3 vértices.

4. Cuando los clusters correspondientes a cualesquiera 4 vértices tengan intersección no vacía, añadimos un tetraedro
(3−simplejo) con esos 4 vértices.

Es fácil extener Mapper a un espacio parametral de dimensión mayor de manera similar.

3.3. Funciones
El algoritmo Mapper es altamente dependiente de los ltros que se eligen para particionar el conjunto de datos. Se
asume que la nube de puntos está dotada de una función distancia d(x, y), se mencionan a continuación algunas de las
funciones utilizadas en Mapper que describen algunas propiedades estructurales de los datos:

3.3.1. Kernel gaussiano

16 T
Para ε > 0, tenemos el estimador de densidad

−d(x, y)2
 

20 A
X
fε (x) = Cε exp ,
y
ε
lio IM
R
donde x, y ∈ X y Cε es una constante tal que fε (x)dx = 1. El parámetro ε controla la suavidad del estimador de la
densidad de los datos.
Ju -C

3.3.2. Exentricidad

La idea intuitiva es encontrar los puntos que se encuentren alejados de un centro. Dado 1 6 p 6 +∞,
 p1
d(x, y)p
P
D

y∈X
Ep (x) = , con x, y ∈ X.
N
AT

Se puede extender la denición a p = +∞ haciendo E∞ (x) = máxx0 ∈X d(x, x0 ). En general, tiende a tomar valores
grandes para puntos que estan alejados de un centro.

3.3.3. Laplacianos de grafos

Esta familia de funciones se origina de considerar el operador Laplaciano de un grafo denido como sigue: El conjunto
de vértices de este grafo es el conjunto X de todos los puntos, y el peso de las aristas entre los puntos x, y ∈ X es

w(x, y) = k(d(x, y))

donde k es un kernel de suavizamiento. Una matriz Laplaciana del grafo (normalizada) se calcula como

w(x, y)
L(x, y) = pP pP .
z w(x, z) z w(y, z)

De este modo, los eigenvectores de la matriz Laplaciana normalizada del grafo nos dan un conjunto de vectores ortogonales
que nos brindan información geométrica interesante de la nube de datos.

3.3.4. Componentes de la SVD

En dos secciones subsecuentes describimos de qué se trata la SVD (Descomposición en Valores Singulares), se pueden
utilizar proyecciones sobre las primeras componentes para obtener información geométrica de los datos. En este proyecto
particularmente, utilizamos las dos primeras componentes.

7
4. Agrupamiento jerárquico

Existen dos tipos de métodos generales dentro de los catalogados en esta categoría, están aquellos que mezclan grupos
para formar uno nuevo (aglomerativos o ascendentes) y aquellos que separan un grupo existente para dar lugar a dos
nuevos (disociativos o descendentes). Estos métdos a su vez, presentan una gran diversidad de variantes
Haremos énfasis especial en los métodos aglomerativos, pues es en los que se basa el análisis que realizamos en este pro-
yecto. Estas paqueterías están implementadas en diversos softwares estadísticos bajo el nombre de AGNES (AGglomerative
NESting).
La idea general de los métodos aglomerativos es la siguiente.

1. Inicie con tantos grupos como puntos haya, donde cada punto va en uno y solo un grupo. La medida de similaridad
entre grupos en este paso es igual a la distancia entre los puntos que contiene cada grupo.

2. Encuentre el par de grupos más cercanos (con mayor similitud) y mézclelos en un solo grupo.

3. Calcule las distancias (similaridades) entre el nuevo grupo y cada uno de los grupos antiguos.

4. Repita los pasos 2 y 3 hasta que se alcanze un número deseado de grupos o todos los puntos se hayan mezclado en
un solo grupo.

16 T
Los métodos jerárquicos nos permiten la constucción de un árbol de clasicación ,llamado dendograma (4), el cual nos
muestra cuáles grupos se van uniendo y a qué nivel lo hacen, así como la medida de asociación entre los grupos cuando

20 A
estos se mezclan (nivel de fusión).
lio IM
Ju -CD
AT

Figura 1: Ejemplo de dendograma

Dentro de nuestro particular interés sobre los métodos aglomerativos, explicaremos una de las variantes, los métodos
linkage clustering (que traduciremos como amalgamamiento).

4.1. Distancia mínima o similitud máxima (Single linkage)


En este método se considera que la distancia o similitud entre dos grupos está dada, respectivamente por la distancia
mínima (o máxima similitud) entre sus componentes.
De este modo, tras efectuar k pasos, tendremos formados n−k grupos, de esta manera la distancia entre dos grupos
Gi (con ni puntos), Gj (con nj puntos) sería:

d(Gi , Gj ) = mı́n {d(xl , xm )} , l = 1, ..., ni ; m = 1, ..., nj (1)


xl ∈Gi xm ∈Gj

Por otro lado, si usamos una medida de similitud entre grupos, tendríamos:

s(Gi , Gj ) = máx {s(xl , xm )} , l = 1, ..., ni ; m = 1, ..., nj (2)


xl ∈Gi xm ∈Gj

5. Descomposición en Valores Singulares

La Descomposición en Valores Singulares (SVD por sus siglas en inglés) nos dice que dada una matriz A arbitraria de
tamaño m × n (m > n). Entonces podemos descomponerla como

A = U ΣV T (3)

8
donde las matrices U es una matriz de m × n que satisface que U T U = In y la matriz V es una matriz de n × n que
T
satisface que V V = In , y Σ = diag(σ1 , σ2 , ..., σn ) con σ1 > σ2 > · · · σn > 0.
Las columnas u1 , . . . , un de la matriz U son llamados valores singulares izquierdos, mientras que las columnas v1 , ..., vn
de la matriz V son llamados vectores singulares derechos. Los valores σi son llamados valores singulares.
Existe un gran número de propiedades algebraicas y geométricas importantes de la SVD, de las más importantes son
las siguientes:

1. Supóngase que la matriz A es simétrica, con valores propios λi y vectores propios ortonormales vi . En otras palabras,
A = U ΛV T es una descomposición propia de A, con Λ = diag(λ1 , ..., λn ), y U T U = I . Entonces una SVD de A es
A = U ΣV T , donde σi = |λi | y vi = signo(λi )ui donde signo(0) = 1.

2. Los valores propios de la matriz simétrica AT A son σi2 . Los vectores singulares derechos vi son sus vectores propios
ortonormales correspondientes.

3. Los valores propios de la matriz simétrica AAT son σi2 y m − n ceros. Los vectores singulares izquierdos ui son
los vectores propios correspondientes a los valores propios σi2 . Se pueden tomar cualesquiera m − n otros vectores
ortogonales como vectores propios para el valor propio 0.
0 AT
 
4. Sea , donde A es cuadrada y A = U ΣV T es la SVD de A. Sean Σ = diag(σ1 , ..., σn ), U = [u1 , ..., un ] y

16 T
A 0
 
1 v i
V = [v1 , ..., vn ]. Entonces los 2n valores propios de H son ±σi , con vectores propios correspondientes √ .

20 A
2 ±ui

5. Si A es de rango completo, la solución de mı́nx kAx − bk2 es x = V Σ−1 U T b.


lio IM
6. kAk2 = σ1 . Si A es cuadrada y no singular, entonces kA−1 k−1
2 = σn y kAk2 · kA−1 k2 = σ1
σ2 .

7. Supóngase que σ1 > · · · > Σr > σr+1 = · · · = σn = 0. Entonces el rango de A es r. El espacio nulo de A, es decir,
Ju -C

el subespacio de vectores v tales que Av = 0., es generado por las columnas r + 1 a n de V : span(vr+1 , ..., .vn ). El
rango del espacio A, el subespacio de vectores de la forma Aw para todo w , es el espacio generado por las columnas
1 a r de U : span(u1 , ..., ur ).
8. Sea Sn−1 Rn : Sn−1 : {x ∈ Rn : kxk2 = 1}. Sea A · Sn−1 la imagen de Sn−1 bajo A: A · Sn−1 =
la esfera unitaria en
D

{Ax : x ∈ R y kxk2 = 1}. Entonces A · Sn−1 es un elipsoide centrado en el origen de Rm , con ejes principales σi ui .
n

n
AT

A = U ΣV T = σi ui viT
P
9. Escríbase V = [v1 , v2 , ..., vn ] y U = [u1 , ..., un ] de modo que (suma de matrices rango 1).
i=1
n
σi ui viT ,
P
Entonces una matriz de rango k <n cercana a A (medida con k · k2 ) es Ak = y kA − Ak k2 = σk+1 .
i=1
También se puede escribir Ak = U Σk V T , donde Σk = diag(σ1 , ..., σk , 0, ..., 0).

Parte II

Uso de software

En esta parte nos enfocamos a dar una breve introducción a las paqueterías computacionales que se utilizan en el
proyecto, con el n de que un usuario no experimentado tenga un primer contacto con el software. En las secciones
referentes a la paquetería TDA de R y Javaplex de Matlab, pondremos código de referencia con comentarios donde se da
una breve explicación de lo que se hace en cada paso. En la sección dedicada a Mapper, explicamos sobre cada una de las
funciones que incluye el programa

6. Paquetería TDA de R

6.1. Complejo Vietoris-Rips


El siguiente código es para hacer el cálculo de la homología usando la ltración Vietoris-Rips para un toro, la muestra
es de tamaño 1000.

9
#Tamaño de muestra para todas las simulaciones
n<-1000
d<-2
#########################################################################
#********************Caso normales independientes***********************#
#########################################################################
x<-matrix(0,n,2)
y<-matrix(0,n,2)
#Generamos dos muestras muestras de n elementos en S1
for(i in 1:n){
x[i,]<-c(rnorm(1),rnorm(1))
x[i,]<-x[i,]/(norm(as.matrix(x[i,]),"f"))
y[i,]<-c(rnorm(1),rnorm(1))
y[i,]<-y[i,]/(norm(as.matrix(y[i,]),"f"))
}

#Hacemos el producto S1xS1 para obtener el toro 4 dimensional.


X<-cbind(x,y)

16 T
#Proyectamos a R3, para poder visualizarlo

20 A
T2.NI=matrix(0,n,3)
for(i in 1:n){
T2.NI[i,]=X[i,3]*c(0,0,1)+(X[i,4]+2)*c(X[i,1],X[i,2],0)
lio IM
}

#Exportamos la matriz de datos


Ju -C

write.matrix(T2.NI,"C:/ruta-a-exportar-datos/T2NI1000.txt")

#Cálculo de la homología
ini<-proc.time()
D

Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram
par(mfrow=c(1,2),mai=c(0.8,0.8,0.3,0.1))
plot(Diag,main="Diagrama Rips")
AT

plot(Diag, barcode=T, main="Código de barras")


finNI<-proc.time()-ini
finNI[3]

#Le agregamos ruido nuestra muestra


T2.NI.R05<-RuidoNormal(T2.NI,0.005)
write.matrix(T2.NI.R05,"C:/ruta-a-exportar-datos/T2NI1000R05.txt")

#Cálculo de la homología
#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T

T2.NI.R1<-RuidoNormal(T2.NI,0.1)
write.matrix(T2.NI.R1,"C:/ruta-a-exportar-datos/T2NI1000R1.txt")
#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T
# #Cálculo de la homología

La parte relevante en este código es

Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram
El cual sólo es una parte de la serie de parámetros que podemos usar en

ripsDiag(X, maxdimension, maxscale, dist = "euclidean", library = "GUDHI",


location = FALSE, printProgress = FALSE)

10
En lo anterior, X puede ser una matriz de datos sólo si dist=euclidean o ser una matriz de distancias entre n puntos
sólo si dist=arbitrary . maxdimension deber ser un número entero se reere a la dimensión máxima que le permitiremos
calcular al algoritmo (recordemos que 0 es la cantidad de componentes conexas, 1 componentes conexas y ciclos, etc.). dist
nos permite elegir entre euclidean donde utilizamos la distancia euclideana y arbitrary nos permite utilizar la distancia
dada en el cálculo de la matriz de distancias. El parámetro library nos permite elegir entre los 3 posibles algoritmos de
cálculo de la homología, a saber PHAT, Dyonisus, GUDHI. En particular para este proyecto se utilizará la paquetería
GUDHI pues se ha probado que es la más rápida de las 3. Utilizar una librería en particular nos restringe o da ventajas
de cálculo entre las otras 2. El parámetro location nos regresa la ubicación de los puntos de nacimiento y muerte de cada
característica homológica. Por último, printProgress imprime una barra de progreso, así como el número de simplejos
calculados.

6.2. Bandas de conanza en diagramas de persistencia


Existe una manera de construir bandas de conanza para los diagramas de persistencia basados en ltraciones para
conjuntos de sub o supranivel para funciones como estimadores de densidades o funciones distancia. La estimación se basa
en bootstrap (ver el capítulo 5 de las notas de clase para mayor referencia a este método).
Para construir una banda de conanza de nivel 1 − α para una función usando bootstrap se sigue el siguiente algoritmo
(se toma como referencia el estimador de densidad por kernel Gaussiano):

16 T
1. Dada una muestra X = {x1 , ..., xn }, calcule el estimador de densidad pbh .

20 A

2. Tome una muestra con reemplazo X ∗ = {x∗1 , ..., x∗n } de X = {x1 , ..., xn } y calcule θ∗ = p∗h (x) − pbh (x)k∞ ,
nkb donde
pb∗h es el estimador de densidad calculado usando X .

lio IM
3. Repita el paso anterior B veces para obtener θ1∗ , ..., θB

.
n o
1 θj∗ > q 6 α
1
PB 
4. Calcule qα = ı́nf q : B j=1
Ju -C

h i
5. La banda de conanza de tamaño 1−α para E [b
ph ] es pbh − qα

n
, pbh + qα

n
.

El siguiente código calcula una banda de conanza de nivel 90 % para una nube de puntos X dada bajo el estimador
D

de densidad via kernel.

bootstrapBand(X = X, FUN = kde, Grid = Grid, B = 100, parallel = FALSE, alpha = 0.1, h = h)
AT

En la última expresión, Grid es una rejilla de puntos previamente denida de la dimensión correspondiente a la nube
de puntos, h es el ancho de banda del estimador kernel y B es el número de remuestreo en el algoritmo Bootstrap.
La relevancia estadística del método Bootstrap se detalla también en el Capítulo 5 de las notas del curso. Para más
información sobre la utilización de la paquetería TDA y las características que contiene, por favor reérase a [4].

7. Javaplex en Matlab

Presentamos el código para el cómputo de los complejos testigo fuerte y débil, cuyos detalles se dieron en la Parte II
de este proyecto.

7.1. Complejo testigo fuerte


%Tiempo inicial del cálculo
tic;
%Parámetros para el cálculo de la homología persistente y selección de puntos de referencia.
X=importdata('C:/ruta-a-los-datos/datos.txt');
num_lpoints=100; %Número de puntos de referencia a utilizar.
L=api.Plex4.createMaxMinSelector(X,num_lpoints); %Método de selección de puntos de referencia.
R=L.getMaxDistanceFromPointsToLandmarks() %Distancia máxima entre los puntos de referencia y la nube de datos
mfv=R/2; %Valor máximo de la filtración
mdim=3; %Dimensión máxima de interés
ndiv=100; %Número de elementos a calcular en la filtración

11
%Creación del complejo Witness
stream=api.Plex4.createWitnessStream(L,mdim,mfv,ndiv);
%Número de simplejos en el cálculo
num_simplices=stream.getSize()
%Cálculo de la homología
persistence=api.Plex4.getModularSimplicialAlgorithm(mdim,2);
intervals=persistence.computeIntervals(stream);
%Opciones de graficación del código de barras
options.filename='Figura';
options.max_filtration_value=mfv;
options.max_dimension=mdim-1;
%Código de barras
plot_barcodes(intervals,options);
%Tiempo final del cálculo
toc

7.2. Complejo testigo débil

16 T
%Tiempo inicial del cálculo
tic

20 A
%Parámetros para el cálculo de la homología persistente y selección de
%puntos de referencia.
X=importdata('C:/ruta-a-los-datos/datos.txt');
lio IM
num_landmark=100; %Número de puntos de referencia a utilizar
dim_max=3; %Dimensión máxima de interés.
nu=2; %Número de testigos en el complejo débil
num_div=100;
Ju -C

L=api.Plex4.createMaxMinSelector(X,num_landmark); %Selección de puntos de referencia


%Distancia máxima de los puntos de referencia a la nube de puntos
R=L.getMaxDistanceFromPointsToLandmarks()
D

vmf=R/2; %Máximo valor de la filtración.


%Creación del complejo simplicial testigo débil.
lazy=streams.impl.LazyWitnessStream(L.getUnderlyingMetricSpace(),L,dim_max,vmf,nu,num_div);
AT

lazy.finalizeStream();
%Número de simplejos
lazy.getSize()
%Cálculo de la homología persistente
pers=api.Plex4.getModularSimplicialAlgorithm(dim_max,2);
intervalos=pers.computeIntervals(lazy);
%Opciones de graficación del código de barras
options.filename='Figura';
options.max_filtration_value=vmf;
options.max_dimension=dim_max-1;
%Código de barras
plot_barcodes(intervalos,options);
%Tiempo total del cálculo
toc

Para instrucciones sobre la instalación, así como mayores detalles sobre la librería, por favor reérase a [1]

8. Python Mapper

Para la instalación del software, favor de referirse a [5].


La interfaz principal de Python Mapper es la siguiente:

12
16 T
20 A
lio IM
A continuación damos un detalle breve de las acciones que realiza cada sección.
En el Paso 1, podemos notar que existen tres apartados:
Ju -C

Example shapes Contiene una base de datos predeterminada, la cual contiene una muestra de datos tomada sobre
objetos 3D que representan diferentes animales.

Synthethic Shapes Nos permite generar muestras de datos del tamaño deseado sobre S1 y T 2, cabe destacar que la
D

2
forma de generar los datos sobre T no se da de manera uniforme como lo vimos en clase, los datos se ven como
sigue:
AT

Load Data Este apartado es de nuestro particular interés, pues aquí es donde llamamos el archivo de texto que
contiene los datos generados en las simulaciones que presentaremos más adelante, nuestro archivo no debe contener
encabezados, sólo debe contener los datos en forma matricial, automáticamente detecta el número de datos así como
su dimensionalidad.

13
En el Paso 2 podemos encontrar dos opciones:

Ambient/Original metric En esta parte nos brinda tres opciones para la métrica denida sobre el espacio ambiente
de los datos: Euclideana, Minkowski y Chebyshev. Pero como el software se encuentra aún en fase de desarrollo sólo
permite elegir la métrica euclideana.

Intrinsic metric Hace uso de la métrica intrínseca denida en la parte II de este trabajo a partir de la selección de
un número apropiado de vecinos más cercanos, el mismo software nos puede arrojar un número de vecinos adecuados
para que el grafo creado en el conjunto de datos sea conexo.

En el Paso 3 es donde realizamos la selección del ltro para el análisis de los datos, en donde podemos elegir entre:

Exentricidad.

Distancia de k vecinos más cercanos.

Distancia a una medida.

Kernel Gaussiano.

Laplaciano de un grafo.

16 T
Descomposición SVD.

20 A
Sin ltro.
lio IM
Así mismo, nos da la opción de centrar los datos mediante la media. También podemos modicar un ltro de manera
particular mediante la introducción de ciertos parámetros en lter transformation.
Es aquí donde podemos ver cómo se colorean los puntos de acuerdo al ltro elegido.
En el Paso 4 es donde podemos elegir nuestra cubierta de 3 posibles opciones:
Ju -C

Cubierta 1 dimensional uniforme.

Cubierta 1-dimensional balanceada.


D

Descomposición de subrango.

Así mismo, es posible elegir el porcentaje de traslape entre los intervalos así como la cantidad de estos. También es
AT

posible elegir el método de agrupamiento a utilizar:

Single linkage clustering.

Complete linkage clustering.

Average linkage clustering.

Weighted linkage clustering.

Median linkage clustering.

Centroid linkage clustering.

Ward linkage clustering.

Estos métodos de agrupamiento entran dentro de la categoría de agrupamiento jerárquico, cuyos detalles generales
dimos en la Parte I.
En esta misma sección podemos elegir el parámetro de corte (cuto ) el cuál no es otra cosa que la distancia máxima
que se permite haya dentro de cada cluster, es decir, para cada subgrupo que se encuentre a una distancia mayor a este
parámetro son puestos en diferentes clústers.
El Paso 5 nos permite elegir el tipo de coloreado de los datos, por defecto se utiliza un espectro de azul a rojo, donde
azul determina el valor más pequeño brindado por el ltro y el rojo determina el valor más alto. Se pueden introducir
diferentes métodos de coloreado, por ejemplo que se base en la altura de la coordenada z de los puntos.
Un ejemplo de esto, es la simulación de datos de una gura con forma de camello en 3D, la cual consta de 21887
puntos. En la gura 8 podemos ver en la segunda imagen cómo el algoritmo nos ayuda a explicar la estructura de la nube
de datos, en la cual se destacan las cuatro extremidades y con una mayor concentración de puntos en rojo, la cabeza.

14
16 T
20 A
Figura 2: Simulación y análisis Mapper de una gura 3 dimensional.
lio IM
Ju -CD
AT

15
Parte III

Análisis de características homológicas, geométricas y

de costo computacional

9. Contexto

La simulación base de variables aleatorias en el círculo, la esfera y el toro están fundamentadas en la teoría presentada
para este n en el Capítulo 4 de las notas del curso. La simulación de los elementos mostrados a continuación toman las
ideas de simulación base y se hacen combinaciones de ellas, así como un par de variantes que se detallan en cada uno de los
casos presentados. Mostraremos la nube de datos, así como los códigos de barra respectivos a los cálculos de la homología
persistente para los complejos simpliciales generados en la muestra mediante las ltraciones: Vietoris-Rips, testigo fuerte
y testigo débil, cuyos detalles se dan en los Capítulos 1 y 2 de las notas de clase, así como en la Parte I de este proyecto.
Los grafos mostrados al nal de cada grupo de imágenes corresponden a la salida que entrega el algoritmo Mapper en
dimensión 1. También, se muestra una tabla que resume la interpretación sobre huecos de hasta dimensión 2 en el caso
de los algoritmos simpliciales Vietoris-Rips y Testigo, mientras que para Mapper tenemos sólo la capacidad de visualizar

16 T
características geométricas de dimensión 1 puesto que el software Python Mapper que utilizamos se encuentra en fase de
desarrollo y aún faltan muchas cosas por ser implementadas en el mismo. En esta misma tabla, se anexan los tiempos de

20 A
ejecución de cada uno de los algoritmos para comparativa entre ellos mismos, de modo que se pueda percibir en cada caso
cuál de los algoritmos tienen un mejor comportamiento en el sentido de costo computacional. Nos referimos a los huecos
de dimensión 1 como ciclos y a los dimensión 2 como vacíos, tal cual es acostumbrado en la literatura de ATD.
lio IM
Los encabezados en cada subtipo de simulación que mostraremos a continuación se rigen de la siguiente manera:
N(0,1) Con esto indicamos que cada una de las componentes Xi del vector Xd = (X1 , ...Xd ) tienen una distribución N (0, 1)
N(0,Σ),ρ En este caso, la matriz Σ tiene sobre su diagonal valores iguales a 1, mientras que fuera de la diagonal nos muestra la correlación que
existe entre cada par de variables, donde el(los) valor(es) ρ nos indican tal correlación. De manera particular, en el caso de el toro T2 , la
Ju -C

correlación ρ es en cada elemento simulado en las componentes S1 del producto S1 × S1 .


GUE Este caso, las componentes de la variable Xd son los valores propios de una matriz aleatoria del tipo GUE, de las cuales sus características
se detallan en el Capítulo 4 de las notas de clase.
Cauchy(0,a) En este caso, las componentes del vector Xd se distribuyen de manera independiente Cauchy(0, a), existen casos en donde sólo usamos
D

a = 1 (Toro y esfera).
A partir de estas simulaciones, se construye el vector R = (X1 /kXd k, . . . , Xd /kXd k) correspondiente a cada tipo de simulación. El tamaño
de muestra y el valor máximo de la ltración cuando usamos la ltración de Vietoris-Rips cambian respecto a la variedad
AT

que se este estudiando en cada caso, pues en ocasiones es necesario un valor menor o mayor dependiendo del tamaño de
las variedades. Para los casos de S1 utilizamos muestras de tamaño 500 pues estas describen de buena manera al círculo
unitario. Para S 2
utilizamos muestras de tamaño 1000 y para el T2 utilzaremos submuestras de tamaño 800 de una muestra
original de tamaño 1000. En el caso de los complejos testigo usamos la muestra completa de tamaño 1000 tanto para S2
y T2 . Los valores máximos de las ltraciones de Vietoris-Rips fueron 1,0.8 y 2 respectivamente para S , S y T . En el
1 2 2

caso de las ltraciones para los complejos testigo, el valor máximo de la ltración varia con respecto a la muestra, el cual
se calcula tomando una proporción de la distancia máxima existente entre los puntos de referencia y la nube de datos
completa.
Al pie de cada imagen indicamos si la muestra simulada tiene ruido añadido o no. En cada caso, el ruido es N (0, σId ),
donde d es la dimensión del espacio ambiente donde está encajada cada una de nuestras nubes de datos. Cabe aclarar
que en el caso del toro T2 , a pesar de que la simulación es de S1 × S1 cuya dimensión es 4, aplicamos un homeomorsmo
(aplicación que nos conserva la topología del espacio) sobre el toro T2 = S1 × S1 a R3 para poder visualizarlo. Dicho
homeomorsmo es:
f (x, y, w, z) = ((z + 2)x, (z + 2)y, w).
El fundamento teórico de Mapper está descrito también en la parte I de este proyecto, además en el análisis desarrollado
en esta simuliaciones, cuando nos referimos a las llamaradas estamos hablando de los grafos que no tienen ciclo (con forma
de ramas o brazos) y parten de una raiz común. El hecho de llamarlos así es una latinización de como Carlsson et al. [6] los
llaman en su artículo, se reeren a ellos como ares haciendo referencia a las erupciones solares. Para este mismo resumen,
estamos utilizando las primeras dos componentes de la descomposición SVD de la matriz de distancias de nuestras nubes
de datos simuladas
Cabe señalar que las interpretaciones realizadas en cada una de las simulaciones son a ojo, pues se trató de implementar
las bandas de conanza descritas tanto en la Parte I de este proyecto como en el Capítulo 5 de las notas de clase, pero no
tienen un buen comportamiento al implementarlas en los diagramas calculados mediante la ltración de Vietoris-Rips, aún

16
utilizando elección de un h óptimo en el caso de utilizar la función kernel en el comando bootstrapBand de la paquetría
TDA de R.
Las simulaciones con ruido se realizan utilizando el modelo

M + σZ, con σ>0 y Z ∼ N (0, Id )

10. Circulo unitario

10.1. N(0,1)

16 T
20 A
lio IM
Ju -CD
AT

Figura 3: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 1.22
Testigo débil(30) 1 1 2.15
Testigo fuerte(30) 1 1 0.65
Mapper(500) 1 1 0.22

Podemos observar que no es ningún problema para los 4 algoritmos el encontrar que se trata de una sola componente
conexa, con un ciclo de dimensión 1.
Particularmente, observamos que la ltración Vietoris-Rips encuentra un poco de ruido respecto a las componentes
conexas, pero ningún tipo de ruido al encontrar el hueco 1-dimensional. Mientras que ambos complejos testigo, tanto el

17
fuerte como el débil, a pesar de tener sólo una décima parte del tamaño de la muestra, encuentra en el primer instante la
homología del círculo unitario S1 .
Mapper es el más rápido de los 3 en encontrar dichas características.

10.2. N(0,1), ruido σ = 0.003

16 T
20 A
lio IM
Ju -CD
AT

Figura 4: Ruido N (0, 0.03)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 1.25
Testigo débil(30) 1 1 0.61
Testigo fuerte(30) 1 1 0.64
Mapper(500) 1 1 0.37

Al añadir un poco de ruido, notamos que el algoritmo Vietoris-Rips agrega bastante ruido topológico cercano a la
diagonal al calcular la persistencia del ciclo de dimensión 1; igualmente lo hacen ambos complejos testigo.
En el grafo que nos entrega de salida Mapper, observamos que detecta fácilmente el ciclo 1-dimensional, pero las
llamaradas que salen del grafo en color azul y rojo, denotan la existencia de una mayor concentración de puntos alrededor
de este color, como podemos notarlo en la representación arriba a la izquierda de la nube de puntos. Los pequeños puntos
del centro, son puntos en los que el algoritmo no pudo agruparlos en ninguno de los clústers creados.

18
10.3. N(0,1), ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 5: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 1.21
Testigo débil(30) 1 0 0.561
Testigo fuerte(30) 1 0 0.564
Mapper(500) 1 1 0.32

En este caso, al añadir un ruido más grande, observamos que el círculo que esperaríamos ver, se nota casi cerrado.
La ltración Vietoris-Rips encuentra casi cercana a la diagonal la persistencia de un ciclo 1-dimensional (aquí es donde
nos sería util la utilización de las bandas de conanza vistas en clase para poder determinar cuando algo cercano a la
diagonal es relevante para nuestro análisis).
En el caso de los complejos testigo, ambos encuentran rápidamente la componente conexa, pero se les diculta bastante
encontrar el agujero 1-dimensional, el que logran encontrar, en ambos casos, logra persistir hasta alrededor de 0.04.
En el último caso, Mapper logra detectar el hueco 1-dimensional, pero con más dicultad comparándolo con los dos
casos anteriores, las llamaradas más largas que salen en este caso de los extremos nos indican la evidente concentración
que tenemos alrededor de dicho hueco.

19
10.4. N(0,Σ), ρ = 0.95

16 T
20 A
lio IM
Ju -CD
AT

Figura 6: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 5.38
Testigo débil(40) 2 0 0.56
Testigo fuerte(40) 1 0 0.77
Mapper(500) 2 0 0.79

A pesar de que podemos ver una separación notoria en la parte superior izquierda en la representación de nuesta nube
de datos, la ltración Vietoris-Rips detecta en la homología sólo una componente conexa y un sólo ciclo, pero aquí cabe
destacar que de principio logra detectar 3 componentes conexas, las cuales a un tiempo aproximado a 0.3 se cubren dos de
éstas, dando paso a solo una componente conexa. Luego, cuando t = 0.5 aproximadamente, aparece el ciclo de dimensión
1 que persiste hasta el nal del valor máximo de nuestra ltración.
En el caso del complejo testigo débil, es capaz de detectar dos componentes conexas que persisten y ningún ciclo
de dimensión 1. El complejo testigo fuerte logra detectar dos componentes conexas pero rápidamente se unen cuando la
ltración está alrededor de 0.05.
Mapper logra detectar dos componentes conexas, cuyos colores nos indican cuál es cada una de estas componentes. La
gran cantidad de grafos pequeños que encontramos en la parte inferior son los puntos que se encuentran entre las que
Mapper considera como las dos componentes conexas, nuevamente podemos utilizar el color de los nodos para determinar
esto.

20
10.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 7: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 6.57
Testigo débil(40) 2 0 0.54
Testigo fuerte(40) 1 1 0.75
Mapper(500) 2 0 0.31

Al añadir ruido, podemos notar que el hecho de que las variables tengan dependencia nos genera una acumulación de
datos en el sentido de la recta identidad, cuestión que no fuimos capaces de detectar cuando no había ruido.
Pero nuevamente, a la ltración Vietoris-Rips se le complica detectar la separación de la cual hablábamos en el caso
anterior, misma que se da debido a la correlación de las variables. Esta algoritmo detecta al nal de la ltración sólo una
componente conexa y un ciclo de dimensión 1.
El complejo testigo débil logra detectar 3 componentes conexas de inicio, las cuales se van uniendo a otra componente
conexa con el paso del tiempo. Para el caso del complejo testigo fuerte, podemos ver que sólo encuentra una componente
conexa y es capaz de detectar un ciclo de dimensión 1.
Mapper logra detectar dos componentes conexas y ruido entre ellas, esto debido a la densidad que existe en cada uno
de los clusters deidos por el algoritmo.

21
10.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 8: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 6.72
Testigo débil(40) 1 0 0.63
Testigo fuerte(40) 1 0 0.65
Mapper(500) 1 1 0.28

En este caso podemos observar una clara distinción en dos grupos de datos en nuestra nube, a pesar de esto y
dada la cercanía que existe entre los dos conjuntos de datos, los 4 resúmenes topológicos son capaces de detectar una
sola componente conexa. También, todos los algoritmos son capaces de detectar un ciclo de dimensión 1, el cual muere
rápidamente por la distancia que existe entre los puntos. Las llamaradas largas que nalizan en naranja en el grafo de
Mapper nos indican cómo se da la concentración de datos y cómo se acumulan en una misma dirección.

22
10.7. GUE

16 T
20 A
lio IM
Ju -CD
AT

Figura 9: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 0.69
Testigo débil(30) 1 1 0.72
Testigo fuerte(30) 2 0 0.65
Mapper(500) 2 0 0.59

Para el presente caso, volvemos a notar como se concentran los datos en dos componentes y que existe una repulsión en
el la dirección y = x. En los 4 casos es posible detectar las dos componentes conexas. Claramente después de cierto tiempo
en las ltraciones de Vietoris-Rips y en el testigo debil se unen las dos componentes para formar un ciclo de dimensión
1, el cual no es detectado por el testigo fuerte. Debido a la técnica de clustering implementada en tiene Mapper, éste es
capaz de detectar ambas componentes conexas y ninguna especie de puente entre ellas. Podemos observar que en este
caso todas realizan los cálculos en tiempos similares.

23
10.8. GUE, ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 10: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 0.72
Testigo débil(30) 1 1 1.96
Testigo fuerte(30) 1 1 0.68
Mapper(500) 2 0 1.19

Similar al caso anterior, podemos observar que la ltración Vietoris-Rips detecta ambas componentes conexas y después
de un tiempo dado estas se vuelven una para formar además, el ciclo 1-dimensional que esperariamos ver en S1 .
El caso es ligeramente distinto para los complejos testigo, pues estos detectan una sola componente conexa desde el
principio de la ltración, misma que pasado un tiempo se cierra y forma el ciclo 1-dimensional descrito en el código de
barras.
Nuevamente, Mapper a pesar del ruido es capaz de detectar ambas componentes conexas y separa además el ruido que
hace de puente entre las dos componentes causante de que las ltraciones al calcular la homología detecten como si se
tratara de una sola.

24
10.9. GUE, ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 11: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 0.49
Testigo débil(30) 1 0 0.61
Testigo fuerte(30) 1 0 2.02
Mapper(500) 1 1 0.78

En esta situación, vemos que los 4 algoritmos detectan una sola componente conexa. El Vietoris-Rips logra captar el
agujero 1 dimensional del centro y persiste de manera considerable para ser considerado como característica de los datos.
Los complejos testigo logran captar una componente conexa desde el principio de la ltración y encuentran pequeños
ciclos 1-dimensionales, los cuales rápidamente mueren.
Por último, Mapper detecta también este ciclo, el cual nos hace ver que es pequeño a consideración de la densidad de
los datos y cómo estos se concentran en una dirección particular, por eso es que podemos observar esas llamaradas que
salen del ciclo en el grafo.

25
10.10. Cauchy(0,1)

16 T
20 A
lio IM
Ju -CD
AT

Figura 12: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 2.17
Testigo débil(40) 1 1 0.54
Testigo fuerte(40) 1 1 0.57
Mapper(500) 1 1 0.41

Este caso se comporta de una manera muy similar al primero de los mostrados, cuando las variables son N (0, 1). Al
igual que en ese caso, las ltraciones Vietoris-Rips y ambas testigo, captan inmediatamente las características topológias
que debería presentar el círculo: una componente conexa y un solo ciclo 1-dimensional. Como podemos notar en los
primeros 3 códigos de barras, el ruido encontrado en cada caso es mínimo e inmediatamente dan paso a los números de
Betti β0 = 1, β1 = 1.
En este ejemplo, hay una característica importante de que mencionábamos anteriormente que Mapper es capaz de
detectar, además de la componente conexa y el ciclo 1-dimensional, puede darnos detalle de cómo están concentrados los
datos alrededor de S1 . En el grafo podemos ver que los puntos de color más fuerte tanto para el azul y el rojo son de mayor
tamaño. El hecho de que los nodos vayan decreciendo en diámetro nos indica que hay una alta concentración de puntos en
los polos; éste último detalle es lo que distingue las nubes de datos provenientes de cocientes de normales independientes
y Cauchy independientes.

26
10.11. Cauchy(0,1), ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 13: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 7.08
Testigo débil(40) 1 1 0.62
Testigo fuerte(40) 1 1 0.54
Mapper(500) 1 1 0.56

Es ahora cuando podemos notar la diferencia descrita en el caso anterior. Es posible observar cómo la concentración de
datos se da alrededor de los polos y en cierta medida en lo que sería la intersección con el eje x, lo cual también se puede
notar en el grafo que nos otorga Mapper en conjunto con las llamaradas que son notorias en el mismo. En el caso de las 3
ltraciones restantes, podemos ver que son ecientes al encontrar la componente conexa y el ciclo 1-dimensional, efectiva-
mente se encuentran con ruido, pero este queda muy cercano a la diagonal en el diagrama de persistencia correspondiente
a la ltración Vietoris-Rips. Por último, para los complejos testigo el ruido encontrado es casi nulo.

27
10.12. Cauchy(0,1), ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 14: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 0 6.84
Testigo débil(40) 1 0 0.60
Testigo fuerte(40) 1 0 1.15
Mapper(500) 1 1 0.31

28
10.13. Cauchy(0,3)

16 T
20 A
lio IM
Ju -CD
AT

Figura 15: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 2.12
Testigo débil(40) 1 1 0.56
Testigo fuerte(40) 1 1 0.59
Mapper(500) 1 1 0.35

Vemos que este caso es parecido al Cauchy(0,1), con la diferencia de que ahora la concentración de los puntos aumenta
sobre la intersección del eje x. Podemos decir entonces que dicha concentración de los datos es sobre los puntos cardinales
de S1 . También es posible notar que tanto la ltración Vietoris-Rips, como las de los complejos testigo no tienen problema
alguno en detectar la única componente conexa, así como el hueco 1-dimensional.
Esta vez, es más evidente en el grafo arrojado por Mapper que hay una mayor concentración sobre los polos, así
mismo es posible notar concentración en los otros dos puntos cardinales. Esta concentración se ve aumentada conforme
incrementamos el valor de a en la distribución de Cauchy.

29
10.14. Cauchy(0,3), ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 16: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 1 7.22
Testigo débil(40) 1 1 0.57
Testigo fuerte(40) 1 1 0.59
Mapper(500) 1 1 0.56

A diferencia con respecto al caso sin ruido, podemos notar ruido topológico en el cálculo de la homología, el cual se ve
reejado en la ltración Vietoris-Rips. Para los complejos testigo el ruido topológico es apenas perceptible en la dimensión
1. Por último, en Mapper podemos notar la presencia de ruido por las llamaradas que salen del grafo y en una mayor
concentración sobre los nodos cercanos a estas.

30
10.15. Cauchy(0,3), ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 17: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(500) 1 0 7.17
Testigo débil(40) 1 0 0.64
Testigo fuerte(40) 1 0 0.84
Mapper(500) 1 1 0.30

Por último, vemos que como en los casos anteriores, es difícil para los algoritmos de los complejos simpliciales encontrar
el hueco 1-dimensional que logramos percibir a vista en la nube de datos. Mapper logra encontrar el ciclo, asi como la
concentración perceptible en mayor nivel alrededor de éste.

11. Doble anillo

11.1. N (0, 1)
Generamos dos juegos de variables independientes mediante la distribución cociente de normales que dan lugar a la
distribución uniforme en S1 . Cada muestra es de tamaño n = 5000. Cabe destacar que ambos anillos no se tocan de alguna
manera.

31
16 T
20 A
lio IM
Ju -CD
AT

Figura 18: Sin ruido

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(2000) 2 2 17.05
Testigo débil(150) 2 2 4.17
Testigo fuerte(150) 2 2 28.84
Mapper(10000) 2 2 4.77

Para este caso, podemos ver cómo ninguna de las ltraciones, ni el algoritmo Mapper tienen problemas para detectar
dos componentes conexas y dos ciclos 1-dimensionales. En el caso Vietors-Rips, los puntos que representan tanto a las
componentes conexas, como a los 1-ciclos están sobrepuestas en el diagrama de persistencia respectivo.
Una de las diferencias destacables es que el tiempo de cálculo en los complejos testigo es mucho menor. Además, para
poder calcular la homología en el caso de la ltración Vietoris-Rips, fue necesario tomar una submuestra de tamaño 2000,
esta muestra fue tomada de forma aleatoria. Mapper no tiene ningún problema en manejar la muestra completa, esto
debido a los algoritmos de agrupamiento utilizados y la simplicidad de grafo calculado.

32
11.2. N (0, 1), ruido σ = 0.002

16 T
20 A
lio IM
Ju -CD
AT

Figura 19: Ruido N (0, 0.002I3 )

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(2000) 2 2 26
Testigo débil(150) 2 2 14.9
Testigo fuerte(150) 2 2 17.51
Mapper(10000) 2 2 4.29

Nuevamente, ninguno de los algoritmos tuvo problema en detectar las dos componentes conexas y los dos ciclos. En esta
ocasión el tiempo de cálculo en el testigo débil se triplicó y el tiempo en el cálculo de la ltración Vietoris-Rips también se
vió incrementado por casi 10 segundos, esto puede deberse a la presencia del ruido, lo que hace que se encuentren mucho
más simplejos durante la ltración. Mapper mantiene su posición y realiza el cálculo de manera muy rápida comparado
con los otros 3 métodos, encontrando las mismas características que la vez anterior a ésta.

33
11.3. N (0, 1), ruido σ = 0.009

16 T
20 A
lio IM
Ju -CD
AT

Figura 20: Ruido N (0, 0.009I3 )

Algoritmo Componentes conexas Ciclos Tiempo (segs.)


Vietoris-Rips(000) 1 3 14.07
Testigo débil(150) 1 3 18.19
Testigo fuerte(150) 1 3 109.08
Mapper(10000) 1 3 6.2

En este caso, podemos notar que los cuatro métodos son capaces de encontrar una sola componente conexa y localizan
tres ciclos, esto puede deberse a que en la presencia de ruido grande, los dos anillos casi se tocan, por lo que es difícil
para los algoritmos notar que se trata de componentes conexas distintas, además, dicha unión crea los tres 1-ciclos que
detectan las distintas ltraciones.

34
12. Esfera unitaria

12.1. N(0,1)

16 T
20 A
lio IM
Ju -CD
AT

Figura 21: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 1 44.36
Testigo débil(100) 1 0 1 1.47
Testigo fuerte(100) 1 0 1 1.32
Mapper(1000) 1 0 - 0.77

Al igual que como se ha presentado hasta el momento en las muestras sin ruido, tanto las ltraciones Vietoris-Rips
como las testigo débil y fuerte, son capaces de encontrar la componente conexa y el vacío 2-dimensional que representan
homológicamente a la esfera S2 . Aunque podemos ver que, tanto la ltración Vietoris-Rips, como la del complejo tes-
tigo testigo fuerte, encuentran ruido topológico 1-dimensional, pero este persiste poco tiempo para ser considerado una
propiedad topológica relevante de la muestra.
Como mencionamos al principio, uno de los problemas que tenemos actualmente con el algoritmo Mapper, es que no
podemos mostrar aún propiedades homológicas 2-dimensionales, sólamente somos capaces de mostrar la estructura de los
datos, que en este caso sólo nos dice que se trata de una componente conexa, y debido a que cada grupo generado mediante
el agrupamiento, todos son del mismo tamaño, esto puede se debe a la uniformidad con la que se generaron los datos en
la esfera.

35
12.2. N(0,1), ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 22: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 1 44.36
Testigo débil(100) 1 0 1 2.22
Testigo fuerte(100) 1 0 1 2.6
Mapper(1000) 1 0 - 0.67

En esta situación, podemos notar que la presencia de ruido 1-dimensional se comporta de manera similar al caso en
el que no teníamos ruido añadido a la muestra, pero el ruido topológico de dimensión 2 aumenta bastante, aunque este
se encuentra muy cerca de la diagonal. Este ruido 2-dimensional casi no es detectado por los complejos testigo, pero en el
caso del testigo débil se ve aumentada la actividad del ruido 1-dimensional. Para Mapper, el resultado de salida no se ve
perturbado en comparación al caso anterior.

36
12.3. N(0,1), ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 23: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 0 13.63
Testigo débil(100) 1 0 0 16.1
Testigo fuerte(100) 1 0 0 19.11
Mapper(1000) 1 0 - 0.92

Al aumentar el tamaño del ruido, vemos que la esfera se ve colapsada en una sola nube de puntos aglomerados, lo
cual detectan los algoritmos de complejos simpliciales. Podemos notar una mayor presencia de ruido 1 y 2 dimensional en
todos los casos, pero dicha presencia es mucho más evidente en el caso del Vietoris-Rips. También, podemos notar que en
esta situación el tiempo del cálculo se ve disminuido en el VR a comparación del caso anterior. En esta situación, Mapper
nos describe muy poco de la estructura de nuestros datos dada la naturaleza del algoritmo.

37
12.4. N3 (0, Σ), ρ = (0.9, 0.5, 0.8)

16 T
20 A
lio IM
Ju -CD
AT

Figura 24: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Testigo débil(100) 1 2 0 16.1
Testigo fuerte(100) 1 2 0 19.11
Mapper(1000) 1 4 - 0.92

Para esta situación, sólo corrimos el análisis para Mapper y los complejos testigo, pues en el caso de la ltración Vietoris-
Rips fue imposible para el equipo de cómputo en el que estamos trabajando realizar los cálculos de la homología. Para
los casos que presentamos, podemos ver que encuentran una sola componente conexa, así como 2 ciclos 1-dimensionales.
También podemos ver que todos los algoritmos encuentran presencia de más ruido 1-dimensional.

38
12.5. GUE

16 T
20 A
lio IM
Ju -CD
AT

Figura 25: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 1 0 138.82
Testigo débil(100) 1 1 0 3.46
Testigo fuerte(100) 1 1 0 2.19
Mapper(1000) 2 0 - 0.63

A pesar de lo que podemos ver en la representación gráca de la nube de puntos, la ltración Vietoris-Rips detecta una
sola componente conexa además de un ciclo 1-dimensional, aunque podemos observar que existen 3 puntos que podríamos
considerar relevantes además del que persiste hasta el nal de la ltración.
Los complejos testigo no son capaces más que de detectar una sola componente conexa, pero aquí podemos ver que se
encuentran un número mayor de 1-ciclos que persisten un buen tiempo en la ltración. También, podemos ver que estas
ltraciones notan que la esfera no está cerrada, ya que no encuentran algún vacío de dimensión 2.
Por último, Mapper no detecta ciclos uno dimensionales como tal, si no que podríamos considerarlos como ruido al ser
demasiados pequeños, podemos ver que detecta dos componentes conexas, una probable explicación de las 3 llamaradas
en cada grafo, es que podrían ser cada uno de los gajos que podemos ver y que estas posibles dos componentes conexas se
vean separadas por donde hay una mayor repulsión, al centro de la esfera.

39
12.6. GUE, ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 26: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 0 138.82
Testigo débil(100) 1 0 1 5.63
Testigo fuerte(100) 1 0 0 4.81
Mapper(1000) 2 0 - 0.73

En esta situación podemos observar de manera visual como es que los gajos que podíamos ver anteriormente, comparten
puntos entre ellos, razón por la cual es aún más difícil para los algoritmos simpliciales detectarlos, detalle que podemos
observar en los códigos de barras asociados a cada ltración. Nuevamente podemos ver que los tres algoritmos simpliciales
detectan al menos un ciclo de dimensión 1 al nal de la ltración, pero también se detecta mucho más ruido de esta
dimensión, mientras que para dimensión 2, el ruido es casi imperceptible en los 3 casos.
En el caso de Mapper, podemos observar cómo se fusionan las dos componentes conexas detectadas anteriormente,
pero dicho puente entre ellas es débil y apenas contiene puntos en común, cosa que podemos observar en el tamaño de
los vértices centrales, esto indica una baja densidad en cada uno de estos grupos; así mismo, somos capaces de observar
nuevamente al menos 4 llamaradas.

40
12.7. GUE, ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 27: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 1 0 27.63
Testigo débil(100) 1 0 0 5.86
Testigo fuerte(100) 1 0 0 19.13
Mapper(1000) 1 0 - 0.85

En este caso, podemos ver cómo los gajos que observamos anteriormente ya no existen, se han unido todos como
una sola componente conexa y por tanto en esta ocasión los 3 algoritmos simpliciales alcanzan a detectar ruido de hasta
dimensión dos, habiendo algunos que persisten fuertemente. También notemos en el Diagrama de Rips que se encuentran
muchas más componentes conexas que las que podría detectar cualquiera de los otros algoritmos. Mapper sólo alcanza a
notar una componente conexa, en cuyo caso el comportamiento del grafo es similar a los correspondientes formados por
las esferas que hemos simulado hasta ahora.

41
12.8. Cauchy(0,1)

16 T
20 A
lio IM
Ju -CD
AT

Figura 28: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 1 130.83
Testigo débil(100) 1 0 1 1.7
Testigo fuerte(100) 1 0 1 2.33
Mapper(1000) 1 0 - 0.69

Para el caso Cauchy, podemos observar claramente tanto en las ltraciones Vietoris-Rips como ambas de los complejos
testigo cómo es que se detectan una sola componente conexa y un vacío 2-dimensional tal cual se tratase de una esfera,
pesar de que estos algoritmos detectan ruido 1-dimensional. Mapper es capaz de detectar cómo se da la concentración en
los puntos cardinales de la esfera, es por eso que podemos ver llamaradas con un centro en común y cuyas puntas se ven
cargadas con una mayor densidad de puntos.

42
12.9. Cauchy(0,1), ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 29: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 1 98.17
Testigo débil(100) 1 0 1 3.49
Testigo fuerte(100) 1 0 1 2.01
Mapper(1000) 1 0 - 0.73

En esta ocasión, podemos ver cómo las características homológicas detectadas por los 3 algoritmos simpliciales tienen
un comportamiento similar a la situación anterior, pero Mapper nos indica cómo se crea un nuevo grupo de concentración
de puntos en la esfera.

43
12.10. Cauchy(0,1), ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 30: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 0 19.63
Testigo débil(100) 1 0 0 4.68
Testigo fuerte(100) 1 0 0 2.47
Mapper(1000) 1 0 - 0.64

Al igual que en el caso GUE, podemos ver cómo se cierra la esfera en una nube densa de puntos que, para la ltración
Vietoris-Rips es imposible detectar más allá de una componente conexa, sólo ruido 1 y 2 dimensional, cuyo comportamiento
comparte con las ltraciones de los complejos testigo débil y fuerte. Igualmente, Mapper sólo alcanza a detectar un
comportamiento similar al de una esfera, salvo que no podríamos decir más pues como hemos estado mencionando, somos
incapaces de inferir características homológicas de dimensión 2 o mayor.

13. Toro

En cada uno de los casos que presentamos a continuación, se cambió la organización de los resúmenes topológicos. La
imagen de la nube de datos a la izquierda corresponde al grafo superior y la imagen de la nube de datos a la derecha
corresponde al grafo inferior. Así mismo, el cálculo de la homología mediante la ltración Vietoris-Rips se realizó con una
submuestra de tamaño 800.

44
13.1. N(0,1)

16 T
20 A
lio IM
Ju -C

Figura 31: Sin ruido


D

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


AT

Vietoris-Rips(800) 1 2 1 1060.79
Testigo débil(100) 1 2 1 3.42
Testigo fuerte(100) 1 2 1 1.12
Mapper(1000) 1 2 - 0.79

Podemos ver que Mapper es capaz de localizar una componente conexa y los dos ciclos de dimensión 1. Igualmente,
los complejos testigo detectan una componente conexa, dos ciclos de dimensión 1 y un vacío 2 dimensional, aunque en
el caso del testigo débil, podemos ver que el vacío 2 dimensional aparece casi al nal de la ltración y su persistencia es
corta hasta ese instante. Así mismo, podemos ver que se ubica bastante ruido 1 dimensonal en ambos complejos testigo,
pero con mayor presencia en el testigo fuerte.

45
13.2. N(0,1), ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD

Figura 32: Ruido N (0, 0.005)


AT

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(800) 1 2 1 1092.66
Testigo débil(100) 1 2 1 1.37
Testigo fuerte(100) 1 2 1 0.89
Mapper(1000) 1 2 - 0.67

En este caso, ninguno de los algortimos tiene problemas en detectar la única componente conexa, los dos agujeros 1
dimensionales así como el vacío 2 dimensional respectivos del toro. Podemos notar en los tres algoritmos simpliciales que
existe ruido, pero en el caso de Vietoris-Rips este se encuentra bastante cercano a la diagonal, mientras que para ambas
ltraciones testigo se tiene bastante ruido 1 dimensional que persiste casi hasta la mitad de la ltración. En el caso de
Mapper, es capaz de detectar ambas componentes conexas, así como los dos agujeros 1 dimensionales.

46
13.3. N(0,1), ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD

Figura 33: Ruido N (0, 0.1)


AT

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(800) 1 0 0 716.3
Testigo débil(100) 1 0 0 1.99
Testigo fuerte(100) 1 0 0 1.14
Mapper(1000) 1 0 - 0.88

Como es de esperarse, ninguno de los algoritmos es capaz de detectar los ciclos, esto debido a cómo se cierra la nube de
puntos. Vietoris Rips tampoco detecta más que ruido en el caso 2 dimensional, pero podemos notar varias componentes
de este tipo que pueden ser consideradas relevantes en ambas ltraciones testigo, también, estas mismas nos muestran
bastante ruido 1 dimensional en la persistencia. Todos los algoritmos son capaces de detectar una sola componente conexa.
Mapper no detecta esta vez algún ciclo.

47
13.4. N (0, Σ), ρ = 0.9

16 T
20 A
lio IM
Ju -CD
AT

Figura 34: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(800) 1 2 1 1411.11
Testigo débil(100) 1 2 1 3.29
Testigo fuerte(100) 1 5 0 12.98
Mapper(1000) 1 2 - 0.65

En este caso, podemos ver que Mapper es capaz de detectar una sola componente conexa, dos ciclos grandes y
alrededor de 4 ciclos más pequeños pequeños. Mientras que Vietoris Rips detecta una sola componente conexa, 1 ciclo que
es notable, pero también logra percibir otros 3 ciclos cuya persistencia es menor pero destacable tanto en el diagrama de
persistencia como en el código de barras. En el caso de los complejos testigo, podemos ver que el débil alcanza a detectar
una componente conexa, dos ciclos de mayor persistencia, pero alrededor de 3 ciclos más cuya persistencia es notoria en
el código de barras, mientras que en el fuerte además de una componente conexa, podemos ver que al nal de la ltración
persisten 5 ciclos pero son notorios alrededor de 5 más a lo largo de la ltración.

48
13.5. N (0, Σ), ρ = 0.9, ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 35: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(800) 1 2 1 1375.27
Testigo débil(100) 1 2 1 0.88
Testigo fuerte(100) 1 6 0 1.26
Mapper(1000) 1 2 - 0.66

Mapper detecta una componente conexa con bastante ruido alrededor de ella, dos ciclos grandes y otros dos ciclos
más pequeños, así mismo podemos notar una concentración mayor en la parte central y en una de las laterales misma
que se alcanza a apreciar tanto en el coloreado de los nodos como en el tamaño de los mismos. Vietoris-Rips deecta al
nal de la ltración una componente conexa pero alrededor de 4 0 5 ciclos destacables, aunque es más difícil determinar
cuantos vacíos podemos considerar relevantes en la ltración. Los complejos testigo detectan ambos una sola componente
conexa, pero mientras el débil detecta dos ciclos destacables y un vacío 2 dimensional, el complejo testigo fuerte detecta
al menos 5 ciclos 1 dimensionales.

49
13.6. N (0, Σ), ρ = 0.9, ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 36: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 0 897.52
Testigo débil(100) 1 0 0 2.09
Testigo fuerte(100) 1 0 0 1.34
Mapper(1000) 1 0 - 0.82

Cuando añadimos ruido cuyo valor es σ = 1, podemos ver como se cierra la nube de puntos en una sola componente
conexa, situación que podemos observar en los resúmenes que tenemos de cada uno de los métodos. Nuevamente, los
algoritmos simpliciales correspondientes a los complejos testigo además de la única componente conexa, detectan bastante
ruido 1 dimensional que persiste bastante tiempo en la ltración, así como dos vacíos que persisten un buen lapso de
tiempo en el testigo débil, mientras que para el fuerte también detecta al menos 3 vacíos que persisten una cantidad
similar de tiempo en la ltración. En el caso de Mapper se detecta una sola componente conexa, pero cuando utilizamos
el segundo valor de la SVD podemos ver cómo el ciclo aquí presente se ve afectado por ruido.

50
13.7. GUE

16 T
20 A
lio IM
Ju -CD
AT

Figura 37: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 2 0 332.86
Testigo débil(100) 1 7 1 1.23
Testigo fuerte(100) 1 4 0 0.84
Mapper(1000) 1 2 - 0.68

Similar a los casos anteriores, podemos ver en el algoritmo Vietoris Rips que solo detecta una componente conexa
y en las demás dimensiones solo ruido que podríamos considerar irrelevante. En el caso de los complejos testigo, ambos
detectan una componente conexa y ruido 2 dimensional que persiste durante buena parte de la ltración, mientras que
para el ruido 1 dimensional, se tiene un comportamiento similar a casos anteriores, vemos que se detecta bastante y hay
algunos ciclos que persisten durante bastante tiempo en la ltración.

51
13.8. GUE, ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 38: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 2 0 367.48
Testigo débil(100) 1 7 0 1.21
Testigo fuerte(100) 1 2 0 0.81
Mapper(1000) 1 1 - 0.87

En este caso podemos ver cómo Mapper detecta al menos 5 ciclos pequeños y uno de tamaño un poco mayor, así como
una sola componente conexa. Los tres algoritmos simpliciales detectan una sola componente conexa. En el caso de Vietoris
Rips, podemos ver que se encuentran 2 ciclos que podríamos considerar destacables, pero ningún vacío. En los casos de
los complejos testigo, ninguno de los detecta algún vacío, pero si encuentran bastantes ciclos 1 dimensionales que son más
fáciles de ver en el código de barras correspondiente al complejo testigo débil.

52
13.9. GUE, ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 39: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 0 250.96
Testigo débil(100) 1 0 0 1.57
Testigo fuerte(100) 1 0 1 1.24
Mapper(1000) 1 0 - 0.85

A pesar de que todos los algoritmos nos dicen que se encuentra una sola componente conexa, podemos notar de manera
visual en la representación de nuestra nube de puntos la ligera separación que crean las variables GUE al centro de la
misma. Nuevamente, todos los algoritmos simpliciales detectan bastante ruido 1 y 2 dimensional, pero al igual que en los
casos anteriores, los complejos testigo presentan mucho mayor ruido de estas dimensiones que persiste periodos más largos
en proporción al tiempo total de la ltración.

53
13.10. Cauchy(0,1)

16 T
20 A
lio IM
Ju -CD
AT

Figura 40: Sin ruido

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 2 1 298.814
Testigo débil(100) 1 2 0 1.19
Testigo fuerte(100) 1 2 1 0.84
Mapper(1000) 1 2 - 0.95

Como hemos visto hasta ahora en los casos para S1 y S2 , cuando simulamos variables independientes Cauchy(0,1), el
comportamiento es similar al caso en el que tenemos variables normales independientes de media µ=0 y varianza σi = 1,
cuestión que podemos notar cierta limpieza, tanto del código de barras como el diagrama de persistencia en la ltración
Vietoris-Rips. Sin embargo, podemos ver cómo en el caso de las ltraciones testigo, se encuentra un alto número de ciclos
que consideramos como ruido pero de alguna manera nos indican alguna anormalidad en los datos, en comparación con
la distribución uniforme sobre la esfera. En el caso de Mapper podemos ver cómo se extienden las llamaradas en ambas
proyecciones sobre los primeros vectores propios.

54
13.11. Cauchy(0,1), ruido σ = 0.005

16 T
20 A
lio IM
Ju -CD
AT

Figura 41: Ruido N (0, 0.005)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 2 1 285.94
Testigo débil(100) 1 2 0 1.21
Testigo fuerte(100) 1 2 1 0.83
Mapper(1000) 1 2 - 0.71

En este caso, es mucho más perceptible para Mapper la concentración en al menos dos puntos de T2 , cosa que sigue
pasando desapercibida para la ltración Vietoris-Rips. Nuevamente podemos ver alta presencia de ruido 1 dimensional en
ambos complejos testigo, además el testigo débil no logra notrar la presencia del vacío 2 dimensional que tanto la fuerte
como la Vietoris-Rips detectan.

55
13.12. Cauchy(0,1), ruido σ = 0.1

16 T
20 A
lio IM
Ju -CD
AT

Figura 42: Ruido N (0, 0.1)

Algoritmo Componentes conexas Ciclos Vacíos Tiempo (segs.)


Vietoris-Rips(1000) 1 0 0 227.2
Testigo débil(100) 1 0 0 1.86
Testigo fuerte(100) 1 0 0 1.8
Mapper(1000) 1 0 - 0.6

Este caso no es diferente a sus análogos en las demás situaciones de simulación, tanto Mapper como Vietoris Rips son
incapaces de detectar ciclos 1 y 2 dimensionales, encontrando este último bastante ruido en estas dimensiones. Ambas
ltraciones testigo detectan bastante ruido 1-dimensional, además de la única componente conexa que sus otras dos
contrapartes, pero en esta situación el ruido persiste una cantidad de tiempo mucho más corta que lo que hemos venido
viendo en comportamiento hasta ahora para todos los casos del Toro; también, las ltraciones testigo pueden detectar al
menos 2 vacíos 2 dimensionales que persisten bastante tiempo.

56
Parte IV

Observaciones y conclusiones

En este proyecto, como el lector pudo haberlo constatado, estamos trabajando con escenarios que están bajo nuestro
control, pues como se comenta en la parte introductoria al Capítulo 4 de las notas, nos permite analizar los métodos
presentados en el curso ante supuestos alternativos. Así mismo, sabemos qué tipo de información homológica y geométrica
deben entregarnos los algoritmos, de modo que el análisis explotatorio realizado en la Parte III nos sirvió como guía para
determinar de buena manera tamaños de submuestra que hagan ecientes nuestros cálculos y que además preserven la
forma de los datos.
A continuación mencionamos algunos detalles que encontramos sobre el algoritmo simplicial de Vietoris-Rips imple-
mentado en la paquetería TDA de R.
El cálculo de la homología mediante la ltración de Vietoris-Rips implementada en la paquetería TDA de R, muy
particularmente para el toro T2 , pudimos ver que una muestra de tamaño menor a 800 puntos, se comporta de una
manera amigable con el equipo de cómputo, mientras que para muestras de tamaño mayor a este número, el sistema
operativo se queda sin recurso suciente para seguir funcionando. Cabe aclarar que el tamaño de la ltración estaba en 2,
pues antes de esto no captaba algunas características homológicas que debíamos esperar. Así pues, además del tamaño de

16 T
muestra, también inuye bastante tanto el tamaño de la ltración, como la dimensión en la que se calcula la homología.
De modo que tuvimos que buscar hacer combinaciones entre tamaño de muestra y de la ltración, de forma tal que los
recursos computacionales no se vieran fuertemente afectados.

20 A
En el caso de la esfera, el algoritmo de Vietoris-Rips no tiene problema en calcular la homología para una nube de
datos de tamaño 1000. A diferencia del toro, el valor de la ltración de 0.7 captura todas las características homológicas
lio IM
de S2 . Así pues, como mencionamos en el párrafo anterior, es posible encontrar una combinación en equilibrio entre el
tamaño de muestra y el valor máximo de la ltración.
Al realizar los cálculos sobre el círculo unitario S1 , dada su baja dimensión, el algoritmo no tiene complicaciones en
trabajar con muestras de tamaño 1000 o superior, tomando en cuenta que el valor máximo de la ltración era a lo más 1.
Ju -C

Cuando agregamos ruido pequeño a nuestra nube de datos, pudimos observar que la detección de las características
homológicas en rara ocasión se vió afectada, pues el comportamiento en los códigos de barras y en los diagramas de
persistencia se mantiene de manera similar, salvo ruido topológico que podríamos considerar despreciable. De tal modo
que es necesario implementar bandas de conanza para distinguir características reales de ruido topológico. También, para
D

cada caso, cuando añadimos ruido más grande, pudimos notar como las características detectadas para los casos sin ruido
y con ruido pequeño se perdían la mayoría de las veces.
AT

En cambio, cuando hacemos uso de los complejos testigo tenemos un comportamiento en costo computacional diferente.
En el caso del círculo unitario S1 bastó tomar una selección de puntos de referencia no mayor a tamaño 40 para que éste
capturara las características homológicas particulares de esta variedad. En el caso de la esfera S2 y el toro T2 , la selección
de puntos de referencia siempre fue ja en 150 puntos, en ambos casos, el algoritmo detectaba de manera eciente las
características homológicas de interés en los casos sin ruido e incluso con ruido pequeño. Al añadir ruido grande, el
algoritmo tenía un comportamiento similar al VR en el sentido de que las características homológicas se perdían, pues no
era capaz de detectarlas. El tiempo de ejecución de los complejos testigo es mucho menor en comparación al Vietoris-Rips
en el caso de muestras grandes, pero hay ocasiones en las que no es capaz de detectar de manera correcta las características
homológicas, esto puede deberse al tamaño del conjunto de puntos de referencia tomado. Nótese también que los valores
en estas ltraciones varian con respecto a la muestra, pues como indicamos en la Parte III, al presentar los complejos
testigo, es necesario un valor pequeño en la ltración para capturar de manera eciente las características que describen
a cada variedad, este valor de la ltración fue tomado en función de la distancia máxima que existe entre los puntos de
referencia y la nube de datos completa.
A pesar de la eciencia en tiempo comparado ante los otros dos métodos, una de las problemáticas principales que
tenemos con Mapper es que estamos restringidos sólo a detectar huecos de dimensión 0 y 1, esto debido a que el software
se encuentra aún en fase de desarrollo. Se intentó modicar el código madre del software para tratar de implementarlo en
huecos de dimensión 2, pero esa situación va más allá de los alcances pretendidos en este proyecto así como del curso.
Mapper es bastante bueno al ser utilizado como herramienta complementaria a los resúmenes topológicos presentados
en este proyecto, pues nos permite darnos una idea de las estructura de los datos, así como posibles concentraciones
anormales de datos en las variedades. Así mismo, los complejos testigo también pueden ayudar como una segunda
opinión a lo obtenido mediante la ltración Vietoris-Rips.
Una de las cosas que también se estuvo trabajando en este proyecto, es en la eliminación de datos aberrantes (outliers)
de las muestras, pero no se reporta debido a que su funcionamiento no es eciente, pues suceden dos cosas, o elimina
demasiados puntos de modo que se pierden las características homologícas y geométricas de los datos, o elimina muy

57
pocos puntos de tal manera que las características aberrantes tanto geométricas como homológicas se mantienen.
Nota: Todas las simulaciones se corrieron bajo un procesador x6 a 3.5GHz con 16GB de memoria RAM hasta los
casos de la esfera. Para el toro sólo pudimos realizar los cálculos con estas características para los complejos testigo y para
Mapper. En el caso de la ltración de Rips fue imposible realizar los cálculos de la homología para una nube de puntos
mayor a 800, para la cual incluso el tiempo de cómputo fue bastante grande (más de 1 hora para cada uno), razón por la
cual decidimos usar el la estación de trabajo del proyecto de ATD. Incluso el servidor del proyecto de ATD fue incapaz de
realizar los cálculos para las nubes de puntos de tamaño 1000 en un tiempo no menor a 1 hora con 20 minutos. Las razones
descritas anteriormente nos llevo a realizar los cálculos de la homología tomando submuestras de tamaño 800 corriéndolos
en la estación de trabajo, en promedio les tomó alrededor de 20 a 30 minutos cada uno en realizarse. Dependiendo del
número de puntos y de la distribución con la que se generaron las muestras, la cantidad de memoria RAM que utilizaba
el algoritmo se veía bastante alterada, llegando a consumir un 80 % de la totalidad de memoria del servidor cuando las
muestras eran de tamaño 1000 y estaban sobre variedades donde la distribución no era uniforme. Cabe señalar que las
características del servidor del proyecto de ATD del CIMAT son las siguientes: 2 procesadores x6 a 3.4GHz con 128GB de
memoria RAM . Así pues, creemos que el algoritmo de TDA implementado en R tiene algunos problemas de optimización,
de modo que un posible camino sería explorar de manera particular el algoritmo GUDHI el cual está implementado por
el grupo de INRIA y compilado bajo librerías de C + +.

16 T
Cosas por hacer:

20 A
Se requiere optimizar la paquetería TDA de R, pues utiliza bastante recurso de memoria y procesamiento a tal grado
que inutiliza el sistema operativo.
lio IM
Explorar de manera individual las paqueterías Dyonisus, DIPHA y GUDHI que se incluyen en la paquetería TDA
de R, pues al estar implementadas en C ++ posiblemente tengan una mayor eciencia.

Implementar de manera eciente bandas de conanza a la ltración de Vietoris-Rips en paquetería TDA de R,


Ju -C

ya que al aplicarlas de la manera en que están desarrolladas actualmente es posible inferir de manera errónea las
características homológicas.

Aplicar teoría estadística para interpretar la relevancia de características geometrícas brindadas por Mapper, ya
D

que existen muchas características detectadas en el algoritmo que podrían ser consideradas como ruido. Un posible
camino sería aplicar técnicas de bootstrap y calcular un p−valor sobre la hipótesis de un número determinado
de características geométricas, de dimensión 1, por ejemplo, herramientas que ya se han utilizado en las otras
AT

metodologías de TDA, como por ejemplo en diagramas y panoramas de persistencia, como se muestra en el capítulo
5 de las notas.

Mejorar o reescribir el código de Python Mapper para poder obtener características geométricas de dimensión
mayor, pues como lo mencionamos en el desarrollo del proyecto, sólo podemos obtener características geométricas
de dimensión 0 y 1.

En base al punto anterior, aplicar técnicas de homología a los simplejos generados por el algoritmo para encontrar
características homológicas.

Eliminación eciente de ruido grande u outliers en la muestra, mediante una elección óptima del radio de la vecindad
sobre cada uno de los puntos de la nube de datos, así como de la cantidad de observaciones contenidas en ésta, de
modo que tales puntos sean signicativos en la muestra.

Profundizar con mayor detalle todos los casos presentados en este proyecto al cambiar tamaños de muestra, así
como otros tipos de ruido agregado a las variedades. Esto, con la nalidad de encontrar otras posibles combinaciónes
tamaño-valor de ltración, que hagan ecientes los cálculos.

58
Referencias

[1] H. Adams, A. Tansz, Javaplex Tutorial,http://www.math.colostate.edu/~adams/research/javaplex_tutorial.


pdf, 2009.

[2] V. De Silva, G. Carlsson, Topological estimation using witness complexes, Proc. Sympos. Point-Based Graphics,
157-166, 2004.

[3] J.W. Demmel, Applied Numerical Linear Algebra, SIAM, 1997.

[4] B.T. Fasy, J. Kim, F. Lecci, C. Maria, Introduction to the R package TDA.arXiv preprint arXiv:1411.1830, 2014.

[5] D. Müllner, A. Babu, Python Mapper: An open-source toolchain for data exploration, analysis and visualization,
http://danifold.net/mapper, 2013.

[6] G. Singh, F. Mémoli, G. Carlsson, Topological methods for the analysis of high dimensional sets and 3D object
recognition, SPBG, 91-100, 2007.

16 T
20 A
lio IM
Ju -CD
AT

59

También podría gustarte