Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Investigación en
Matemáticas, A.C.
PERSISTENCIA, PROBABILIDAD
E INFERENCIA ESTADÍSTICA PARA
ANÁLISIS TOPOLÓGICO DE DATOS
Módulos: Fermín Reveles (Topología), Víctor Pérez Abreu (Probabilidad),
Miguel Nakamura (Inferencia estadística), Rolando Biscay (Campos aleatorios)
Julio 2016
Persistencia, Probabilidad e Inferencia
Estadı́stica para Análisis Topológico de Datos
7 de julio de 2016
Índice general
1. Topologı́a y Geometrı́a 13
1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.1. Tipo de homotopı́a y homeomorfismos . . . . . . . . . . . . . . . . . 18
1.1.2. Topologı́a cociente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3. Complejos simpliciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.1. Nervio y Filtraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.4. Homologı́a simplicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.4.1. Cálculo de números de Betti . . . . . . . . . . . . . . . . . . . . . . . 37
1.5. Homologı́a singular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.6. Variedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.6.1. Caracterı́stica de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.6.2. Espacio tangente y distancia geodésica . . . . . . . . . . . . . . . . . 46
1.6.3. Variedades parametrizadas . . . . . . . . . . . . . . . . . . . . . . . . 48
1.7. Teorı́a de Morse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2. Persistencia 57
2.1. Homologı́a persistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.2. Persistencia topológica de una filtración . . . . . . . . . . . . . . . . . . . . . 60
2.3. Diagramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4. Persistencia de conjuntos de nivel . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5. Panoramas de persistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6. Códigos de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.7. Estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3
4 Índice general
3. Probabilidad 75
3.1. Elementos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.1.1. Variables aleatorias y sus distribuciones . . . . . . . . . . . . . . . . . 77
3.1.2. Tipos de convergencia en probabilidad y resultados lı́mite universales 82
3.1.3. Aplicaciones al análisis de datos de altas dimensiones . . . . . . . . . 85
3.2. Construcción de medidas y variables aleatorias . . . . . . . . . . . . . . . . . 86
3.2.1. Construcción de medidas y aplicaciones a probabilidad . . . . . . . . 86
3.2.2. Existencia de variables aleatorias independientes . . . . . . . . . . . . 90
3.2.3. Distribución conjunta y condicional de variables aleatorias . . . . . . 91
3.3. Probabilidad en variedades I: . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.1. Sobre la distribución uniforme en probabilidad . . . . . . . . . . . . . 93
3.3.2. Medida uniformemente distribuida . . . . . . . . . . . . . . . . . . . 95
3.3.3. Medida de Lebesgue en Rd y distribución uniforme en subconjuntos . 97
3.3.4. Medida normal estándar en un espacio euclidiano . . . . . . . . . . . 99
3.3.5. Probabilidad uniformemente distribuida en esferas . . . . . . . . . . . 99
3.3.6. Otras medidas en la esfera y el toro . . . . . . . . . . . . . . . . . . . 103
3.4. Integral de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4.1. Funciones medibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4.2. Construcción de la integral de Lebesgue y propiedades iniciales . . . . 107
3.4.3. Espacios Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.4.4. Construcción de medidas a partir de la integral: la densidad . . . . . 114
3.5. Especificación de modelos de probabilidad usando densidades . . . . . . . . . 115
3.5.1. Transformación de variables aleatorias, momentos y convergencia . . 115
3.5.2. Medidas de referencia universales, ejemplos y su contexto . . . . . . 118
3.5.3. Densidades conjuntas, marginales, condicionales e independencia . . 121
3.5.4. Ejemplos de densidades en algunas variedades . . . . . . . . . . . . . 122
3.6. Probabilidad en variedades II: medida geométrica . . . . . . . . . . . . . . . 125
3.6.1. Medidas definidas por restricción a una cubierta abierta . . . . . . . . 125
3.6.2. La medida geométrica (distribución uniforme) . . . . . . . . . . . . . 125
3.6.3. Distribución uniforme vs probabilidad uniformemente distribuida . . 127
3.6.4. Medida de Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
3.6.5. Jacobianos, cambio de variable y áreas . . . . . . . . . . . . . . . . . 128
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
II. Método para simular puntos uniformemente distribuidos sobre una super-
ficie en Rn . Gilberto Flores Vargas, Yair Hernández Esparza.
7
8 Índice de figuras
16 T
Estas notas constituyen un compendio de aspectos teóricos, tanto geométrico–topológico
como de probabilidad e inferencia estadı́stica, para el Análisis Topológico de Datos (ATD).
20 A
Fueron desarrolladas a la par del curso Probabilidad e Inferencia Estadı́stica para el ATD, que
se impartió por vez primera durante el semestre enero-junio 2016 en el Centro de Investigación
lio IM
en Matemáticas A. C. (CIMAT). Las notas se adscriben al proyecto Análisis Topológico de
Datos para Matemáticas y Aplicaciones, CIMAT-ATD (http://atd.cimat.mx/).
Ju -C
9
10 Introducción
16 T
Hausdorff, ejemplificado con la botella de Klein y la banda de Moebius.
Otros trabajos del curso (no incluidos en estas notas) abordaron aspectos de inferencia
20 A
estadı́stica, ası́ como aplicaciones a una base de datos de máscaras prehispánicas del Insti-
lio IM
tuto Nacional de Antropologı́a e Historia, la cual está siendo estudiada en CIMAT mediante
diversas técnicas de topologı́a, estadı́stica y ciencias de la computación. También se cuenta
con un tutorial desarrollado por el estudiante de maestrı́a Rafael González, que explica con
herramientas de álgebra lineal el cálculo de números de Betti en Lenguaje R, mismo que
Ju -C
está disponible por solicitud en tda@cimat.mx. Una aplicación interactiva para la visualiza-
ción de la homologı́a y su correspondiente código de barras puede consultarse en [129].
Al final de las notas se compila una lista amplia de referencias, tanto clásicas de los temas
D
vez más numerosas en la literatura de persistencia y ATD—, todas ellas motivadas por la
necesidad de analizar y modelar datos modernos, los cuales no resultan ser vectores sino
objetos con una estructura peculiar y más compleja. Como menciona Gunnar Carlsson—
uno de los pioneros del ATD—“los datos tienen forma y esta forma importa”; ver también
[90]. La gama de aplicaciones incluye áreas como procesamiento de imágenes [26], [39], [87];
aprendizaje de máquina [27]; oncologı́a [5], [103]; estudios sobre irrigación arterial en el
cerebro [11], [116]; microbiologı́a [69]; nichos ecológicos [60]; redes de sensores y rutas de
evasión [101]; astronomı́a [127]; y filogenética [30], [31], [107], entre otras. Se recomienda [68]
para una exposición critica de los trabajos [31] y [107] a través de un análisis detallado de
la modelación matemática y una introducción a la filogenética.
Al curso asistieron también varios estudiantes, posdoctorados e investigadores. Agradece-
mos a quienes revisaron partes de estas notas, especialmente a Airam Blancas, Gerardo Ba-
rrera, Israel Martı́nez, Joaquı́n Ortega, Erika Roldán y Carlos Vargas. Varios de los inscritos y
asistentes a este curso habı́an participado previamente en los cursos seminales de Topologı́a
Computacional y/o Topologı́a para Computación y Estadı́stica que impartió José Carlos
Gómez Larrañaga en semestres pasados.
Introducción 11
La edición y uniformización de las notas estuvo a cargo de Fermı́n Reveles. Éstas irán
evolucionando y actualizándose de manera intensa en la segunda edición del curso durante
el semestre agosto-diciembre de 2017. Agradecemos también a Armando Domı́nguez quien
ya realizó una revisión minuciosa de las mismas durante el IX Verano de Probabilidad y
Estadı́stica dedicado a ATD. Agradecemos los comentarios que el lector nos pueda propor-
cionar.
16 T
Rolando Biscay, Miguel Nakamura, Vı́ctor Pérez Abreu, Fermı́n Reveles.
20 A
lio IM
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 1
16 T
Topologı́a y Geometrı́a
20 A
lio IM
En este capı́tulo hacemos un repaso de los conceptos y técnicas topológico–geométricas
comúnmente usadas en el ATD. En la mayorı́a de los casos faltarán las demostraciones y se
harán las referencias adecuadas. Esperamos con esto motivar la lectura fluida y continua,
Ju -C
al tipo de estudio que buscan develar estas notas, el lector puede consultar el libro en lı́nea
de Ghrist [58] y el aún en curso [20] de Boissonat, Chazal e Yvinnec. Sin dejar de lado los
AT
textos de Edelsbrunner y colaboradores [46] y [47]. Ası́ mismo, una introducción al tema se
encuentra en las notas de Espinoza [51]. La mayorı́a de las imágenes en este capı́tulo fueron
tomadas de la tesis de José Marı́a Ibarra [68].
Entendemos que para un estudio profundo de las herramientas de persistencia, es ne-
cesario utilizar y comprender el lenguaje de homologı́a, al menos en su versión simplicial
y con coeficientes en el campo de números binarios Z/2Z. Nuestro enfoque inicial es que
dichas relaciones algebraicas pueden ser pensadas como propiedades geométricas de objetos
computacionalmente tratables. Habrá entonces un “salto” de percepción a la suavidad de
las variedades y los objetos usuales de la topologı́a algebraica. Sin embargo, en nuestro caso,
ambas percepciones serán idénticas.
Esto nos permitirá importar las ideas de teorı́a de Morse de mediados del siglo pasado (ver
[95]), para llevar un estudio en paralelo de las propiedades topológicas relevantes (asociadas
a los números de Betti) y los puntos crı́ticos de funciones “tipo distancia”. Esperamos con
ello motivar un estudio futuro de tópicos avanzados de topologı́a algebraica y su relación al
análisis de datos y aplicaciones.
13
14 Capı́tulo 1. Topologı́a y Geometrı́a
1.1. Definiciones
Una topologı́a en un conjunto X, es una colección U de subconjuntos de X, tal que:
1. ∅ y X pertenecen a U.
16 T
Llamamos abiertos a los elementos de U y al par (X, U) le decimos un espacio topológi-
co. También es posible definir una topologı́a con subconjuntos cerrados, o subconjuntos de
20 A
la forma X \ U , con U abierto. Si x ∈ X pertenece al abierto U , diremos que U es una
vecindad de x.
lio IM
Dos ejemplos de topologı́as son los siguientes: la topologı́a formada con la colección de
todos los subconjuntos de X se llama la topologı́a discreta. Dado cualquier subconjunto
Y ⊂ X, la familia {U ∩ Y : U ∈ U} es una topologı́a, llamada topologı́a inducida.
Ju -C
x ∈ B3 ⊂ B1 ∩ B2 .
Los elementos de B se llamaran básicos. En el caso que B sea una base para una topologı́a
en X, la topologı́a generada por B se define como sigue: Un subconjunto U de X es abierto
en X si para cada x ∈ U , existe un elemento básico B ∈ B tal que x ∈ B ⊂ U .
De manera alternativa la topologı́a generada por una base está descrita por el siguiente
resultado.
1.1. Definiciones 15
Lema 1.1.2. Sea B una base para una topologı́a U en X. Entonces U es igual a la colección
de todas las uniones de elementos de B.
es una base para los números reales R y la topologı́a que genera se llama la topologı́a estándar
en R.
16 T
Para poder relacionar dos espacios topológicos usamos la noción de continuidad. Una
20 A
aplicación f : X −→ Y se dice una función continua si para cualquier abierto V de Y , la
imagen inversa f −1 (V ) = {x ∈ X : f (x) ∈ V } es un abierto de X.
lio IM
Equivalentemente tenemos las siguientes afirmaciones:
π : X −→ X/ ∼
16 T
vistos como espacios o variedades cociente. Más adelante daremos un breve repaso sobre la
misma y presentaremos algunos ejemplos clásicos.
20 A
En ocasiones, habrá ciertas maneras “canónicas” de definir una topologı́a, esto sucede en
particular cuando en el conjunto en cuestión se pueden medir distancias.
lio IM
Una métrica o distancia en X es una aplicación d : X × X −→ [0, ∞) tal que
3. para cualquier x, y, z ∈ X,
D
3. Espacios cociente como el cı́rculo T = R/Z, o el toro T 2 = R2 /Z2 que están inducidos
por acciones de subgrupos discretos (tipo látices o retı́culas).
4. En general, cualquier espacio que sea localmente euclidiano, como las variedades.
1.1. Definiciones 17
16 T
20 A
lio IM
Figura 1.1: Nube de puntos y complejo simplicial asociado
Ju -C
Un espacio métrico X es compacto si y sólo si, para cualquier sucesión de X existe una
subsucesión convergente. En el caso de espacios euclidianos, por el teorema de Heine–Borel,
un espacio K ⊂ Rd es compacto si y sólo si, K es cerrado y acotado.
La mayorı́a de los objetos con los que trataremos en estas notas serán
espacios compactos dotados con una distancia.
Decimos que un espacio topológico X es conexo si no puede ser separado por dos abiertos
disjuntos. Esto es, dados cualesquiera abiertos U y V tales que X ⊆ U ∪ V y U ∩ V = ∅;
entonces X ⊆ U o X ⊆ V . Equivalentemente, un espacio topológico X es conexo si y sólo
si, los únicos subconjuntos de X que son al mismo tiempo abiertos y cerrados son el vacı́o y
X mismo.
Un espacio topológico es arco–conexo si para cualesquiera x, y ∈ X, existe una aplicación
continua
γ : [0, 1] −→ X,
tal que γ(0) = x y γ(1) = y.
18 Capı́tulo 1. Topologı́a y Geometrı́a
Definición 1.1.5. Dos espacios topológicos X, Y son homeomorfos si existe una apli-
cación continua biyectiva h : X −→ Y , tal que h−1 : Y −→ X también es continua. La
aplicación h se llama un homeomorfismo.
16 T
a la bola unitaria estándar en Rn , se llamarán bolas topológicas.
20 A
Decidir si dos espacios son homeomorfos es una tarea complicada. En general, trabaja-
remos con una noción más débil que ésta, la relación de equivalencia homotópica.
lio IM
Decimos que dos aplicaciones f0 , f1 : X −→ Y son homotópicas, si existe una aplicación
continua
H : X × [0, 1] −→ Y
Ju -C
f : X −→ Y y g : Y −→ X,
H : X × [0, 1] −→ X,
tal que:
16 T
Rn+1 \ {0}. Consideramos la función
F : (Rn+1 \ {0}) × [0, 1] → Rn+1 \ {0},
definida por
20 A
lio IM
x
F (x, t) = (1 − t)x + t .
||x||
Dicha aplicación va “encogiendo” gradualmente el rayo que emana del origen en Rn+1 \{0}
Ju -C
al punto donde intersecta la esfera. Como para cada y ∈ Sn , ||y|| = 1, tenemos que F (y, t) = y
para cada t ∈ [0, 1] y por lo tanto, F define un retracto por deformación de Rn+1 \ {0} sobre
Sn .
D
AT
En general, una nube discreta de puntos tendrá asociada un complejo simplicial, el lla-
mado complejo de Čech; o bien, el complejo de Rips (incluso el caso de los complejos α para
dos y tres dimensiones). Dicho complejo simplicial será homotópicamente equivalente a un
espacio métrico compacto formado por unión de bolas cerradas. Esté será el contenido del
llamado Lema del Nervio, que veremos posteriormente.
Para poder caracterizar las propiedades topológicas de un espacio buscamos invariantes
topológicos, objetos matemáticos como números, grupos, polinomios; tales que permanez-
can el mismo entre espacios homotópicamente equivalentes.
16 T
Ejemplo 1.1.10. Los números de Betti βk (X) de un espacio X están definidos por la di-
20 A
mensión del espacio vectorial
Hk (X, Z/2Z);
lio IM
donde el k–ésimo grupo de homologı́a en este caso mide lazos, agujeros, vacı́os en el espacio
X. En general y dependiendo del modelo, se pueden utilizar los grupos de homologı́a con
Ju -C
coeficientes en Z, Q o R.
Más adelante ahondaremos en la definición formal de homologı́a simplicial y singular,
ası́ mismo extenderemos nuestro estudio a la homologı́a persistente.
D
AT
16 T
Para un estudio introductorio sobre variedades riemannianas recomendamos [126].
20 A
Recordamos que una relación de equivalencia ∼ en un conjunto X es una relación que
es simétrica, reflexiva y transitiva. Se define la clase de equivalencia [x] de x ∈ X, como
lio IM
el conjunto de los elementos de X equivalentes con x. Luego, una relación de equivalencia
particiona a un conjunto X en sus clases de equivalencia disjuntas. Denotamos por X/ ∼ al
conjunto de clases de equivalencia y lo llamamos el espacio cociente de X por ∼. Ası́ mismo,
Ju -C
16 T
I/ ∼ es imagen continua de un compacto I, entonces también es compacto. Luego, tenemos
20 A
una función biyectiva continua del espacio compacto I/ ∼ al espacio Hausdorff S1 ; esto es,
f¯ es un homeomorfismo.
lio IM
En general, la construcción de pasar al cociente no respeta las propiedades de ser Haus-
dorff y segundo numerable, que son deseables en un espacio topológico. Supongamos que
X/ ∼ es Hausdorff, entonces para cualquier x ∈ X, el conjunto de un solo punto {π(x)} es
Ju -C
cerrado en X/ ∼. Ası́ que π −1 ({π(x)}) = [x] es cerrado en X. Lo cual nos da una condición
necesaria para probar cuando X/ ∼ es Hausdorff.
Proposición 1.1.12. Si el espacio cociente X/ ∼ es Hausdorff, entonces la clase de equi-
D
f¯ : RP n −→ Sn / ∼ .
1.1. Definiciones 23
Ejemplo 1.1.13 (La lı́nea proyectiva real). Cada lı́nea a través del origen en R2 corta al
cı́rculo S1 en un par de puntos antipodales. Luego RP 1 es homeomorfo a S1 / ∼, el cual es
homeomorfo al semicı́rculo superior cerrado, con los dos puntos finales identificados.
Ejemplo 1.1.14 (El plano proyectivo real). Sabemos que existe un homeomorfismo entre
RP 2 y S2 / ∼ con la relación de identificar puntos antipodales. Para puntos que no están en el
ecuador, cualquier par de puntos antipodales tiene un único punto en el hemisferio superior
H 2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, z ≥ 0},
16 T
ası́ que existe una biyección entre S2 / ∼ y H 2 identificando cada par de puntos antipodales
del ecuador:
20 A
(x, y, 0) ∼ (−x, −y, 0), x2 + y 2 = 1.
Consideremos además el disco unitario cerrado
lio IM
D2 = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}.
Vemos que H 2 y D2 son homeomorfos vı́a
Ju -C
p
φ(x, y, z) = (x, y) y φ−1 (x, y) = (x, y, 1 − x2 − y 2 ).
En D2 definimos la relación de equivalencia ∼ identificando puntos antipodales en el cı́rculo
D
frontera:
(x, y) ∼ (−x, −y), x2 + y 2 = 1.
AT
Ejemplo 1.1.16 (La banda de Moebius). Sean a > 0 y X = (−a, a)×S1 . En X consideramos
la relación de equivalencia:
16 T
(t, z) ∼ (−t, −z), (t, z) ∈ (−a, a) × S1 .
20 A
El espacio topológico cociente Ma := X/ ∼ se conoce como la banda de Moebius de altura
lio IM
2a. Notar que si pensamos al intervalo (−a, a) como un subconjunto abierto de S1 , Ma puede
ser visto como parte de la botella de Klein K 2 .
Más aún, si consideramos el cociente de R×S1 , el resultado M∞ se conoce como la banda
Ju -C
1.2. Distancias
AT
dH (K, K 0 ) = ı́nf{ ≥ 0 : K ⊂ (K 0 ) , K 0 ⊂ K }
= máx sup (ı́nf ||x − y||), sup( ı́nf 0 ||x − y||) .
y∈K 0 x∈K x∈K y∈K
K = d−1 n
K ([0, ]) = {x ∈ R : dK (x) ≤ },
16 T
20 A
lio IM
Ju -CD
AT
16 T
dH (X 0 , Y 0 ) < r.
20 A
Intuitivamente, la distancia Gromov–Hausdorff es el ı́nfimo de la distancia Hausdorff
sobre todas las posibles inclusiones isométricas de estos espacios sobre un espacio métrico
lio IM
común.
Sin embargo, en ocasiones la distancia Hausdorff no será una buena aproximación entre
conjuntos. Una medida con más aproximación a la similaridad de dos formas es la distancia
Ju -C
de Fréchet.
Definición 1.2.3. Las distancia Fréchet entre dos subconjuntos X, Y de Rn es
D
La combinación lineal
m
X
λi pi ,
i=0
16 T
Un subconjunto de Rn es convexo si contiene al segmento de lı́nea que une cualesquiera
dos de sus puntos. La intersección de dos conjuntos convexos es necesariamente convexa y
20 A
el espacio ambiente Rn también lo es.
lio IM
Definición 1.3.1. Dado un conjunto finito de puntos P = {p0 , . . . , pm } de Rn , la envol-
vente convexa de P es el conjunto de todas las combinaciones convexas de puntos de P .
La envolvente convexa puede verse como la intersección de todos los conjuntos convexos
Ju -C
de Rn que contienen a P .
Un conjunto finito de puntos P = {p0 , . . . , pm } en Rn se dice geométricamente indepen-
diente si no está contenido en un subespacio afı́n de dimensión menor que m. Esto es, para
D
m
X m
X
λi = 0 y λi pi = 0,
i=0 i=0
implican que λ0 = λ1 = . . . = λm = 0.
Equivalentemente, P es geométricamente independiente si y sólo si,
{pi − p0 : 1 ≤ i ≤ m}
Las caras de un simplejo con conjunto de vértices P , son los simplejos de dimensión
menor o igual que la dimensión del simplejo, obtenidos como combinaciones convexas de
subconjuntos de P . Por ejemplo, las caras del triángulo [p0 , p1 , p2 ] son los simplejos
16 T
20 A
lio IM
Ju -CD
m
X m+1
= 2m+1
l=−1
l+1
caras.
Si pensamos que el vacı́o es una (−1)–cara de cualquier simplejo, entonces la j–ésima
fila del triángulo de Pascal nos dice el número de caras de un (j − 2)–simplejo. Por ejemplo,
el tetraedro o 3–simplejo tiene una (−1)–cara, cuatro 0–caras o puntos, seis 1–caras o lados,
cuatro 2–caras o triángulos y una 3–cara o el mismo tetraedro. Tal como nos dice la quinta
fila del triángulo de Pascal.
1.3. Complejos simpliciales 29
Un simplejo es por definición un objeto muy grande. Para el caso del cálculo digital estos
objetos se vuelven matemáticamente intratables. Sin embargo, son muy uniformes y simples
en su estructura y por lo tanto nos proveen de un objeto ideal computacionalmente hablando.
16 T
20 A
lio IM
Figura 1.6: Ejemplos de complejos simpliciales.
Ju -C
2. La intersección de cualesquiera dos simplejos de K es, o bien vacı́a, o una cara común
de ambos simplejos.
Llamamos a los simplejos de K caras y su dimensión será la dimensión más alta entre sus
simplejos. Un subconjunto de K que es un complejo simplicial por su cuenta será llamado
subcomplejo de K.
El j–esqueleto de K, Skj (K), es el subcomplejo de K que consiste de los simplejos de
dimensión a lo más j. Por ejemplo, el 0–esqueleto son los puntos del complejo y el 1–esqueleto
será la gráfica asociada al conjunto de puntos que forman el complejo.
Dado un complejo simplicial K como antes, definimos el espacio subyacente (o polı́topo)
|K|, como el subconjunto de Rn que es la unión de los simplejos de K. La topologı́a de K es
la topologı́a inducida en |K| por la topologı́a estándar de Rn .
Definición 1.3.5. Decimos que un complejo simplicial K es una triangulación del espacio
topológico X si
|K| = X.
30 Capı́tulo 1. Topologı́a y Geometrı́a
Observar que estamos considerando que los simplejos que definen el complejo están in-
mersos en algún espacio euclidiano; es decir, podrı́amos decir que K es un complejo simplicial
geométrico.
Definición 1.3.6. Sea P = {p1 , . . . , pn } un conjunto finito de elementos. Un complejo
simplicial abstracto K con conjunto de vértices P , es un conjunto de subconjuntos de P
tal que:
1. Los elementos de P pertenecen a K.
2. Si τ ∈ K y σ ⊆ τ , entonces σ ∈ K.
16 T
En este caso los simplejos de K no están pensados como objetos geométricos en Rn , sino
20 A
sólo como conjuntos de vértices. Si σ ∈ K tiene precisamente m + 1 elementos, entonces la
dimensión de σ será m y llamaremos a σ un m–simplejo.
lio IM
Un complejo simplicial K define naturalmente un complejo abstracto Ka : El conjunto de
vértices de Ka es el conjunto de vértices de K y los simplejos de Ka son los conjuntos de
vértices de simplejos de K.
Ju -C
Dicho complejo C(U) se llama el complejo del nervio o complejo de Čech de la cubierta U.
Teorema 1.3.7 (Teorema del Nervio). Sea U = {Ui }i∈I una cubierta abierta del espacio
paracompacto X, tal que cualquier intersección finita de los Ui es, o bien vacı́a, o contraible.
Entonces, X y C(U) son homotópicamente equivalentes.
Observación 1.3.8. El teorema es cierto para cubiertas por cerrados con la condición de
que X sea homeomorfo a un complejo simplicial finito.
Una cubierta con las propiedades del teorema del Nervio se llama una buena cubierta.
16 T
Dicho teorema es de gran relevancia para la inferencia topológico–geométrica y la topologı́a
20 A
computacional, ya que nos permite reunir la topologı́a del espacio X mediante un complejo
simplicial, describiendo las propiedades combinatorias de una buena cubierta. En particular,
cuando el espacio X es una unión de bolas (o conjuntos convexos) en Rn , X será homotópi-
lio IM
camente equivalente al nervio de la cubierta hecha por esta unión.
Usualmente un complejo simplicial K vendrá especificado con cierto orden de sus sim-
Ju -C
1. ∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K m = K.
AT
En ocasiones, lo más natural será considerar el orden de los complejos usando una sucesión
creciente de valores reales {αi } ⊂ R:
∅ = K α0 ⊂ K α1 ⊂ · · · ⊂ K αm = K.
32 Capı́tulo 1. Topologı́a y Geometrı́a
Esto dará pie a definir filtraciones por subconjuntos de nivel de funciones con valores reales
como las funciones “tipo distancia”.
Las filtraciones serán usadas para construir estructuras geométricas sobre conjuntos fini-
tos de puntos. Dado un conjunto finito de puntos P en Rn , el –contrapeso de P , o nervio
[
C(P, ) = B(p, ) = d−1
P ([0, ]),
p∈P
16 T
construida sobre P .
Los 0–simplejos de C(P, ) son los puntos de P y los otros simplejos están caracterizados
20 A
por
m
lio IM
\
σ = [p0 , p1 , . . . , pm ] ∈ C(P, ) ⇐⇒ B(pj , ) 6= ∅.
j=0
Observación 1.3.11. El cómputo del complejo de Čech para dimensiones mayores que 3
Ju -C
16 T
esqueleto. De tal forma que las combinaciones del 1–esqueleto completamente determinan el
complejo y el complejo de Vietoris–Rips puede ser guardado como una gráfica.
20 A
lio IM
Ju -CD
AT
Al convertir una nube de datos en un complejo simplicial como hasta ahora, la elec-
ción adecuada del valor será crucial. Es decir, para valores muy pequeños de el espacio
será discreto y para valores muy grandes será un único simplejo de dimensión alta. Tenemos
en particular lo siguiente.
Esto implica que cualquier propiedad topológica que persiste bajo la inclusión
R(P, α) ,→ R(P, α0 )
es de hecho una propiedad topológica del complejo de Čech cuando
√
α0 /α ≥ 2.
Es decir, las propiedades asociadas en topologı́a y/o geometrı́a de dicha inclusión, revelan
información que no es visible (inmediatamente) a partir de los estadios en α y α0 respecti-
vamente.
16 T
El complejo de Vietoris–Rips es usado en aplicaciones, sin embargo su cómputo se vuelve
intratable para dimensiones altas. Otra opción serı́a cambiar el modelo topológico.
20 A
lio IM
1.4. Homologı́a simplicial
En general, para el estudio posterior de la homologı́a persistente, basta estudiar la ho-
Ju -C
con dichos coeficientes. Éste se encuentra disponible bajo pedido a tda@cimat.mx. Además,
una aplicación interactiva para la visualización de la homologı́a y su código de barras puede
ser consultada en [129].
Cabe mencionar que la teorı́a es análoga para cualquier otro tipo de coeficientes, usual-
mente el tipo de coeficientes depende del modelo o el tipo de estimación que se requiera
realizar, otros coeficientes usualmente considerados son los campos Q, R y el anillo Z.
Dado cualquier entero no negativo m, definimos el espacio de m–cadenas Cm (K), como
el Z2 –espacio vectorial de las sumas formales de simplejos m–dimensionales de K; i.e.,
( k
)
X
Cm (K) = c = ri σi : ri = 0, 1
i=1
Notar además que los m–simplejos de K forman una base de Cm (K). Más aún, las cadenas
con coeficientes en Z2 tienen una interpretación geométrica especı́fica: Como cualquier m–
cadena puede ser escrita únicamente como una suma de m–simplejos c = σi1 + · · · + σik ,
entonces c es pensado como la unión de los simplejos σij y la suma de dos m–cadenas será su
diferencia simétrica.
Dado un m–simplejo σ = [v0 , . . . , vm ] definimos la frontera de σ como la (m − 1)–cadena
formada por sus (m − 1)–caras; i.e.,
16 T
X
∂(σ) = [v0 , . . . , v̂i , . . . , vm ]
i=0
20 A
donde [v0 , . . . , v̂i , . . . , vm ] denota el (m − 1)–simplejo formado al remover el vértice i–ésimo.
lio IM
Podemos extender linealmente esta noción al conjunto de m–cadenas.
donde
AT
X
∂(c) = ∂(σ).
σ∈c
Calculando sobre cualquier m–simplejo obtenemos que la composición del operador fron-
tera con él mismo se anula. Esto es ∂◦∂ ≡ 0. De hecho, el operador frontera define aplicaciones
lineales entre espacios de cadenas.
∂ ∂ ∂ ∂
∅ −→ Cα (K) −→ Cα−1 (K) −→ · · · −→ C1 (K) −→ C0 (K) −→ ∅.
36 Capı́tulo 1. Topologı́a y Geometrı́a
16 T
Para cualquier m ∈ {0, . . . , α}, sean
20 A
Zm (K) := ker(∂ : Cm −→ Cm−1 ) = {c ∈ Cm (K) : ∂(c) = 0}
lio IM
el conjunto de m–ciclos y
Bm (K) := im(∂ : Cm+1 (K) −→ Cm (K)) = {c ∈ Cm (K) : ∃c0 ∈ Cm+1 (K), ∂(c0 ) = c}
Ju -C
el conjunto de m–fronteras.
Tal como se observa en la imagen anterior 1 Zm (K) y Bm (K) son subespacios de Cm (K)
y
D
una función entre los vértices, tal que si el conjunto de vértices {v0 , . . . , vm } forma un simplejo
en K, entonces [f (v0 ), . . . f (vm )] también es un simplejo en L. Decimos que g : K −→ L es
el mapeo simplicial inducido por f si
16 T
m
! m
X X
g λi vi = λi f (vi ).
20 A
i=0 i=0
f∗ : Hm (K) −→ Hm (L).
D
Más aún,
(f ◦ g)∗ ≡ f∗ ◦ g∗ y (idK )∗ ≡ idHm (K) .
AT
En particular, estamos interesados en estudiar las imágenes de los mapeos inducidos por
inclusiones en una filtración.
Sea K un complejo simplicial finito de dimensión n y
F = {∅ = K 0 ⊂ K 1 ⊂ · · · ⊂ K α = K}
K i+1 = K i ∪ σ i+1 ;
con σ i+1 un m–simplejo cuyas caras están todas contenidas en K i , para cada i. Este tipo de
filtraciones se llaman planas y son de utilidad para los ejemplos en topologı́a computacional
en R2 y R3 (ver [46]).
En ocasiones, además de esta condición sobre la filtración pedimos que los simplejos de
dimensión menor precedan a los de dimensión mayor, siguiendo la manera en que incluimos
los simplejos σ i , podemos inferir entonces la “evolución” de la topologı́a de la filtración
mediante sus números de Betti.
38 Capı́tulo 1. Topologı́a y Geometrı́a
Supongamos que se han calculado los números de Betti para K i−1 y que se agrega el
(m + 1)–simplejo σ i para obtener K i . Dado que como hemos mencionado, todas las caras de
σ i están en K i−1 , entonces σ i no puede ser frontera de un (m + 2)–simplejo en K i . Tenemos
dos opciones: σ i pertenece a un (m + 1)–cı́clo o no lo hace.
Lema 1.4.5 (Nacimiento o Muerte). Si σ i está contenido en un (m+1)–cı́clo en K i , entonces
βm+1 (K i ) = βm+1 (K i−1 ) + 1.
En caso contrario,
16 T
βm (K i ) = βm (K i−1 ) − 1.
Demostración. En primer lugar, asumamos que σ i está contenido en un (m + 1)–cı́clo c en
20 A
Zm+1 (K i ). Luego, c no puede ser homólogo a algún (m+1)–ciclo c0 en Zm+1 (K i−1 ), pues en tal
caso c+c0 ≡ ∂d, para alguna (m+2)–cadena d. Esto contradice lo mencionado anteriormente
lio IM
pues entonces σ i está contenido en c + c0 y es frontera de un (m + 2)–simplejo en K i .
Consecuentemente, c crea una nueva clase de cohomologı́a que es linealmente independiente
de las clases creadas por los ciclos en K i−1 , i.e.
Ju -C
puede aumentar la dimensión del (m+1)–ésimo grupo de homologı́a por uno: Si consideramos
dos (m + 1)–ciclos c y c0 , tales que contienen a σ i , entonces por definición
AT
c + c0 ∈ Zm+1 (K i−1 )
y ası́, c0 está contenido en el subespacio lineal generado por Zm+1 (K i−1 ) y c. Esto es,
dim Zm+1 (K i ) ≤ dim Zm+1 (K i−1 ) + 1.
Pero como además para cada m, Bm (K i−1 ) ⊂ Bm (K i ) tenemos que
βm+1 (K i ) ≤ βm+1 (K i−1 ) + 1.
En el caso en que σ i no esté contenido en un (m + 1)–ciclo en K i , tenemos que el m–
cı́clo ∂σ i no es frontera de algún ciclo c en K i−1 , pues si se observa que ∂σ i ≡ ∂c, entonces
∂(σ i + c) = 0; o bien, σ i + c es un (m + 1)–ciclo en K i que contiene a σ i , lo cual no es posible.
De tal forma que ∂σ i se vuelve una frontera en K i , i.e.
βm (K i ) ≤ βm (K i−1 ) − 1.
La igualdad se sigue usando un argumento similar al usado en el primer caso.
1.5. Homologı́a singular 39
Resulta ser que dichos simplejos serán de relevancia a la hora de definir la homologı́a
persistente.
Definición 1.4.6. Dada una filtración plana de K, decimos que un simplejo σ i es positivo
si pertenece a un (m + 1)–cı́clo en K i y negativo en otro caso.
Observación 1.4.7. El m–ésimo número de Betti es igual a la diferencia entre m–simplejos
positivos y (m + 1)–simplejos negativos.
El procedimiento anterior para decidir sobre los números de Betti, requiere el saber si el
simplejo en cuestión es positivo o negativo, responder a esta pregunta es uno de los propósitos
16 T
de la homologı́a persistente. Más aún, el procedimiento calcula los números de Betti de K y
de todos los subcomplejos K i en la filtración.
20 A
lio IM
1.5. Homologı́a singular
Tanto los números de Betti como los grupos de homologı́a son invariantes topológicos; esto
Ju -C
es, si K y K 0 son dos complejos simpliciales cuyos soportes geométricos son homeomorfos,
entonces sus grupos de homologı́a son isomorfos y sus números de Betti iguales. De hecho,
este resultado sigue siendo cierto si los espacios subyacentes |K| y |K 0 | son homotópicamente
D
16 T
entonces los grupos de homologı́a singular de X y los grupos de homologı́a simplicial de K
serán isomorfos.
20 A
Teorema 1.5.2 (Isomorfismo). Sea K un complejo simplicial finito. Entonces
lio IM
Hm (|K|) ∼
= Hm (K), m ≥ 0.
Es decir,
βm (|K|) = βm (K), m ≥ 0.
Ju -C
Como en el caso de aplicaciones simpliciales, una aplicación continua entre espacios to-
AT
1.6. Variedades
Las variedades son la extensión de los espacios topológicos familiares del cálculo, como
las curvas o superficies, a dimensiones más altas.
φα : Uα −→ Rn .
16 T
Comúnmente se requiere que las variedades sean suaves, de tal forma que puedan ser
utilizadas todas las herramientas del cálculo. Es decir, pedimos además que las aplicaciones
20 A
φβ ◦ φ−1
α : φα (Uα ∩ Uβ ) −→ φβ (Uα ∩ Uβ ),
lio IM
sean infinitamente diferenciables o suaves, siempre que Uα ∩ Uβ 6= ∅.
Los pares (Uα , φα ) se llaman cartas, las cuales generan un atlas maximal de cartas que
Ju -C
Para el caso de 2–variedades, o superficies, tenemos otros dos parámetros: Las superfi-
cies compactas pueden ser orientables o no–orientables. Además, los agujeros o asas están
AT
S2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1}.
Podemos definir seis cartas en S2 correspondientes a seis hemisferios y sus respectivas pro-
yecciones:
Proposición 1.6.3. Sean {Uα , φα } y {Vi , ψi } dos atlas de cartas suaves para las variedades
16 T
M y N , de dimensiones m y n, respectivamente. Entonces, la colección de cartas
{(Uα × Vi , φα × ψi : Uα × Vi −→ Rm × Rn )}
20 A
forma un atlas suave en la variedad producto M × N . Por lo tanto M × N es una variedad
lio IM
suave de dimensión m + n.
Ejemplo 1.6.5. Consideremos las coordenadas homogéneas [x0 , x1 , x2 ] del plano proyectivo
AT
RP 2 . Observar que al menos algún xi es distinto de cero, luego hace sentido definir las 3
cartas estándar en RP 2 :
x1 x2
U0 = {[x0 , x1 , x2 ] : x0 6= 0} φ0 ([x0 , x1 , x2 ]) = , ,
x0 x0
x0 x2
U1 = {[x0 , x1 , x2 ] : x1 6= 0} φ1 ([x0 , x1 , x2 ]) = , ,
x1 x1
x0 x1
U2 = {[x0 , x1 , x2 ] : x2 6= 0} φ2 ([x0 , x1 , x2 ]) = , .
x2 x2
Notar que dichas aplicaciones tienen inversas continuas bien definidas, por ejemplo para el
caso de φ0 tenemos que
(x, y) 7−→ [1, x, y]
define su inversa. Esto es, RP 2 es localemente como R2 y {(Ui , φi ) : i = 0, 1, 2} es un atlas
maximal para RP 2 .
1.6. Variedades 43
16 T
definen por ejemplo los espacios tangentes a un punto, derivadas, operadores gradientes,
hessianos y laplacianos sobre variedades. Además de las herramientas propias de la geometrı́a
20 A
riemanniana como el transporte paralelo, la curvatura, el alcance, etc. Para un estudio más
general pero exhaustivo ver el trabajo de Ghrist ([58]).
lio IM
1.6.1. Caracterı́stica de Euler
Ju -C
χ(P ) = |P |.
Utilizando una estructura simplicial, si conectamos dos puntos de P por medio de un 1–
AT
simplejo o lado, entonces la caracterı́stica de Euler decrecerá por uno. Esto es, al contar uno
a uno vemos que este invariante nos cuenta vértices con peso +1 y lados con peso −1.
Sin embargo, esto deja de suceder cuando un lado crea un nuevo cı́clo de dimensión uno.
Para poder volver a la analogı́a de contar componentes conexas, tendrı́amos que agregar la
cara o 2–simplejo cuya frontera es el 1–cı́clo. Es decir, la caracterı́stica de Euler asigna un peso
de +1 a las caras. Procediendo de manera inductiva vemos como definir combinatoriamente
la caracterı́stica de Euler de cualquier espacio X, que se descomponga de alguna forma
simplicial (o celular).
Definición 1.6.7. Sea X un espacio tal que se puede escribir como la unión disjunta de
m–simplejos, G
X= σα ,
α
se define la caracterı́stica de Euler de X como
X
χ(X) := (−1)dimσα .
α
44 Capı́tulo 1. Topologı́a y Geometrı́a
16 T
En particular, el tetraedro ∆3 = [p0 , p1 , p2 , p3 ] tiene caracterı́stica de Euler
20 A
χ(∆3 ) = 4 − 6 + 4 = 2.
lio IM
Al igual que el cubo, el dodecaedro, el octaedro y el icosaedro. De hecho, cualquier poliedro
convexo tiene caracterı́stica de Euler igual a 2.
Observación 1.6.9. En el caso de espacios compactos la caracterı́stica de Euler es un
Ju -C
invariante homotópico. Por lo tanto, podemos determinar el tipo de homotopı́a de una gráfica
G. Por ejemplo, G es un árbol si χ(G) = 1.
Para superficies compactas orientables tenemos que la caracterı́stica de Euler puede ser
D
Curvatura
Aún cuándo no hablaremos con detalle acerca de integración en variedades, por medio de
la caracterı́stica de Euler podemos dar una primera aproximación, cuyo sabor es puramente
geométrico.
Sea M una superficie suave inmersa en R3 . Dado cualquier punto en M , podemos hablar
de sus direcciones tangentes o normales. La aplicación de Gauss es la aplicación
γ : M −→ S2 ,
16 T
que asocia a cada punto de M la dirección de su vector normal unitario en R3 . La curvatura
20 A
de Gauss κ = det(Dγ) es el determinante de la derivada de dicha aplicación γ.
En este sentido la curvatura es un invariante de transformaciones rı́gidas y rotaciones,
lio IM
pero cambia al ser M deformada en alguna forma.
Z Z
dκ = κdA = 2πχ(M ).
M M
D
Si pensamos en que M tiene una descomposición simplicial (o celular), quizás con frontera
AT
Por lo tanto, la integral respectiva se divide en tres integrales sobre cada dimensión de
los simplejos.
Como consecuencia inmediata de este resultado vemos que la curvatura de Gauss es
constante, no importa como deformemos la superficie. Más aún, usando la caracterı́stica de
Euler podemos medir y sumar ángulos para los llamados triángulos geodésicos. Esto es, dκ
se anula a lo largo de los lados geodésicos y la suma de los ángulos del triángulo es igual a
π más la integral de la curvatura de Gauss sobre la cara del triángulo.
46 Capı́tulo 1. Topologı́a y Geometrı́a
16 T
que si M no está inmersa en un espacio euclidiano, la noción de derivada γ 0 (0) podrı́a no
20 A
estar bien definida.
Sin embargo, el comportamiento de la curva se puede traducir localmente. Sea (U, φ) una
lio IM
carta de M alrededor de p, la aplicación φ ◦ γ es una curva de clase C 1 en Rk y el vector
tangente v = (φ ◦ γ)0 (0) está bien definido. Pero puede ser el caso que diferentes curvas nos
den el mismo vector tangente.
Definimos la siguiente relación de equivalencia en el conjunto de curvas que pasan por p.
Ju -C
(φ ◦ γ1 )0 (0) = (φ ◦ γ2 )0 (0).
Es un ejercicio interesante observar que dicha relación de equivalencia es independiente de
AT
la elección de la carta.
Definición 1.6.11. Un vector tangente de M en p es una clase de equivalencia de curvas
de clase C 1 que pasan por p. El conjunto de todos los vectores tangentes se denota por Tp (M )
y se llama el espacio tangente de M en p.
De la definición observamos que Tp (M ) es un espacio vectorial y además se puede probar
que es de dimensión k; de hecho, Tp (M ) es homeomorfo al espacio euclidiano Rk . Más aún,
no existe una relación (a priori ) entre Tp (M ) y Tq (M ) para p 6= q ∈ M , con M una
variedad arbitraria. En el caso particular en que M = Rk , se tiene que Tp (M ) y Tq (M ) son
homeomorfos vı́a una traslación por q − p.
Observación 1.6.12. Existe una manera de definir el espacio tangente usando “gérmenes
de funciones en p”, la cual explicita claramente el uso de la diferenciabilidad o clase C m de la
variedad. Sin embargo, la definición es un poco más engorrosa e innecesaria por el momento.
Usando los espacios tangentes en un punto podemos definir una métrica muy especial en
estos puntos.
1.6. Variedades 47
gp : Tp (M ) × Tp (M ) −→ R
16 T
y
gp (up , avp + bwp ) = agp (up , vp ) + bgp (up , wp ).
2. gp es simétrica:
20 A
lio IM
gp (up , vp ) = gp (vp , up ), up , vp ∈ Tp (M ).
vp 7−→ gp (up , vp ),
D
cada punto p ∈ M una métrica gp que varı́a de manera suave con respecto al punto p ∈ M .
Con estos elementos disponibles, definimos una distancia sobre M de la forma siguiente.
Definición 1.6.14. Consideremos una variedad M de dimensión k y g un tensor de métrica
como antes. Si γ : [a, b] −→ M es una curva de clase C 1 , se define la longitud de γ mediante
Z b
1/2
gγ(t) (γ 0 (t), γ 0 (t))
`(γ) = dt.
a
donde el ı́nfimo se toma sobra todas las curvas γ continuas, continuamente diferenciables
por pedazos en [a, b] tales que γ(a) = p y γ(b) = q. Una geodésica en M es una curva que
localmente minimiza distancias.
48 Capı́tulo 1. Topologı́a y Geometrı́a
16 T
T : X −→ Y
se dice suprayectivamente regular si la diferencial
20 A DT (x) : Rd −→ Rk
lio IM
es una aplicación lineal suprayectiva para cualquier x ∈ X. De manera similar se define una
transformación inyectivamente regular. Como T solo puede ser suprayectivamente regular
cuando d ≤ k e inyectivamente regular para d ≥ k, más el hecho de que para d = k ambas
Ju -C
condiciones son equivalentes, sin problema alguno diremos que una transformación T es
regular si satisface alguna de las propiedades anteriores.
D
16 T
variedades. Tomemos la teorı́a de Morse sobre variedades, la cual usa la función altura para
facilitar el conteo en homologı́a. Para una breve introducción recomendamos el trabajo de
20 A
J. A. González [59], donde además se hace un estudio extenso de la teorı́a de Morse discreta
y aplicaciones en el ATD.
lio IM
Sea M una variedad compacta sin frontera. La teorı́a de Morse se ocupa de una función
con valores reales y la dinámica asociada a su flujo gradiente. Sea h : M −→ R una función
suave y consideremos el campo gradiente −∇h en M .
Ju -C
Tenemos una dinámica sencilla: Las soluciones del sistema asociado son o bien puntos
fijos, es decir puntos crı́ticos de h,
∇h(p) = 0;
D
o el flujo va moviéndose hacia abajo de un punto a otro. Pensamos además que los puntos
crı́ticos son no–degenerados, es decir que el hessiano tiene determinante no cero en estos
AT
Podemos decir un poco más dependiendo de cómo pasamos de un nivel crı́tico a otro.
Lema 1.7.3. Supongamos que p ∈ M es un punto crı́tico de h, de ı́ndice de Morse igual a
m y sea v = h(p) el valor crı́tico respectivo. Dado > 0, tenemos que se satisface alguna de
las siguientes:
βm (Mv+ ) = βm (Mv− ) + 1,
o
βm−1 (Mv+ ) = βm−1 (Mv− ) − 1.
16 T
En otras palabras, al pasar un nivel crı́tico, o bien se forma un nuevo vacı́o m–dimensional,
o un vacı́o (m − 1)–dimensional se llena. Es decir, Mv+ es homotópicamente equivalente al
20 A
resultado de pegar a lo largo de la frontera de Mv− un m–simplejo, donde m es el ı́ndice
crı́tico. Al igual que anteriormente, decimos que un punto crı́tico es positivo en el primer
lio IM
caso y negativo en el segundo.
Ejemplo 1.7.4. Consideremos el toro T2 = S1 × S1 , h : T2 −→ R la función que mide la
altura de cada punto p ∈ T2 y la filtración por subconjuntos de nivel {Mα }R . En este caso
Ju -C
{vi : i = 1, . . . , 4}
los valores crı́ticos asociados. Además, los ı́ndices en los puntos crı́ticos respectivos son
AT
0, 1, 1, y 2.
Para cada t0 < v1 tenemos que Mt0 = ∅ y ası́
Hm (Mt0 ) ∼
= {0}, m ≥ 0.
H0 (Mt1 ) ∼
=Z v1 < t1 < v2 .
En el nivel de v2 tenemos un punto crı́tico de ı́ndice 1, un punto silla: Al pasar este nivel un
nuevo agujero de dimensión 1 es creado para Mt ; i.e.
H1 (Mt2 ) ∼
=Z v2 < t2 < v3 .
H1 (Mt3 ) ∼
=Z⊕Z v3 < t3 < v4 .
1.7. Teorı́a de Morse 51
Por último, v4 corresponde a un punto máximo o de ı́ndice 2. Al cruzar este nivel se completa
la superficie del toro, introduciendo un nuevo vacı́o de dimensión 2; esto es,
H2 (Mt4 ) ∼
=Z v4 < t4 .
16 T
Puntos crı́ticos de la función distancia
20 A
Sea P una colección finita de puntos en Rn . La función distancia a P ,
lio IM
dP : Rn −→ R
x 7−→ mı́n ||x − p||
p∈P
Ju -C
puede ser tratada análogamente a como una función de Morse, aún cuando no sea una
aplicación suave.
Recordar que definimos el –contrapeso de P , como
D
C(P, ) = d−1 d
P ((−∞, ]) := {x ∈ R : dP (x) ≤ }.
AT
Para poder usar la teorı́a de Morse tendremos una definición análoga de puntos crı́ticos
para dP (ver [18]). En primer lugar, los mı́nimos de la función distancia dP , los puntos de P ,
serán llamados puntos crı́ticos de ı́ndice 0. Para ı́ndices superiores hacemos lo siguiente.
Definición 1.7.5. Un punto c ∈ Rn es un punto crı́tico de ı́ndice m de dP , donde
1 ≤ m ≤ n, si existe un subcojunto Y de m + 1 puntos de P tales que:
1. Para cada y ∈ Y :
dP (c) = ||c − y||
y para cada p ∈ P \ Y tenemos que
Este será un caso particular de importancia si pensamos que el conjunto P consta de una
muestra aleatoria sobre alguna variedad o algún espacio compacto euclidiano.
Observar que la primer condición implica que en una vecindad pequeña de c, dP ≡ dY . La
segunda condición nos dice que Y vive en una única esfera (m−1)–dimensional Sm−1 = S(Y ).
Más aún, c es el centro de S(Y ) y el radio de la esfera r(Y ) es el valor crı́tico de la función
distancia. Consideremos
B(Y ) = Br(Y ) (c)
como la bola abierta de Rn con radio r(Y ) y centro c. Observar que S(Y ) está contenida en
B(Y ) pero a menos que m = n, S(Y ) no es la frontera de B(Y ).
16 T
Decimos entonces que c es el único punto crı́tico de ı́ndice m generado por los m + 1
20 A
puntos del subconjunto Y . En la imagen se muestran puntos crı́ticos de ı́ndice pequeño.2
Lema 1.7.6. Un subconjunto Y ⊂ P de m+1 puntos geométricamente independiente, genera
lio IM
un punto crı́tico de ı́ndice m si y sólo si, se satisfacen las siguientes:
(a) c pertenece al interior de la envolvente convexa de Y .
Ju -C
(b) P ∩ B(Y ) = ∅.
D
AT
dP : Rn −→ R,
16 T
20 A
lio IM
Ju -CD
AT
54 Capı́tulo 1. Topologı́a y Geometrı́a
1.8. Ejercicios
donde
B (x) = {y ∈ Rn : ||x − y|| < },
16 T
define una base para la topologı́a estándar de Rn .
20 A
Ejercicio 1.8.2. Encuentra ejemplos para cada caso; explica:
lio IM
(a) Un espacio topológico X conexo que no sea arco–conexo.
x ∈ U ⊂ A.
1. ∅ y X son cerrados.
16 T
Ejercicio 1.8.7. Demuestra que cualquier subespacio (a, b) de R es homeomorfo a (0, 1).
20 A
Ejercicio 1.8.8. Sea X un segmento, o bien un subespacio de R homeomorfo a [0, 1], y Y un
lio IM
punto de X. Prueba que X y Y son homotópicamente equivalentes pero no son homeomorfos.
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 2
16 T
Persistencia
20 A
lio IM
Sea f : R −→ R una función suave. Supongamos que x es un punto crı́tico y f (x) es
un valor crı́tico si f 0 (x) = 0. Decimos además que un punto crı́tico es no–degenerado si
f 00 (x) 6= 0. Supongamos que f tiene solamente puntos crı́ticos no–degenerados con valores
Ju -C
crı́ticos distintos. Luego, cualquier punto es o bien un mı́nimo local o un máximo local.
Para cada α ∈ R consideramos los subconjuntos de nivel
D
Rα = f −1 ((−∞, α]).
AT
57
58 Capı́tulo 2. Persistencia
16 T
Figura 2.1: Emparejamiento de máximos y mı́nimos de una función.
20 A
lio IM
En el diagrama de persistencia todos los puntos viven por encima de la diagonal y = x
y además la persistencia es la distancia vertical a esta lı́nea diagonal. Usualmente siempre
adjuntaremos esta lı́nea al diagrama de persistencia.1
Ju -C
Es decir que las propiedades topológicas que tienen mayor persistencia se preservan bajo
perturbaciones. Mientras que aquellas que representan menor persistencia son claramente
creadas por la perturbación. Este será un fenómeno general: Dos funciones cercanas tendrán
1
Imagen tomada de [20]
2
Imagen tomada de [20]
2.1. Homologı́a persistente 59
16 T
2.1. Homologı́a persistente
20 A
La idea básica de la homologı́a persistente es reunir en una única estructura toda la
lio IM
información topológica relevante de un espacio filtrado por subespacios. En primer lugar
describiremos el caso para un complejo simplicial finito K y la homologı́a simplicial con
coeficientes en Z/2Z.
Consideremos una filtración de K:
Ju -C
F = {∅ = K 0 ⊂ K 1 ⊂ . . . ⊂ K α = K}.
D
ϕi,j : K i −→ K j .
ϕi,j i j
m : Zm (K ) −→ Zm (K ).
(ϕi,j i j
m )∗ : Hm (K ) −→ Hm (K ),
i,j
Hm = (ϕi,j i
m )∗ (Hm (K )),
16 T
En general no indicaremos los ı́ndices de persistencia, dependiendo del análisis diremos
20 A
también el (i, j)–ésimo grupo de homologı́a persistente. Este grupo contiene todas las clases
m–dimensionales a nivel j, que ya tenı́an representantes presentes (vivos) en K i .
lio IM
El correspondiente número persistente de Betti cuenta los vacı́os m–dimensionales que
existen todo el camino desde K i hasta K j . Estamos interesados en clases particulares, como
por ejemplo la clase con el menor ı́ndice i y mayor ı́ndice j, tal que la clase es no–trivial en
Ju -C
i j i,j−1
Además, decimos que una clase c que nace en K muere entrando a K si (ϕm )∗ (c)
i−1,j−1
no está en Hm , pero (ϕi,j i−1,j
m )∗ (c) está en Hm .
El ı́ndice de persistencia es j − i.
AT
Observar que una clase que nace puede no morir, o bien decimos que “muere en infinito”.
Como hemos visto, en la mayorı́a de las aplicaciones existe una función que gobierna la
evolución (construcción) de la filtración. En este caso llamamos persistencia a la diferencia
entre los valores de la función al nacimiento y muerte de una clase. Por ejemplo, para la
construcción de la filtración de Čech, usamos la función distancia dP a una muestra finita
de puntos P de un espacio euclidiano.
F = {∅ = K 0 ⊂ K 1 ⊂ . . . ⊂ K α = K},
2.2. Persistencia topológica de una filtración 61
K i+1 = K i ∪ σ i+1 , i = 0, . . . , m − 1,
16 T
n n−1
∂ : Cm −→ Cm−1 ,
20 A
n−1
tiene imagen contenida en Cm−1 . Denotamos también por
lio IM
n
Zm = Zm (K n ) y Bm
n
= Bm (K n )
homologı́a de K n :
Zn
Hm n
= Hm (K n ) = mn
.
Bm
D
0 1 n α
Zm ⊂ Zm ⊂ . . . ⊂ Zm ⊂ . . . ⊂ Zm = Zm (K),
0 1 n α
Bm ⊂ Bm ⊂ . . . ⊂ Bm ⊂ . . . ⊂ Bm = Bm (K).
Cm (F) = {ci,j
m}
16 T
el conjunto de m–ciclos. En caso de que un ciclo nazca en i pero no muera, escribiremos ci,∞
m .
20 A
Definición 2.3.1. Definimos el m–ésimo diagrama de persistencia de F como el sub-
lio IM
conjunto de R2 :
dgm(F) = {(i, j) : ci,j
m ∈ Cm (F)} ∪ diag,
jamiento.
Definición 2.3.2. Sean dgm1 y dgm2 dos diagramas de persistencia. La distancia del
cuello de botella entre dgm1 y dgm2 se define como
donde γ corre sobre el conjunto de biyecciones entre los conjuntos dgm1 y dgm2 .
16 T
20 A
lio IM
Ju -CD
AT
Figura 2.3: La figura muestra dos diagramas de persistencia, (a) dgm1 y (b) dgm2 . En (c) y
(d) se denotan dos posibles biyecciones γ1 y γ2 entre los puntos de dgm1 y dgm2 . En la figura,
se cumple supz∈dgm1 kz − γ2 (z)k∞ < supz∈dgm1 kz − γ1 (z)k∞ , para ilustrar que la biyección
óptima que opera en la definición de dB conlleva una búsqueda sobre todas las posibles γ.
(ϕa,b
m )∗ : Hm (Ma ) −→ Hm (Mb ), m ≥ 0.
La imagen de (ϕa,b
m )∗ es el m–ésimo grupo de homologı́a persistente de a a b, denotado
a,b
por Hm . Sea
a,b a,b
βm = dim Hm ,
el m–ésimo número persistente de Betti. El cual cuenta las clases de homologı́a independien-
tes que nacen en tiempo a y mueren después del tiempo b.
16 T
Definición 2.4.1. Decimos que v ∈ R es un valor crı́tico homológico de f , si para > 0
20 A
suficientemente pequeño la aplicación
v−,v+
lio IM
(ϕm )∗ : Hm (Mv− ) −→ Hm (Mv+ )
no es un isomorfismo.
Además, f se dice mansa si tiene un número finito de valores crı́ticos homológicos, y
Ju -C
Supongamos que f : M −→ R es una función mansa y escojamos > 0 más pequeño que
la distancia entre dos valores crı́ticos homológicos. Para cada par de valores crı́ticos a < b,
AT
^ ) ∪ diag,
dgm(f ) = dgm(f
γ : dgm(f ) −→ dgm(g)
16 T
y estamos considerando la norma del supremo para funciones.
20 A
Dicha distancia fue introducida por Cohen–Steiner, Edelsbrunner y Harer ([40]), además
de obtener el siguiente resultado
lio IM
dB (dgm(f ), dgm(g)) ≤ ||f − g||∞ ,
donde f, g : M −→ R son funciones mansas. El cual enunciaremos con detalle más adelante.
Ju -CD
va,b : Va −→ Vb , a ≤ b,
Por ejemplo, la construcción del complejo de Čech o el complejo de Rips, junto con las
respectivas aplicaciones en homologı́a simplicial definen un módulo de persistencia. Observar
que en este tipo de filtraciones se calcula la homologı́a singular del espacio formado por
uniones de bolas, mediante el calculo en homologı́a simplicial del complejo respectivo. En
este caso, existen algoritmos eficientes para calcular la homologı́a persistente (Edelsbrunner,
Milosavljević, Chen y Kerber).
Otro tipo de construcciones de complejos son las del complejo “witness” (de Silva y
Carlsson) o complejos construidos usando estimadores de densidad de kernel (Bubenik).
Dada una función f : X −→ R, la filtración por subconjuntos de nivel define un módulo
16 T
de persistencia para cada m ∈ N ; o bien
20 A
Va = Hm (f −1 ((−∞, a])),
y va,b ≡ (ϕa,b
lio IM
m )∗ son las aplicaciones lineales respectivas. En particular, las funciones distancia
a una nube de puntos y distancia a un subconjunto compacto nos dan ejemplos de módulos
de persistencia.
Sea V un módulo de persistencia y para cada a ≤ b consideramos el correspondiente
Ju -C
número de Betti de V:
β a,b = β a,b (V) = dim im(va,b ).
D
16 T
20 A
lio IM
Ju -CD
AT
Figura 2.4: Función rango arriba a la izquierda, función rango reescalada y correspondiente
código de barras arriba a la derecha, panorama de persistencia y su versión extendida abajo.
16 T
2.6. Códigos de barras
20 A
Informalmente, el diagrama de persistencia consiste en las “esquinas superiores izquier-
lio IM
da” de la función rango, viceversa λ(b, d) cuenta el número de puntos en el diagrama de
persistencia en el cuadrante superior izquierdo. Esto es, dado un diagrama de persistencia
{(bi , di )} definimos
Ju -C
De manera similar, el código de barras consiste de las bases de los triángulos formados
en la función rango reescalada. Para el caso de los códigos de barras tenemos que son un
AT
Va = Hm (K a ), va,b = (ϕa,b
m )∗ .
Entonces los parámetros que surgen de la base de Hm (F) a partir del teorema anterior,
podemos pensarlos en una captura visual en la forma de un código de barras. O bien, una
representación gráfica de Hm (F) como una colección de segmentos de lı́nea horizontales en
un plano, con eje horizontal correspondiendo a los parámetros y eje vertical representando
un orden (arbitrario) de los generadores de homologı́a.
Explı́citamente tenemos lo siguiente (ver [24]).
2.6. Códigos de barras 69
{Jγ : γ ∈ S ⊂ Zm (F)};
16 T
una base para el espacio vectorial Hm (K a ).
20 A
lio IM
Ju -CD
AT
Figura 2.5: Filtración con código de barras e intervalos por clases de homologı́a.
El conjunto de códigos de barras viene dotado con una métrica (ver [28]). Dado un
intervalo J, denotamos por λ(J) su longitud. Si J y J 0 son dos intervalos, denotamos por
∆(J, J 0 ) su diferencia simétrica o médida de dimensión uno
Definición 2.6.5. Dados dos códigos de barras {Jα }α∈S1 y {Jα0 0 }α0 ∈S2 , un emparejamiento
parcial entre S1 y S2 es un subconjunto m ⊂ S1 × S2 , donde cada α y α0 aparece a lo más
una vez. Definimos la distancia entre códigos de barras
16 T
20 A
X X X
D({Jα }S1 , {Jα0 0 }S2 ) = mı́n ∆(Jα , Jα0 ) + λ(Jα ) + λ(Jα0 0 ) ;
m∈match
(α,α0 )∈m α∈S1 \m1 α0 ∈S2 \m2
lio IM
donde mi es la proyección de m en Si .
Ju -C
Dicha definición de distancia define una “cuasi–métrica”, dado que su valor puede ser
infinito, sin embargo puede ser convertida en una métrica.
D
visto, para el caso de filtraciones tipo Morse los códigos de barras son estables en la presencia
de ruido.
2.7. Estabilidad
En general, los módulos de persistencia que son q–mansos son los objetos ideales de
trabajo. En esta sección culminamos enunciando los resultados de estabilidad en relación a
la persistencia.
Recordamos que un módulo de persistencia V es q–manso si el rango de va,b es finito
siempre que a < b.
16 T
1V ∈ End (V),
20 A
la cual es la colección de aplicaciones {va,a+ }. En particular, si Ψ es un homomorfismo de
cualquier grado de U en V, entonces por definición
lio IM
Ψ ◦ 1V ≡ 1V ◦ Ψ.
Definición 2.7.2. Dos módulos de persistencia U y V se dicen –intercalados si existen
Ju -C
aplicaciones
Φ ∈ Hom (U, V), Ψ ∈ Hom (V, U),
tales que
D
Ψ ◦ Φ ≡ 12
U y Φ ◦ Ψ ≡ 12
V.
AT
16 T
f, g : X −→ R funciones continuas. Entonces
20 A
dB (dgm(Fm ), dgm(Gm )) ≤ ||f − g||∞ .
lio IM
Para el caso de la función distancia tenemos lo siguiente. Si X ⊂ Rn es un espacio
topológico compacto y
dX (y) = ı́nf ||x − y||
Ju -C
x∈X
2.8. Ejercicios
Ejercicio 2.8.1. Considera las dos condiciones en la definición de un complejo simplicial.
1. Da una pequeña colección de simplejos que no satisface la primera condición pero sı́ la
segunda.
2. Da una pequeña colección de simplejos que no satisface la segunda condición pero sı́ la
primera.
16 T
20 A
Ejercicio 2.8.2. Sea K un complejo simplicial finito.
son m–simplejos, y por lo tanto c se ve como la unión de los simplejos σij . Prueba que la
suma de dos m–cadenas es igual a su diferencia simétrica.
AT
2. Deduce cuántas 1–cadenas tienen la misma frontera; en otras palabras, cuántos ele-
mentos de C1 (K) son llevados al mismo elemento de B0 (K).
Ejercicio 2.8.5. Sea F una filtración de un complejo simplicial finito K. Demuestra que
todos los vértices de K son positivos y que un segmento o lado σ i es positivo si y sólo si, los
dos vértices finales de σ i están en la misma componente conexa de K i−1 .
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 3
Probabilidad
16 T
20 A
lio IM
El objetivo de este capı́tulo es dar una breve introducción a los conceptos y resultados
de la teorı́a de probabilidad y la teorı́a de medida e integración de Lebesgue que son nece-
sarios para estudiar variables aleatorias en variedades, la inferencia estadı́stica y el análisis
Ju -C
vector gaussiano estándar y σ 2 la varianza del ruido; ası́ como distribuciones de probabilidad
alternativas para M y Z. Se hace especial énfasis en el caso de la esfera y el toro, y en el
marco teórico para simular elementos aleatorios en éstas y otras variedades, lo cual es el
tema del Capı́tulo 4.
Para exposiciones introductorias de teorı́a de la medida e integración, puede consultar-
se los libros clásicos de Bartle [9] y Halmos [65]. Para un enfoque unificado de medida y
probabilidad existen numerosos libros, entre ellos Billingsley [14] y Athreya y Lahiri [6]. Un
compendio rápido de medida y probabilidad se expone en las notas de Domı́nguez–Molina y
Pérez Abreu [44]. El libro de Klenke [85] contiene material avanzado de teorı́a de probabili-
dad en espacios topológicos y el libro de Federer [53] está dedicado a la medida geométrica.
Las demostraciones de los resultados clásicos de esta teorı́a no se presentan, nos remitimos
a cualquiera de estas referencias, o la favorita del lector.
Exposiciones en la literatura sobre variables aleatorias y probabilidad en variedades se
irán mencionando cuando se aborden estos temas. En la tesis de maestrı́a reciente de Lilia
Rivera [114] se presenta una motivación para el análisis estadı́stico sobre variedades, ası́ como
su relevancia y complejidad, más allá del análisis topológico de datos.
75
76 Capı́tulo 3. Probabilidad
1. Ω es un conjunto no–vacı́o.
16 T
∞
[
C
Ω ∈ A, A∈A⇒A ∈A An ∈ A,
20 A
y
n=1
lio IM
para toda sucesión de eventos {Ai } ⊂ A.
y dada una sucesión de eventos {An } tales que son disjuntos por pares An ∩ Am = ∅,
D
n 6= m, entonces
∞
! ∞
[ X
An = P(An ).
AT
P
n=1 n=1
P(A ∩ B) = P(A|B)P(B).
3.1. Elementos de probabilidad 77
16 T
20 A
3.1.1. Variables aleatorias y sus distribuciones
lio IM
En el contexto de topologı́a consideramos lo siguiente. Dado un espacio topológico X,
consideremos OX la colección de abiertos de X. Sea B(X) la menor σ–álgebra generada por
OX ; esto es, la intersección de las σ–álgebras que contienen a OX . Llamamos a B(X) la
Ju -C
σ–álgebra de Borel de X.
Y : Ω −→ Y
se llama variable aleatoria (o función B(Y ) \ A–medible) si
AT
2.
F (−∞) = lı́m F (x) = 0 y F (∞) = lı́m F (x) = 1.
x→−∞ x→∞
16 T
Cualquier función F : R −→ [0, 1] que cumple (1) − (3) se llama función de distribu-
20 A
ción.
lio IM
Teorema 3.1.4 (Kolmogorov). Dada una función de distribución F , existe un espacio de
probabilidad (Ω, A, P) y una variable aleatoria Y : Ω −→ R en (R, B(R)) tal que Y tiene
función de distribución F .
Ju -C
Veremos más adelante cómo demostrar este teorema el cual usaremos múltiples veces.
0, x < a;
F (x) =
AT
1, x ≥ a.
Luego P(Y = a) = 1.
Ejemplo 3.1.6. La función de distribución Bernoulli: sean a1 , a2 ∈ R y 0 < p < 1, tal que
P(Y = a1 ) = p y P(Y = a2 ) = 1 − p.
Si a1 < a2 , se define
0, x < a1 ;
F (x) = p, a1 ≤ x < a2 ;
1, x ≥ a2 .
Luego Z x
F (x) := φ(t, µ, σ 2 )dt
−∞
es una función de distribución. Una variable aleatoria con esta distribución se llama variable
aleatoria con distribución normal N(µ, σ 2 ); lo cual denotaremos por X ∼ N(µ, σ 2 ). Decimos
que una variable aleatoria Z tiene distribución normal estándar si Z ∼ N(0, 1), en cuyo caso
la función de densidad es par (simétrica alrededor del cero)
1 1 2
φ(x) = √ exp − x , x ∈ R.
16 T
2π 2
En particular, tenemos las siguientes implicaciones:
20 A
X−µ
1. Si X ∼ N(µ, σ 2 ), entonces Z = σ
∼ N(0, 1).
lio IM
2. Si Z ∼ N(0, 1), entonces X = µ + σZ ∼ N(µ, σ 2 ).
3. Dadas n variables aleatorias independientes
Ju -C
n n n
!
X X X
Xi ∼ N(µi , σi2 ) ⇒ Xi ∼ N µi , σi2 .
i=1 i=1 i=1
D
En general, dada una función f : R −→ [0, ∞) que integre uno, se definirán las distribu-
ciones absolutamente continuas
AT
Z x
F (x) = f (t)dt.
−∞
0
En tal caso, F (x) = f (x) casi seguramente (como se explica más adelante) y la variable
aleatoria respectiva X satisface que
P(a ≤ X ≤ b) = F (b) − F (a).
Ejemplos de esto pueden encontrarse en las funciones de distribución exponencial, gama,
beta, t, Cauchy o χ2 .
Las distribuciones absolutamente continuas son continuas.
Definición 3.1.8. Una variable aleatoria Y es continua si su función de distribución es
continua. En este caso P(Y = y) = 0 para cada −∞ < y < ∞.
Una variable aleatoria es discreta si existe una sucesión de números nonegativos {pn }n≥0
∞
P
con pn = 1, y un conjunto numerable {yn }n≥0 ⊂ R tal que
n=0
P(Y = yn ) = pn , n ≥ 0.
80 Capı́tulo 3. Probabilidad
En el caso de distribuciones discretas es usual tomar {yn }n≥0 = N∪{0}. En este caso la
función de distribución de Y es
0, x < 0;
F (x) = P[x]
n=0 pk , x ≥ 0.
16 T
Ejemplo 3.1.9 (Distribución uniforme discreta). Sea Ω = {w1 , ..., wn } un conjunto finito
arbitrario, A = 2Ω y la probabilidad P definida en los singletones {wi } como P({wi }) = 1/n.
20 A
Entonces para cualquier subconjunto A ⊂ Ω, P(A) = #(A)/n. Esta probabilidad se conoce
lio IM
como probabilidad uniforme, ya que conjuntos con el mismo número de elementos tienen la
misma probabilidad.
si para cada k ≥ 1 !
\k Yk
P Yi−1 (Ai ) = P(Yi−1 (Ai )),
D
i=1 i=1
con Ai ∈ B(Y ). Análogamente, si las variables aleatorias toman valores reales, decimos que
AT
Teorema 3.1.11. Dada una sucesión de funciones de distribución {Fn }n≥1 en R, existen un
espacio de probabilidad (Ω, A, P) y variables aleatorias independientes Yj : Ω −→ R, j ≥ 1,
tales que para cada n ≥ 1, Yn tiene función de distribución Fn .
En particular, dada una distribución F , X variable aleatoria con esta función de distri-
bución y p > 0, si Z ∞
|x|p F (dx) < ∞,
−∞
16 T
Usualmente denotaremos por µ a la esperanza o primer momento µ1 , además el p–ésimo
momento central se define como E(|X − µ|p ).
20 A
Definimos la varianza de la variable X como
lio IM
Var(X) = σ 2 = E(X − µ)2 = EX2 − (EX)2 ,
Z ∞
Var(X) = (x − µ)2 F (dx).
−∞
D
Dadas n variables aleatorias {Xi } y n constantes {ci }, tenemos las siguientes propiedades
importantes:
AT
1. !
n
X n
X
E c i Xi = ci E(Xi ).
i=1 i=1
3.
Var(c1 X + c2 ) = c21 Var(X),
donde µXY = E(XY). Notar que si X y Y son independientes Cov(X, Y) = 0. Decimos que
X y Y están no correlacionadas si Cov(X, Y) = 0. El que dos variables aleatorias estén no
correlacionadas no implica que sean independientes; es un ejercicio muy fácil dar un ejemplo.
Más aún,
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
y en general dadas n variables aleatorias {Xi } y n constantes {ci }, tenemos que
n
! n n X
X X X
2
Var ci X i = ci Var(Xi ) + 2 ci cj Cov(Xi , Xj ).
16 T
i=1 i=1 j=1 i<j
20 A
Por lo tanto, si las variables aleatorias {Xi } son independientes o no correlacionadas a pares
lio IM
n
! n
X X
Var c i Xi = c2i Var(Xi ).
i=1 i=1
Ju -C
Yn (ω) −→ Y(ω), n −→ ∞.
Escribimos
c.p,1
Yn −→ Y.
En estos casos, el lı́mite es único, módulo variables aleatorias que difieren en un conjunto
de probabilidad cero.
3.1. Elementos de probabilidad 83
16 T
La distribución lı́mite es única.
20 A
Proposición 3.1.12. 1. Sean Xn , n ≥ 1, X variables aleatorias, entonces
c.p,1 Pr L
lio IM
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.
Pr L
2. Si X es variable aleatoria degenerada, entonces Xn −→ X ⇔ Xn −→ X.
Ju -C
c.p,1 Pr c.p,1
3. Si Xn −→ X (Xn −→ X) y g es una función continua, entonces g(Xn ) −→ g(X)
Pr
(g(Xn ) −→ g(X)).
D
entonces
L
Xn Yn + Zn −→ aX + c.
Teorema 3.1.14 (Ley Fuerte de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
independientes con la misma distribución, con primer momento EYi = µ. Sea Sn = nj=1 Yj ,
P
entonces
Sn
P lı́m = µ = 1.
n−→∞ n
Teorema 3.1.15 (Ley Débil de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
independientes con la misma distribución, con primer momento EYi = µ y Var(Yi ) = σ 2 <
∞. Entonces
a) Para cada > 0
σ2
Sn
P − µ > ≤ 2 .
n n
Sn Pr
b) n
−→ µ.
16 T
Teorema 3.1.16 (Teorema del Lı́mite Central). Sean {Yi }i≥1 variables aleatorias indepen-
20 A
dientes con la misma distribución, con primer momento EYi = µ y Var(Yi ) = σ 2 < ∞.
Entonces
lio IM
!
√ Snn − µ L
n −→ Z;
σ
Ju -C
2π −∞
AT
Teorema 3.1.17 (Método Delta). Sean {Yi }i≥1 variables aleatorias tales que existen µ ∈ R
√ L
y σ 2 > 0 para las cuales n(Yn − µ)/σ −→ Z ∼ N(0, 1). Sea g : R −→ R una función
medible tal que g (1) (µ) 6= 0, entonces
√ g (Yn ) − g(µ)
L
n (1)
−→ Z,
g (µ)σ
Xd = (X1 , . . . , Xd ),
con variables aleatorias independientes {Xi } con la misma distribución y todos sus momentos
finitos. Dado p ≥ 1 por la LGN
d
1 1X c.p,1
16 T
||Xd ||pp = |Xj |p −→ E|X1 |p = µp . (3.1.1)
d d j=1
20 A
Es decir, con alta probabilidad, para d grande
lio IM
||Xd ||p ' (d)1/p µ1/p
p ,
intuitivamente los números de Betti son cero salvo los casos β0 y βd−1 que son iguales a 1,
Ju -C
para cualquier p ≥ 1.
Por el TLC con σp2 = Var(|X|p ) tenemos que cuando d → ∞
D
||Xd ||pp
√ d
− µp L
d −→ Z ∼ N(0, 1).
σp
AT
En consecuencia,
1 1/p−1
||Xd ||p ' d1/p µ1/p
p + µp σp d1/p−1/2 Z.
p
Esto es, la norma del vector tiene un ruido que se distribuye como N(0, kp2 d2/p−1 ). Ası́ pode-
mos observar que para el caso p = 2 el ruido no depende de d y si sucede que p es muy grande,
entonces este ruido tiene varianza pequeña. En general, la dimensión d es muy grande.
Gaussiano Ortogonal (GOE), ver Sección 4.1.2. Estas variables aleatorias son “fuertemente
dependientes” y se tiene con una “convergencia rápida” lo siguiente
00
||Xd ||p ' d1/p+1/2 kp0 + kp d1/p−1/2 Z.
16 T
20 A
3.2. Construcción de medidas y variables aleatorias
lio IM
3.2.1. Construcción de medidas y aplicaciones a probabilidad
El objetivo de esta sección es dar los elementos necesarios de medida e integral de Lebes-
Ju -C
µ : C −→ [0, ∞]
AT
S
es σ–aditiva si siempre que Ai ∈ C, Ai ∩ Aj = ∅ y Ai ∈ C entonces,
∞
! ∞
[ X
µ Ai = µ(Ai ).
i=1 i=1
Definición 3.2.1. Una medida en A es una función σ–aditiva en A tal que µ(∅) = 0. La
terna (X, A, µ) se llama un espacio de medida.
Decimos que una medida µ es finita si
µ(A) < ∞, A ∈ A.
S
Además, µ es σ–finita en C si existe una sucesión {An } de C tal que X = An y µ(An ) < ∞.
El primer ejemplo de una medida es considerar µ como el número de elementos de un
conjunto X. La cual es una medida que no es finita si la cardinalidad de X no es finita y es
σ–finita si y sólo si X es numerable.
Dado un espacio de medida (X, A, µ), un conjunto A ∈ A es un átomo si
3.2. Construcción de medidas y variables aleatorias 87
Dado un espacio de medida (X, A, µ), decimos que µ es una medida no atómica si no
tiene átomos.
En particular si µ es una medida no atómica, µ ({i}) = 0, ∀ {i} ∈ A.
Consideremos el espacio de medida dado por X = {1, . . . , n}, A =2X y µ = # (A).
Entonces µ tiene átomos en {1} , . . . , {n}.
16 T
Definición 3.2.2. Una colección S de subconjuntos de X es una semi–álgebra si se satis-
facen:
1. ∅ ∈ S,
20 A
lio IM
2. S es cerrada bajo intersecciones finitas,
k
X
c
A = Aj , Ai ∩ Aj = ∅;
D
j=1
P
donde la notación Aj indica la unión disjunta o ajena de los Aj .
AT
1. X ∈ A0 ,
2. A ∈ A0 implica que Ac ∈ A0 y
3. A, B ∈ A0 implica que A ∪ B ∈ A0 .
En general, dada una semi–álgebra S, la colección de todas las uniones finitas ajenas de
elementos en S es un álgebra A0 (S).
es una semi–álgebra. Observe que a cualquier subconjunto en S(R) le podemos medir una
longitud λ y además S no es un álgebra.
88 Capı́tulo 3. Probabilidad
Pk
Para A ∈ S(R), A = j=1 Aj , Ai ∩ Aj = ∅, la longitud de A se define como
k
X
λ(A) = λ(Aj ).
j=1
16 T
En particular, la σ–álgebra generada por S(R) es igual a la σ–álgebra de Borel B(R)
Ejemplo 3.2.5. Sean (X1 , A1 ) y (X2 , A2 ) dos espacios medibles, el conjunto
20 A
S 2 = {A1 × A2 : A1 ∈ A1 , A2 ∈ A2 }
lio IM
es una semi–álgebra de X1 × X2 . Si X1 = X2 = R y A1 = A2 = B(R), se tiene que
σ(S 2 ) = B(R2 ).
Ju -C
Este ejemplo se puede generalizar para cualquier producto finito de espacios medibles.
Sean µ1 y µ2 dos medidas en (R, B(R)), para A = A1 × A2 con A1 , A2 en B(R), definimos
D
la medida producto
µ1 × µ2 (A) = µ1 (A1 )µ2 (A2 ).
AT
16 T
entonces, µ es σ–aditiva.
20 A
Tenemos varios ejemplos de medidas que se construyen de esta forma:
lio IM
1. La medida de Lebesgue λ en R está asociada a F (x) = x. En este caso, para cualquier
intervalo I ⊂ R, λ(I) es igual a la longitud de dicho intervalo I. De hecho, basta
observar como se define esta medida en subconjuntos de la forma (a, b] con a < b ∈ R:
Ju -C
λ((a, b]) = b − a.
1
λ(An ) −→ λ({a}) ⇒ −→ 0,
n
es decir, λ({a}) = 0. Más aún, por la σ–aditividad de la medida, si A ∈ B(R) es
numerable, λ(A) = 0. Además tenemos que
y
λ((a, b]) = λ((a, b) ∪ {b}) = λ(a, b) + λ({b}) ⇒ λ((a, b)) = b − a.
3. Dados −∞ < a < b < ∞ y σ([a, b]) = B(R) ∩ [a, b] se define la distribución uniforme
(continua) en [a, b] como la probabilidad
16 T
λ(A)
20 A
P(A) = , A ∈ σ([a, b]).
b−a
lio IM
En este caso Z x
F (x) = f (u)du, x∈R
−∞
Ju -C
con
1
b−a
, x ∈ (a, b);
f (x) =
0, x∈/ (a, b).
D
AT
S d = A1 × · · · × Ad = {A1 × A2 × · · · × Ad : Ai ∈ Ai , i = 1, ..., d}
16 T
µ1 × · · · × µd (A1 × A2 × · · · × Ad ) = µ1 (A1 ) · · · µd (Ad ).
20 A
Con el teorema anterior se prueba la existencia de variables aleatorias independientes
lio IM
con distribuciones dadas. Recordamos que un espacio métrico se dice polaco si es un espa-
cio separable y completo; remitimos al lector al Apéndice B para mayor información sobre
medidas en espacios métricos polacos.
Ju -C
Definición 3.2.15. Sean X1 , ..., Xd variables aleatorias en un espacio de probabilidad (Ω, A,P)
y con valores espacio métrico separable X y sea X = (X1 , ..., Xd ).
La distribución de X como elemento en Xd = X × · · · × X se llama la distribución
conjunta de las variables aleatorias X1 , ..., Xd y es la probabilidad en (Xd , B(Xd )) dada por
d
!
\ −1
PX (A1 × A2 × · · · × Ad ) = P Xi (Ai ) , Ai ∈ B(X), i = 1, ..., d.
i=1
16 T
de la siguiente manera
20 A
PXi (Ai ) = PX (X × · · · × X × Ai × X · · · ×X), Ai ∈ B(X).
lio IM
Una distribución conjunta no está definida por sus distribuciones marginales, a menos
que se tengan variables aleatorias independientes. Existen distribuciones conjuntas con las
mismas marginales.
Si X1 , ..., Xd son independientes
Ju -C
d
Y
P X−1
PX (A1 × A2 × · · · × Ad ) = i (Ai ) , Ai ∈ B(X), i = 1, ..., d.
D
i=1
Dadas dos variables aleatorias X e Y en X en con distribución conjunta PX,Y en (X2 , B(X2 ))
AT
Veremos más adelante ejemplo de distribuciones conjuntas cuando las variables aleatorias
16 T
no son independientes.
Cuando X e Y son distribuciones discretas
20 A P(X = x |Y = y ) =
P(X = x, Y = y)
lio IM
P(Y = y)
En este sección queremos comenzar a dar sentido a la siguiente expresión muy usada en
AT
X = M + σZ,
donde M es una variable aleatoria con distribución uniforme en una variedad, Z es un vector
aleatorio con distribución normal multivariada N(0, Id ) y σ > 0 es una constante.
16 T
entonces
Ldp = T ∈ Rd×p ; T > T = Id .
20 A
Observemos que Sd−1 = Ld1 .
Dada una medida µ en (Rq , B(Rq )), decimos que µ es invariante bajo transformaciones
lio IM
ortogonales por la izquierda si para todo A ∈ B(Rq ), se tiene que µ(OA) = µ(A) para
cualquier matriz ortogonal O(q), con OA = {Ox : x ∈ A}. Recomendamos el libro de Eaton
[45] para este tema.
Ju -C
referencias clásicas.
Finalmente, el tema de la próxima sección y de la Sección 3.6.3 es la medida uniforme-
AT
ρ : X × X −→ [0, ∞).
Se dice que una medida µ en (X, B(X)) es de Radon si cumple con las siguientes dos
propiedades:
16 T
1. µ es de Borel, para cada x ∈ X existe 0 < r < ∞ tal que µ(Br (x)) < ∞,
20 A
2. µ es regular interior: para cada A ∈ B(X)
lio IM
µ(A) = sup {µ(K) : K ⊂ A, K compacto} .
Para mayor información sobre medidas en espacios métricos polacos, remitimos al lector
al Apéndice B de estas notas.
Ju -C
Cualquier medida de probabilidad en (X, B(X)) es una medida de Radon. Las medidas
de Lebesgue-Stieltjes en (R, B(R)) son de Radon.
Dada una medida de Radon µ en (X, B(X)) se define el soporte de µ como
D
\
supp(µ) = C,
AT
µ(C c )=0
donde la intersección se toma sobre los conjuntos cerrados C. Observe que esto está bien
definido pues el conjunto X es cerrado y su complemento, el conjunto vacı́o, tiene medida
cero.
Definición 3.3.2. Decimos que una medida de Radon µ en (X, B(X)) es uniformemente
distribuida si
donde
Br (x) = {y ∈ X : ρ(x, y) < r}.
µ1 = cµ2 .
96 Capı́tulo 3. Probabilidad
(b) La existencia de un elemento aleatorio X con valores en X está garantizada por la Propo-
sición 3.2.14. Diremos que X tiene probabilidad uniformemente distribuida en el espacio
métrico X.
(c) La probabilidad uniformemente distribuida está ligada a la métrica ρ del espacio ambien-
te.
16 T
El siguiente resultado será usado frecuentemente.
20 A
Teorema 3.3.5. Sean X1 y X2 dos espacios métricos polacos con σ-álgebras de Borel B(X1 )
y B(X2 ). Sean µ1 y µ2 medidas de Radon en (X1 , B(X1 )) y (X2 , B(X2 )) respectivamente.
lio IM
Entonces, la medida producto µ1 ×µ2 es uniformemente distribuida en X1 ×X2 con la topologı́a
producto si y sólo si, las marginales µ1 y µ2 son medidas uniformemente distribuidas en X1
y X2 , respectivamente, en cuyo caso supp(µ1 × µ2 ) = supp(µ1 ) × supp(µ2 ).
Ju -C
en B(R) como
c(A) = #(A ∩ H), A ∈ B(R).
Esta medida es finita solamente cuando H es finito, de otra forma es σ-finita. Se tiene que
c es medida uniformemente distribuida en R si supp(c) = Z pero no si supp(c) = N.
Observación 3.3.7. (i) En la Proposición 3.6.4 (c), se describen los posibles soportes de
medidas uniformemente distribuidas en R.
16 T
de simulación.
3.3.3.
20 A
Medida de Lebesgue en Rd y distribución uniforme en sub-
lio IM
conjuntos
Consideramos la medida de Lebesgue λd en (Rd , B(Rd )); esto es, λd es la medida producto
en (Rd , B(Rd )) que corresponde a F (x) = x (en el Teorema de construcción de medidas de
Ju -C
Esta medida es de gran importancia, enunciaremos algunas de sus propiedades (ver por
ejemplo el libro de Jones [71]):
λd (A + x) = λd (A), x ∈ Rd , A ∈ B(Rd ).
con T A = {T x : x ∈ A}.
De esta última propiedad se obtiene de manera inmediata que para cada r > 0,
λd (rA) = rd λd (A)
16 T
donde rA = {rx : x ∈ A}. Además para cualquier matriz ortogonal O ∈ O(d),
20 A
λd (OA) = λd (A);
lio IM
esto es, λd es invariante bajo transformaciones ortogonales por la izquierda.
( d
)
X
Dd = (x1 , . . . , xd ) ∈ Rd : x2j ≤ 1
D
j=1
entonces
AT
λd (A)
md (A) = , A ∈ B(Dd ) = Dd ∩ B(Rd ) (3.3.2)
λd (Dd )
define una probabilidad “uniforme de volumen” en el disco (Dd , B(Dd )), pero no en el
sentido de la Definición 3.3.2. De esta forma, la medida de un conjunto A ∈ B(Dd ) en este
disco es el “volumen” normalizado del conjunto.
Se cumple que
π d/2
λd (Dd ) = λd (B1 (x)) = .
Γ(d/2 + 1)
En general, para cualquier radio r > 0 se tiene que λd (Br (x)) = π d/2 rd /Γ(d/2 + 1). Esta
distribución es uniforme en el disco, en el sentido de que conjuntos del mismo volumen tienen
la misma probabilidad. Observemos la diferencia entre probabilidad uniformemente
distribuida y probabilidad uniforme de volumen.
El vector aleatorio Xd = (X1 , . . . , Xd ) con esta distribución es tal que las variables alea-
torias X1 , . . . , Xd no son independientes.
3.3. Probabilidad en variedades I: 99
Un vector Xd = (X1 , . . . , Xd ) con distribución µdF se dice vector gaussiano con distribución
normal multivariada N(0, Id ). Se tiene que X1 , . . . , Xd son variables aleatorias independientes
16 T
cada una con distribución normal F . Tal vector aleatorio existe por el Teorema 3.2.13.
Veremos más propiedades de esta medida más adelante en la Sección 3.5.4, como el hecho
20 A
que N(0, Id ) también es invariante bajo transformaciones ortogonales por la izquierda.
lio IM
3.3.5. Probabilidad uniformemente distribuida en esferas
Construcción usando la medida de Lebesgue
Ju -C
X
Sd−1 = (x1 , . . . , xd ) ∈ Rd : x2j = 1 .
j=1
AT
16 T
tribución ω. El mismo resultado se obtiene si se considera otra variable aleatoria que toma
20 A
el valor cero con probabilidad cero y tiene distribución simétrica, es decir X y −X tienen
la misma distribución. Sin embargo, debido a un Teorema de Poincaré que enunciaremos a
lio IM
continuación, es conveniente considerar el usar variables aleatorias normales como punto de
partida para realizar la probabilidad uniformemente distribuida en una esfera.
En general, dada Sd−1 y la σ–álgebra de Borel asociada B(Sd−1 ) = Sd−1 ∩ BRd ), para
A ∈ B(Sd−1 ) definimos
Ju -C
ωd (A) = .
λd (B1 (0))
AT
Entonces, ωd es una medida de probabilidad en (Sd−1 , B(Sd−1 )) que está uniformemente dis-
tribuida con soporte Sd−1 y para cualquier abierto no vacı́o A en Sd−1 , ωd (A) > 0. Además,
ωd es invariante bajo transformaciones ortogonales por la izquierda. Estas últimas propie-
dades se obtienen fácilmente de las correspondientes propiedades de la medida de Lebesgue
λd .
Esta probabilidad coincide con la medida de probabilidad de volumen de la esfera, la cual
se explica en la Sección 3.6. Esto se sigue del hecho de que la distancia euclidiana entre dos
elementos de Sd−1 es proporcional a la distancia geodésica entre esos puntos.
Observación 3.3.11. De las consideraciones anteriores tenemos que la distribución uni-
formemente distribuida en Sd−1 es la distribución uniforme de “volumen”, y uniforme en
el sentido de invariante bajo transformaciones ortogonales por la izquierda. La llamaremos
simplemente distribución uniforme en la esfera Sd−1 .
16 T
probabilidad uniforme ωd y d1 , d2 con 1 ≤ d1 ≤ d2 fijos. Entonces
√ L
20 A
d(Rd1 , . . . , Rd2 ) −→ N(0, Id2 −d1 +1 ), (3.3.3)
cuando d → ∞. Es decir, Rd1 , . . . , Rd2 son asintóticamente independientes y con distribución
lio IM
normal estándar. En particular, para cada i = 1, 2, ..., fijo, cuando d → ∞ se tiene
√ L
dRi −→ N(0, 1). (3.3.4)
Ju -C
con distribución uniforme en la esfera Sd−1 . Podemos pensar también a este resultado como
un ejemplo de construcción de distribuciones en variedades (en este caso Sd−1 ) a partir de la
distribución inducida por una variable aleatoria en el espacio ambiente Rd .
Proposición 3.3.14. Si X1 , . . . , Xd son variables aleatorias independientes con distribución
normal estándar N(0, 1) y Xd = (X1 , . . . , Xd ), entonces la variable aleatoria
X1 Xd
R= ,..., (3.3.5)
||Xd || ||Xd ||
tiene distribución uniforme en Sd−1 . Además, la variable aleatoria ||Xd || y el vector aleatorio
R son independientes.
El resultado anterior es un caso particular de un resultado más general en Eaton [45]
página 237, el cual a su vez es un caso particular de un resultado para matrices aleatorias,
también en [45], Proposición 7.3. Se dice que la distribución de un vector aleatorio Xd es
invariante bajo transformaciones ortogonales por la izquierda si OXd y Xd tienen la misma
distribución para cualquier matriz ortogonal O ∈ O(d). (Abusando de notación, cuando
hagamos esta multiplicación pensamos a los vectores, como vectores columna).
102 Capı́tulo 3. Probabilidad
(i) El vector aleatorio R dado por (3.3.5) tiene distribución uniforme en Sd−1 ,
(iii) E(R) = 0 y E(R> R) = d1 Id , pero las variables aleatorias (R1 , . . . , Rd ) no son indepen-
dientes.
16 T
Más aún, cuando las variables aleatorias X1 , . . . , Xd son independientes, estas deben tener
20 A
necesariamente una distribución normal estándar para que R tenga probabilidad uniforme-
mente distribuida. Esto lo probaremos de la siguiente manera usando el Teorema de Poincaré,
lio IM
el Teorema de Slutsky y la Ley de Grandes Números (3.1.1).
d
1 1X Pr
||Xd ||2 = |Xj |2 −→ E|X1 |2 = 1
d d j=1
√ Pr
y por lo tanto, usando la Proposición 3.1.12(c), d/||Xd || −→ 1. Finalmente, por el Teorema
de Slutsky, para i = 1, 2, ..., fijo
√
√ d L
dRi = Xi −→ Xi cuando d → ∞.
||Xd ||
Usando 3.3.4 en el Teorema de Poincaré y la unicidad del lı́mite se concluye que Xi tiene
distribución normal N(0, 1).
16 T
3. Para d = 3, Ri se distribuyen de manera uniforme en (−1, 1).
20 A
4. Para d = 4, Ri se distribuyen como una distribución semicı́rculo en (−1, 1).
En general, para d ≥ 2, la distribución de Ri está dada por la densidad
lio IM
fd (x) = cd (1 − x2 )(d−3)/2 1(−1,1) (x).
Ju -C
donde cd es una constante normalizadora de tal forma que fd integra uno en (−1, 1).
El material de esta sección se puede ver, por ejemplo, en el libro de Kac [74] y el artı́culo
D
de Kingman [82], los cuales no ofrecen mayores detalles. El cálculo de esas distribuciones
marginales utiliza encontrar densidades de transformaciones multivariadas, los cuales son
cálculos directos que requieren trabajo.
AT
µ(Ă)
ν µ : B(Sd−1 ) −→ [0, 1], A 7−→
µ(B1 (0))
Del Teorema 3.3.15 se tiene que si µ en (Rd , B(Rd )) es invariante bajo transformaciones
ortogonales por la izquierda, µR =ν µ es la probabilidad uniforme en (Sd−1 , B(Sd−1 )). En
general este no es el caso.
Retomaremos este tema en el Capı́tulo 4 que incluye simulación de variables aleatorias
en la esfera Sd−1 .
16 T
Probabilidades en el toro
20 A
A partir de la probabilidad uniformemente distribuida ωd en (Sd−1 , B(Sd−1 )) y como
lio IM
consecuencia del Teorema 3.3.5, podemos construir medidas de probabilidad uniformemente
distribuidas en los productos cartesianos
T2 = S1 × S1 , Tp = S1
· · × S}1 ,
| × ·{z
d1
· · × Sdn},
|S × ·{z
Ju -C
p n
| {z } | {z }
p n
Denotemos por B R la σ-álgebra de los reales extendidos, que contiene a B (R) , {−∞}
y {+∞} . Es fácil probar que
B R = B, B ∪ {+∞} , B ∪ {−∞} , B ∪ {+∞} ∪ {−∞} : B ∈ B R .
Definición 3.4.1. Sean (X, A) y (Y, T ) espacios medibles y T : X −→ Y. Se dice que T
es A|T -medible si T −1 T ⊂ A, es decir, T −1 G ∈ A, para todo G ∈ T , es decir “la imagen
inversa de un medible es medible”. En particular si Y = R y f : X −→ R decimos que f es
medible si f es A|B R -medible.
16 T
El siguiente resultado permite probar medibilidad de funciones en clases generadoras.
20 A
Proposición 3.4.2. (a) Sean (X, A) , (Y, T ) espacios medibles y T una transformación de
X en Y. Sea G una clase de subconjuntos de Y tal que σ (G) = T . Entonces T es
A|T -medible si, y sólo si, T −1 G ∈ A, para todo G ∈ G.
lio IM
(b) Sea (X, A) un espacio medible y f : X −→ R. Entonces f es una función medible si, y
sólo si,
Ju -C
f −1 ({−∞}) ∈ A, f −1 ({∞}) ∈ A
y
D
1E es medible si, y sólo si, E ∈ A. Esto nos permite construir una función no medible,
tomando 1E : R −→ R, donde E ⊂ R es no-medible.
106 Capı́tulo 3. Probabilidad
Proposición 3.4.3. (a) Sea (X, A) un espacio medible y f, g : X −→ R funciones A|B (R)-
16 T
medibles. Entonces las siguientes funciones son medibles:
20 A
(i) cf, para todo c ∈ R, (ii) f 2 , (iii) f + g,
lio IM
(iv) f g, f n para todo n ≥ 1, (v) |f | .
Ju -C
(b) Sean f : X −→ R,
f + (x) = máx {f (x) , 0} ≥ 0
y
D
i)f = f + − f − , ii) |f | = f + + f − ,
1 1
iii)f + = (|f | + f ) y iv)f − = (|f | − f ) .
2 2
(c) f + y f − son medibles si, y sólo si, f es medible.
16 T
lı́m fn (x) = f (x), ∀x ∈ X\N.
n→∞
3.4.2.
20 A
Construcción de la integral de Lebesgue y propiedades ini-
lio IM
ciales
Consideremos (X, A, µ) un espacio de medida. La integral de Lebesgue de funciones me-
Ju -C
X k
φ(x) = aj 1Aj (x);
AT
j=1
1
lı́m fn (x) = f (x) , x ∈ R.
n→∞
108 Capı́tulo 3. Probabilidad
En particular,
Z Z
m : A −→ [0, ∞), A 7−→ m(A) = φ1A dµ := φdµ,
A
16 T
Z Z Z
(φ + ϕ)dµ = φdµ + ϕdµ.
2. Si c > 0, entonces
20 A
lio IM
Z Z
cφdµ = c φdµ.
Ju -C
mann. El ejemplo básico de esto es considerar X = [0, 1], A = B([0, 1]), µ = λ y A = Q∩[0, 1].
En tal caso la integral de Lebesgue de f ≡ 1A se anula pero la integral de Riemann de f no
existe.
1. φn ↑ φ, es decir
φn (x) ≤ φn+1 (x), x ∈ X,
3.4. Integral de Lebesgue 109
2.
lı́m φn (x) = f (x),
n→∞
3. Z Z
φn dµ −→ f dµ.
Además se presentan las mismas propiedades (1)-(3) arriba, es decir, la integral de fun-
ciones medibles no–negativas es lineal y preserva la monotonı́a de funciones.
16 T
Paso 3. Funciones real valuadas.
Para cualquier función medible f : X −→ R tenemos las funciones medibles no–negativas
20 A
f + (x) = máx(0, f (x)), f − (x) = máx(−f (x), 0),
lio IM
tales que
f = f + − f −, |f | = f + + f − .
Decimos que f es integrable con respecto de µ en el sentido de Lebesgue si ambas
Ju -C
Z Z
+
f dµ < ∞, f − dµ < ∞;
D
I(f ) = f dµ = f dµ − f − dµ.
+
Las propiedades (1)-(3) como antes se satisfacen siempre que consideremos las funciones a
integrar en L1 (µ); esto es, para f, g ∈ L1 (µ) y a ∈ R,
I(f ) ≤ I(g).
IA (f ) ≤ IB (f ).
110 Capı́tulo 3. Probabilidad
Observación 3.4.8. (i) Hay una función cuya integral impropia de Riemann existe, pero
no es integrable con respecto a la medida de Lebesgue λ en R:
sin(x)
f (x) = .
x
(ii) En general, si las integrales de Riemann y de Lebesgue con respecto a λ existen, estas
son iguales.
16 T
(iii) Si f es una función integrable en el sentido de Riemann en un intervalo (a, b) entonces
la integral de f 1(a,b) con respecto a la medida de Lebesgue λ en R existe.
20 A
Enunciamos a continuación tres teoremas fundamentales de la integral de Lebesgue los
lio IM
cuales permiten intercambiar la integral de lı́mites de funciones con el lı́mite de las integrales,
para funciones en X con valores en R o posiblemente R.
Teorema 3.4.9 (Lema de Fatou). Si {fn } es una sucesión de funciones medibles no-
Ju -C
negativas, entonces Z Z
lı́m inf fn dµ ≤ lı́m inf fn dµ.
D
Z Z
lı́m fn dµ = lı́m fn dµ.
n→∞ n→∞
Teorema 3.4.11 (Convergencia dominada). Sean {fn } una sucesión de funciones medibles
y f : X −→ R una función medible tal que para cada x ∈ X, fn (x) −→ f (x) cuando n → ∞.
Si existe una función medible g : X −→ R tal que |fn | ≤ g y g ∈ L1 (µ); entonces, para cada
n ≥ 1, fn ∈ L1 (µ), f ∈ L1 (µ) y
Z Z
f dµ = lı́m fn dµ.
n→∞
Para el caso del producto de medidas tenemos el siguiente resultado que muestra como
se efectúa el intercambio de integrales.
Teorema 3.4.12 (Fubini). Sean (X1 , A1 , µ1 ) y (X2 , A2 , µ2 ) dos espacios de medida σ-finitas
y sea µ1 × µ2 la medida producto en (X1 × X2 , A1 × A2 ).
3.4. Integral de Lebesgue 111
En particular, Tonelli demuestra que estas identidades son válidas en el caso de que f
sea una función medible no negativa.
También en el caso de una serie de funciones medibles no negativas tenemos el intercambio
16 T
entre la integral y la suma.
20 A
Teorema 3.4.13 (Beppo–Lévi). Si (fn )n≥1 son funciones medibles no negativas en un es-
pacio de medida (X, A, µ) entonces
lio IM
Z X∞ ∞ Z
X
fn dµ = fn dµ.
n=1 n=1
Ju -C
3.4.3. Espacios Lp
Brevemente presentamos las funciones cuya potencia p es integrable y las desigualdades
D
más importantes. Estos espacios son útiles para estudiar aproximación de funciones, como
se ilustra en el capı́tulo de estadı́stica.
AT
Sea (Ω, A, µ) un espacio de medida. Decimos que dos funciones f y g son µ-equivalentes
(o son iguales µ-c.t.p.) si
µ ({x : f (x) 6= g (x)}) = 0.
Vamos a considerar clases de µ-equivalencia de funciones:
[f ] = {f : f es µ-equivalente} .
A partir de ahora identificaremos [f ] con f.
Definición 3.4.14. Para 0 ≤ p ≤ ∞ se definen los espacios Lp = Lp (Ω, A, µ) como
Z
p p
L = f : |f | dµ < ∞ , 0 ≤ p < ∞;
esto es, Lp (Ω, A, µ) es el espacio que consiste de todas las clases de equivalencia de funciones
f : X −→ R con respecto a µ, tales que |f |p es integrable con respecto de µ. También es
común Lp (µ) = Lp (Ω, A, µ).
Además tenemos
L∞ = L∞ (Ω, A, µ) = {f : µ({|f | > K}) = 0, para algún K > 0}.
112 Capı́tulo 3. Probabilidad
16 T
Resumimos las propiedades más importantes de la norma ||f ||p en el siguiente resultado.
20 A
Proposición 3.4.15. (a) (Desigualdad de Hölder). Sea f ∈ Lp y g ∈ Lq , p > 1, p1 + 1
q
=1
lio IM
(o bien, p y q son ı́ndices conjugados). Entonces f g ∈ L1 y kf gk1 ≤ kf kp kgkq .
kf + gkp ≤ kf kp + khkp .
n
X
h= ci 1 A i ,
AT
i=1
16 T
iv) hf, f i ≥ 0 y hf, f i = 0 ⇐⇒ f = 0.
v) kf k22 = hf, f i .
20 A
Decimos que f, g son ortogonales si:
lio IM
Z
f gdµ = 0.
kf k∞ = ı́nf {S (N ) : µ (N ) = 0} .
Decimos que f es esencialmente acotada si además cumple lo siguiente:
i) kf k∞ es norma.
ii) L∞ es espacio de Banach (Dual de L1 ).
iii) Si A < kf k∞ , A > 0, entonces existe E ∈ Ω con µ (E) = 0 tal que |f (x) > a| , para
cada x ∈ E.
Definición 3.4.18 (Convergencia en Lp ). Sean 1 ≤ p < ∞ y f, f1 , f2 , . . . funciones en
Lp
Lp (µ). Decimos que la sucesión (fn )n≥1 converge en Lp (µ) a f , y escribimos fn −→ f si
kfn − f kp −→ 0 cuando n −→ ∞.
Lp Lp
Observamos que si fn −→ f y fn −→ g entonces f = g µ-c.t-p..
Hablaremos de convergencia en Lp de variables aleatorias en la Sección 3.5.1.
En el Apéndice C, sobre variables aleatorias en espacios de Banach, se presentan condi-
ciones para la separabilidad de los espacios Lp .
114 Capı́tulo 3. Probabilidad
16 T
R
1. m es una medida en (X, A). En particular, si f dµ = 1, decimos que f es densidad
20 A
de m con respecto a µ en cuyo caso m es una medida de probabilidad.
2. Si µ(A) = 0 para A ∈ A, entonces m(A) = 0.
lio IM
Una densidad es única µ casi seguramente y en general supp(m) ⊂ supp(µ).
Definición 3.4.20. Sean µ y ν dos medidas.
Ju -C
Cuando dos medidas no son equivalentes, es posible que sean singulares en el siguiente
sentido.
Definición 3.4.21. Decimos que una medida µ está concentrada en un conjunto A-
medible E si µ(E c ) = 0.
Dos medidas µ y ν son mutuamente singulares (o simplemente singulares) u ortogo-
nales si existe un conjunto A-medible E tal que µ está concentrado en E y ν está concentrada
en E c .
Uno de los teoremas más relevantes sobre generación de medidas a partir de medidas
σ–finitas es el siguiente.
Teorema 3.4.22 (Radon-Nikodym). Sean ν, µ dos medidas σ-finitas en (X, A) tales que
ν µ. Entonces, existe una función medible f ≥ 0 (es única µ−c.s.) tal que
Z
ν(A) = f dµ
A
se cumple.
3.5. Especificación de modelos de probabilidad usando densidades 115
16 T
dµ dν
= ( )−1 .
dν dµ
20 A
lio IM
3.5. Especificación de modelos de probabilidad usando
densidades
Ju -C
gencia
Recordemos varios conceptos y resultados sobre variables aleatorias, algunos de los cuales
se mencionaron anteriormente.
Definición 3.5.1. X : Ω → M es variable aleatoria (v.a.) si
X−1 (B(M )) ⊂ A.
La distribución de X es la probabilidad PX en (M ,B(M )):
PX (A) = P(X−1 (A)), A ∈ B(M ).
Luego, (M ,B(M ), PX ) es otro espacio de probabilidad.
Además podemos definir los momentos de una variable aleatoria como hemos mencionado
antes. Sea X v.a. en (Ω, A, P) con distribución PX en (M ,B(M )) y h : M →R función medible
con Z
|h(x)| PX (dx) < ∞.
M
116 Capı́tulo 3. Probabilidad
Tres de las desigualdades en probabilidad más usadas en donde aparece la esperanza son
las siguientes. Las primeras dos son ejemplos de las llamadas desigualdades de concentración
16 T
(a) (Cálculo de esperanza de variables nonegativas) Se cumple que
20 A
Z ∞
P (h(X) > x) dx = E [h(X)] . (3.5.1)
lio IM
0
(b) ∀ > 0
1
P (h(X) > ) ≤ E [h(X)] . (3.5.2)
Ju -C
entonces
1
P (dΘ (g(X1 , ..., Xn ), θ) > ) ≤ E [(dΘ (g(X1 , ..., Xn ), θ))p ] ,
AT
y es usual tratar de probar que el lado derecho tiende a cero si n → ∞ por lo que la
probabilidad también tenderı́a a cero.
Lema 3.5.3 (Desigualdad de Chebyshev). Sea X una variable aleatoria con media E(X) y
varianza Var(X) finitas. Entonces para todo > 0
1
P (|X−E(X)| > ) ≤ Var(X).
2
Lema 3.5.4 (Desigualdad de Jensen). Sea X una variable aleatoria con E |X| < ∞. Si
ϕ : R → R es una función convexa entonces
E [ϕ(X)] ≥ ϕ(EX).
Esto nos permite definir convergencia de variables aleatorias en Lp (Ω, A, µ), como la con-
vergencia con respecto a esta norma, e identificando variables aleatorias que difieren en un
conjunto de probabilidad cero. Ası́, decimos que la sucesión de variables aleatorias (Xn )n≥1
Lp
converge a la variable aleatoria X en p-media, y escribimos Xn −→ X, si kXn − Xkp −→ 0
16 T
cuando n −→ 0.
20 A
Las principales relaciones con otros tipos de convergencia vistos anteriormente se resumen
de la siguiente manera.
lio IM
Lp Lq
Propiedades 3.5.6. 1. Si 1 ≤ q < p < ∞ y Xn −→ X, entonces Xn −→ X.
Lp Pr
2. Si Xn −→ X, entonces Xn −→ X, para 1 ≤ p < ∞.
Ju -C
Pr
3. Sea 1 ≤ p < ∞ y Xn ∈ Lp , n ≥ 1. Si Xn −→ X y existe Y ∈ Lp tal que
D
|Xn | ≤ Y µ − c.s.
Lp
AT
Entonces X ∈ Lp y Xn −→ X.
Sean (X, A, µ) un espacio de medida, (Y, C) otro espacio medible y g : X → Y una función
A/C− medible. La medida en (Y, C) inducida por g, denotada por µg −1 , se define como
Teorema 3.5.7 (De la Transformación). Sea h : Y → [0, ∞] una función Borel medible.
Entonces h es µg −1 –integrable, si y sólo si h ◦ g es µ-integrable, en cuyo caso
Z Z
−1
hd(µg ) = h ◦ gdµ.
Y X
Este teorema, junto con la medida de Lebesgue o la de conteo permiten calcular espe-
ranzas de funciones para distribuciones que son absolutamente continuas con respecto a la
medida de Lebesgue o de conteo.
Nos remitimos a la Definición 3.1.8 para los conceptos de distribuciones absolutamente
continuas y discretas.
118 Capı́tulo 3. Probabilidad
Proposición 3.5.8 (Fórmulas de cálculo para esperanzas). Sea X una variable aleatoria
con función de distribución F y sea h : R → [0, ∞] una función Borel medible.
16 T
2. Si F es una distribución discreta dada por {pn }n≥0 , µF es absolutamente continua con
respecto a la medida de conteo c y, cuando existe, la esperanza de h(X) está dada por
20 A Z ∞
lio IM
X
Eh(X) = h(x)µF (dx) = h(n)pn .
R n=0
Ju -C
Generalmente µ será una medida de referencia “universal” en (M, B(M )), usualmente una
medida uniformemente distribuida o una distribución uniforme, f : M −→ [0, ∞) será una
AT
16 T
20 A
c) Modelo gaussiano, θ = (m, σ 2 ) ∈ Θ = R × [0, ∞)
lio IM
1 1 2
fθ (x) = √ exp − 2 (x − m) , x ∈ R,
σ 2π 2σ
Ju -C
multivariada Z
f (x)dx = 1.
AT
Rd
Para A ∈ B(Rd ) Z Z
P(A) = f (x)dx = f (x)λd (dx).
A A
16 T
M
20 A
en donde Dp denota la p-ésima derivada de la función f . Este es el caso de estimación
de densidades, tema que se verá en el Capı́tulo 5.
lio IM
3. Cuando el parámetro a estimar es el soporte (compacto) de una medida (probabilidad)
µ.
Ju -C
f y g como Z
f (x)
DKL (f, g) = f (x) log µ(dx). (3.5.3)
M g(x)
En realidad DKL no es una distancia, ya que sólo se cumple que DKL (f, g) ≥ 0 y
DKL (f, f ) = 0, pero es una herramienta útil.
M = N, Zd , medida de conteo c o cd .
M = R, medida de Lebesgue en R.
3.5. Especificación de modelos de probabilidad usando densidades 121
M = Rd , medida de Lebesgue en Rd .
• Matrices aleatorias.
16 T
M ⊂ Rd variedad con distribución geométrica (uniforme) en M (Sd−1 , Td ).
20 A
• Datos con dirección.
lio IM
M espacio métrico compacto con distribución uniforme en M .
dencia
AT
Para i = 1, ..., d las distribuciones marginales PXi en (M, B(M )), (ver Sección 3.2.3),
tienen densidad fi con respecto a µ dada por la expresión
Z
fi (xi ) = f (x1 , ..., xd )µ(dx1 ) · · · µ(dxi−1 )µ(dxi+1 ) · · · µ(dxd ).
16 T
M
| × · ·
{z · × M}
d−1 veces
20 A
Finalmente, dadas las variables aleatorias X1 y X2 la distribución condicional PX1 |X2 de
X1 dado X2 (ver Sección 3.2.3) es tal que PX1 |X2 es absolutamente continua con respecto a
lio IM
µ con densidad (llamada densidad condicional) fX1 |X2 dada por
f(X1 X2 ) (x, y)
fX1 |X2 (x, y) =
Ju -C
fX2 (y)
suponiendo que fX2 (y) > 0. Además
D
Z
P (X1 |X2 = y ) = fX1 |X2 (x, y)µ(dx).
A
AT
En Rd
Distribución normal multivariada En primer lugar consideramos la densidad Isotrópi-
ca normal en M = Rd ,
2 −d/2 1 2
exp − 2 kx − mk , x ∈ Rd ,
fθ (x) = 2πσ
2σ
3.5. Especificación de modelos de probabilidad usando densidades 123
16 T
X = Σ1/2 Z + m ∼ Nd (m, Σ)
20 A
y viceversa. La prueba de este hecho usa el siguiente teorema.
Teorema 3.5.10 (Cambio lineal de variables de la integral de Lebesgue en Rd ). Sea T una
lio IM
matriz d × d invertible. Para cualquier función medible g en Rd , la función g ◦ T (x) = g(T x)
es medible y si g ≥ 0 Z Z
g(x)dx = |det T | g(T x)dx.
Ju -C
El método anterior es útil para simular v.a. Nd (m, Σ) y el teorema prueba la invarianza
bajo transformaciones ortogonales por la izquierda de Nd (0, σ 2 Id ) tomando g como la densi-
AT
dad f(0,σ2 ) (x) ya que kOxk2 = kxk2 para cualquier matriz ortogonal O ∈ O(d) y |det O| = 1.
Un teorema más general de transformación es el siguiente resultado, el cual es útil para
construir medidas de volumen en variedades.
Teorema 3.5.11. Sea T : Rk → Rd un mapeo lineal inyectivo con k ≤ d y X = T (Rk ). Para
cualquier función medible g : Rd → R, la función g ◦ T (x) = g(T x) es medible y si g ≥ 0
Z Z
> 1/2
d
g(x)λ (dx) = det T T
g(T x)λk (dx).
X Rk
La prueba de este resultado se encuentra en la Sección 3.2 del libro de Tjur [125].
Con el Teorema 3.5.10 también se encuentra la función de densidad (multivariada) de la
distribución Nd (m, Σ):
−d/2 −1/2 1 > −1
f (x) = (2π) (det Σ) exp − (x − m) Σ (x − m) , x ∈ Rd . (3.5.4)
2
La matriz de covarianza Σ = (σij ) es tal que σij = Cov(Xi , Xj ) donde X = (X1 , ..., Xd ) tiene
esta distribución.
124 Capı́tulo 3. Probabilidad
Distribuciones en la esfera
θ = (m,κ) ∈ Θ = Sd−1 × [0, ∞) y c1 (κ) constante. Dicha densidad fue especificada para
d = 2 por von Mises en 1918, y para d ≥ 3 por R. Fisher en 1953. Esta distribución se usa
en el estudio de datos direccionales y juega un papel similar al de la distribución normal en
16 T
datos lineales.
Ası́, la medida inducida en (Sd−1 , B(Sd−1 )) es
20 A
Z Z
ν(A) = fθ (x)dx = fθ (x)ωd (dx), A ∈ B(Sd−1 ).
lio IM
A A
θ ∈ Θ = SO(d) × [0, ∞), con respecto a la distribución uniforme dada por la medida de
Haar.
D
h 2 i
>
fθ (x) = c3 (κ) exp κ x m , x ∈ Sd−1 ,
Distribuciones en el toro
Mardia en 1975 estudia el caso de una distribución von Mises bivariada en S1 × S1
como sigue. La densidad fθ (φ, ψ) : [0, 2π] × [0, 2π] → [0, ∞)
fθ (φ, ψ) ≈ exp [κ1 cos(φ − µφ ) + κ2 cos(φ − µψ ) + gΣ (φ, ψ)]
16 T
Teorema 3.6.1. Sea X un espacio métrico polaco con σ−álgebra de Borel B(X) y sea
20 A
{Xi : i ∈ I} una familia de subconjuntos abiertos de X tal que X = ∪i∈I Xi . Supongamos
que para cada Xi hay una medida de Radon µi tal que la siguiente condición de consistencia
lio IM
se cumple
∀i, j ∈ I, µi |Xi ∩Xj = µj |Xi ∩Xj . (3.6.1)
Entonces, existe una única medida de Radon µ en B(X) tal que µi |Xi = µ para cada i ∈ I.
Ju -C
Este resultado se cumple para espacios localmente compactos, ver Teorema 2.61 en [125].
D
Vamos ahora a explicar como definir la medida geométrica en una variedad M de di-
mensión k en Rd . Siguiendo las ideas en la Sección 3.4 del libro de [125], intuitivamente, la
medida geométrica es el análogo k−dimensional de las medidas de longitud en una curva de
R2 o R3 y el área de una superficie de dimensión dos en R3 . La idea intuitiva es la siguiente:
Como vimos en el Capı́tulo 2, una variedad de dimensión k en Rd es localmente casi isomorfa
a un espacio euclidiano k−dimensional; es decir, una parametrización local puede ser apro-
ximada por una transformación lineal afı́n de un conjunto abierto de un espacio tangente
k−dimensional. Entonces la medida geométrica es la medida que es localmente casi igual a
la medida de Lebesgue en Rk .
Demos una definición precisa de la medida geométrica en una variedad. Para ello usaremos
el lenguaje de variedades parametrizadas visto en la Sección 1.6.1.
Consideremos p : M 0 −→ Rd una parametrización de una variedad k–dimensional Mp =
p(M 0 ). Esto es, M 0 ⊂ Rk es un subconjunto abierto y p es una aplicación inyectivamente
regular. Luego, para poder usar el Teorema 3.5.11 necesitarı́amos que p fuera un mapeo
inyectivo lineal, en tal caso la medida geométrica (o medida de Lebesgue) serı́a proporcional
a la medida de Lebesgue transformada en M 0 .
126 Capı́tulo 3. Probabilidad
En el caso general, p es una aplicación “localmente casi lineal” con lo cual definimos la
medida geométrica en Mp como la medida que es “localmente proporcional” a la medida de
p(M 0 ) con factor de proporcionalidad | det Dp> Dp|1/2 . Recordamos que Dp es la matriz de
la aplicación lineal que aproxima p localmente. Por lo tanto tenemos el siguiente resultado,
consecuencia del Teorema 3.5.11.
Teorema 3.6.2 (Medida geométrica en variedades). Sea p : M 0 −→ Rd una parametrización
de una variedad k–dimensional Mp = p(M 0 ), con k ≤ d. Para cualquier función medible
g : Rd −→ R+ se cumple que
16 T
Z Z
d
>
1/2
g(x)λ (dx) = det Dp Dp
g(px)λk (dx).
20 A
Mp M0
Estamos sobreentendiendo que p : M 0 −→ Mp , por lo que esto define una medida sobre
lio IM
Mp no sobre Rd . En [125] puede observarse con cuidado la demostración de que esta definición
es independiente de la parametrización que elijamos.
Ası́, ya que M puede ser cubierta por variedades parametrizadas, y cada una de esas
Ju -C
variedades tiene una medida geométrica, se puede comprobar que esas medidas en conjuntos
abiertos de M , satisfacen la condición de consistencia (3.6.1) del Teorema 3.6.1. Por lo tanto
existe una única medida en (M, B(M )), tal que la restricción a cualquier variedad parametri-
D
por λM . El soporte de λM es M .
Observación 3.6.3. 1. La mayorı́a de los trabajos en la literatura en análisis topológico
y geométrico de datos, se refieren a distribución uniforme en el sentido de medida
geométrica o de volumen, a la medida de probabilidad
Z
dλM
P(·) = .
· λM (M )
3. Más adelante, en la sección 3.6.4, se presentan las fórmulas para el cálculo de la medida
de volumen e integrales con respecto a ella.
4. El trabajo de Small ([122]), presenta con detalle la construcción de la medida geométri-
ca, en el contexto de estadı́sticas sobre variedades y formas.
16 T
Como se mencionó en la Sección 3.6.4 y en la Observación 3.6.3, el término distribución
20 A
o medida uniforme se emplea en la literatura de análisis topológico y geométrico de datos
para referirse a la medida de volumen definida en la sección anterior. No siempre se cumple
lio IM
que esta medida es la misma que la probabilidad uniformemente distribuida en el sentido de
la definición 3.3.2.
El siguiente resultado nos da condiciones para que un conjunto sea el soporte de una
medida uniformemente distribuida en Rd ; ver detalles en [38] o [84].
Ju -C
ver [104].
16 T
Para poder definir la medida de Hausdorff ocupamos la métrica euclidiana y el volumen
de la bola unitaria en Rm :
20 A ωm = λm (B1 (0)) =
Γ( 21 )m
.
lio IM
Γ(( m2 ) + 1)
Definición 3.6.5. Sea A ⊆ Rd , se define la medida Hausdorff de dimensión m de A
mediante
Ju -C
m
m
X diam(Bi )
H (A) = lı́m ı́nf ωm ;
δ−→0 A⊆∪Bi , diam(Bi )≤δ 2
esto es, el ı́nfimo se toma sobre todas las cubiertas numerables {Bi } de A con diámetro
D
menor que δ.
A diferencia de la medida de Lebesgue, la medida de Hausdorff no es fácil de comprender.
AT
16 T
Si f : U −→ V es una función inyectiva diferenciable y f −1 : f (V ) −→ U es continua,
entonces:
20 A
1. Para cualquier función Borel–medible g : Rd −→ R, la función φ(x) = g(f (x))Jf (x)
lio IM
es Borel–medible.
Z Z
d
g(y)λ (dy) = g(f (x))Jf (x)λd (dx).
V U
D
1. Si A ∈ B(Rk ): Z Z
k
Jk f (x)λ (dx) = N (f |A , y)Hk (dy).
A Rd
3.7. Ejercicios
16 T
σ(S 2 (R)) = B(R2 ).
20 A
Ejercicio 3.7.3. Dado un subespacio métrico (X, B(X)) de (Rd , B(Rd )), si A ∈ B(X) de-
lio IM
muestra que
OA = {Ox : x ∈ A} ∈ B(Rd )
para cualquier matriz ortogonal O ∈ O(d).
Ju -C
Ejercicio 3.7.4. Considera la medida de Lebesgue λd en (Rd , B(Rd )). Verifica los siguientes:
1. λd es σ–finita.
D
3. λd (Sd−1 ) = 0.
π d/2
λd (Dd ) = λd (B1 (x)) = .
Γ(d/2 + 1)
π d/2 rd
λd (Br (x)) = .
Γ(d/2 + 1)
Capı́tulo 4
16 T
20 A
variedades
lio IM
En la literatura de ATD, cada vez son más los trabajos, especialmente los de estadı́sti-
Ju -C
ca, que hacen estudios de simulación para obtener intuición sobre los modelos y métodos
propuestos, ası́ como evaluar su comportamiento ante diversas situaciones. Ello requiere de
poder simular variables aleatorias con distribuciones de probabilidad en una variedad.
D
La simulación estocástica fue creada por John von Neumann hace ya más de 65 años
y consiste en la generación en la computadora de pseudo datos en base a un modelo de
AT
probabilidad, o el uso de un modelo a partir de una base de datos. También se conoce como el
Método Monte Carlo y actualmente es una herramienta importante en matemáticas, ası́ como
en finanzas, ciencias naturales, ciencias de la computación, ingenierı́a y ciencias sociales. Para
aplicaciones contemporáneas en probabilidad, estadı́stica y matemáticas en general se pueden
consultar los libros de Devroye [41], Jones [72], Roberts y Casella [115] y Thompson [124].
Un aspecto primario en la simulación estocástica es la generación de variables pseudo
aleatorias con una distribución de probabilidad dada, para lo cual es esencial un algoritmo
generador de una variable aleatoria U con distribución uniforme en [0, 1]. El método mas
usual, conocido como método de congruencias (propuesto inicialmente por G. Marsaglia),
se construye usando teorı́a de congruencias de números y diseñando y aplicando pruebas ad
hoc de “aleatoriedad”. Una excelente exposición para estos fundamentos se encuentra en el
libro de Knuth [86]. Con ello, dada una función de distribución F en R y su función cuantil
F −1 , F −1 (U ) tiene distribución F. En forma más general, a partir del generador de variables
con distribución uniforme se puede usar el llamado método de aceptación-rechazo para
generar variables aleatorias en modelos más generales de probabilidad, el cual, si bien es de
aplicación general, no siempre es eficiente; ver [72], [115], [124].
Hoy en dı́a los softwares comerciales y libres incluyen rutinas para generar variables
131
132 Capı́tulo 4. Simulación de variables aleatorias en variedades
16 T
El proyecto de los alumnos Gilberto Flores y Yair Hernández al final de estas notas
20 A
ejemplifican el método en [43] también en el caso del toro. Incluyen además los casos de la
botella de Klein -usando una parametrización en Franzoni [56]- y la banda de Moebius.
lio IM
El trabajo reciente de Kent et al. [80] hace una revisión de los mejores métodos de
simulación de distribuciones paramétricas de datos direccionales en variedades, incluyendo
el caso de la esfera, el plano proyectivo, la variedad de Stiefel, el grupo ortogonal especial,
Ju -C
entre otras. Entre las distribuciones paramétricas consideradas en [80] se incluyen algunas
de las presentadas en la Sección 3.5.4.
En este capı́tulo se exponen algoritmos distintos para generar variables aleatorias en
D
variedades los cuales tienen la ventaja de ser fácilmente adaptables cuando se consideran
distribuciones diferentes a la uniforme y las familias paramétricas. El caso de la distribución
uniforme en Sd fue propuesto por Muller [97] en 1959 y popularizado por Marsaglia [93] y se
AT
sabe que es un método lento. El objetivo, sin embargo, es contar con modelos de probabilidad
sencillos que hagan énfasis en el soporte no uniforme de la variedad, lo cual tiene dos ventajas.
La primera es que se trata de distribuciones que permiten una interpretación a la realización
de variables aleatorias con esa distribución las cuales están sujetas a efectos de repulsión,
correlaciones o colas pesadas. La segunda es que son alternativas fáciles de implementar
que permiten analizar y comparar los diversos métodos de ATD ante supuestos distintos a la
distribución uniforme y explorar acerca de la robusticidad de estos métodos ante desviaciones
de las suposiciones.
Esto último se muestra en el Proyecto del alumno Jesús Pérez Angulo, al final de estas
notas, en donde también se exponen los algoritmos Mapper y complejos testigos para ATD. El
proyecto incluye un estudio de simulación amplio para analizar caracterı́sticas homológicas,
geométricas y de costo computacional para comparar éstos y los métodos usuales de ATD
ante diversos escenarios de distribuciones, consideraciones de error y tamaño de muestra, en
los casos de las variedades S1 , S2 y T2 .
4.1. Variables aleatorias en la esfera 133
16 T
En esta sección presentamos un método diferente para generar variables aleatorias con
distintas distribuciones en Sd−1 y sus productos cartesianos, lo cual permite considerar as-
20 A
pectos alternativos de modelación con distribuciones de fácil interpretación a la realización
de variables aleatorias con estas distribuciones. Recordemos de la Sección 3.3.6, que dado
lio IM
cualquier vector aleatorio Xd = (X1 , . . . , Xd ) con distribución µ en (Rd , B(Rd )) y tal que
P(| kXd k = 0) = 0 se tiene que
X1 Xd
Ju -C
R= ,..., (4.1.1)
||Xd || ||Xd ||
En la siguiente figura se muestra una simulación de mil variables aleatorias con distribu-
ción uniforme en S2 .
16 T
20 A
lio IM
Figura 4.1: Simulación 1000 variables aleatorias con distribución uniforme en S2 .
Ju -C
Figura 4.2: Simulación 300 variables aleatorias con distribución cociente de una distribución
normal bivariada con dependencia en S1 .
4.1. Variables aleatorias en la esfera 135
16 T
20 A
lio IM
Figura 4.3: Simulación 1000 variables aleatorias con distribución cociente de una distribución
normal trivariada con dependencia en S2 .
Ju -CD
en la nube de puntos están sujetos a una fuerza de repulsión. El modelo está basado en el
comportamiento de valores propios de matrices aleatorias.
Consideremos la matriz aleatoria simétrica Z = (Zij ) d × d, donde Zij , 1 ≤ i ≤ j ≤ d son
variables aleatorias independientes y cada Zij tiene distribución normal N(0, 1 + δij ). Se dice
que Z es una matriz GOE (Gaussian Orthogonal Ensemble).
La densidad multivariada f de los eigenvectores X1 , ..., Xd de la matriz Z es bien conocida
en la teorı́a de matrices aleatorias; ver por ejemplo el Teorema 2.5.2 y la Observación 2.5.3
en el libro [3]. Su fórmula explı́cita es
1 Y
f (x) = cd exp(− kxk2 ) |xj − xi | , x = (x1 , ...xd ) ∈ Rd (4.1.2)
4 i<j
son independientes. Esto último era de esperarse, pero de (4.1.2) observamos que estos son
fuertemente dependientes y tienen una fuerza de repulsión.
De hecho, una dependencia más fuerte se observa en los valores propios de una matriz
GUE (Gaussian Unitary Ensemble): Sea Z = (Zij ) una matriz hermitiana d × d , donde
ReZij , ImZij , 1 ≤ i, j ≤ d son variables aleatorias independientes y ReZij , ImZij tienen dis-
tribución normal N(0, 21 (1 + δij )). En este caso la densidad conjunta de los valores propios
X1 , ..., Xd de la matriz Z es
1 Y
cd exp(− kxk2 )
f (x) = e |xj − xi |2 , x = (x1 , ...xd ) ∈ Rd (4.1.3)
16 T
2 i<j
20 A
donde e
cd es una constante positiva que sólo depende de d.
Es de esperarse que en ambos casos la distribución de puntos inducida por
lio IM
R = (X1 , . . . , Xd ) /| kXd k
Figura 4.4: Simulación 300 variables aleatorias con distribución cociente GOE en S1 .
4.1. Variables aleatorias en la esfera 137
16 T
20 A
lio IM
Figura 4.5: Simulación 300 variables aleatorias con distribución cociente GUE en S1 .
Ju -CD
AT
Figura 4.6: Simulación 1000 variables aleatorias con distribución cociente GOE en S2 .
138 Capı́tulo 4. Simulación de variables aleatorias en variedades
16 T
20 A
lio IM
Figura 4.7: Simulación 1000 variables aleatorias con distribución cociente GUE en S2 .
Cuando se consideran los valores propios ordenados X1 < . . . < Xd la densidad corres-
Ju -C
pondiente es d! veces (4.1.2) (o 4.1.3) considerada sobre la cámara de Wely −∞ < x1 <
· · · < xd < ∞.
En general, los modelos de repulsión no son particulares de los eigenvectores de una
D
matriz con entradas gaussianas. Numerosos modelos de las matrices aleatorias presentan
este fenómeno, pero la densidad tiene una expresión amigable en el caso GOE y GUE.
AT
16 T
20 A
Figura 4.8: Simulación 300 variables aleatorias con distribución cociente Cauchy en S1 .
lio IM
Ju -CD
AT
Figura 4.9: Simulación 1000 variables aleatorias con distribución cociente Cauchy en S2 .
16 T
4.2.1.
20 A
Distribución uniforme como elemento en R2d y R3
lio IM
En particular, Td tiene distribución uniforme en Td (la cual el uniformemente distribuida
por el Teorema 3.3.5) si cada Ri tiene distribución uniforme en S1 .
Ju -C
Figura 4.10: Simulación 1000 variables aleatorias con distribución inducida por la uniforme
en la inmersion de T2 en R3 .
4.2. Variables aleatorias en el toro 141
16 T
20 A
lio IM
Ju -CD
Usando un método directo en Diaconis et al. [43], el proyecto de los alumnos Gilberto
Flores y Yair Hernández muestra como generar variables aleatorias directamente en el toro
en R3 . Este es el método que usa la librerı́a de R. La siguiente imagen muestra una nube
de puntos en el toro con distribución uniforme, generada con este método.
16 T
20 A
lio IM
Figura 4.12: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal GOE en S1 .
Ju -CD
AT
Figura 4.13: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal GUE en S1 .
una distribución cociente multivariada y de Cauchy en S1 como en las Secciones 4.1.1 y 4.1.3
respectivamente.
16 T
20 A
lio IM
Ju -C
Figura 4.14: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal cociente bivariada en S1 .
D
AT
Figura 4.15: Simulación 1000 variables aleatorias con distribución en T2 con distribución
marginal Cauchy en S1 .
144 Capı́tulo 4. Simulación de variables aleatorias en variedades
16 T
banda de Moebius.
Con respecto a generación de variables aleatorias con otras distribuciones en estas varie-
20 A
dades, en la dirección de las distribuciones alternativas consideradas en la esfera y el toro en
lio IM
las secciones anteriores, es un tema en el que estamos trabajando y pensamos incluirlo en
estas notas en un futuro.
Ju -C
Inferencia Estadı́stica
16 T
20 A
lio IM
El objetivo de este capı́tulo es definir los elementos básicos y establecer notación y no-
menclatura de inferencia estadı́stica. Todo ello es pertinente en el contexto de ATD, debido a
que la razón de ser de ATD es de facto el descubrimiento de propiedades desconocidas de un
Ju -C
objeto con base en el análisis de una nube de puntos. Veremos que esto plantea de entrada
un problema formal de inferencia, y que el reto principal de esta parte será cómo cuantificar
la incertidumbre de la aseveración que se hace respecto a dicha propiedad desconocida. En
D
efecto, los diagramas de persistencia (o los códigos de barras) son instrumentos de inferencia,
y será deseable poder complementar su cálculo con nociones que informen sobre la calidad
o precisión del resultado, o bien de la incertidumbre en la que se incurre cuando se utilicen
AT
para hacer alguna afirmación. En la práctica esto equivale a reconocer que un diagrama
de persistencia incluye ruido e incertidumbre, y éste es el objeto de estudio de inferencia
estadı́stica. La teorı́a de probabilidad del capı́tulo anterior será fundamental.
Para exposiciones introductorias de estadı́stica matemática, puede consultarse Roussas
[117] y Wasserman [128].
145
146 Capı́tulo 5. Inferencia Estadı́stica
16 T
se utilizan los términos incertidumbre estocástica e incertidumbre inductiva para distinguir
estos dos tipos. Es común que estos se confundan entre sı́, porque en estadı́stica matemática
20 A
la teorı́a de probabilidad constituye también una de las maneras naturales de afrontar la
cuantificación de incertidumbre inductiva. En cualquier caso, el concebir a P como medida
lio IM
de probabilidad es la base para formular soluciones a la incertidumbre inductiva. Con este
lenguaje, probabilidad y estadı́stica son problemas diferentes y de cierta manera inversos.
Teorı́a de probabilidad tiene que ver con cuantificar incertidumbre acerca de X y teorı́a
Ju -C
Como una medida de probabilidad puede especificarse por diversos dispositivos, es común
denotar un modelo estadı́stico como un conjunto de funciones de densidad, funciones de
distribución, funciones generadoras de probabilidad, u otros medios por aparte de medidas
de probabilidad propiamente dichas. Matemáticamente un modelo estadı́stico no es más que
un subconjunto de medidas de probabilidad, pero en la práctica la elección de M puede no
ser inmediata. La idea es seleccionar M de tal manera que sea lo más chico posible pero
5.2. Conceptos básicos de estadı́stica matemática 147
que el riesgo de excluir a la medida desconocida P es muy bajo. En lo general, esta elección
es arte-ciencia, como lo es la formulación de cualquier modelo matemático en la práctica.
(En la práctica médica, la noción análoga a modelo se llama diagnóstico diferencial, y en la
investigación judicial el conjunto análogo suele llamarse lı́neas de investigación). La elección
M como todas las medidas de probabilidad posibles, es posible pero no conveniente. La razón
heurı́stica es que la incertidumbre inductiva tiende a ser mayor entre mayor o más complejo
sea M.
Definición
5.2.2. Se dicek
que un modelo estadı́stico es paramétrico si puede escribirse co-
16 T
mo M = Pθ | θ ∈ Θ ⊂ R . En este caso, θ recibe el nombre de parámetro y Θ el de espacio
paramétrico. Notar que si el modelo es correctamente especificado, entonces la presunción
20 A
es que existe un valor de θ tal que P = Pθ . En caso de no ser posible esta representación,
entonces se dice que el modelo es no-paramétrico. Se dice que el modelo paramétrico es
lio IM
identificable, si θ 6= θ0 implica Pθ 6= Pθ0 .
X = αM + (1 − α)N(0, I)
16 T
20 A
5.2.2. Estadı́sticas y distribuciones muestrales
Definición 5.2.4. Una función (medible) T de X con valores en Rd recibe el nombre de
lio IM
estadı́stica.
La idea es que T (X) es una cantidad observable y calculable con los datos observados X,
pues no depende de cantidades desconocidas tales como θ. Otro modo de pensar en T (X) es
Ju -C
que es un resumen de los datos. Como X es elemento aleatorio, entonces T (X) también lo
es. Tiene sentido entonces hablar de la distribución de T (X).
D
Ejemplo 5.2.9. Con esta nomenclatura, y adelantándonos a una concepción que se hará más
adelante, si X es una nube de puntos, y T (X) es el diagrama de persistencia, entonces T (X)
es una estadı́stica. En la literatura de ATD, de hecho es usual referirse a tal diagrama como
un resumen topológico, y el significado de la palabra resumen es idéntico a la acepción que
se acaba de mencionar. La única diferencia es que el valor de T (X) no radica en Rd sino en
un espacio de mayor complejidad.
16 T
Definición 5.2.10 (Verosimilitud). Sea X la observación, y el modelo estadı́stico paramétri-
20 A
co dado por la familia de densidades {f (x; θ)} . La función de verosimilitud es la función
lio IM
L : Θ −→ R
lugar destacado. Uno de los empleos de la función de verosimilitud es definir estadı́sticas con
buenas propiedades.
AT
Definición 5.2.11. El estimador máximo verosı́mil de θ, denotado por θ̂MV está dado
por
θ̂MV = arg sup L(θ; X).
θ
Notar que θ̂MV es una estadı́stica, pues es una función medible de X. En ocasiones, hay
fórmulas explı́citas para θ̂MV , y en ocasiones el máximo es calculable sólo numéricamente
(pero sigue siendo de cualquier forma estadı́stica en el sentido de que no depende de θ sino
de X exclusivamente).
y que
P P
∂ X i n − Xi X X
log L(p) = − = 0 ⇒ (1 − p) Xi − p n − Xi = 0
∂p p 1−p
X X X
⇒ Xi − p Xi − pn + p Xi = 0
P
Xi
⇒ θ̂MV = .
n
Se trata de un máximo, y coincide con la llamada proporción muestral.
16 T
La estadı́stica T (X) constituye un resumen de datos. Sin embargo, ¿Cuándo es efectivo
un resumen de los datos? Existen nociones diseñadas para poder establecer con precisión si
20 A
existe alguna pérdida de información por el hecho de utilizar T en lugar de la información
completa, X.
lio IM
Definición 5.2.13. Sea {f (x; θ) | θ ∈ Θ} un modelo estadı́stico paramétrico. Decimos que
una estadı́stica T es suficiente para el parámetro θ si existen dos funciones h, g ≥ 0 tales
que f (x; θ) = h(T (x), θ)g(x).
Ju -C
señalar el siguiente resultado, que da una condición equivalente que dota de una interpreta-
ción alternativa y probabilı́stica a T.
AT
16 T
La premisa principal de las secciones anteriores es que se observa X ∼ P, y que la medida
20 A
de probabilidad P es desconocida. Antes de comenzar a plantear conceptos (y soluciones)
lio IM
a problemas de estadı́stica, es importante reconocer que puede haber distintos grados de
desconocimiento acerca de P, ası́ como distintas caracterı́sticas de P que son de interés bajo
distintas circunstancias. Existen, correspondientemente, varios tipos de problemas estadı́sti-
cos. En este módulo se abordarán dos problemas especı́ficos concretos: El problema conocido
Ju -C
gran mayorı́a de las aplicaciones de estadı́stica abarcan estos dos grandes tipos—incluyendo
problemas de inferencia estadı́stica que figuran en la literatura actual de ATD.
AT
5.3.1. Estimación
El problema de estimación es aquel en el cual el interés radica en usar X para inferir
el valor de alguna cantidad numérica que se quiere conocer para algún contexto dado. Di-
cha cantidad numérica pudiera ser el valor θ tal que P es la distribución Pθ en un modelo
paramétrico, o el valor (desconocido) de algún funcional estadı́stico τ (P) (detalles sobre fun-
cionales estadı́sticos más adelante). En cualquier caso, la incertidumbre inductiva radica en
el valor numérico que posee el valor desconocido.
Ejemplo 5.3.1. Un ejemplo de estimación en el ejemplo juguete. Supongamos que el interés
radica en inferir el valor numérico de p. Se trata de un problema de estimación paramétrica.
Ejemplo 5.3.2. Supongamos que el interés radica en estimar la función de distribución
F (x) para un valor fijo de x. Se plantea entonces un problema de estimación. Si el modelo
a considerar es paramétrico, dado por {F (x; θ)}, entonces esto se parafrasea en términos de
una estimación de θ, pues θ determina F (x; θ).
152 Capı́tulo 5. Inferencia Estadı́stica
Ejemplo 5.3.3. Un ejemplo en ATD. Supongamos que el interés radica en inferir el valor
numérico de números de Betti β0 , β1 , y β2 . Se trata de un problema de estimación. Los
números de Betti serı́an caracterı́sticas numéricas que corresponden a la medida de probabi-
lidad P que está dando lugar a la nube de datos observada, X. En particular, tendrı́an que
ver con el soporte de P.
16 T
Ahora, para describir el llamado problema de pruebas de hipótesis, supongamos que existe
un modelo estadı́stico H predeterminado y con un significado notable bajo el contexto dado.
20 A
Si el interés se limita a inferir acerca del hecho (desconocido) P ∈ H con base en X, se plantea
un problema de prueba de hipótesis. La incertidumbre inductiva radica en las posibilidades
lio IM
P ∈ H (sı́ o no). El el contexto de modelos paramétricos, las hipótesis se pueden parafrasear
en términos de subconjuntos del espacio paramétrico Θ. En este último caso es común usar
la notación “dos puntos”, consistente en anotar el subconjunto concreto de valores de θ que
integran la hipótesis. Ejemplos de esta notación son H : θ ≤ 2, H : 1 ≤ θ < 2, y H : θ = 2.
Ju -C
Ejemplo 5.3.4. En el ejemplo juguete (visto como encuesta electoral). Si un partido no logra
2.5 % pierde su registro. El interés radica en inferir si p < 0.025. La pregunta previa a la
D
P P
H = p Xi (1 − p)n− Xi : p ∈ (0, 0.025) ,
lo cual es más sucinto representar en términos del subconjunto (0, 0.025) ⊂ Θ, y la notación
H : 0 < p < 0.025. Algo muy importante en este ejemplo es destacar que la hipótesis
(0, 0.025) es “predeterminada y con un significado notable”.
Ejemplo 5.3.5. Ejemplo en ATD. Se observa un diagrama de persistencia D. Una pregunta
de prueba hipótesis serı́a “¿D proviene de un objeto que posee diagrama diagonal?”. Notar
que esta pregunta difiere de “¿Cuál es D?”.
Ejemplo 5.3.6. Otro ejemplo en ATD. “¿El objeto tiene más de una componente conexa?, o
equivalentemente ¿β0 > 1?” Quien haya planteado tal pregunta, otorga un significado notable
a esa condición.
Ejemplo 5.3.7. Otro ejemplo en ATD. Se obtienen diagramas D1 , D2 , . . . , DN vı́a muestras
independientes de varios individuos. Si la pregunta es “¿Todos los diagramas provienen del
mismo objeto topológico?” se plantea una pregunta de prueba de hipótesis. Tendrı́a significado
notable por ejemplo, si se trata de pacientes sanos y la topologı́a se está utilizando para
detectar cambios de formas de órganos para cierta patologı́a.
5.4. Estimación 153
16 T
el intento de responder en el segundo paso la pregunta de prueba de hipótesis.
5.4. Estimación
20 A
lio IM
5.4.1. Estimación paramétrica puntual
Ju -C
Nos limitaremos a dos ideas primordiales (por ser ideas que ya aparecen empleadas en lite-
ratura de ATD): estimación puntual y estimación vı́a intervalos de confianza.
AT
E(Tn ) = θ, ∀θ ∈ Θ.
16 T
P
Ejemplo 5.4.3. En el ejemplo juguete, la estadı́stica Xi /n, obtenida en su momento como
20 A
el llamado estimador máximo verosı́mil para p, es insesgada, consistente, y asintóticamente
normal. En efecto:
lio IM
P
Xi
E = p,
n
P
Xi Pr
Ju -C
−→ p
n
por la ley de los grandes números y
D
P
Xi
√ n
− p L
np −→ N(0, 1)
AT
p(1 − p)
Proposición 5.4.4. Para una muestra aleatoria i.i.d. de tamaño n proveniente de un modelo
estadı́stico {f (x; θ) | θ ∈ Θ} con ciertas condiciones técnicas de regularidad (que incluyen
que el soporte de f (x; θ) no dependa de θ, e intercambialidad entre diferenciación yvalor
Pr √ L
esperado), sea θ̂n el estimador máximo verosı́mil. Entonces θ̂n −→ θ y n θ̂n − θ −→
2
N(0, I −1 [θ]), donde I (θ) = −E ∂∂2 θ log f [X; θ] .
Proposición 5.4.5. Si S(X1 , . . . , Xn ) es cualquier otra estadı́stica que dé lugar a un esti-
mador insesgado para p (por ejemplo X1 o (X1 + X2 )/2), entonces
P
Xi
16 T
Var ≤ Var(S).
n
20 A
P
Se dice entonces que Xi /n es un estimador insesgado de varianza mı́nima, y esto cons-
tituye un ejemplo del concepto de optimalidad en estadı́stica matemática. El significado de
lio IM
ello es que p̂n tiene la menor variabilidad teóricamente posible, o bien la menor incertidumbre
inductiva. El resultado se sigue de un teorema conocido como cota inferior de Cramer-Rao
(ver Roussas [117] o Wasserman [128]), y en su formulación matemática precisa juega un rol
Ju -C
Rx
de distribución normal estándar dada por Φ(x) = −∞ √12π exp(−u2 /2) du y sea zα/2 tal que
Φ(zα/2 ) = 1 − α/2. Definir el intervalo (aleatorio) dado por
r r !
p̂(1 − p̂) p̂(1 − p̂)
In = p̂ − zα/2 , p̂ + zα/2 .
n n
Entonces
P(In 3 p) −→ 1 − α, ∀p.
n→∞
16 T
Pr
Demostración. Por consistencia sabemos ya que p̂ −→ p y por asintoticidad normal sabemos
20 A
que para todo p, r
p(1 − p) L
lio IM
(p̂ − p)/ −→ Φ.
n
Por un teorema de Slutsky obtenemos también que para cada p,
Ju -C
r
p̂(1 − p̂) L
(p̂ − p)/ −→ Φ.
n
D
r !
p̂(1 − p̂)
P −zα/2 < (p̂ − p)/ < zα/2 −→ 1 − α.
n
q
Pero el evento −zα/2 < (p̂ − p)/ p̂(1−p̂)
n
< zα/2 es equivalente a
r r
p̂(1 − p̂) p̂(1 − p̂)
p̂ − zα/2 < p < p̂ + zα/2 .
n n
16 T
precisión de la estimación, y la confianza tiene que ver con la seguridad que se tiene de haber
20 A
estimado p dentro de esos lı́mites de precisión. No es posible lograr muy alta seguridad y gran
precisión simultáneamente, porque ambos se encuentran relacionados entre sı́. El intervalo
lio IM
formado por I = [0, 1] darı́a lugar a un intervalo de confianza 100 % pero la precisión que
resulta de tomarlo no es útil ni informativa. En el otro extremo estarı́a un intervalo muy
angosto, digamos de semiancho 0.00001, con lo cual la confianza resultarı́a ser muy baja.
La forma en que se utilizó la asintoticidad normal para hacer una aseveración acerca de p
Ju -C
condición de cobertura. Lo que hemos ilustrado con el ejemplo de juguete es una región de
confianza en dimensión uno; de allı́ que lo hayamos denominado apropiadamente intervalo
AT
de confianza.
Observación 5.4.7. Una observación sutil, pero importante para la plena comprensión de
este instrumento conocido como intervalo de confianza. Para describir la propiedad de co-
bertura, se ha escrito con toda intención In 3 p en lugar de p ∈ In . Lo primero se lee “el
intervalo In cubre a p” y lo segundo “p cae en In ”. Lo segundo no es del todo correcto, debido
a que p es una constante fija, desconocida, que no tiene la capacidad de “caer” en ninguna
parte. Más bien, In contiene o no contiene a p, y es el sujeto gramatical en la aseveración
In 3 p.
En estadı́stica matemática existe el llamado enfoque bayesiano, que con ciertas premisas
produce interpretaciones muy distintas para los instrumentos de inferencia. La metodologı́a
bayesiana no será abordada en el presente módulo. A la fecha no ha sido desarrollada para
abordar problemas en ATD.
Definición 5.4.8. Si θ ∈ Θ ⊂ Rd es un parámetro d-dimensional, decimos que un subcon-
junto R(X) de Θ es una región de confianza 1 − α si para todo θ se cumple
P(θ 3 R) = 1 − α.
158 Capı́tulo 5. Inferencia Estadı́stica
16 T
que es el parámetro real, θ, de un modelo paramétrico. Las nociones de estimación también
se aplican para cantidades que son de otra ı́ndole.
20 A
Definición 5.4.9. Sea P una medida de probabilidad. Un funcional estadı́stico τ es una
lio IM
función de P en R. Escribimos τ (P), y si la medida P está caracterizada por una función
de distribución F, escribimos τ (F ) abusando de notación (de la misma manera en que nos
referimos a un modelo estadı́stico M como un conjunto de medidas de probabilidad o un
Ju -C
R
τ (F ) = x dF (x) (la media asociada a F ).
AT
R
Más generalmente, τ (F ) = xk dF (x) (el k-ésimo momento).
R R k
τ (F ) = x − xdF (x) dF (x) (el k-ésimo momento central).
para x ∈ R.
Existe una definición más general para cuando la muestra es de vectores aleatorios y
16 T
x ∈ Rd . Se relaciona con la llamada distribución empı́rica, y tiene que ver con la medida de
probabilidad que asigna probabilidad 1/n a cada uno de los valores contenidos en la muestra.
20 A
(Este concepto de distribución empı́rica sı́ aparece en literatura de ATD, como en Chazal
[35]). En lo que sigue, continuamos con la restricción al caso d = 1 por facilidad.
lio IM
Teorema 5.4.11. Sean X1 , X2 , . . . , Xn variables aleatorias independientes, cada una con
función de distribución F. Entonces:
Ju -C
y por consiguiente
AT
h i
E F̂n (x) = F (x)
y
h i F (x) [1 − F (x)]
Var F̂n (x) = .
n
Pr
2. Para todo x ∈ R, F̂n (x) −→ F (x), y
Un resultado de convergencia, mucho más fuerte que el anterior formulado para cada
x fija, es el siguiente. Algunos autores se refieren a él como el teorema fundamental de
estadı́stica matemática. La razón es que muestra que el problema de inferir una función de
distribución desconocida siempre posee solución. Ver Shorack & Wellner para formulaciones
aun más generales que la que se enuncia enseguida.
160 Capı́tulo 5. Inferencia Estadı́stica
Si F̂n (x) estima de alguna manera a F (x), y el interés radicara en realizar estimación de
una cantidad τ = τ (F ), entonces la siguiente definición es natural para producir un estimador
de τ. Serı́a posible preguntarse por nociones de consistencia, insesgadez, y asintoticidad
normal que fueron discutidas para estimación de un parámetro θ.
16 T
Un resultado interesante que da un detalle acerca de la velocidad con la que se consigue
20 A
la convergencia en probabilidad implicada por el resultado anterior es el siguiente. En Was-
serman (2005) se explica su relevancia para la construcción de bandas de confianza para la
lio IM
función de distribución F (x), que son conceptualmente similares a la estimación por vı́a de
subconjuntos descrita—los subconjuntos son de funciones.
independientes, cada una con función de distribución F , entonces para cualquier ε > 0,
2
P sup F̂n (x) − F (x) > ε ≤ 2e−2nε .
D
x
AT
1. Si τ (F ) = x dF (x), entonces τ̂ = n1
R P
Ejemplo 5.4.15. Xi = X̄n . Este estimador
se llama media muestral.
16 T
Uno generalmente relaciona la noción de bootstrap con la computadora. En su concepción
básica, la computadora no juega rol alguno si es que el funcional τ (F̂n ) es conocido, como lo
20 A
fue para algunos de los ejemplos anteriores, en los que el cálculo de τ (F̂n ) se reduce a una
simple sustitución. La conexión cultural con la computadora viene en casos en los que τ (F̂n )
lio IM
no es conocido analı́ticamente, o su cálculo representa gran dificultad, como en el último de
los ejemplos anteriores.
Ju -C
El método conocido como bootstrap (ver Efron & Tibshirani [49]) viene motivado por
el siguiente problema: Se cuenta con una muestra X, con distribución F (desconocida), y el
AT
τ (F ) = Var [T (X1 , . . . , Xn )] ,
donde T es una estadı́stica. También pudiera ser tal cantidad de interés E(T ), o FT (x), o
FT−1 (p), o cualquier otra, pero para el discurso que sigue usaremos Var(T ).
Antes de postular el llamado proceso de bootstrap, hagamos una conexión entre el con-
cepto de simulación de Monte Carlo para calcular τ (F ) = Var(F ), suponiendo que X1 , . . . , Xn
son observaciones i.i.d. con función de distribución fija (conocida) F . Un ejercicio académico
de simulación consistirı́a de realizar el siguiente algoritmo:
Por la ley de los grandes números y convergencia de momentos empı́ricos se tiene que
M
1 X ∗ Pr
(T − T̄M )2 −→ Var(T ) = τ (F ).
M i=1 i
16 T
Para calcular aproximadamente τ (F̂n ) basta sustituir F por F̂n en el algoritmo anterior
en el Paso 1, para obtener el llamado bootstrap no-paramétrico:
20 A
1. Simular X∗1 , . . . , X∗n i.i.d. F̂n , y calcular T ∗ = T (X∗1 , . . . , X∗n ).
lio IM
∗
2. Repetir el Paso 1 un número grande de veces, M, para conseguir T1∗ , . . . , TM .
∗
= (1/M ) M ∗ 2 M ∗
P P
3. Calcular τ̂M i=1 (Ti − T̄M ) , donde T̄M = (1/M ) i=1 Ti .
Ju -C
cada X∗i se obtiene de muestrar con distribución uniforme y con reemplazo sobre los valores
observados {X1 , X2 , . . . , Xn } . Esto es como “muestrear de la muestra” y por ello el méto-
AT
∗ Pr
τ̂M −→ τ (F ).
M →∞
Existe también la idea de bootstrap paramétrico. Aplica cuando se tiene un modelo es-
tadı́stico {F (x; θ) | θ ∈ Θ} , y la muestra original da lugar a un estimador consistente de θ
dado por θ̂ (por ejemplo, el estimador máximo verosı́mil de θ). El algoritmo se modifica
nuevamente en el Paso 1, generando muestras artificiales con la distribución F (x; θ̂) en lugar
de F̂n :
5.4. Estimación 163
= (1/M ) M
∗
P ∗ 2
PM ∗
3. Calcular τ̂M i=1 (Ti − T̄M ) , donde T̄M = (1/M ) i=1 Ti .
16 T
en una muestra X1 , . . . , Xn . El no-paramétrico conlleva simular mediante remuestreo de la
20 A
muestra original, mientras que el paramétrico simuları́a variables Bernoulli independientes
con probabilidades p̂. En ambos casos, se obtendrı́an cantidades que aproximan a p̂(1 − p̂)/n.
lio IM
Más aun, en esta situación ambos métodos (paramétrico y no-paramétrico) consisten de
mecanismos equivalentes para generar observaciones X∗1 , . . . , X∗n .
entonces en el Paso 3 habrı́a que sustituir por un estimador consistente de esa caracterı́stica.
Por ejemplo, si el interés fuese E(T ) se podrı́a utilizar la media muestral de las Ti∗ .
La noción general de bootstrap será utilizada por Chazal [35], y Fasy et al. [52] para
D
16 T
donde h > 0 es una constante llamada ancho de banda.
La heurı́stica de este estimador es poner una masa de probabilidad de ancho h sobre cada
20 A
uno de los puntos obtenidos en la muestra. Si K es continua, entonces el estimador kernel es
una función continua de x (cosa que no sucede con el estimador histograma). El parámetro
lio IM
h juega el papel de un parámetro de suavizamiento, en el sentido de que su valor controla
el grado de rugosidad de la función fˆK,h (x) (valor alto de h corresponde a función suave, y
valor pequeño a función rugosa).
Ju -C
Pr
fˆK,h (x) −→ f (x),
n→∞, h↓0
por ser K un kernel. (Entre las premisas del resultado se ponen condiciones que permitan
realizar el intercambio entre integral y lı́mite aludido).
5.5. Pruebas de hipótesis 165
16 T
donde H es una matriz cuadrada, R Rsimétrica y definida positiva, y K es un kernel simétrico
multivariado (lo cual significa · · · K(x1 , . . . , xd )dx1 · · · dxd = 1). Cuando H toma la forma
20 A
diag(h21 , . . . , h2d ), y K la forma K1 (x1 ) · · · Kd (xd ), con cada Ki un kernel univariado, se obtiene
una forma frecuentemente utilizada dada por
lio IM
n
1 X X i1 − x 1 X id − x d
fˆK,h (x) = K1 · · · Kd .
nh1 h2 · · · hd i=1 h1 hd
Ju -C
La noción de una densidad estimada con una nube de puntos ha sido invocada para
asuntos de ATD (ver Chazal, y Fasy et al.). Sea fˆ(x) un estimador de densidad multivariada
basado en observaciones de una nube de datos P. Se definen los conjuntos de subnivel dados
D
por
AT
n o
Lu = x ∈ P | fˆ(x) ≤ u .
Claramente, Lu ⊆ Lu0 si u < u0 , lo cual es afı́n con la noción de filtración. Luego, el estimador
de densidad es instrumental para construir filtraciones alternativas a las filtraciones obtenidas
por incrementar radios de bolas alrededor de puntos x ∈ P.
16 T
significance testing) y las ideas generales serán expuestas a continuación.
Supongamos que se ha planteado un problema legı́timo de prueba de hipótesis en el senti-
20 A
do descrito con anterioridad en la Sección 5.3. En esa ocasión, definimos una hipótesis como
un subconjunto de modelos estadı́sticos. Ahora nos restringiremos al caso llamado hipóte-
lio IM
sis simple, que consiste en una hipótesis integrada por un solo elemento. La nomenclatura
histórica es hipótesis nula, para esta hipótesis simple. La nomenclatura proviene de hipótesis
históricamente formuladas para comparar dos tratamientos entre sı́; la hipótesis de que am-
Ju -C
bos tratamientos son iguales se traduce a que la diferencia entre ellos es cero (de allı́ hipótesis
nula). El objetivo general es evaluar la plausibilidad de la hipótesis nula a la luz de datos
observados, X.
D
Ejemplo 5.5.1. En el ejemplo juguete, la hipótesis formada por el único valor, p = 1/2 es
una hipótesis simple. La hipótesis formada por modelos indexados por el conjunto [0, 1/2]
AT
X = (1, 1, 1, 1, 0, 1, 1, 1, 1, 1)
Ejemplo 5.5.2. En el contexto de ATD, Robinson & Turner [116] formulan hipótesis en
el lenguaje de diagramas de persistencia. La hipótesis formada por identidad entre dos o
más grupos de diagramas de persistencia es una hipótesis simple porque contiene un solo
elemento: la topologı́a es la misma entre grupos. Nótese el significado especial que tiene la
identidad entre grupos: que no hay diferencias entre pacientes sanos y enfermos, por ejemplo.
5.5. Pruebas de hipótesis 167
Sea H una hipótesis nula simple. Los elementos básicos para realizar una prueba de
significancia son dos (ver Sprott [123], Capı́tulo 6, o Wasserman [128]):
Una estadı́stica D(X) ≥ 0, que cumple tener la propiedad de ordenar muestras por
grado de evidencia en contra de la hipótesis nula. Esto significa, que si D(X1 ) ≥ D(X2 )
entonces la muestra X1 tiene más evidencia en contra de H que la muestra X2 .
16 T
Cabe notar que el segundo ingrediente, la distribución F0 , no es más que la llamada
20 A
distribución muestral de D bajo H, según la nomenclatura establecida en la Definición 5.2.5.
lio IM
Ejemplo 5.5.3. En el ejemplo juguete, supongamos que la hipótesis nula de interés es
H : p = 1/2. Un ejemplo de una estadı́stica D que ordena muestras serı́a
Ju -C
X n
D(X) = Xi − .
2
Otro ejemplo serı́a
D
Ejemplo 5.5.4. En ATD, sea la hipótesis nula el diagrama trivial y sea D(X) la distancia
cuello de botella entre el diagrama de persistencia obtenido y la diagonal. La estadı́stica
cumple la noción de ordenar nubes de puntos en términos de su grado de separación de la
hipótesis nula. ¿Cuál serı́a la distribución de D bajo la premisa de que la nube de datos
proviene de un objeto que no tiene más que la homologı́a trivial? Ello no es un problema
teórico accesible y por ello serán pertinentes las ideas de bootstrap, en su momento.
168 Capı́tulo 5. Inferencia Estadı́stica
Definición 5.5.5. Ante la hipótesis nula H, para una observación X, y estadı́stica de prueba
D con distribución nula F0 definimos el p-valor como
16 T
En palabras: Es la probabilidad bajo la hipótesis nula de que la estadı́stica resulte mayor al
20 A
valor observado.
lio IM
Se trata de cuantificar el lugar en el que se encuentra el valor obtenido de D(X) en la
escala de valores de D que se obtendrı́an bajo la premisa de que H es cierta. Siendo una
probabilidad, el resultado es un número entre cero y uno; también se ilustra la noción de que
Ju -C
Que aún en el caso de que sı́ sea un problema legı́timo de prueba de hipótesis, se recurre
al p-valor de manera obcecada, sin la consideración de otras posibilidades para afrontar
el mismo problema.
16 T
Ejemplo 5.5.6. En el ejemplo de juguete, supongamos que la hipótesis de interés es H :
20 A
p = 1/2, que la estadı́stica D está dada por D(X) = |p̂ − 1/2| , y que el valor observado de
D es d. El p-valor serı́a P0 (|p̂ − 1/2| > d), donde la notación P0 indica que el cálculo de
lio IM
probabilidad se realiza bajo la presunción p = 1/2.
En lugar de operar con la distribución binomial en este ejemplo, aprovecharemos la apro-
ximación que implica la asintoticidad normal de la estadı́stica p̂ que hemos verificado en un
Ju -C
para n grande tiene aproximadamente distribución normal estándar para cualquier valor de
AT
de prueba es D = dB [d, dgm0 ] , donde dB es la distancia cuello de botella entre dos diagramas
de persistencia, d = D(X) es el diagrama calculado con la muestra observada X y dgm0 es
el diagrama trivial.
Para implementar el concepto de p-valor se requiere la distribución de D bajo la presun-
ción de que la nube de datos sı́ proviene de un objeto donde no hay persistencia alguna. El
reto es entonces encontrar P0 (D > d). El gran problema es que aquı́, no hay un resultado
análogo al ejemplo anterior en el cual se conoce o se aproxima dicha probabilidad de manera
analı́tica. Por ello ingresarán al escenario otro tipo de métodos, incluyendo algunos basados
en el bootstrap.
16 T
Proposición 5.5.8. Si la distribución de D(X) bajo la hipótesis nula H es invertible, en-
20 A
tonces la distribución del p-valor es uniforme sobre (0, 1).
lio IM
Demostración. Sea F0 (x) la función de distribución de la estadı́stica D(X) bajo la hipótesis
nula. Primero notemos que F0 [D(X)] tiene distribución uniforme en (0, 1).En efecto, para
0 ≤ t ≤ 1,
Ju -C
F0 [T (X)].
AT
X̄n − µ0
T (X) = √ ,
Sn−1 / n
P 2
P 2
donde X̄n = Xi /n y Sn−1 = Xi − X̄n / (n − 1), recibe el nombre de estadı́stica de
prueba t de Student para la hipótesis µ = µ0 .
Notar que en efecto, se trata de una estadı́stica, en virtud de que el valor µ0 es conocido
16 T
2
porque la hipótesis nula de interés preexiste y se conoce. La notación Sn−1 se emplea para
2
P 2
hacer una distinción con la varianza muestral Sn = Xi − X̄n /n. No obstante existen
20 A
maneras de deducir o justificar la estadı́stica t con base en optimalidad y otras consideracio-
nes, no es ese el aspecto importante que aquı́ se desea resaltar. Basta notar que |T (X)| es una
lio IM
estadı́stica que efectivamente ordena muestras según la evidencia en contra de H0 : µ = µ0 ,
pues valores mayores de T se asocian con mayor contradicción con H0 . El ingrediente que
falta para poder implementar un p-valor como se ha visto, es la distribución de T bajo la
Ju -C
X̄n − µ
T (X) = √
AT
Sn−1 / n
Cabe notar que la distribución de T (X) no depende de µ ni de σ 2 , esto es, T (X) es una
cantidad pivotal. Es posible mostrar que la distribución t con ν > 1 grados de libertad tiene
soporte (−∞, ∞) y una función de densidad, dada por
− ν+1
Γ ν+1
2 x2 2
fν (x) = √ 1 + .
νπΓ ν2
ν
Se trata de una densidad simétrica, con forma de campana, aunque con colas más pesa-
das que una densidad normal estándar. El valor esperado (y la mediana) de esta densidad
es 0, para todo ν > 1, y la varianza está dada por ν/ (ν − 2) para ν > 2. Si ν = 2,la
varianza es ∞. Cuando ν → ∞ la densidad t con ν grados de libertad converge a la
densidad normal estándar. La relevancia inmediata de conocer esta distribución nula es
172 Capı́tulo 5. Inferencia Estadı́stica
16 T
1
gk (x) = k/2 xk/2−1 e−x/2
20 A
2 Γ (k/2)
para x > 0 recibe el nombre de densidad ji-cuadrada con k grados de libertad. La
lio IM
notación a emplear para la distribución de probabilidad que se induce con esta densidad
será χ2k .
El valor esperado de χ2k es k, y su varianza es 2k.
Ju -C
σ2
2
Además, las estadı́sticas Sn−1 y X̄n son independientes.
AT
16 T
El trabajo recurre a la distancia 2–Wasserstein entre dos diagramas de persistencia, dada
por
20 A
!1/2
X 2
W2 (X, Y ) = ı́nf kx − φ(x)k2 ,
lio IM
φ:X→Y
x∈X
aunque el método aplica para cualquier otra distancia k–Wasserstein, en particular para la
distancia cuello de botella,
Ju -C
16 T
grupos divididos según L, es decir, que la hipótesis nula no se cumple. Una vez adoptada tal
estadı́stica de prueba, es necesario calcular o aproximar P0 (σχ2 1,2 (L) > l), donde l denota el
20 A
valor de la estadı́stica observada σχ2 1,2 (LO ), y P0 denota la medida de probabilidad bajo la
lio IM
presunción de la hipótesis de que los grupos son homogéneos.
A falta de una distribución teórica para P0 , lo que se propone es un concepto llamado
prueba de permutaciones (ver [61]), que tiene por objeto calcular empı́ricamente PO bajo
una distribución hipotética generada. El algoritmo consiste de lo siguiente, tomando como
Ju -C
3. Calcular σχ2 1,2 (L) y tomar nota acerca del hecho σχ2 1,2 (L) ≤ σχ2 1,2 (LO ).
4. Repetir Pasos 2–3 N veces y calcular la proporción de veces que se cumplió σχ2 1,2 (L) ≤
σχ2 1,2 (LO ).
El artı́culo después procede a ilustrar diversos ejemplos de datos simulados, para fines
de verificar que en efecto, se obtienen p-valores pequeños en situaciones bajo las cuales se
sabe que los grupos son heterogéneos. Varios resultados son congruentes con lo esperado.
Por ejemplo, se inyecta ruido (normal), llega el momento en que el ruido no permite que el
p-valor perciba diferencias. Complementa con un ejemplo de análisis de datos de referencia,
acerca de formas (siluetas), y otro sobre datos de resonancia magnética funcional. En ambos
casos se ilustra que el concepto de p-valor es útil para detectar diferencias entre grupos.
Para el caso de K > 2 grupos, la generalización natural de la estadı́stica de prueba
está dado por
K nm Xnm
X 1 X
σχ2 K (L) = Wk (Xm,i , Xm,j ).
m=1
2n m (nm − 1) i=1 j=1
5.6. Aplicación de principios de inferencia en literatura de ATD 175
En la discusión del artı́culo, se menciona que serı́an posibles otras posibilidades para la
estadı́stica de prueba, incluyendo la varianza de Frèchet, cuya definición se menciona más
adelante.
16 T
construcción de subconjuntos de confianza para diagramas de persistencia.
El planteamiento comienza con ver los diagramas de persistencia como asociados a una
20 A
función de distancia. Si A es un subconjunto de RD , un ejemplo de tal función de distancia es
dA (x) = ı́nf y∈A ky − xk2 . A su vez, la distancia da lugar a los llamados conjuntos de subnivel,
lio IM
dados por Lt = {x | dA (x) ≤ t}. Cuando el conjunto A es una nube de puntos observada
S, entonces los subconjuntos de nivel son Lt = ∪x∈S B(x, t), dando lugar a una filtración
común a la cual se aplica la noción de homologı́a persistente. La notación dgm(f ) se emplea
Ju -C
para todo dgm0 . La relevancia es que si ello es cierto, entonces se cumple que
h i
P W∞ (dgm, dgm0 ) ≤ cn > 1 − α.
d
176 Capı́tulo 5. Inferencia Estadı́stica
16 T
como un intervalo conservador. Uno quisiera especificar α para construir un conjunto con
probabilidad de cobertura exactamente 1 − α, pero en ocasiones es difı́cil encontrarlo ası́ y
20 A
uno se conforma con que sea mayor que 1 − α. Muy malo serı́a que uno pretenda 1 − α y que
la probabilidad de cobertura pudiese ser en realidad menor que 1 − α para algunos valores
lio IM
de dgm. Esto último no serı́a nada sensato, pues no ofrecerı́a garantı́a alguna sobre el control
de incertidumbre inductiva respecto a dgm que uno pretende ejercer.
Una parte importante y conveniente que se aporta en el artı́culo es la manera de repre-
Ju -C
vacı́o, denotado aquı́ por dgm∅ . El diagrama vacı́o consiste de un diagrama diagonal, con la
interpretación de que no hay homologı́a interesante. En la Figura ?? se muestra de manera
abstracta lo que el conjunto Cn cumple en términos de cobertura. También se ilustra la per-
AT
16 T
20 A
lio IM
Ju -CD
AT
Ası́, un punto fuera de la franja descrita deberá ser interpretado meramente como sos-
pechoso de ser una cualidad real sugerida por la nube de datos, más no una aseveración
con certeza absoluta. La noción de cualidad real en este sentido, se entiende como algo que
difiere del diagrama vacı́o dgm∅ .
Ahora bien, con base en la desigualdad 5.6.2, de hecho lo que se aborda en el artı́culo es
una estadı́stica cn tal que P [dH (Sn , M ) > cn ] ≤ α, o equivalentemente P [dH (Sn , M ) ≤ cn ] >
1 − α. Esto se debe a que dH (Sn , M ) ≤ cn implica W∞ (dgm, d dgm ) ≤ cn , de donde se
0
obtendrı́a la desigualdad
16 T
h i
d dgm ) ≤ cn ≥ P [dH (Sn , M ) ≤ cn ] > 1 − α.
P W∞ (dgm, 0
20 A
El artı́culo de facto considera cuatro estadı́sticas cn (X1 , . . . , Xn ) y demuestra para ellos
que asintóticamente P [dH (Sn , M ) > cn ] ≤ α. Lo hace con base en suposiciones técnicas rigu-
lio IM
rosas sobre la medida de probabilidad P (Sección 3 del artı́culo). Los métodos están basado
en diversas propuestas de aproximación (remuestreo, concentración de medida, método de
shells, y estimación de densidades), y el artı́culo contiene detalles técnicos para demostrar
Ju -C
que cada propuesta produce un cn que en efecto cumple la cota de probabilidad de cobertura
(Sección 4 del artı́culo y apéndices). Las técnicas probabilı́sticas para establecer la proba-
bilidad de cobertura están basadas en resultados variados que versan sobre propiedades de
D
El hecho de que la desigualdad P W∞ (dgm, d dgm0 ) ≤ cn > 1−α puede no ser “ajustada”
(ver Definición B.1.14 en Apéndice B), es un asunto mencionado en Chazal et al. (2014), del
cual se deriva una idea basada en bootstrap directamente sobre valores de W∞ en lugar de dH .
Ver la Sección 6 (“Bottleneck bootstrap”, de ese artı́culo). La librerı́a TDA de R contiene
una
√ función para realizar bootstrap, y graficar la lı́nea paralela a distancia perpendicular
2cn aquı́ expuesta. Un comentario interesante en Chazal es que este esquema de bootstrap
permite tomar en cuenta diagramas de persistencia de una dimensión de interés, en lugar
de todas las dimensiones juntas, lo cual darı́a lugar a valores de cn mejor sintonizados y que
corresponden a cotas más “ajustadas” para la cobertura.
ventajas que ello ofrece, y en particular, en cómo se explotan para abordar algunos problemas
de inferencia estadı́stica utilizando principios generales expuestos con anterioridad.
El panorama de persistencia λn (t) = λ(n, t) es una función aleatoria, de N × R+ a
R (ver Sección 2.6) o bien de R2 × R+ a R si se extiende el valor n a todo R mediante
dne. Este concepto contrasta fuertemente con el diagrama de persistencia, que es un objeto
aleatorio con valores en el espacio de diagramas de persistencia. Este último espacio es
geométricamente engorroso; es un espacio métrico (con la métrica Wasserstein, o cuello de
botella), pero no es espacio lineal ni espacio completo (Mileyko et al. [94]). La información
codificada en un diagrama de barras, uno de persistencia, o uno de panoramas es equivalente.
16 T
En el diagrama de persistencia, el diagrama de barras se relaciona con las bases de los
triángulos isósceles, el diagrama de persistencia con las cúspides de las “montañas”.
20 A
Cuando se recurre al diagrama de persistencia (o el diagrama de barras), el primer defecto
desde una perspectiva de estadı́stica es la carencia de una noción operativa de media. Como
lio IM
hemos visto, la noción de media es crucial para que muchos problemas de inferencia estén
bien definidos. Por ejemplo, hemos visto ya que los problemas de estimación y de pruebas
de hipótesis pueden parafrasearse en términos de conceptos de medias. La definición misma
Ju -C
de una observación aberrante (outlier) tiene que ver con una discrepancia respecto a la
media de una distribución de probabilidad. También, que la consistencia de un estimador
puntual inherentemente presupone que el lı́mite al cual se converge es único; de otra manera
D
no serı́a claro qué significa que “un estimador es consistente”. En el espacio de diagramas
de persistencia no existe la noción de “diagrama medio” como caracterı́stica probabilı́stica.
AT
Definición 5.6.1 (Media y varianza total de Fréchet). Sea M un espacio métrico con métrica
d, y X1 , X2 , . . . , Xn una colección de puntos sobre M. Definimos la función
n
X
G(x) = d2 (x, Xi ).
i=1
p
2. Si d(x, y) = |x − y| se obtiene una mediana muestral.
+
3. Si M = R√ y d(x, y) = |log(x) − log(y)| se obtiene la llamada media geométrica dada
por m = n X1 · · · Xn .
P
4. Con la métrica d(x, y) = |1/x − 1/y| se obtiene la media armónica, m = n/ (1/Xi ) .
Es importante notar que la media de Fréchet puede no ser única, ni en ejemplos cuando
M = R ni cuando M es el espacio de diagramas de persistencia (En Bubenik, Figura 3, se
muestran dos ejemplos simples y especı́ficos para ilustrarlo). Por ello, la media de Fréchet
16 T
no es un buen candidato para formalizar nociones de consistencia.
El hecho de que el panorama de persistencia habita en un espacio de funciones, permite
20 A
de inmediato recurrir a la noción de norma. Para habilitar un enfoque probabilı́stico, se
concibe que λ es un elemento aleatorio sobre el espacio (S, A, µ), con λ : S −→ R y S o
lio IM
N × R o R × R. Para 1 ≤ p < ∞ se define
Z 1/p
p
kλkp = |f | dµ
Ju -C
∞
!1/p
X
kλkp = kλ(k, t)kpp
AT
k=1
si λ es un panorama de persistencia, λ : N × R → R.
Esto a su vez da lugar a que los panoramas tengan una estructura de espacio de Banach,
Lp (S), para lo cual es factible desarrollar teorı́a de probabilidad (Ledoux & Talagrand [89]).
La nube de datos se concibe como un elemento aleatorio de un espacio de probabilidad
(Ω, F, P ) y el panorama de persistencia como un valor aleatorio en Lp (S). Si X1 , X2 , . . . , Xn
son nubes de datos aleatorios i.i.d., y λ1 , λ2 , . . . , λn los correspondientes panoramas, entonces
el panorama medio tiene una definición muy natural:
n
1X
λ̄n = λ̄n (k, t) = λi (k, t).
n i=1
Serı́a deseable que este concepto de media tuviera convergencia en algún sentido. Ello darı́a
mucha claridad a lo que significarı́a “consistencia”.
La teorı́a de probabilidad sobre espacios de Banach establece con claridad el significado
de E (λ) (integral de Pettis), ası́ como lo que significa convergencia (en probabilidad, y casi
5.6. Aplicación de principios de inferencia en literatura de ATD 181
16 T
y asintoticidad normal que
√ h n i
n Λ̂ − E (Λ)
20 A
converge en distribución a cierto proceso gaussiano. Nota: El artı́culo está recurriendo a la
lio IM
convención de que una letra mayúscula denota un elemento aleatorio (Λ) mientras que una
letra minúscula (λ) denota un valor observado calculado con la muestra observada.
También es aplicable la noción de funcionales del panorama, que son de la forma
Ju -C
Z
Y = f Λ.
D
Para tales funcionales pueden construirse intervalos de confianza (asintóticos) para E(Y ) de
la forma
AT
Sn
Ȳn ± zα/2 √
n
1 n
donde Sn2 = n−1 2
P
i=1 (Yi − Ȳn ) . La construcción es idéntica a la presentada a propósito
del ejemplo juguete (Teorema 5.4.6), en el cual la consistencia y la asintoticidad normal del
estimador p̂ fueron utilizadas para obtener un intervalo de confianza asintótico para p.
Estos resultados también habilitan algunas pruebas de hipótesis de manera inmediata.
Como ejemplo, si se observan nubes de puntos sobre dos poblaciones y el interés radicara en
investigar si es cierto que f Λ = f Λ0 para un funcional dado, entonces las ideas de p-valores
asintóticos basados en la estadı́stica
Ȳ − Ȳ 0
q
SY2 S2
n
+ nX0
Como ejemplo de un funcional concreto, Bubenik ofrece el siguiente, tras mencionar que
la selección de funcional obedece al entendimiento que se tenga acerca de los datos ası́ como
el objetivo especı́fico. Suponer que el soporte del panorama es
Definiendo
f (k, t) = 1, (t ∈ [−B, B] y k ≤ K)
se obtiene
16 T
K
X
kf Λk1 = kΛk k1 ,
20 A
k=1
lo cual es imaginar que hay K componentes topológicas dominantes que juntas son capaces
lio IM
de distinguir diferencias entre una población y otra.
El artı́culo procede a mostrar ejemplos con datos simulados sobre anillos enlazados, toros
vs esferas, etc. para fines de ilustrar que el panorama promedio se aproxima con promedios
Ju -C
Se define la métrica entre dos diagramas de persistencia dgm y dgm0 con panoramas λ y λ0
como
AT
Λp (dgm, dgm0 ) = kλ − λ0 kp .
También se demuestra una cota inferior para la distancia cuello de botella:
16 T
arranque para analizarse con ATD, la notación se convierte en
20 A
ˆ
∆(x) = mı́n kx − Xi k ,
Xi
lio IM
y se denomina función de distancia empı́rica. Esta notación “gorro” es congruente con las
ideas de parámetro y estimador señaladas en la Sección 5.4.1, y el calificativo “empı́rica”
tiene el mismo empleo al aludido para la función de distribución empı́rica. De hecho, se
Ju -C
ˆ
P sup ∆(x) − ∆S (x) > ε −→ 0, ∀ε > 0.
x n→∞
AT
P = πR + (1 − π)(Q + Φσ ),
1 m −1
Z
2
δP,m (x) = Fx (u) du,
m 0
donde 0 < m < 1 y Fx (t) = P(kX − xk2 ≤ t), y X es un vector aleatorio con distribución
P. Esta distancia posee varias propiedades (ver Chazal et al. [34], [35]). Aquı́, bastará notar
que una idea fundamental es que un solo punto en la nube no es por sı́ mismo un valor
16 T
aberrante, sino que tiene que ocurrir con alta probabilidad para tener un efecto sobre la
distancia (y por ende, sobre el diagrama de persistencia que corresponde). La selección de
20 A
la constante m es arbitraria, pero más adelante en el artı́culo se discuten algunos criterios
para su elección. Recurriendo a la distribución empı́rica Pn , que asigna probabilidad 1/n a
lio IM
cada punto observado Xi , se obtiene la distancia DTM empı́rica, dada por
1 X
δ̂ 2 (x) := δP2 n ,m (x) = kXi − xk2 ,
k
Ju -C
Xi ∈Nk (x)
Con ideas similares a las aplicadas por Fasy et al. [52], se desarrolla una manera de
obtener bandas de confianza para δ. Fijando α ∈ (0, 1), se define cα por
AT
√
P n||δ̂ − δ||∞ > cα = α.
Pr
Supongamos que hay una estadı́stica ĉα = ĉα (X1 , . . . , Xn ) tal que ĉα −→ cα . Entonces se
obtendrı́a
ĉα
P ||δ̂ − δ||∞ ≤ √ → 1 − α,
n
y debido a estabilidad, se deriva un conjunto de confianza conservador (Ver Sección 5.6.2)
para la distancia cuello de botella entre el diagrama real y el diagrama estimado, en virtud
de que
ˆ dgm) ≤ √ c α ĉ α
P W∞ (dgm, ≥ P ||δ̂ − δ||∞ ≤ √ −→ 1 − α.
n n
Para ĉn , Chazal et al. proponen el bootstrap no-paramétrico, consistente en simular
pseudo-obervaciones de la distribución Pn (como vimos en la Sección 5.4.4, se
trata
de
muestrear con reemplazo de la muestra observada) y calcular las cantidades
δ̂ ∗ − δ
.
∞
5.6. Aplicación de principios de inferencia en literatura de ATD 185
lo cual recoge de que el método numérico dictado por el bootstrap posee propiedades de
convergencia, condicional a la muestra original que se ha observado. En el artı́culo también
se propone un esquema diferente de bootstrap, denominado
bootstrap cuello de botella, bajo
∗
∗
el cual en lugar de calcular y guardar valores de
δ̂ − δ
, se realiza con W∞ (dgm
ˆ , dgm).
ˆ
16 T
∞
Con esto último, la esperanza es obtener un intervalo menos conservador, con una cota más
20 A
cercana a 1 − α.
En cuanto a la selección de la constante m, se propone una idea basada en “cantidad de
lio IM
información significativa” (Guibas, et al. [62]). Para estadı́sticos, se presenta un fenómeno
similar al estira y afloje que hay con un parámetro de suavizamiento: El valor óptimo de m
no resulta ser ni muy chico ni muy grande.
Chazal et al. también proponen una segunda distancia alternativa, basada en la noción
Ju -C
v
u1 n X n n
u X
2X
D̂K (x) = t Kh (Xi , Xj ) + K h (x, x) − Kh (x, Xi ),
n2 i=1 j=1 n i=1
AT
Se demuestra que los conjuntos de subnivel son aproximadamente {x | p̂h (x) ≤ t} , donde p̂h
es el estimador de densidad tipo kernel para X dado por
n
1 X
p̂h (x) = √ d Kh (x, Xi ).
n 2πh i=1
Esto reitera el papel que juega el tema de estimación de densidades en ATD. De nuevo, no
basta que un solo dato aislado sea aberrante, sino que la distancia reacciona a un grupo
de ellos. Por ello se hereda una noción de robusticidad tras esta propuesta. En el artı́culo
también se demuestran propiedades analı́ticas que posee esta distancia basada en estimación
de densidades.
186 Capı́tulo 5. Inferencia Estadı́stica
5.7. Ejercicios
Ejercicio 5.7.1. Si X1 , . . . , Xn son observaciones independientes cada una con distribución
N (µ, σ 2 ), entonces una estadı́stica suficiente para θ = (µ, σ 2 ) está dada por
X X
T = Xi , X2i .
16 T
otra parte, si g es una función uno a uno, entonces T es suficiente para g(θ).
Ejercicio 5.7.3. Si τ (F ) = xdF (x), entonces τ̂ = τ (F̂n ) = n1
R P
20 A
Xi = X̄n .
2
Ejercicio 5.7.4. Si X1 , . . . , Xn son variables aleatorias
i.i.d.√N(µ, σ ) entonces la distribu-
lio IM
2
ción de Xn es N(µ, σ /n) y la distribución de Xn − µ / (σ/ n) es N(0, 1).
√
Esto último es como decir que Xn − µ / (σ/ n) es una cantidad pivotal. Nota: Otra
manera de percibir el teorema central del lı́mite es notando que√hay condiciones, aunque no
Ju -C
interés radica en estimar Var(p̂). Verifica que en esta situación el remuestreo bootstrap pa-
ramétrico y no-paramétrico da lugar a procesos equivalentes, y que ambos aproximan numéri-
AT
es insesgado para σ 2 .
5.7. Ejercicios 187
Ejercicio 5.7.9. Sean X1 , . . . , Xn observaciones i.i.d. N(µ, σ 2 ). Sea fν (x) la densidad t con
n − 1 grados de libertad. Define la contante tα/2 > 0 por aquella que cumple
Z ∞
alpha
fn−1 (x) dx = .
tα/2 2
Demuestra que
16 T
√ √
Xn − tα/2 Sn−1 / n, Xn + tα/2 Sn−1 / n
20 A
es un intervalo de confianza (1 − α) × 100 % para µ.
lio IM
Ju -CD
AT
AT
Ju -CD
lio IM
20 A
16 T
Capı́tulo 6
16 T
20 A
lio IM
6.1. Introducción
Ju -C
X : (Ω, A, P) −→ (X, µσ ),
Observar que a diferencia de la definición de la Sección 3.1, el espacio X puede ser cual-
quier espacio con una medida asociada µσ . Tenemos entonces incluidos en esta definición una
gran cantidad de ejemplos como variables aleatorias discretas, escalares, vectores aleatorios
de dimensión finita o matrices aleatorias. En estos casos, los espacios medibles van desde los
discretos N, Z hasta los continuos R, Rq , Rm×n .
Un poco más general, tenemos sucesiones aleatorias con espacio medible RN , funciones
aleatorias con espacio muestral R[0,1] ; o bien, procesos a tiempo continuo X = (Xt )t∈[0,1] . Para
los casos más particulares del análisis de datos tenemos las gráficas aleatorias con espacio
muestral el conjunto potencia de {1, . . . , n}2 .
Más aún, podemos considerar que las variables aleatorias tienen valores en una variedad
M . Esto da pie a la noción de objetos geométricos aleatorios en general como por ejemplo
curvas aleatorias con espacio muestral (R3 )[0,1] .
189
190 Capı́tulo 6. Persistencia de campos aleatorios
Hasta este punto no estamos considerado la fuente de tales datos, cómo es que se toman las
muestras o con qué tipo de equipos de registro, etc. Además, también tenemos que considerar
el aumento de complejidad al obtener los datos, en tales casos la información tiene un peso
computacional y en ocasiones con cierta estructura. Todos estos ejemplos muestran que la
idea de variable aleatoria y más generalmente, la de campo aleatorio, están en la base de
todo tipo de procesamiento de datos. Dicha complejidad es notoria en el problema de la
dimensionalidad de los objetos geométricos asociados.
Si tomamos el marco teórico visto hasta ahora en ATD, tenemos una nube de puntos
aleatorios Pn = {X1 , . . . , Xn } con Xi variable aleatoria con valores en Rd . Luego, construimos
16 T
un complejo simplicial aleatorio, por ejemplo para > 0 tenemos los complejos de Rips
R(Pn , ) o los complejos de Cech C(Pn , ). Recordar que el caso del complejo de Rips es un
20 A
complejo bandera, o bien, que su 1–esqueleto determina completamente el complejo. Esto
es, volvemos a la noción de gráfica aleatoria.
lio IM
Luego, el espacio muestral serı́a la familia Cn de complejos simpliciales con n nodos. La
pregunta estriba en quién serı́a la σ–álgebra asociada a dicho conjunto, la cual se especifica
usando las funciones indicadoras y medibles 1||Xj −Xk ||< para cada Xj , Xk en la muestra. Esto
Ju -C
es, la preimágen de cada vértice, cada cara y cada simplejo de un complejo simplicial son
medibles en (Rd )n . Por lo tanto, Cn es un espacio de medida con la topologı́a discreta.
Observación 6.1.2. En general, la observación anterior está presente en cada trabajo de
D
ATD que lo requiera sin hacer mención al hecho “trivial” de que la topologı́a de Cn es la
topologı́a asociada a la colección de todos los subconjuntos de Cn .
AT
Podemos concluir que tenemos un proceso aleatorio (K )>0 indexado por R y con valores
en Cn .
Para esta sección queremos remarcar que trabajaremos con el mecanismo especı́fico ge-
nerador de datos ATD aleatorios usando superniveles de campos aleatorios.
Un campo aleatorio puede ser pensado como una variable aleatoria con valores trayecto-
rias del tipo
ω ∈ Ω 7−→ (X(·)(w))U .
Para poder manejar este concepto utilizamos lo siguiente. Sean Fu1 ,...,um distribuciones
sobre Rm con m ∈ N, y u1 , . . . , um ∈ U . Esta familia es consistente si
Fu1 ,...,um (x1 , . . . , xm ) = Fuσ(1) ,...,uσ(m) (xσ(1) , . . . , xσ(m) ),
con (x1 , . . . , xm ) ∈ Rm y σ una permutación de m–elementos {1, . . . , m}.
16 T
De tal forma que si consideramos una toma ω ∈ Ω y para cada u ∈ U , Xu (ω) es una
función en RU . Ası́, usando el Teorema de Extensión queremos encontrar una familia de
20 A
distribuciones consistentes que sea compatible con el modelo requerido. En general, conside-
ramos la σ–álgebra generada por conjuntos del tipo
lio IM
{g ∈ RU : (g(u1 ), . . . , g(um )) ∈ B};
donde u1 , . . . , um ∈ U , m ∈ N y B ∈ B(Rm ).
Ju -C
Con estas nociones, podemos enunciar ahora la versión más general del Teorema de
Extensión de Kolmogorov, uno de los teoremas más importantes de la matemática del siglo
XX.
D
Teorema 6.2.2 (Extensión de Kolmogorov). Sea U un espacio Polaco, Fu1 ,...,um una familia
de distribuciones consistente sobre U y m ∈ N. Entonces, existe un espacio de probabilidad
AT
Definición 6.2.3. Sea (Xu )U un campo aleatorio sobre U . Definimos la función de valor
medio µ : U −→ R como
µ(u) = E(Xu ).
La función de covarianza σ : U × U −→ R se define como
16 T
ρ(u, v) = Corr(Xu , Xv ) = .
Var(Xu )Var(Xv )
20 A
Teorema 6.2.4 (Caracterización). Una función σ : U 2 −→ R de un campo aleatorio sobre
U , es de convarianza, si y sólo si, σ es función simétrica y la matriz que define es degenerada
lio IM
no-negativa; esto es
m
X
βi βj σ(ui , uj ) ≥ 0, u1 , . . . , um ∈ U, β1 , . . . , βm ∈ R.
Ju -C
i,j=1
la cual es consistente. Luego, por el Teorema de Extensión, existe un campo aleatoro Xu con
tales distribuciones, de dimensión finita y por tanto con tal función de covarianza σ.
Para la construcción de funciones de covarianza tenemos varios casos:
entonces Z
σ(u, v) = K(u, s)K(u, v)dv.
U
6.2. Teorı́a fundamental 193
16 T
U
El cual como hemos visto anteriormente (Sección 3.4.3) es un espacio de Hilbert con el
20 A
producto punto Z
hf, gi = f gdλ,
lio IM
U
con λ la medida de Lebesgue. De hecho podemos considerar también el espacio de Hilbert
(aleatorio) L2 (Xu ) como sigue.
Ju -C
Definición 6.2.5. Sea (Xu )U un campo aleatorio sobre U ⊂ RD , con E(Xu ) = 0 y E(X2u ) <
∞. Definimos
D
16 T
donde la convergencia es en media cuadrática (L2 ), las funciones gj son de Mercer y las
variables
20 A
Z
Zj = Xu gj (u)du, u ∈ U,
lio IM
son no correlacionadas, E(Zj ) = 0 y Var(Zj ) = λj .
Observación 6.2.8. El resultado anterior lo que quiere decir es que para generar un campo
D
aleatorio, basta generar las variables aleatorias Zj con las propiedades del teorema.
Más aún, dicho resultado funciona para el sistema coordenado cartesiano actual asociado
AT
De tal forma que usando los resultados anteriores, podemos definir campos aleatorios
gaussianos de una manera muy peculiar.
16 T
(Xu )u∈U = (X(u))u∈U
20 A
para denotar a un campo aleatorio X sobre U ⊂ RD .
lio IM
6.3. Campos aleatorios motivados por neuroimágenes
Ju -C
(Xi (u))u∈U
AT
y si además u está fijo, un estimador consistente de la varianza del campo está dado por
n
1 X
S 2 (u) = Var(X(u))
d =σ
b(u, u) = (Xi (u) − X(u))2 .
n − 1 i=1
tal que los {Lj } son ortonormales. Entonces, usando el Teorema de Extensión de Kolmogorov
{ηj (u)}U es una familia de campos gaussianos indepedientes y además
16 T
l
20 A
X
Yj (u) = ηj2 (u),
j=1
lio IM
donde los campos (ηj (u))U son campos aleatorios gaussianos independientes y estándar.
X(u) √
T (u) = n
S(u)
D
la Sección 5.5.3.
Entonces podemos motivar con dos tipos de preguntas que provienen de estadı́stica en
neuroimágenes (campos) (X(u)):
1.
Pr
X(u) −→ µ(u), u ∈ U.
6.4. Aproximación de homologı́a persistente de campos aleatorios 197
2. n
1X Pr
σ
b(u, v) = (Xi (u) − X(u))(Xi (v) − X(v)) −→ σ(u, v), u, v ∈ U.
n i=1
16 T
funcionales (FDA por sus siglas en inglés).
20 A
También podemos preguntaros por el nivel de significación 0 < α < 1 para determinar
un estimador  para el conjunto de activación; es decir, queremos calcular
lio IM
n o
P ∃u ∈ Â : µ(u) = 0 ≤ α
utilizando
Ju -C
Observar que esto ya nos da una conexión con la persistencia de subconjuntos (o supra-
conjuntos) de nivel y la teorı́a de Morse. Además, estamos pensando que el dominio de un
campo aleatorio es continuo y que quizás nuestros estimadores en este caso pueden requerir
AT
cierta suavidad sobre sus formas. Sin embargo, usando ciertas propiedades sobre la con-
volución podremos obviar estas consideraciones ya que las funciones serán infinitamente
diferenciables.
Ur = {u ∈ U : f (u) ≤ r}
Ur ⊂ Ur0 (r ≤ r0 ).
198 Capı́tulo 6. Persistencia de campos aleatorios
16 T
una variedad M ⊂ Rd . También el caso de funciónes tipo distancia asociadas a nubes de
puntos sobre conjuntos compactos o variedades (muestreo discreto de objetos 3D o 2D y
20 A
reconstrucción de variedades donde vivan vectores de rasgos Xi ∈ Rp . Otro ejemplo es el
de neuroimágenes funcionales con alta resolución espacial (fMRI) y la activación (usando la
lio IM
media) o la conectividad (usando la correlación).
Ju -C
campo aleatorio
X : U −→ R, U ⊂ RD compacto.
AT
y
n
1X
fˆ(u) = Xi (u) = X̄(u).
n i=1
Luego, usando el teorema de estabilidad para diagramas de persistencia asociados a subcon-
juntos de nivel de funciones, y con la misma notación e hipótesis que hasta ahora, tenemos
el siguiente resultado.
Teorema 6.4.1. Supongamos que la convarianza σ del campo X es continua y que las apli-
caciones respectivas f , fˆ son mansas (con probabilidad 1). Si además
!
|X(u) − f (u)|
E máx p ≤L<∞
u∈U σ(u, u)
6.4. Aproximación de homologı́a persistente de campos aleatorios 199
C
E(dB (dgm(fˆ), dgm(f ))) ≤ √ ;
n
p
donde C = L máxU σ(u, u).
Demostración.
16 T
E(dB (dgm(fˆ), dgm(f ))) ≤ E(||f − fˆ||) = E(máx |X̄(u) − f (u)|)
U
20 A
p !
σ(u, u) √ p
= E máx √ | n/ σ(u, u)(X̄(u) − f (u))|
U n
lio IM
1 √ p
= √ máx E máx | n/ σ(u, u)(X̄(u) − f (u))|
n U U
1
Ju -C
p
= √ L máx σ(u, u).
n U
D
Observación 6.4.2. Usando además teorı́a de máximos de campos aleatorios tenemos una
AT
cota de tipo exponencial, lo cual aproxima las probabilidades y por tanto nos dice que, con
probabilidad 1, el diagrama de persistencia de fˆ converge al diagrama de persistencia de f .
donde g es la densidad y las Yi se toman de una muestra aleatoria con respecto a g. Ası́:
Z
Efˆ(u) = g(x, u) ln(g(s, u))ds = −K(·, ·).
200 Capı́tulo 6. Persistencia de campos aleatorios
16 T
f ∈ Λ(β, L) = g : M −→ R : |g(x) − g(x0 )| ≤ Lρ(x, x0β ) ;
20 A
con ρ la distancia geodésica sobre la variedad M . (Observar que esto generaliza las nociones
lio IM
de Hölder continuidad para variedades).
Definimos β
2β+d
ln(n)
Ju -C
ψn :=
n
y decimos que {xi1 , . . . , xim } un conjunto de puntos asintóticamente equidistantes si
D
λd (M )1/d
ı́nf ρ(xij , xik ) ∼
m
AT
j6=k
Tomemos d/β
L(2β + d)m
m = m(n) = C1 ,
δC0 dψn
donde δ > 0 y
σ 2 λd (M )(β + d)d2
d/(2β+d)
C0 = L ,
ωd−1 β 2
con ωd−1 el volumen de la esfera Sd−1 .
6.5. Caracterı́stica de Euler de códigos de barras de campos gaussianos estándar 201
Definimos X
fˆ(x) = abj 1Aj (x),
16 T
K(x, x0 ) = (1 − τ dg (x, x0β ), τ= .
L
20 A
En particular, se saben los siguientes resultados.
lio IM
Lema 6.4.4.
E(||fˆ − f ||∞ ) = O(C0 ψn ).
Ju -C
n n
y
AT
d2
C = Ld/2β+d σ 2 λd (M ) .
β 2 ωd−1
Del primer capı́tulo sabemos que si U0 es una variedad de dimensión d, una de las formas
de definir la caracterı́stica de Euler de U0 es:
d
X
χ(U0 ) = (−1)k βk .
k=0
Para el caso de los códigos de barras también podemos definir la caracterı́stica de Euler.
16 T
Para cada barra B ∈ P H∗ , sean b(B) el nivel en que nace la barra y d(b) el nivel en que
20 A
muere la barra. La caracterı́stica de Euler del código de barras P H∗ se define como
X
lio IM
χ(P H∗ ) := (−1)µ(B) `(B);
B∈P H∗
d
X
E(χ(f −1 (D)) = (2π)−j/2 Lj (U )Mγj (D),
i=1
Teorema 6.5.3 (Bobrowski). Consideramos para cada a ∈ R los códigos de barras a nivel
a, P H∗ (f, a) = P H∗ (f −1 (−∞, a]). Se tiene que:
d
X
E(χ(P H∗ (f, a))) = χ(U )[ϕ(a) + aΦ(a)] + ϕ(a) (2π)−j/2 Lj (U )Hj−2 (a),
j=1
16 T
Para la demostración de este teorema se desarrolla una teorı́a de integración de funciones
(reales) sobre una variedad con respecto a la “medida” dada por la caracterı́stica de Euler
20 A
Z
f ddχe.
lio IM
U
Ju -CD
AT
204 Capı́tulo 6. Persistencia de campos aleatorios
6.6. Ejercicios
Ejercicio 6.6.1. Definir otras medidas de probabilidad sobre Cn no generadas sobre nodos
i.i.d. Xi , i = 1, . . . n.
Ejercicio 6.6.2. Hacer un análisis similar para v.a. con valores en complejos simpliciales
de Cech con n nodos.
Ejercicio 6.6.3. Probar que el espacio subyacente o polı́topo |K| a un complejo simplicial
es medible considerándolo en la familia de conjuntos compactos en Rd con la topologı́a de
16 T
Borel asociada a la métrica dH .
20 A
Ejercicio 6.6.4. Si Z es una variable aleatoria con valores en U y Z = −Z en ley, entonces
lio IM
σ(u, v) = E(eihu−v,Zi )
es simétrica no–negativa.
Ju -CD
AT
Capı́tulo 7
16 T
Estimación de números de Betti y
topologı́a estocástica
20 A
lio IM
Ju -C
El objetivo de esta sección es describir los códigos de barra teóricos para los números de
AT
205
206 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
Definiciones preliminares
Sea fθ , θ ∈ Θ una función de densidad en una variedad M con respecto a la distribución
uniforme µ. Para poder calcular la persistencia topológica como antes, consideramos dos
filtraciones particulares:
M≤r = {x ∈ M | fθ (x) ≤ r} , r ∈ R.
16 T
Filtración de Čech: dada por conjuntos de excursión de superniveles,
20 A
1
M≥ 1 = x ∈ M | fθ (x) ≥ , r ∈ R.
lio IM
r r
r r
a medida que r crece, M≥ 1 se va conformando de los puntos de mayor densidad. Es decir,
r
las filtraciones consideran primero los conjuntos de puntos más aglomerados (con mayor
D
complejos simpliciales, mientras que los puntos lejanos del resto tienden a ser los últimos en
ser absorbidos por el complejo simplicial principal.
Sea X una muestra aleatoria de puntos con densidad fθ en una variedad M . El objetivo
principal de nuestro trabajo será deducir teóricamente el comportamiento de los códigos de
barra si efectuásemos los cálculos habituales de homologı́a persistente a la nube de puntos
X usando la filtración de Morse o de Čech. Para ello nos será de mucha utilidad hallar la
función Betti-0 β0
Para definirla, primero definimos la función gθ : [0, ∞] → [0, 1] como
Z
gθ (r) = fθ dθ.
M≥1/r
16 T
cálculos de persistencia, desarrollaremos un ejemplo bastante sencillo pero ilustrativo.
20 A
Densidad uniforme en S1
lio IM
Sea f la densidad uniforme en S1 . Sea X = {X1 , . . . , Xn } una muestra aleatoria con esta
densidad. Antes de proseguir con nuestro acercamiento teórico, debemos de desarrollar cierto
vocabulario.
Sea α ∈ [0, 1) tal que X1 = e2πiα . Ası́, para k = 2, . . . , n sea Uk ∈ [0, 1) tal que
Ju -C
Xk = exp(2πi(α + Uk )). Notemos que Uk ∼ Unif[0, 1). Éstos son reordenados de modo que
Ası́, reordenamos las {Xk } como {Xn:k } en correspondencia con las {Un:k } y para cada
AT
además de único 1-simplejo [Xk1 , Xk2 ]. En este caso, ahora sólo se tienen n − 1 componentes
conexas distintas.
Ahora supongamos que la distancia entre Xl1 , Xl2 es Sn:2 , de modo que si Sn:2 ≤ r < Sn:3 ,
R(X, r) es el complejo simplicial tendrá a cada Xi como 0-simplejo, además de 1-simplejos
[Xk1 , Xk2 ], [Xl1 , Xl2 ]. Ası́, se tendrán n − 2 componentes conexas distintas. Al proseguir, no-
tamos que r ∈ [Sn:k , Sn:k+1 ] ⇒ β0 (R(X, r)) = n − k. En particular, cuando r ≥ Sn:n−1 , vemos
que R(X, r) consiste de una única componente conexa. Entonces los intervalos de persistencia
Betti-0 son la colección
{[0, Sn:i )}n−1
i=1 ∪ {[0, ∞]}.
16 T
Examinemos ahora el caso de los intervalos de persistencia Betti-1, en particular, quere-
mos hallar el intervalo de persistencia Iτ donde τ es la 1-cadena dada por
20 A
τ := (Xn:1 , Xn:2 ) + . . . + (Xn:n−1 , Xn:n ) + (Xn:n , Xn:1 ),
lio IM
el polı́gono convexo circunscrito por S1 . Más aún, notemos que para cualquier otra 1-cadena
σ que se forma mientras r crece, al momento en que ésta aparece, también aparece una
2-cadena que la tiene como frontera. Es decir, el intervalo de persistencia de σ es trivial.
Ju -C
Iα = [Sn:n , s) con s ∈ [ 13 , 12 ).
Observación: Notemos que la mayor distancia posible entre dos puntos en S1 es 12 . Si Sn:n ≥ 21 ,
AT
Observación: Si Sn:n ≥ 31 es posible que s = Sn:n de modo que Iτ también es trivial. Por
ejemplo, consideremos X = {X1 , X2 , X3 } distribuidos como un triángulo equilátero.
Para saber que tan probable es que ocurran casos degenerados como los planteados en
ambas observaciones previas, recurrimos a un teorema clásico
Teorema 7.1.2 (Whitworth, 1897). Si S es un conjunto de n espaciados en S1 distribuidos
de manera uniforme en [0, 1], entonces
n−1 n
X
k+1
P(Sn:n > x) = (−1) (1 − kx) , ∀ x > 0.
k
16 T
k≥1
kx<1
20 A
n−1
Usando Whitworth, vemos que P(Sn:n > 21 ) = 2n−1n
y P(Sn:n > 13 ) < n 23 , las cuales
en ambos casos tienden a 0 muy rápidamente a medida que n crece, por lo que casi siempre
lio IM
podremos ignorar ambas observaciones.
Continuando con la notación anterior, ahora usaremos otro resultado
Ju -C
n j=1 n + 1 − j j=n+1−i j
(" i
!)n−1
1X 1
0, ∪ {[0, ∞]}.
n j=1 n + 1 − j
i=1
La función Betti-0
Para calcular la función Betti-0 a partir del código de barras consideremos
n β̃0 := ESn:d(n−1)xe .
La función
R1 Betti-0(n) es una versión normalizada de n β0 (x, 0) = cnn β̃0 (x, 0) de manera tal
que 0 n β0 (x, 0)dx = 1. A partir de aquı́ haremos varias observaciones.
Calculamos
d(n−1)xe n
cn X 1 cn X 1
n β0 (x, 0) = = .
n j=1
n+1−j n j
j=n+1−d(n−1)xe
210 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
R1 1 1
Como 0 ESn:d(n−1)xe dx = n−1
ESn:1 + ... + n−1
ESn:n−1 al ser la integral de una función
escalonada, vemos
P −1
ESn:i n−1
cn = = ,
n−1 1 − ESn:n
pues
n
X n
X n−1
X
Sn:i = 1 ⇒ ESn:i = 1 ⇒ ESn:n = 1 − ESn:1 .
16 T
i=1 i=1 i=1
20 A
cn
Nótese que lı́mn→∞ ESn:n = 0, por lo que lı́m = 1.
n→∞ n
lio IM
Además, cuando n es grande, d(n − 1)xe es muy parecido a (n − 1)x. Usando L’Hôpital
calculamos
n 1
Ju -C
n 1 Z n dx X n Z n
1 1 1 dx 1 n
+ log = + < < + = + log .
n k n k x j=k
j k k x k k
Por último graficamos n β0 (x, 0) para n = 10 y n = 100 junto con f (x) = − log(1 − x)
y corroboramos que en efecto, − log(1 − x) refleja el comportamiento asintótico de los picos
de cada intervalo de persistencia Betti-0, donde los intervalos fueron ordenados de menor a
mayor colocados verticalmente como se muestra en la figura 1 .
1
Imagen tomada directamente de [24]
7.1. Topologı́a de densidades paramétricas 211
16 T
20 A
lio IM
Figura 7.1: n β0 (x, 0) para n = 10 y n = 100 junto con f (x) = − log(1 − x)
Ju -C
Una vez motivados por el ejemplo de juguete expuesto, procedemos a tratar de calcular
teóricamente los códigos de barra de densidades un poco más elaboradas y en otras varie-
AT
16 T
Aprovechando la forma de la gráfica de arc cos, obtenemos fácilmente el siguiente resul-
20 A
tado que resume el comportamiento de S≥ 1 , S≤r a lo largo del tiempo.
r
lio IM
Ju -CD
AT
1
Lema 7.1.5. 1. Para 0 ≤ r < máx fκ
, S1≥ 1 = ∅ y para r < mı́n fκ , S1≤r = ∅.
r
1 1
2. ≤r< , S1 1 = {θ : −α 1 ,κ ≤ θ ≤ α 1 ,κ }.
máx fκ mı́n fκ ≥ r r r
16 T
Demostración. 1. Si 0 ≤ r < máx1 fκ , vemos que fκ (θ) ≥ 1r ⇒ fκ (θ) > máx fκ . Si r <
mı́n fκ , ; fκ (θ) ≤ r ⇒ fκ (θ) < mı́n fκ . En ambos casos, es imposible que exista tal θ.
20 A eκ
lio IM
2. Notemos que fκ (0) = = máx fκ y que mı́n fκ < f (α 1 ,κ ) = f (−α 1 ,κ ) = 1r ≤
I0 (κ) r r
1
máx fκ . Por la geometrı́a de arc cos, vemos que S≥ 1 son en efecto todos los puntos
r
entre α 1 ,κ y −α 1 ,κ (como los marcados en la lı́nea azul en la figura 7.2)
Ju -C
r r
Filtración de Morse
Primero estudiemos los intervalos de persistencia bajo la filtración de Morse. Del lema
anterior vemos que
2. mı́n fκ ≤ r < máx fκ ⇒ S1≤r es contraı́ble, pues el segmento naranja de figura 7.3 es
un segmento de arco de un cı́rculo, como en figura 7.4. Al ser contraı́ble su grupo de
homologı́a de dimensión 1 es trivial.
3. r ≥ máx fκ ⇒ S1≤r = S1 .
214 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
16 T
mientras que el resto de códigos de barra son triviales, pues lo
20 A
son en S1 .
lio IM
Filtración de Čech y la función Betti-0
Ju -C
Ahora consideremos la filtración de Čech. Para ello dividimos el análisis en dos casos:
κ = 0 y κ > 0.
1 0
D
Z 1
1 2 −1/2 1 t=1 1 π −π
I0 (0) = (1 − t ) dt = [arcsin(t)]t=−1 = − = 1,
Γ(1/2)2 −1 π π 2 2
1
1. r < máx fκ
⇒ S1≥ 1 = ∅.
r
1 1
2. ≤r< ⇒ S1≥ 1 es contraı́ble, y su grupo de homologı́a de dimensión 1
máx fκ mı́n fκ r
es trivial.
1
3. r ≥ ⇒ S1≥ 1 = S1 .
mı́n fκ r
De ahı́ que el código de barras Betti-0 para la filtración de Morse consiste de un único
16 T
intervalo
1 I0 (κ)
,∞ = ,∞
20 A
máx fκ eκ
y el código de Betti-1 es un único intervalo
lio IM
1
, ∞ = [eκ I0 (κ), ∞] ,
mı́n fκ
Ju -C
R
Sea x ∈ [0, 1] y supongamos β0 (x, κ) = r. Como κ > 0, gκ (r) = S1
fκ (θ) dθ es continua
1
≥r
y creciente. Ası́,
AT
Z
x= fκ (θ) dθ.
S11
≥r
Como fκ , Fκ son suaves, por Teorema de la Función Inversa, Fκ−1 también lo es, de modo
que x
β0 (x, κ) = (Fκ−1 )0 .
2
16 T
1
20 A
hκ (t) = 2Fκ (t), , t ∈ [0, π].
fκ (t)
lio IM
la cual al graficarse luce como se ve en la figura siguiente.2
Ju -CD
AT
16 T
S
Γ( d−1 + 1 Z 1
)
= d−1 2 2
eκt (1 − t2 )(d/2−1)−1/2 dt,
20 A
1
Γ( 2 )Γ( 2 ) −1
−1
Γ(x)Γ(y)
B(x, y) = tx−1 (1 − t)y−1 dt =
0 Γ(x + y)
AT
Por otro lado, de la desigualdad de Cauchy-Schwarz vemos que |xT m| = |hx> mi| ≤
||x||||m|| ≤ 1, por lo que
16 T
c(κ) exp(καr,κ ) = r.
Filtración de Morse
20 A
lio IM
Similar al lema 7.1.5, establecemos
2. r ≥ máx fκ ⇒ Sd−1
≤r = S
d−1
.
D
1 1
2. ≤r< ⇒ Sd−1
≥ r1
= {x ∈ Sd−1 | x> m ≥ α 1 ,κ }.
máx fκ mı́n fκ r
3. r ≥ 1
mı́n fκ
⇒ Sd−1
≥1
= Sd−1 .
r
7.1. Topologı́a de densidades paramétricas 219
Continuando de manera análoga al caso von Mises, consideremos dos casos para deducir
16 T
la función Betti-0.
20 A
Si κ = 0, entonces f0 = c(0) = 1 de modo que
(
lio IM
∅, r<1
Sd−1
≥1
= d−1
.
r S , r≥1
Ju -C
Entonces (
Z
0, r < 1
gκ (r) = f0 (x)dx =
Sd−1
1
1, r ≥ 1
≥r
D
y por ende
AT
β0 (x, 0) = ı́nf r = 1,
gκ (r)≥x
Z
x = gκ (r) = fκ (ξ)dξ
Sd−1
1≥r
log(rc(κ))
Z arc cos(− )
sp−2 κ
= c(κ) eκ cos θ sinp−2 θdθ
sp−1 0
p
donde sp−1 = 2π 2
Γ( p2 )
. Si κ > 0, gκ (r) es creciente de modo que β0 (x, κ) = gκ−1 (x) para x ∈ [0, 1].
220 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
16 T
barra reales versus un código de barra estimado. Daremos cotas a las diferencias absolutas
20 A
en los casos particulares cuando estamos trabajando con las densidades von Mises y von
Mises-Fisher.
lio IM
Estimando con la densidad von Mises-Fisher
Sean X1 , . . . , Xn variables aleatorias en Sd−1 independientes idénticamente distribuidas
Ju -C
n n
>
Y Y
L(m, κ; X) = f (xi ; m, κ) = c(κ)eκxi m .
AT
i=1 i=1
Pn
Considerando el estadı́stico r = i=1 xi , tenemos la función de log verosimilitud
n
X
l(m, κ; X) = [log c(κ) + κx> >
i m] = n log c(κ) + κr m.
i=1
16 T
c0 (κ̂) ||r||
=−
20 A
.
c(κ̂) n
lio IM
d
Por otro lado, para facilitar la notación, sean s := 2
− 1, ξ = 2s Γ( d2 ), de modo que
κs
c(κ) = .
ξIs (κ)
Ju -C
Derivando respecto a κ,
sκs−1 ξIs (κ) − ξκs Is0 (κ) κ2 κIs0 (κ) κIs0 (κ)
0 s s
− −
D
c (κ) = = = c(κ) ,
[ξIs (κ)]2 ξIs (κ) κ ξIs (κ)2 κ ξIs (κ)2
es decir,
AT
c0 (κ) I 0 (κ) s
− = s − .
c(κ) Is (κ) κ
Ahora bien, aprovechando la igualdad (ver [1])
κIs+1 (κ) = κIs0 (κ) − sIs (κ)
obtenemos
c0 (κ) Is+1 (κ) s s Is+1 (κ) Id/2 (κ)
− = + − = = =: Ad (κ)
c(κ) Is (κ) κ κ Is (κ) Id/2−1 (κ)
concluyendo ası́ en particular,
c0 (κ̂) ||r||
− = Ad (κ̂) =
c(κ̂) n
siendo ası́ los estimadores de máxima verosimilitud dados por
||r|| r
κ̂ = A−1
d , m̂ = .
n ||r||
222 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
16 T
respectivamente, enunciamos
20 A
Teorema 7.1.8. Para la distribución von Mises-Fisher en Sd−1 y κ ∈ [κ0 , κ1 ] con 0 < κ0 ≤
lio IM
κ1 < ∞ fijos,
1
E(D[βiM (fκ̂ ), βiM (fκ )]) ≤ C(κ)n− 2 , n→∞ ∀ i,
Ju -C
1
E(D[βiČ (fκ̂ ), βiČ (fκ )]) ≤ C(κ)n− 2 , n→∞ ∀ i ≥ 1,
Observación: Aprovechando que los intervalos en los códigos de barra de la distribución von
AT
Demostración. Recordemos que los únicos códigos de barra no necesariamente triviales ocu-
rren en las dimensiones i = 1 e i = d − 1. De la observación anterior y aprovechando nuestras
construcciones teóricas de códigos de barra en la sección anterior, vemos que
M M
2. d[βp−1 (fκ̂ ), βp−1 (fκ )] = |c(κ̂)eκ̂ − c(κ)eκ |.
Č
3. d[βp−1 Č
(fκ̂ ), βp−1 (fκ )] = |c(κ̂)−1 eκ̂ − c(κ)−1 eκ |.
Enfoquémonos únicamente en la primera igualdad. Por teorema del valor medio, existe
7.1. Topologı́a de densidades paramétricas 223
16 T
1
≤ C(κ)n− 2 .
20 A
Para las otras dos igualdades el resultado es completamente análogo.
lio IM
Caso particular d = 3
Enfoquémonos ahora en el caso particular cuando d = 3 en la variedad S2 . En este caso,
muchos cálculos pueden hacerse de manera explı́cita.
Ju -C
Calculamos
B(1, 21 )−1 1
2 κ
c(κ) = R 1 = = ,
exp(κt) dt 2 sinh κ/κ sinh κ
−1
D
p
1 x −x 2π 2
pues sinh x = 2
(e − e ). Por otro lado, si sp−1 = p , vemos que
Γ( 2 )
AT
2π 2π 3/2
s1 = = 2π, s2 = = 4π.
Γ(1) Γ( 23 )
s1
de modo que s2
= 12 . Además,
Z
exp(κ cos θ)
eκ cos θ sinp−2 θdθ = − ,
κ
por lo que
log(rc(κ))
s1 arc cos(− κ ) κ cos θ
Z
gκ (r) = c(κ) e sin θdθ
s2 0
1 exp(κ) 1
= c(κ) −
2 κ κrc(κ)
exp(κ) 1
= − .
2 sinh κ 2rκ
224 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
16 T
2κ[(1 − x) exp(κ) + x exp(−κ)]
20 A
y ası́
exp(2κ) − 1
β0 (x, κ) = .
2κ[(1 − x) exp(2κ) + x]
lio IM
Notemos que β0 (x, κ) → 1 cuando κ → 0 como era de esperar, pues por L’Hôpital
exp(2κ) 1
→ = 1.
Ju -C
Demostración. Por Teorema del valor medio, existe κ∗ entre κ y κ̂ tal que
∂
β0 (x, κ̂) − β0 (x, κ) = β0 (x, κ∗ )(κ̂ − κ),
∂κ
con
∂ −(1 − x)e4κ + (1 + 2κ − 2x)e2κ + x
= .
∂κ 2κ2 [(1 − x)e2κ + x]2
Para x ∈ (0, 1], vemos que la derivada es acotada por
e4κ + (1 + 2κ)e2κ + 1
16 T
.
2κ2
20 A
Aprovechando que podemos calcular explı́citamente A3 (κ) = coth κ − κ1 , se sigue un
razonamiento análogo al teorema previo.
lio IM
Observaciones
Ju -C
El enfoque estadı́stico a la persistencia ofrecido por [24] brinda una nueva manera de
entender objetos vitales en el análisis topológico de datos, como lo son los intervalos de
persistencia y los códigos de barra de números Betti. Es especialmente ilustrativo, como
D
enfoque pueda ser usado en conjunto al enfoque topológico-computacional usual para ampliar
el público potencial interesado en este tema.
El ejemplo de juguete presentado es sumamente didáctico, pues permite los cálculos
explı́citos de intervalos de persistencia y la esperanza de éstos, permitiendo el posterior
desarrollo de la función β0 y compararla con su comportamiento asintótico. Esto es relevante,
pues provee cierta intuición de como enfrentarse a densidades menos sencillas en variedades
menos simples, como lo es la von Mises-Fisher en Sd−1 . Son estas construcciones teóricas las
que posteriormente nos dan material concreto para plantear una comparación entre códigos
de barra teóricos y códigos de barra obtenidos al estimar con máximos verosı́miles. Esto
último es relevante, pues ofrece una manera de resolver el problema de que objeto concreto
usar para determinar si una estimación de códigos de barra es adecuada o no.
El trabajo [24] desarrolla otros ejemplos no tratados aquı́, como lo son las densidades
Bingham y Watson en Sd−1 , y la densidad von Mises matricial en el grupo de Lie de ro-
taciones en R3 . Por ejemplo, serı́a interesante tratar explı́citamente densidades en el toro,
aprovechando quizá la medida producto de dos cı́rculos; o incluso podrı́amos intentar den-
sidades en otras superficies como la botella de Klein. Ello implicarı́a también una revisión
226 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
quizá profunda en las propiedades analı́ticas y fórmulas útiles derivadas de cada densidad pa-
ra deducir todos los cálculos necesarios, que pueden ponerse pesados en una primera lectura,
tal como se reflejó en el caso de la densidad von Mises-Fisher.
16 T
El propósito de esta sección es presentar algunos ejemplos de procesos puntuales sobre
variedades y estudiar la topologı́a de las funciones de densidad (distribución) asociadas a
20 A
dichos procesos. Nos referimos al trabajo de Bobrowski y Mukherjee ([18]).
Dada una nube finita de puntos P en un espacio euclidiano Rd , recordamos la función
lio IM
distancia a P ,
dP : Rd −→ R
x 7−→ ı́nf ||p − x||.
Ju -C
p∈P
p∈P
AT
En este apartado nos preguntamos cómo cambia la topologı́a de dicha unión de bolas y al
mismo tiempo como varı́an los puntos crı́ticos de la función dP , conforme escojamos el tipo
de proceso puntual asociado a P , o bien al cambiar el tamaño de la muestra.
M ⊂ Rd , (m < d).
16 T
Además, dadas cualesquiera dos regiones disjuntas A, B ⊂ M , las variables aleatorias
NA y NB son independientes.
20 A
Ambos modelos son muy similares, salvo que en el primer caso tenemos exactamente
lio IM
n puntos y en el segundo se distribuyen como Poisson(n). Dado que además los procesos
de Poisson tienen ventajas computacionales, se enunciarán los resultados para este caso
particular. Sin embargo, bajo ligeros ajustes los resultados siguen siendo ciertos en el caso de
Ju -C
χn . Más aún, también se tienen resultados análogos para el caso en que la muestra se tome
sobre un espacio euclidiano Rd (ver [15]).
Por lo tanto, los objetos estocásticos a estudiar serán las uniones de bolas C(Pn , ) y la
función distancia dPn . Recordemos que al final del primer capı́tulo vimos cómo definir puntos
D
crı́ticos de cierto ı́ndice para la función distancia a una nube de puntos. Dada una sucesión
rn de enteros positivos (radios), analizaremos dos tipos de variables aleatorias:
AT
{βk,n }d−1
k=0 y {Nk,n }dk=0
228 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
16 T
• r(Y) para el radio de dicha esfera y
20 A
• B(Y) para la bola abierta en Rd con centro p y radio r(Y).
lio IM
Para el caso de puntos crı́ticos locales, la condición a considerar serı́a
r(Y) ≤ .
Ju -C
Para poder enunciar los resultados a continuación, usaremos las siguientes funciones
indicadoras:
D
•
hc (Y) := 1{p ∈ conv◦ (Y)},
AT
•
hc (Y) := hc (Y)1[0,] (r(Y)),
•
gc (Y, Pn ) := hc 1{Pn ∩ B(Y) = ∅}.
16 T
• Los puntos crı́ticos de ı́ndice 0, o mı́nimos, de dPn son precisamente los puntos de Pn . O
20 A
bien,
N0,n = |Pn | ∼ Poisson(n).
lio IM
• Si el radio rn es suficientemente pequeño el nervio C(Pn , rn ) es homotópicamente equiva-
lente a un subconjunto M 0 ⊂ M , vı́a un retracto por deformación. Luego βm (M 0 ) = 0,
ası́ como βk (M ) = 0 para k > m. Por lo tanto,
Ju -C
βk,n = 0, (k ≥ m).
D
Caso subcrı́tico.
En el caso en que nrnm −→ 0 tenemos que el radio rn se va a cero con tanta rapidez,
que es muy improbable para los puntos conectarse y C(Pn , rn ) está muy esparcido. Ésta es
la llamada “fase de polvo”. Veremos que β0,n domina los otros números de Betti, los cuales
aparecen en órdenes descendente de magnitud.
1. Para 1 ≤ k ≤ m − 1:
E{βk,n } Var(βk,n )
lı́m = lı́m = µbk ;
n−→∞ nk+2 r m(k+1) n→∞ m(k+1)
nk+2 rn
n
donde
230 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
Z Z
1
µbk = f k+2
(x)dx hb1 (0, y)dy.
(k + 2)! M (Rm )k+1
Además,
E{β0,n }
lı́m = 1.
n−→∞ n
2. Para 1 ≤ k ≤ m:
E{Nk,n } Var(Nk,n )
16 T
lı́m k+1 mk
= lı́m = µck ;
n−→∞ n rn n→∞ nk+1 rn
mk
20 A
donde
lio IM
Z Z
1
µck = f k+1
(x)dx hc1 (0, y)dy.
(k + 1)! M (Rm )k+1
Ju -C
Como es usual en estos casos, encontrar una expresión más nı́tida de la integral anterior
es una tarea complicada.
AT
16 T
20 A
3. Si lı́m nk+1 rnk = ∞, entonces
lio IM
Nk,n − E(Nk,n ) L
−→ N (0, µck ).
(nk+1 rnmk )1/2
m(k+1)
Ju -C
Observación 7.2.4. El mismo teorema es cierto para βk,n , con el término de ajuste nk+2 rn
y la varianza lı́mite µbk . Además, para el caso del TCL en el tercer apartado se requiere que
Caso crı́tico
En el caso anterior observamos que el número de componentes conexas β0,n es de orden
n. En este caso tendremos que para cada k, este será el caso y el cálculo de números de Betti
se vuelve complicado. Aún ası́, tenemos lo ya mencionado.
E{βk,n } E{βk,n }
0 < lı́m inf ≤ lı́m sup < ∞.
n−→∞ n n−→∞ n
Por otro lado, como un punto crı́tico de ı́ndice k está siempre generado por k + 1 puntos,
podemos seguir aplicando técnicas similares al caso anterior para concluir.
E{Nk,n }
lı́m = γk (λ),
n−→∞ n
232 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
Var{Nk,n }
lı́m = σk2 (λ),
n−→∞ n
Nk,n − E{Nk,n } L
√ −→ N (0, σk2 (λ));
n
donde
λk
Z Z
m (0,y)f (x)
γk (λ) := f k+1 (x)hc1 (0, y)e−λωm r dydx
(k + 1)! M (Rm )k
16 T
Donde ωm denota el volumen de la bola unitaria en Rm y r(0, y) es la función que asigna
20 A
el radio de la única esfera que contiene a (0, y).
Para este caso no podemos dar lı́mites exactos para los números de Betti. Sin embargo,
lio IM
usando los puntos crı́ticos de la función distancia, podremos encontrar teoremas lı́mite para
la caracterı́stica de Euler de C(Pn , rn ). Como hemos visto anteriormente, es un invariante
topológico muy simple y puede ser definido de varias maneras. Para nuestro caso tenemos
Ju -C
que
Xm
χn = χ(C(Pn , rn )) = (−1)k βk,n .
D
i=1
Luego, usando la teorı́a de Morse, también podemos calcular χn mediante los puntos crı́ticos
AT
de la función distancia,
Xm
χn = (−1)k Nk,n .
i=1
Podemos concluir el siguiente resultado.
Corolario 7.2.7. Si nrnm −→ λ > 0, entonces
m
E(χn ) X
lı́m =1+ γk (λ).
n−→∞ n k=1
Esto nos da una respuesta parcial, pues aunque no da lı́mites precisos para los números
de Betti en particular, si lo hace para el “resumen” hecho por la caracterı́stica de Euler. Más
aún, usando el teorema anterior se pueden obtener resultados para otro tipo de funcionales
distintos a la esperanza.
Experimentos numéricos ([79]) parecen sugerir que a diferentes rangos del radio existe a
lo más un solo grado de homologı́a que domina los otros:
χn ≈ (−1)k βk,n .
7.2. Topologı́a de densidades no–paramétricas en variedades 233
Si este resulta ser el caso, el resultado anterior podrı́a darnos lı́mites para la esperanza de
los números de Betti al menos en el grado dominante.
Caso supercrı́tico
En cuanto λ del caso anterior va tendiendo a infinito, el complejo C(Pn , rn ) se vuelve
más y más conexo y menos poroso. Ya no sucede que encontremos más y más vacı́os de cada
posible dimensión, la escala a la cual mayores cambios ocurren es
16 T
nrnm ∝ log n.
20 A
Para este caso tendremos que suponer
lio IM
fmin = ı́nf f (x) > 0.
x∈M
de Pn y quizás podrı́a verse como en los casos anteriores. Como veremos, para cierto radio
βk,n = βk (M )
Los lı́mites para los puntos crı́ticos siguen siendo muy similares.
D
E{Nk,n }
lı́m = γk (∞),
n−→∞ n
Var{Nk,n }
lı́m = σk2 (∞)
n−→∞ n
y
Nk,n − E{Nk,n } L
√ −→ N (0, σk2 (∞));
n
donde Z
1 m (0,y)
γk (∞) := lı́m γk (λ) = hc (0, y)e−ωm r dydx.
λ−→∞ (k + 1)! (Rm )k
El estudio de los números de Betti se vuelve igual de complicado que antes. Sin embargo,
veremos que podemos encontrar un umbral para el cual βk,n = βk (M ) para todo k ≥ 0. Este
umbral estará dado por
nrnm = (ωm fmin )−1 log n.
Usaremos los siguientes resultados.
234 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
2. Si C > 2(ωm fmin )−1 , entonces casi seguramente existe L > 0 (posiblemente aleatoria),
tal que para cada n > L tenemos que M ⊂ C(Pn , rn ).
16 T
Usando rn apropiadamente podemos observar que M es un retracto por deformación de
C(Pn , rn ) y con un poco más de maquinaria sobre los puntos crı́ticos de la función distancia
20 A
a Pn tenemos el resultado deseado.
lio IM
Teorema 7.2.10 (Convergencia de los números de Betti). Si rn −→ 0 y nrnm ≥ C log n,
entonces:
lı́m P(βk,n = βk (M ), ∀0 ≤ k ≤ m) = 1.
n−→∞
D
2. Si C > 2(ωm fmin )−1 , entonces casi seguramente existe L > 0, tal que para n > L,
AT
βk,n = βk (M ), ∀0 ≤ k ≤ m.
16 T
les llamará simplemente complejos simpliciales.
En estas notas, las estructuras de complejos que se han estudiado hasta este punto, siem-
20 A
pre han estado contenidas en un espacio métrico por lo que han sido complejos simpliciales
geométricos. Sin embargo, fueron los complejos simpliciales (abstractos) los primeros que se
lio IM
estudiaron desde un punto de vista estocástico o probabilista por lo que es de suma impor-
tancia conocer las diferencias y similitudes entre ambas estructuras y saber qué ingredientes
se necesitan al definir una estructura estocástica sobre complejos simpliciales (abstractos) o
Ju -C
El primer artı́culo en el que se estudian y definen los complejos aleatorios dos dimen-
sionales fue publicado en el año 2006 bajo el tı́tulo Homological connectivity of random
AT
En este teorema, Y (n, p) representa al espacio de probabilidad que tiene como posibles
resultados todos los complejos simpliciales 2 dimensionales en n puntos tales que su cero
esqueleto y uno esqueleto están completos, es decir, son los complejos simpliciales 2 di-
mensionales construidos sobre la gráfica completa Kn . Observar que el modelo Y (n, p) es
236 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
el análogo al modelo de Erdös-Renyi G(n, p) (en el que cada arista estará presente en la
gráfica, de manera independiente respecto a las otras, con una probabilidad p y ausente
con una probabilidad de 1 − p, salvo que Y (n, p) está definido para complejos simpliciales 2
dimensionales).
Este resultado nos dice que para la estructura estocástica Y (n, p), hay un umbral fuerte o
bien definido para la propiedad de tener grupo de homologı́a de dimensión 2 (o β2,n ) distinto
del trivial; es decir, que para el cambio del caso subcrı́tico al crı́tico, la estructura Y (n, p)
tiene un umbral fuerte. En general, es deseable tener resultados asintóticos en el que se
encuentre un umbral fuerte o bien definido. Daremos enseguida una definición precisa de lo
16 T
que es un umbral fuerte o bien definido.
Una función f es un umbral fuerte, o bien definido, para una propiedad Q, de una
20 A
estructura estocástica X(n, p), dependiente de los parámetros n y p , si existe una función
g ≡ o(f ) tal que
lio IM
1 :p≥f +g
P[X(n, p) ∈ Q] →
0 : p ≤ f + g.
No sólo se ha estudiado la homologı́a de la estructura estocástica Y (n, p); en el 2011
Ju -C
Babson et al. publicaron un resultado que involucra al primer grupo de homotopı́a (para
conocer la definición y algunos resultados elementales del grupo de homotopı́a de un espacio
topológico, se puede consultar [98]).
D
(
n
1 p≥ √
n
lı́m P[{Y ∈ Y (n, p) | π1 (Y ; Z2 ) = 0}] = n√−
.
n→∞ 0 p≤ n
Observar que en este resultado no sólo se generaliza la dimensión de los complejos simpli-
ciales sino que también se construyen los grupos de homologı́a sobre cualquier campo Zl con
l un número primo. Este resultado aún se desconoce para el grupo de los enteros Z y no es
posible deducirlo directamente del teorema de R. Meshulam y N. Wallach pues el problema
es que podrı́a haber l-torsión si se deja crecer l respecto de n.
Como caso particular en el que d = 1, de este resultado recuperamos el resultado clásico
de Erdös-Renyi [50] para el caso del modelo estocástico G(n, p), en el que la conectividad
de una gráfica coincide con que el grupo de homologı́a de dimensión cero tenga un sólo
generador, que en este caso es Z2 .
16 T
Teorema 7.3.4 ( Erdös y Renyi, 1959). Si ω : N → R+ es una función tal que lı́mn→∞ ω(n) =
20 A
∞ y tal que para toda n ∈ N se tiene log n ≥ ω(n), entonces
(
lio IM
0 p = log n−ω(n)
n
lı́m P[{G ∈ G(n, p) | G es conexa}] = ;
n→∞ 1 p = log n+ω(n)
n
(
Ju -C
log n−ω(n)
0 p= n
lı́m P[{G ∈ G(n, p) | G sin vértices aislados}] = log n+ω(n) ;
n→∞ 1 p= n
(
log n−ω(n)
D
0 p= n
lı́m P[{G ∈ G(n, p) | H0 (G; Z2 ) = Z2 }] = log n+ω(n) .
n→∞ 1 p= n
AT
La cualidad del modelo Y (n, p) de que tiene su uno esqueleto completo (y en general en el
modelo de Meshulam-Wallach que tiene su (d−1)-esqueleto completo), es una particularidad
que no es necesaria que se cumpla en un modelo más general de complejos aleatorios. Un
modelo más general de complejos simpliciales abstractos aleatorios se puede construir sobre
gráficas aleatorias, que por lo general pertenecen al modelo binomial (modelo de Erdös-
Renyi) G(n, p), o al modelo uniforme G(n, m) (en el que cada gráfica se elige de manera
n
uniforme de todas las (m2 ) gráfica en n vértices y m aristas). Definiremos en seguida una
estructura estocástica con estas caracterı́sticas que resulta en una generalización del modelo
Linial-Meshulam-Wallach.
Un complejo bandera sobre una gráfica H, denotado por X(H) se define como el complejo
maximal que tiene a la gráfica H como su uno esqueleto, es decir, las caras i-dimensionales de
X(H) corresponderán a las subgráficas completas contenidas en H con i+1 puntos. Observar
que este modelo usa una definición parecida a la definición del complejo de Vietoris-Rips,
dada en el Capı́tulo 1, salvo que no hay necesidad en este caso de determinar los elemen-
tos del complejo mediante una función de distancia pues se está trabajando con complejos
simpliciales abstractos.
238 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
Una vez que ya se sabe cómo se van a construir los complejos sobre una gráfica determi-
nada, podemos definir la estructura estocástica utilizando el modelo de Erdös-Renyi G(n, p).
Definimos el complejo bandera aleatorio X(n, p) como el complejo bandera asociado a la
estructura de gráficas aleatorias G(n, p). Es decir, sobre cada gráfica G obtenida con el mo-
delo G(n, p) se construye un complejo bandera X(G). Como cualquier complejo simplicial es
homeomorfo a un complejo bandera (invitamos al lector a verificar por qué se cumple esto),
entonces con el modelo estocástico X(n, p) se logra tener un espacio de probabilidad que
abarca muchas estructuras topológicas dependiendo de la n que se elija, en particular si se
hace n → ∞.
16 T
Los siguientes tres teoremas referentes a la estructura X(n, p), fueron tomados de los
artı́culos de Kahle [75], [77] y [79], este último en coautoria con Meckes. El primer resultado
20 A
da un umbral para pasar del caso subcrı́tico al crı́tico; el segundo teorema establece una
función de crecimiento para la esperanza de los números de Betti en el caso crı́tico (existe un
lio IM
resultado análogo que involucra la varianza de los números de Betti); y el tercer resultado
es un teorema de lı́mite central que caracteriza la distribución al lı́mite de los números de
Betti. Recomendamos, como ejercicio, comparar los siguientes resultados con los resultados
Ju -C
(
1
0 α < (2k+1)
lı́m P[Hk (X; Z) = 0] = .
n→∞ 1 α > k1
AT
E[βk ]
lı́m (k+1) = 1.
n→∞ n
k+1
p 2
1
Teorema 7.3.7 (Kahle–Meckes). Sea k ≥ 1 y k+1 <α< 1
k
fija. Si p = n−α y X ∈ X(n, p),
entonces
βk − E[βk ] L
p −→ N (0, 1).
Var[βk ]
Antes de pasar a analizar lo complejos simpliciales aleatorios geométricos, vamos a resu-
mir las caracterı́sticas de los complejos simpliciales (abstractos) aleatorios desde un punto
de vista estructural.
Para definir una estructura estocástica, sobre conjuntos de complejos simpliciales abs-
tractos, es necesario primero determinar qué caracterı́sticas tendrán los complejos sobre los
que se quiere definir el espacio de probabilidad.
7.3. Topologı́a de complejos aleatorios geométricos 239
Una de estas caracterı́sticas que hay que definir es el número de puntos que tendrá el cero
esqueleto (que se ha estado denotando por n). Para el caso de complejos aleatorios abstractos
para determinar su cero esqueleto no es necesario dar más información que su cardinalidad.
Queremos hacer énfasis en que, como ya se dijo, en el caso de complejos simpliciales abstractos
únicamente es necesario elegir una n y el cero esqueleto quedará totalmente determinado
por este número; en cambio, en los complejos simpliciales geométricos esto no basta pues
además hay que determinar la posición de los n puntos en el espacio métrico sobre el que se
esté trabajando.
Una vez que se tiene definido el cero esqueleto, se tiene que establecer una forma de
16 T
determinar qué simplejos formarán parte del complejo. Por ejemplo, en el caso del mode-
lo Linial-Meshulam-Wallach d-dimensional se trabaja con complejos que tengan el (d − 1)
20 A
esqueleto completo y que estén contenidos en el d-esqueleto; en el caso de los complejos ban-
dera que se construyen sobre una gráfica, a los cuales no se les limita respecto a la dimensión
lio IM
máxima que puedan alcanzar sus simplejos, su estructura queda totalmente determinada por
la gráfica subyacente que se elija.
El siguiente ingrediente que necesitamos es determinar el espacio de probabilidad adecua-
Ju -C
do dependiendo del modelo que se quiera definir sobre el conjunto de complejos simpliciales
que ya elegimos. Comúnmente éste dependerá de dos parámetros: de una variable que deter-
mina el número de puntos que habrá en el cero esqueleto del complejo y una probabilidad p
D
que determinará los simplejos que conformarán al complejo simplicial. Por ejemplo, en el ca-
so del modelo Linial-Meshulam-Wallach d-dimensional, la probabilidad de éxito p determina
AT
V (G) = X y aristas E(G) = {{x, y} | d(x, y) ≤ r}. Observar que en esta definición, para la
construcción de la gráfica geométrica, se parte de un conjunto de puntos X contenido en un
espacio métrico y las aristas (o uno simplejos) que conformarán a la gráfica (o al comple-
jo simplicial 1-dimensional) se determinan por medio de la función distancia en el espacio
métrico en el que se encuentren los puntos (en este caso es Rd ).
16 T
definición anterior de gráficas geométricas, lo que determina si un simplejo forma parte del
complejo es únicamente la posición que los puntos guarden entre sı́ respecto a la distancia
20 A
del espacio métrico, y por supuesto, el parámetro r que uno elija.
lio IM
Pero entonces, ¿en dónde está la parte estocástica en estas estructuras geométricas?
Aunque el lector ya conoce la respuesta (porque todas las estructuras que se han visto
en secciones anteriores son estructuras estocásticas definidas sobre complejos simpliciales
Ju -C
geométricos o sobre espacios más generales como lo son los campos aleatorios estudiados en
el Capı́tulo 6), en lo que resta de la sección, analizaremos con cuidado cómo es que se dota de
la parte estocástica a una estructura de complejos geométricos que se quiera estudiar desde
D
partes que conforman estas estructuras estocásticas y que en un momento dado, si alguna
aplicación en ATD ası́ lo requiere o por curiosidad matemática, el lector pueda crear sus
propias estructuras estocásticas sobre complejos geométricos en los que esté interesado en
modelar y entender.
1. Se eligió un entorno geométrico, es decir, un espacio métrico que en este caso fue Rd .
16 T
2. Se decidió generar al conjunto de vértices (0-esqueleto) mediante una sucesión de {xi }
variables i.i.d. en Rd con función de densidad f acotada y medible y para un n ∈ N se
20 A
toma el conjunto Xn = {x1 , ..., xn } como el conjunto de vértices.
lio IM
3. Establecimos condiciones geométricas para poder decidir cuáles aristas se incluirán en
la gráfica. Se eligió incluir aquellas cuyos vértices u, v cumplan d(u, v) ≤ r en donde r
es un número positivo que se fija en la construcción de la gráfica aleatoria.
Ju -C
3. Se establecen condiciones geométricas para poder decidir cuáles de los posibles sim-
plejos que se pueden construir sobre el 0-esqueleto, ya elegido como en 2, se incluirán
en el complejo simplicial. Aquı́ se utiliza por lo general la métrica del espacio (en la
sección anterior esta elección se hacia al fijar una radio r o rn ) en combinación con
alguna manera de decidir cuáles simplejos estarán contenidos en el complejo simplicial.
Por ejemplo el complejo de Vietoris-Rips o el complejo de Čech.
242 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
16 T
Es importante puntualizar que al resolver problemas planteados en ATD provenientes de
una nube de puntos, por lo general, se desconoce cómo se han elegido los tres puntos en la
20 A
lista anterior. Por ejemplo, se puede desconocer el entorno geométrico del cual proviene el 0-
esqueleto; en este caso, se busca hacer inferencia para determinar en qué espacio métrico vive
lio IM
la nube de puntos que se tiene. Las herramientas más usadas para inferir el espacio métrico
del que se ha tomado el cero esqueleto fueron estudiadas en el Capı́tulo 5 (por ejemplo, los
diagramas de persistencia). También existe la posibilidad de desconocer la manera en la que
Ju -C
contar con hipótesis nulas que permitan hacer inferencia sobre una gran gama de posibles
espacios métricos con alguna medida de probabilidad definida sobre ellos.
Para aquellos interesados en profundizar en el tema de gráficas geométricas aleatorias,
recomendamos el libro de Penrose [109]. En él se puede estudiar a detalle algunas carac-
terı́sticas de gráficas geométricas aleatorias que también se han generalizado a los complejos
geométricos aleatorios. Por ejemplo, la conexidad (medida en homologı́a con β0 ) y los cuatro
posibles casos, que son cualitativamente diferentes, que se mencionaron en la sección anterior:
caso subcrı́tico, caso crı́tico, caso supercrı́tico y el régimen conectado. Consideramos que mu-
chos otros de los resultados referentes a gráficas geométricas aleatorias se pueden generalizar
a mayores dimensiones definiendo adecuadamente la estructura de complejos geométricos
aleatorios (o alguna otra estructura estocástica según sea el caso) que se necesite según el
modelo que se quiera explorar.
En la siguiente sección veremos los resultados publicados en un artı́culo de Kahle, Bo-
browsky y Skraba [19], en el que analizan una estructura estocástica, definida sobre complejos
aleatorios geométricos, determinada por:
16 T
diagramas de persistencia que puedan ser generados con esta estructura estocástica.
20 A
lio IM
7.4. Persistencia maximal en los ciclos de complejos
aleatorios geométricos
Ju -C
Hasta ahora, la manera que más se ha utilizado en estas notas para resumir la información
de una nube de puntos, para poder inferir la estructura topológica o geométrica que pudiera
tener, ha sido mediante los números de Betti. Nos hemos dado cuenta de que no es posible
D
asignar un sólo número de Betti a un diagrama de persistencia ya que su valor varı́a dentro
de un mismo diagrama según el radio que se utilice para calcular los complejos simpliciales.
AT
La elección del radio al que se calculan los números de Betti, para hacer inferencia, se hace
buscando que aquellos elementos que más perduran en el diagrama de persistencia sean
captados por el radio que se elija, es decir, se le da mayor importancia a aquellos elementos
de los grupos de homologı́a que perduran más en el proceso de variar el radio con el cual se
construyen los complejos simpliciales.
Serı́a de gran utilidad poder asignar un sólo valor real a un diagrama de persistencia que
pudiera darnos información suficiente para poder hacer inferencia respecto a la nube de pun-
tos que se esté estudiando. Además, serı́a deseable que este valor reflejara los elementos de los
grupos de homologı́a que perudaran más en el diagrama de persistencia, que tenga estabilidad
probabilistica (que para este valor se cumpliera algún teorema tipo lı́mite central o ley de los
grandes números) y que fuera computacionalmente calculable. En el 2015 Bobrowski, Khale
y Skraba publicaron un artı́culo [19] en el que definen y estudian la persistencia maximal de
los ciclos k-dimensionales en complejos simpliciales aleatorios geométricos. Intuitivamente,
con el valor real positivo que da la persistencia maximal de los ciclos k-dimensionales, se
busca medir el agujero k-dmensional más grande y con esta medida poder hacer inferencia
topológica y geométrica sobre una nube de puntos, basándose en un sólo valor que resume
al diagrama de persistencia k-dimensional.
244 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
En esta sección vamos a dar una introducción a la propuesta que hacen Bobrowski, Khale
y Skraba de resumir un diagrama de persistencia mediante persistencia maximal de los ciclos
en complejos simpliciales geométricos aleatorios. Enunciaremos con detalle la definición de
la persistencia maximal de los ciclos y los resultados principales que obtuvieron respecto
a sus propiedades probabilı́sticas. Mencionaremos también la manera en la que se puede
utilizar la persistencia maximal de los ciclos para hacer inferencia tpológica sobre una nube
de puntos y comentaremos brevemente los resultados que se obtuvieron en [19], respecto a la
persistencia maximal de los ciclos, al hacer simulaciones bajo un modelo uniforme de Poisson
de intensidad n definido en el cubo unitario d-dimensional.
16 T
Precisemos el modelo en que estaremos trabajando: vamos a elegir puntos en el cubo
d-dimensional [0, 1]d mediante un proceso aleatorio de Poisson homogéneo con intensidad
20 A
n, que en secciones anteriores hemos estado representando como Pn . Sobre una nube de
puntos ası́ elegida vamos a construir complejos simpliciales geométricos bajo los modelos
lio IM
de Vietoris-Rips y de Čech, los cuales hemos estado denotando por C(Pn , r) y R(Pn , r).
Recordamos también del Capı́tulo 1 que para una nube de puntos Pn , representamos por
U(Pn , r) a la unión de bolas d-dimensionales de radio r centradas sobre cada uno de los
Ju -C
puntos pertenecientes a Pn .
El resultado principal de [19] demuestra que para toda d ≥ 2 y toda 1 ≤ k ≤ d − 1, la
persistencia maximal de los ciclos k-dimensionales (que definiremos más adelante, pero de
D
manera intuitiva mide, como ya se comentó, la persistencia del agujero k-dmensional más
grande ) bajo los modelos C(Pn , r) y R(Pn , r), tiene, con alta probabilidad cuando n → ∞,
AT
Recordamos que dos funciones f , g cumplen que f es del orden de Θ(g) si existen n0 ∈ N
y k0 , k1 números reales tales que k0 g(n) ≤ f (n) ≤ k1 g(n) para toda n ≥ n0 .
Antes de enunciar la definición precisa de la persistencia maximal de los ciclos k- di-
mensionales, vamos a recordar las definiciones de diagrama de persistencia y su relación con
la homologı́a persistente; esperamos resaltar con esto la importancia de estudiar de manera
detallada las estructuras algebráicas que se están utilizando al hacer ATD.
Dado un conjunto de puntos P ∈ Rd , los conjuntos C := {C(P, r)}r=∞ r=∞
r=0 , R := {R(P, r)}r=0
r=∞
y U := {U(P, r)}r=0 , son ejemplos de filtraciones. Hemos visto que para cada r que se elija
se pueden definir los grupos de homologı́a asociados a C(P, r), R(P, r) o U(P, r). También
sabemos que al aumentar el parámetro r los grupos de homologı́a que resulten no serán los
mismos para dos valores de r distintos.
En general, la estructura que nos permite tener en un sólo objeto la información ho-
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 245
16 T
También pertenecen a la estructura P H∗ (F), todas las funciones simpliciales (correspondien-
tes a la inclusión de dos elementos de la filtración) definidas entre los grupos de homotopı́a
20 A
asociados a dos elementos de la filtración. Una de las herramientas que más se han utilizado
y estudiado en estas notas son los diagramas de persistencia cuya relación con la homologı́a
lio IM
persistente P H∗ (F) asociada a una filtración consiste en que para cada 1 ≤ k ≤ d − 1
podemos asociar a P Hk (F) un diagrama de persistencia. Recordamos que en el diagrama
de persistencia asociado a P Hk (F) se encuentra la información del nacimiento y muerte de
Ju -C
cada uno de los k-ciclos pertenecientes a P Hk (F) y es esta información la que jugará un
papel esencial en el concepto de persistencia maximal de los ciclos k- dimensionales.
Con esta notación establecida y en base a la relación que existe entre diagramas de
D
aleatorios geométricos, entonces no será posible distinguir aquellos que tienen una
persistencia mayor mediante la diferencia γdeath − γbirth ya que en este caso γdeath −
γbirth ≈ γdead .
16 T
Las construcciones de los complejos simpliciales que más se utilizan en ATD dependen
20 A
de los complejos de Vietoris-Rips y de Čech que como se vio en el Capı́tulo 2 están
relacionados mediante un factor de proporcionalidad, es decir, su relación se puede
lio IM
dar mediante un factor multiplicativo. Por este motivo, al tomar la definición de la
persistencia de un ciclo γ mediante la razón π(γ) = γγdeath
birth
, se tendrá para ambos
complejos simpliciales (de Vietoris-Rips y Čech) cualquier resultado que se demuestre
Ju -C
para alguno de ellos (modificando las cotas encontradas por un factor multiplicativo
adecuado).
D
Una vez que se tiene la definición de persistencia para un k-ciclo contenido en P Hk (n),
podemos definir la persistencia maximal de los ciclos asociados a complejos simpliciales
geométricos.
AT
Definición 7.4.2. Sea P Hk (n) el conjunto de los k-grupos de homologı́a asociados a cual-
quiera de las filtraciones C, R o U. Definimos la persistencia maximal de los k-ciclos, que
denotaremos por Πk , como el máximo de las persistencias de todos los k-ciclos contenidos
en P Hk (n), es decir,
Πk := máx π(γ).
γ∈P Hk (n)
Es importante notar que pudimos usar en la definición al máximo de todas las persis-
tencias de los k-ciclos porque estamos construyendo a P H∗ (n) sobre un conjunto finito de
puntos que nos da el proceso de Poisson aleatorio Pn . Observar que Πk es un valor real
positivo que resume la homologı́a persistente (y por ende el diagrama de persistencia junto
con el código de barras asociado a éste) ya que toma en cuenta todos los posibles radios r
y en este sentido no es una variable aleatoria que dependa de r; los números de Betti que
hasta el momento se han estudiado como variables aleatorias sı́ dependen del radio que se
elija y por ende no pueden resumir toda la información topológica contenida en P H∗ (n).
Ahora que ya tenemos la definición precisa de lo que es la persistencia maximal en complejos
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 247
simpliciales geométricos bajo los modelos C, R y U, podemos explorar un poco más a detalle
el resultado principal que demuestran en [19], que grosso modo afirma lo siguiente:
k1
log n
Πk (n) ∼ .
log log n
Este resultado (según [19] y hasta donde sabemos por nuestra propia investigación bibliográfi-
ca) es el primer resultado que analiza probabilisticamente la homologı́a persistente de com-
plejos aleatorios geométricos.
16 T
Ya se han visto en capı́tulos anteriores resultados probabilistas referentes a la homologı́a
persistente asociada a otras estructuras que no son complejos aleatorios geométricos. Por
20 A
ejemplo, en el Capı́tulo 6 se vieron resultados que estudian la homologı́a persistente (los
diagramas de persistencia) asociados a códigos de barras de campos aleatorios gaussianos
lio IM
estándar en los que se estudia la caracterı́stica persistente de Euler. En el Capı́tulo 5 se vieron
varios resultados referentes a la homologı́a persistente de n puntos elegidos mediante variables
aleatorias i.i.d. en diferentes espacios métricos. Dentro de este esquema se encuentran los
Ju -C
resultados del artı́culo de P. Bubenik y P. Kim [24] (discutidos en la Sección 7.1) en donde
se toman las variables i.i.d en el cı́rculo y usan la estadı́stica de óden para describir la
distribución lı́mite de los diagramas de persistencia. Hasta donde sabemos, este es el primer
D
Teorema 7.4.3. Sea Pn un proceso de Poisson en el cubo unitario [0, 1]d y sea P Hk (n)
el k-ésimo diagrama de persistencia de C(Pn , r) o de R(Pn , r). Entonces existen constantes
248 Capı́tulo 7. Estimación de números de Betti y topologı́a estocástica
16 T
que existen Ck tal que Ak ≤ Ck ≤ Bk tales que
20 A
Πk (n)
lı́m = Ck .
n→∞ ∆k (n)
lio IM
La demostración del Teorema 7.4.3 se puede dividir en dos partes principales. En la primer
Πk (n)
parte se demuestra que con alta probabilidad existe la cota superior a la razón ∆ k (n)
. Para
Ju -C
encontrar esta cota superior se demuestra primero un lema que permite acotar los ciclos; este
es un resultado no probabilista en el que sólo intervienen propiedades topológico algebráicas
de los complejos aleatorios geométricos que se están construyendo basados en el proceso de
Poisson homogéneo Pn en el cubo unitario [0, 1]d . Después, en base al resultado obtenido en
D
este primer lema, se usa teorı́a de probabilidad para poder obtener (en un segundo lema) las
cotas en un sentido probabilista. En la segunda parte de la demostración, de forma análoga
AT
a lo que se hizo para la cota superior, se prueba que con alta probabilidad existe la cota
Πk (n)
inferior a la razón ∆ k (n)
.
Lema 7.4.4. Sea γ ∈ P Hk (n) con γbirth = r y π(γ) = p. Entonces existe una constante C1
tal que C(n, r) contienne una componente conexa con por lo menos m = C1 pk vértices. La
constante C1 depende de k y d únicamente.
7.4. Persistencia maximal en los ciclos de complejos aleatorios geométricos 249
Lema 7.4.5. Sea α > 0 fijo. Entonces existe una constante C2 > 0 que depende sólo de α y
d, tal que si
C2
nrd ≤
(log n)α
y
log n
m ≥ α−1 ,
log log n
entonces con alta probabilidad C(n, r) no contiene componentes conexas con más de m vérti-
ces.
16 T
20 A
Encontrando una cota inferior para Πk (n)
Encontrar con alta probabilidad una cota superior para Πk (n), equivale a demostrar que
lio IM
existe una constante Ak > 0 que depende sólo de k y de d, tal que con alta probabilidad se
cumple
k1
log n
Ju -C
Πn (n) ≥ Ak ∆k (n) = Ak .
log log n
Para demostrar que existe esta cota basta con probar que con alta probabilidad existe un
k-ciclo γ ∈ P Hk (n) tal que π(γ) ≥ Ak ∆k (n). Este resultado se sigue de los siguientes dos
D
lemas:
AT
1 L
π(γ) ≥ √ × .
4 d l
1
Lema 7.4.7. Sea nld = (log n)−α tal que α > kd y sea L = Ak ∆k (n)l en donde Ak ≤ (C4 α)− k .
Entonces
lı́m P(E) = 1.
n→∞
16 T
zaron para explorar el comportamiento de Πk (n) para el complejo de Čech en dimensiones
d=2,3 y 4. Para generar el proceso de Poisson Pn , usaron la implementación de Mersenne
20 A
Twister y el cálculo de los diagramas de persistencia lo hicieron con la librerı́a PATH.
En varios proyectos que los alumnos del curso desarrollaron, resultó ser computacional-
lio IM
mente muy costoso o imposible calcular los diagramas de persistencia para dimensiones d=2
o d=3 incluso utilizando los complejos de Vietoris-Rips. Llama la atención entonces que, en
las simulaciones que reportan, pudieran realizar los cálculos de diagramas de persistencia pa-
Ju -C
ra experimentos computacionales que involucraron entre 100 y 1,000,000 puntos. Esto les fue
posible porque en los cálculos de los diagramas de persistencia, para evitar el costo compu-
tacional de calcular el complejo de Čech en dimensiones d=2 y 3, usaron la librerı́a CGAL
para calcular la filtración α y los α-complejos (basados en las triangulaciones de Delaunay,
D
tema abordado en un proyecto que desarrolló un equipo de alumnos que tomaron este curso)
lo cual es homotópicamente equivalente a los complejos de Čech, por lo que se obtienen
AT
grupos de homologı́a isomorfos a los obtenidos con los complejos de Čech y en consecuencia
los diagramas de persistencia no son distintos a los que obtendrı́an al usar los complejos de
Čech.
Referimos al lector a [105] para obtener más información de las librerı́as que hemos
mencionado en los párrafos anteriores y en general para tener un panorama de las librerı́as
que más se utilizan al realizar cálculos computacionales en ATD.
Apéndice A
16 T
20 A
(PCA)
lio IM
Este es un tema tı́picamente cubierto en cursos de estadı́stica multivariada. Una referencia
Ju -C
clásica recomendada es Jolliffe [70], para la consulta de mayores detalles. Aquı́ damos un
breve resumen de la técnica aplicada a vectores aleatorios. La idea también se ha extendido
para datos funcionales (Ramsay & Silverman, 2005), y para datos sobre variedades, bajo el
D
251
252 Apéndice A. Análisis de componentes principales (PCA)
16 T
20 A
lio IM
Ju -CD
Figura A.1: Ejemplo de una nube de datos en R2 , para los cuales una rotación de ejes, de
AT
1. Var(Yi ) = λi , i = 1, . . . , d.
3. Cov(Yi , Yj ) = 0 si i 6= j.
16 T
En notación matricial, (A.1.1) puede escribirse como Y = V T X, donde V T en cada fila
contiene los vectores propios de Σ. Esto es, las componentes principales resultan ser una
20 A
rotación de X.
lio IM
El problema de componentes principales basado en una nube de datos se topa con la
dificultad de que Σ no es conocida. Por esta razón, el tema de PCA es en el fondo un
problema de inferencia estadı́stica. La idea es reemplazar la matriz Σ por una estimación
consistente, la matriz de covarianza empı́rica, Σ̂. Supongamos que se cuenta con una muestra
Ju -C
Pn
1. Se calcula la media empı́rica en Rn , dada por x̄ = (1/n) i=1 xi .
AT
2. Se calcula la matriz de covarianza empı́rica. Con notación matricial, está dada por
n
1 X
Σ̂ = (xi − x̄) (xi − x̄)T .
n − 1 i=1
3. Se encuentran los valores propios λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂d de Σ̂, y los correspondientes
vectores propios ê1 , ê2 , . . . , êd .
para i = 1, . . . , n.
254 Apéndice A. Análisis de componentes principales (PCA)
Las variables ŷi se llaman las componentes principales, y los coeficientes êij las cargas de
la i-ésima componente principal. Por construcción, la primera componente principal recoge
la mayor varianza posible, la segunda componente la segunda varianza, y ası́ sucesivamente.
Puesto que tr(Σ̂) = di=1 λ̂i , el cociente
P
λ̂i
λ̂1 + · · · + λ̂d
posee la interpretación de ser la proporción de varianza explicada por la i-ésima componente
16 T
principal respecto a la variación total. Si la proporción
20 A
λ̂1 + · · · + λ̂p
≈1
λ̂1 + · · · + λ̂d
lio IM
para un valor de p considerablemente menor que d, se dice que se ha reducido la dimensio-
nalidad.
En una aplicación concreta, los valores calculados de las p componentes principales en
Ju -C
caso de haber reducido la dimensión, se utilizan para facilitar el análisis de datos. Mediante la
utilización de los valores yji para j = 1, . . . , p en lugar de xji para j = 1, . . . , d, tı́picamente se
simplifican tareas estadı́sticas de predicción, conglomeración, clasificación, etc. Sin embargo,
D
también es posible buscarle interpretación a los valores de cada vector de cargas, êi . Ası́,
por ejemplo hay veces que resulta que la primera componente principal se relaciona con un
AT
subconjunto especı́fico de variables al que se le puede otorgar una interpretación con acuerdo
en el contexto concreto.
Es muy pertinente mencionar—especialmente en el contexto de ATD que nos ocupa—que
cuando la dimensión d es grande y el número de datos n, es comparativamente pequeño, que
es bien sabido que la técnica de componentes principales no arroja resultados útiles. Esta
situación se conoce en estadı́stica como high dimension low sample size; ver Jung & Marron
[73]. El origen del problema es que la matriz Σ̂ resulta ser un muy mal estimador de la matriz
Σ, aunque también participan razones geométricas que tienen que ver con alta dimensión d,
como se detalló en la Sección 3.1.3.
La técnica de análisis de componentes principales sólo es adecuada para datos que están
en un espacio vectorial, aunque han habido extensiones para datos sobre variedades. La idea
primordial consiste de encontrar subespacios lineales que concentren la nube de datos. Como
hemos visto en el curso, el punto de ATD es analizar estructura sin tener que recurrir a
tal reducción por vı́a de subespacios, sino con herramientas de homologı́a en la dimensión
original.
Apéndice B
16 T
20 A
polacos
lio IM
Se presentan brevemente varios conceptos y resultados de probabilidad en espacios métri-
Ju -C
cos y convergencia de variables aleatorias con valores en estos espacios. Si bien en muchas
aplicaciones se trabaja en espacios euclidianos, hay situaciones en donde éste no es el ca-
so. Ponemos énfasis en los tipos de convergencia de las variables aleatorias, similar a los
D
Regularidad de medidas
Para un espacio de medida arbitrario tenemos.
Dado un espacio de medida (X, A, µ), decimos que µ es una medida no atómica si no
tiene átomos.
En particular, si µ es una medida no atómica, µ ({x}) = 0, ∀ {x} ∈ A.
255
256 Apéndice B. Probabilidad en espacios métricos polacos
(i) Localmente finita o de Borel si para cada x ∈ X existe 0 < r < ∞ tal que
16 T
µ(Br (x)) < ∞.
20 A
(ii) Regular interior si para cada A ∈ B(X)
lio IM
µ(A) = sup {µ(K) : K ⊂ A, K compacto} ,
M+
f (X) := {medidas finitas en (X, B(X))} ,
(b) µ es regular.
+
(c) En este caso M+
f (X) ⊂ M (X), es decir, una medida regular finita es de Radon.
257
16 T
Tipos de convergencia en espacios métricos
20 A
Sea (Ω, A, µ) un espacio de medida σ-finita y (X, ρ) un espacio métrico polaco, con σ–
álgebra de Borel B(X). La desigualdad de Markov se escribe como sigue: Sean X, Y variabes
lio IM
aleatorias con valores en X y 0 < p < ∞. Entonces, para cualquier > 0
1
P (d(X, Y)) > ) ≤ E [(d(X, Y))p ] . (B.1.1)
Ju -C
p
Además Z ∞
P (d(X, Y) > x) dx = E [(d(X, Y))] . (B.1.2)
D
convergencia de medidas.
Primero necesitamos asegurar que la función distancia asociada con las transformaciones
medibles es también medible.
Similar al caso real en la Sección 3.1.2, tenemos los siguientes tipos de convergencia. De
hecho, comenzamos con un tipo de convergencia más general que convergencia en probabili-
dad.
Definición B.1.16. Sean {Yi }i≥1 , Y funciones de Ω a X medibles con respecto a A/B(X).
Decimos {Yi }i≥1 , converge a Y
µ
(i) en µ-medida, y escribimos Yn −→ Y, si para cada A ∈ A con µ(A) < ∞ y para cada
>0
µ ({ρ(Yn , Y) > } ∩ A) −→ 0, (n −→ ∞).
258 Apéndice B. Probabilidad en espacios métricos polacos
c.t.p.µ
(ii) µ-casi en todas partes, y escribimos Yn −→ Y, si existe un conjunto N ∈ A, con
µ(N ) = 0 tal que
ρ(Yn (ω), Y(ω)) → 0, (n −→ ∞), ∀ω ∈ Ω \ N.
Si µ es una medida de probabilidad, {Yi }i≥1 , Y son variables aleatorias. En este caso la
Pr
convergencia en medida se llama convergencia en probabilidad y escribimos Yn −→ Y, y la
convergencia casi donde quiera se llama convergencia con probabilidad uno o convergencia
c.p,1
casi segura, y escribimos Yn −→ Y.
16 T
El hecho de que X es un espacio métrico polaco nos da la unicidad módulo funciones casi
20 A
donde quiera de los lı́mites en medida y casi donde quiera.
Convergencia casi donde quiera implica convergencia en medida, pero el recı́proco no es
lio IM
cierto. Recomendamos el Capı́tulo 6 del libro de Klenke [85] para un estudio sistemático de
este tema.
Con respecto a convergencia en distribución o en ley de variables aleatorias y medidas
en espacios métricos, también llamada convergencia débil de medidas, su definición es como
Ju -C
sigue.
Sea Cb (X) como el conjunto de todas las funciones continuas y acotadas de X en R. Re-
cordemos de la Sección 3.5.1 que si Y es una variable aleatoria en un espacio de probabilidad
D
(i) Sean µ, µ1 , µ2 , ...medidas en M+ f (X). Decimos que (µn )n≥1 converge débilmente a µ y
w
escribimos µn −→ µ, si
Z Z
lı́m f dµn = f dµ, ∀f ∈ Cb (X).
n→∞
(ii) Sean Y, Y1 , Y2 ...variables aleatorias con valores en X. Decimos que (Yn )n≥1 converge
L w
en distribución o ley, y escribimos Yn −→ Y, si PYn −→ PY .
El hecho de que X es un espacio métrico polaco asegura la unicidad del lı́mite de conver-
gencia débil y en distribución.
En el estudio de este tipo de convergencia, la propiedad de familia de medidas tensas en
el sentido de la definición B.1.14 es esencial.
Como en el caso real, tenemos las siguientes relaciones entre tipos de convergencia.
259
Pr L
(b) Si X es variable aleatoria degenerada, entonces Xn −→ X ⇔ Xn −→ X.
c.p,1 Pr
(c) Si Xn −→ X (Xn −→ X) y g es una transformación continua de X a otro espacio polaco
c.p,1 Pr
Y, entonces g(Xn ) −→ g(X) (g(Xn ) −→ g(X)).
16 T
Asimismo, tenemos el correspondiente teorema de Slutsky similar al caso real.
20 A
Teorema B.1.19 (Slutsky). Sean Xn , Yn , n ≥ 1, X variables aleatorias con valores en X.
L Pr L
Si Xn −→ X y ρ(Xn , Yn ) −→ 0 entonces Yn −→ X.
lio IM
Para el estudio de convergencia débil de medidas de probabilidad en espacios métricos,
la referencia clásica es el libro de Billingsley [13]. Existen referencias modernas como por
Ju -C
16 T
20 A
Variables aleatorias en espacios de
lio IM
Banach
Ju -C
Recordemos que un espacio de Banach es un espacio vectorial con norma k·k el cual es
completo, es decir, toda sucesión de Cauchy es convergente. Ejemplos de espacios de Banach
son Rd con la norma euclidiana y los espacios Lp (µ), 1 ≤ p ≤ ∞ para una medida µ vistos
en la Sección 3.4.3.
261
262 Apéndice C. Variables aleatorias en espacios de Banach
Variables aleatorias en Rd
Consideremos primero el caso de variables aleatorias en Rd con la métrica euclidiana
16 T
es una variable aleatoria real para cada h ∈B(Rd ) no aleatoria. La esperanza de X existe si
20 A
y sólo si Z
kXk dP < ∞,
lio IM
Ω
lo cual es equivalente a que E |Xi | < ∞ para cada i = 1, ..., n, en cuyo caso la esperanza de
X es el vector
Ju -C
EX = (EX1 , . . . , EXd ).
Cuando Z
D
2
E kXk = kXk2 dP < ∞,
Ω
AT
Resumimos los teoremas lı́mites clásicos universales para sumas de variables aleatorias
independientes con valores en el espacio euclidiano Rd .
Teorema C.1.20 (Ley Débil de los Grandes Números en Rd ). Sean {Yi }i≥1 variables alea-
torias independientes ePidenticamente distribuidas con valores en Rd y con media EY y
E kYk2 < ∞. Si Sn = nj=1 Yj , entonces
Sn P r
−→ EY.
n
263
Teorema C.1.21 (Ley Fuerte de los Grandes Números en Rd ). Sean {Yi }i≥1 variables
aleatoriasPindependientes e identicamente distribuidas con valores en Rd , y con media EY.
Si Sn = nj=1 Yj , entonces
Sn
P lı́m = EY = 1.
n−→∞ n
Teorema C.1.22 (Teorema del Lı́mite Central en Rd ). Sean {Yi } variables aleatorias in-
d
dependientes
Pn e independientes con valores en R , con media EY y matriz de covarianza Σ.
Sea Sn = j=1 Yj , entonces
16 T
1 L
√ Σ−1/2 (Sn − EY) −→ Z
20 A
n
lio IM
donde Z es una variable aleatoria con distribución gaussiana estándar Nd (0,Id ). Es decir
1 L
√ (Sn − EY) −→ ZΣ
n
Ju -C
álgebra de Borel B(B) y sea B∗ el espacio topológico dual de B, es decir el espacio de las
funcionales lineales f : B → R continuas. Sea (Ω, A, P) un espacio de probabilidad. En este
caso hablamos de dos tipos de medibilidad y esperanza: débil y fuerte, los cuales no siempre
son los mismos.
Sea X :B → R una función. Decimos que X es medible en el sentido débil si para toda
f ∈ B∗ , f (X) es una variable aleatoria real. Decimos que X es medible en el sentido fuerte si
X−1 (A) ∈ A, ∀A ∈ B(B). Si el espacio de Banach B es separable, los conceptos de medibilidad
débil y fuerte coinciden y decimos que X es variable aleatoria con valores en B. De ahora en
adelante consideramos a B como un espacio de Banach separable. Se sigue fácilmente que
sumas de variables aleatorias en B y multiplicación de escalares por una variable aleatoria
son también variables aleatorias.
Decimos que una variable aleatoria X tiene media o esperanza, si E kXk < ∞ en cuyo
caso se define la esperanza EX como el único elemento de B dado por la integral de Pettis
de X:
Ef (X) = f (EX) para toda f ∈ B∗ .
Se cumple que kEXk ≤ E kXk .
264 Apéndice C. Variables aleatorias en espacios de Banach
16 T
Los conceptos de convergencia casi segura, convergencia en probabilidad y convergencia
débil son los mismos que para elementos aleatorios en un espacio métrico polacos presentados
20 A
en el Apéndice B, con la métrica ρ(·, ·) = k· − ·k . De hecho, dado que tiene sentido hablar
de sumas de variables aleatorias en un espacio de Banach B, tenemos una versión distinta
lio IM
del teorema de Slutsky que para espacios métricos polacos, en el caso en que además B es
una álgebra de Banach, es decir existe una multiplicación en B tal que si A, B están en B,
también AB está en B.
Ju -C
L Pr Pr
Xn −→ X, Yn −→ a, y Zn −→ c;
entonces
AT
L
Xn Yn +Zn −→ aX + c.
La ley de grandes números se cumple para sumas de variables aleatorias con valores en
un espacio de Banach.
Teorema C.1.24 (Ley Débil de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
con valores en B, independientes y con la misma distribución de la variable aleatoria Y en
B, con media EY y E kYk2 < ∞. Si Sn = nj=1 Yj , entonces
P
Sn P r
−→ EY.
n
Teorema C.1.25 (Ley Fuerte de los Grandes Números). Sean {Yi }i≥1 variables aleatorias
con valores en B, independientes
Pn y con la misma distribución de la variable aleatoria Y en
B, con media EY. Si Sn = j=1 Yj , entonces
Sn
P lı́m = EY = 1.
n−→∞ n
265
Un primer problema para el estudio del teorema central del lı́mite en espacios de Banach
de dimensión infinita, es la no existencia de una distribución gaussiana estándar, es decir con
covarianza la identidad. Esto se debe a la no compacidad de la bola unitaria de un espacio
de Banach de dimensión infinita.
Decimos que una variable aleatoria Z con valores en un espacio de Banach separable B
tiene una distribución gaussiana, si para cada f ∈ B∗ , f (Z) tiene una distribución gaussiana
real con media cero. Se tiene que EZ = 0, E kZk2 < ∞ y por lo tanto la covarianza Cov(Z)
existe. En este caso
16 T
1
E exp {if (Z)} = exp − Φ(f, f ) , ∀f ∈ B∗
2
20 A
lio IM
donde Φ(f, f ) = Cov(Z))(f, f ) = E [f 2 (Z))]. Para un estudio sistemático de medidas gaus-
sianas en espacios de Banach se puede consultar el libro de Kuo [88].
La validez de un teorema central del lı́mite en un espacio de Banach separable de dimen-
Ju -C
sión infinita depende del tipo del espacio de Banach, según su comportamiento respecto a
una desigualdad sobre la norma de la suma de variables aleatorias independientes. Esto se
refiere a espacios de Banach de los llamados tipo p y cotipo p. Para un estudio sistemático
y completo del teorema central del lı́mite en espacios de Banach, se recomienda el libro de
D
del lı́mite para espacios de Banach Lp (X, A, µ), 2 ≤ p < ∞ donde µ es una medida σ-finita
en X. El espacio de Banach Lp (X, A, µ) es separable si A es numerablemente generada, es
decir, existe una subfamilia numerable C ⊂ A tal que σ(C) = A. Si X es un espacio métrico
separable, entonces A = B(X) es numerablemente generada.
Teorema C.1.26 (Teorema del Lı́mite Central). Sea X un espacio métrico separable, µ una
medida σ-finita en B(X) y B =Lp (X, B(X), µ), 2 ≤ p < ∞. Sean {Yi } variables aleatorias
con valores en B independientes con la misma distribución de P
una variable aleatoria Y en
B con EY = 0, E kYk < ∞ y covarianza Cov(Y). Sea Sn = nj=1 Yj . Entonces
2
1 L
√ Sn −→ Z
n
donde Z es una variable aleatoria en B con distribución gaussiana con covarianza Cov(Z) =
Cov(Y).
266 Apéndice C. Variables aleatorias en espacios de Banach
16 T
gaussianas µ y ν en B, se cumple que estas son equivalentes o son singulares en el
sentido de la Definición de 3.4.21. Además, en el primer caso es posible encontrar
20 A
fórmulas explı́citas para las densidades
lio IM
dν du
f= , g= .
dµ dν
Ju -C
con la norma del supremo, es posible considerar medidas equivalentes (de traslaciones
admisibles) a µw y hacer inferencia estadı́stica sobre parámetros de interés usando la
AT
16 T
20 A
aleatorios de puntos
lio IM
El objetivo de este apéndice es resumir algunas de las propiedades de procesos estocásticos
Ju -C
como se muestra en el Capı́tulo 7 de estas notas. Para un estudio sistemático desde el punto
de vista de probabilidad se recomienda el libro de Kingman [83]. El libro de Small [122]
contiene aplicaciones de procesos de Poisson en teorı́a de formas y geometrı́a estocástica. En
AT
particular, el proceso de Poisson es un modelo útil para generar formas aleatorias debido a
algunas de sus propiedades geométricas, las cuales se presentan al final de este apéndice.
El caso d = 1 es de suma importancia y es presentado en la mayorı́a de los cursos de
probabilidad elemental.
Comenzamos con elementos bien conocidos sobre la distribución de Poisson y la aproxi-
mación de Poisson, los cuales revelan que estos modelos son útiles en el estudio de eventos
raros.
267
268 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos
1. E (X) = µ.
2. Var (X) = µ.
3. La función generadora de momentos φ (t) = EtX = eµ(e −1) , para cada t ∈ [−1, 1].
t
La génesis de esta distribución es que aparece como una ley de eventos raros, de acuerdo
al siguiente resultado conocido como aproximación de Poisson, el cual es un teorema
lı́mite para sumas de arreglos triangulares.
16 T
Teorema D.1.27. Para cada n ≥ 1, sea 0 < pn < 1, y {ξin }i=1,...n variables independientes
con distribución Bernoulli con probabilidad de éxito pn , es decir P(ξin = 1) = pn = 1−P(ξ ni =
20 A
0). Consideremos la variable aleatoria
n
lio IM
X
Sn = ξin . (D.1.1)
i=1
n k
P (Sn = k) = p (1 − pn )n−k , k = 0, ..., n (D.1.2)
k n
D
L
En otras palabras, Sn −→ X ∼ Poiss (µ) .
Observación D.1.28. (a) Si bien el resultado anterior es usualmente resaltado como una
fórmula de cálculo para aproximar la distribución binomial (D.1.2), su importancia ma-
yor está en la interpretación probabilista como ley de eventos raros: A medida que
n es grande y por lo tanto pn pequeña, en la sumandos ceros en suma aleatoria (D.1.1)
tiene una muy alta probabilidad.
(b) Al igual que la ley de los grandes números y el teorema del lı́mite central vistos en la
Sección 3.1.2, la aproximación de Poisson es un resultado universal bien conocido en el
sentido de su validez más allá de sumas de variables aleatorias Bernoulli. Una explicación
muy sencilla de este fenómeno se encuentra en el artı́culo [110], donde se consideran
sumas (D.1.1) de arreglos triangulares de variables aleatorias en una familia amplia de
distribuciones discretas, con la propiedad que la probabilidad del cero tiene a uno cuando
n → ∞.
269
P (X = 0) = 1,
16 T
P (X = +∞) = 1.
20 A
Una de las propiedades más importantes de la distribución de Poisson es su aditividad,
cuya prueba es trivial.
lio IM
Teorema D.1.29. Si X y Y son variables aleatorias independientes con distribuciones
Poiss (µ1 ) y Poiss (µ2 ), entonces X + Y ∼ Poiss (µ1 + µ2 ).
Ju -C
Por inducción, podemos ver fácilmente que este resultado es cierto para cualquier suma
finita de variables aleatorias independientes.
Es fácil probar que la distribución de Poisson es infinitamente divisible, esto es, da-
D
da una variable aleatoria X con distribución Poisson Poiss (µ), para toda n > 0 pode-
mos encontrar n variables aleatorias P independientes X1 , . . . , Xn con distribución Poisson
Poiss (µ1 ) , . . . , Poiss (µn ) tales que ni=1 Xi ∼ Poiss (µ).
AT
Teorema D.1.30. Sea {Xj }∞ j=1 una sucesión de variables aleatorias independientes, donde
Xj ∼ Poiss (µj ) j = 1, 2, . . .. Si
X∞
σ= µj
j=1
converge, entonces
∞
X
S= Xj
j=1
P∞
converge con probabilidad 1 y S ∼ Poiss (σ). Por otro lado, si j=1 µj diverge, entonces S
diverge con probabilidad 1.
Luego de este resultado parece más natural haber definido Poiss (0) y Poiss (∞). Con esta
convención, si tenemos variables aleatorias independientes
P Xj con distribuciones Poiss (µj )
respectivamente, su suma tiene distribución Poiss ( µj ), y esto es cierto sin importar que
haya un número infinito de ellas, incluso si algunos µj son 0 o ∞.
270 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos
16 T
Estas son las probabilidades de una distribución multinomial M (s, p1 , . . . , pn ), con pi = µσi .
Para el caso en el que n = 2, tenemos que si X y Y son variables aleatorias Poisson
20 A
independientes (X ∼ Poiss (µ1 ) y Y ∼ Poiss (µ2 )), dado que X + Y = m, la distribución
condicional de X es B (m, p), donde
lio IM
E (X)
p= .
E (X) + E (Y)
Ju -C
Hay un resultado muy útil, que parecerı́a ser el converso del anterior. Supongamos que
N ∼ Poiss (µ) , y que la distribución condicional de M dado N es B (N, p) para alguna
constante p. Esto es
D
s t
P (M = t | N = s) = p (1 − p)s−t .
t
AT
P (M = m, N − M = k) = P (N = m + k) P (M = m | N = m + k)
e−µ µm+k m + k m
= p (1 − p)k
(m + k)! m
e−µp (µp)m e−µ(1−p) (µ (1 − p))k
= .
m! k!
Ası́, M y N − M son variables aleatorias independientes Poisson con medias µp y µ (1 − p)
respectivamente.
Procesos de Poisson
Motivación: Un Proceso de Poisson con espacio de estados S definido en un espacio de
probabilidad (Ω, A, P), es una función Π : Ω → S ∞ donde S ∞ es el conjunto de todos los
subconjuntos numerables de S.
271
N (A) := # {Π (ω) ∩ A} .
N (A) : Ω → {0, 1, . . . , ∞}
y necesitamos que ésta sea una función medible para cada conjunto de prueba A. Esto es,
16 T
supondremos que para cada conjunto de prueba A y para cada n,
20 A
{ω : N (A) = n} = {ω ∈ Ω : N (A) (ω) = n} ∈ A.
lio IM
Entonces las funciones N (A) son variables aleatorias, y podemos imponer condiciones en
sus distribuciones y distribuciones conjuntas. En pocas ocasiones es necesario ser cuidadosos
al elegir los que serán nuestros conjuntos de prueba. Esto porque casi siempre podemos
Ju -C
construir conjuntos de prueba complicados a partir de otros más simples. Por ejemplo, si
S = R, es suficiente pedir que los intervalos abiertos (a, b) sean conjuntos de prueba.
P Todo
conjunto abierto G es la unión numerable de intervalos abiertos Aj , N (G) = j N (Aj ) es
D
una variable aleatoria si las N (Aj ) también lo son. Todo conjunto cerrado F es la intersección
de una sucesión decreciente de conjuntos abiertos Gi , y N (F ) = lı́mi→∞ N (Gi ). De este
AT
modo podemos ver que N (A) es una variable aleatoria bien definida para todo subconjunto
A. Podemos hacer lo mismo para S = R2 e incluso para Rd . Más adelante definiremos
formalmente lo que es un Proceso de Poisson en un espacio de estados S.
El espacio de estados S donde tendremos los puntos de un Proceso de Poisson, usual-
mente será un espacio euclidiano d-dimensional, o más generalmente una variedad en Rd .
Sin embargo, no necesitamos hacer uso de las propiedades de los espacios euclidianos, sólo
es necesario poder encontrar una familia de subconjuntos de S para ser utilizados como
conjuntos de prueba para contar los puntos aleatorios. Esto es, necesitamos una familia de
subconjuntos de S para los que a función
N (A) = # {Π ∩ A}
sea una variable aleatoria bien definida. La forma más natural de hacer esto es suponer
que S es un espacio medible. Esto es, estamos suponiendo que existe un espacio de medida
(S, AS , µ) donde AS es la familia de conjuntos de prueba que queremos. Si A ∈ AS diremos
que A es un conjunto medible. Además necesitamos asegurar que hay suficientes conjuntos
medibles para poder distinguir puntos individuales. Esto se puede hacer suponiendo que la
272 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos
16 T
Definición D.1.31. Un proceso de Poisson en un espacio de estados S, es un subconjunto
20 A
aleatorio numerable Π de S, tal que
(i)Para cualesquiera A1 , . . . , An ∈ A tales que Ai ∩Aj = ∅ ∀i 6= j, las variables aleatorias
lio IM
N (A1 ) , . . . , N (An ) son independientes, y
(ii) La variable aleatoria N (A) tiene distribución Poisson Poiss (µ), donde µ = µ (A),
con 0 ≤ µ (A) ≤ ∞.
Ju -C
Diremos que Π1 , Π2, . . . son procesos de Poisson independientes, si para cada conjunto
medible A, las variables aleatorias N1 (A) , N2 (A) , . . . son independientes. Ası́, si µ (A) < ∞,
el conjunto Π ∩ A es finito con probabilidad 1, y vacı́o si µ (A) = 0. Si µ (A) = ∞, Π ∩ A es
D
infinito numerable con probabilidad 1. Tenemos que, para A ∈ A, como N (A) ∼ Poiss (µ)
AT
E (N (A)) = µ (A) .
S∞
Si A1 , A2, . . . son disjuntos con n=1 An = A,
∞
X
N (A) = N (An )
n=1
y
∞
!
X
E (N (A)) = E N (An )
n=1
∞
X
µ (A) = µ (An ) .
n=1
Ası́, µ es una medida en S, es decir, con esta µ, (S, AS , µ) es un espacio de medida. Llama-
remos a µ la medida media del proceso de Poisson Π.
273
Observemos que no toda media puede ser una medida media. Supongamos que la medida
µ en S tiene un átomo en x ∈ S, esto es 0 < µ ({x}) = m. Entonces un proceso de Poisson
con medida media µ serı́a tal que
0 −m
m1 e−m
me
P (N ({x}) ≥ 2) = 1 − +
0! 1!
−m −m
= 1 − e − me > 0
lo cual contradice el hecho de que N (A) sea una variable aleatoria bien definida ∀A ∈ AS ,
16 T
pues N ({x}) = # {Π ∩ {x}} ≤ 1. Ası́, una medida media debe ser no atómica, en el sentido
que
20 A
µ ({x}) = 0 ∀x ∈ S.
Cuando S = Rd , la medida media en la mayorı́a de los casos interesantes está dada en
lio IM
términos de una intensidad f , donde f es una función de medida positiva en S, tal que
Ju -C
Z
µ (A) = f (x) dx.
A
R
donde |A| = A dx es la medida de Lebesgue de A. Ası́ f (x) |A| es la probabilidad aproximada
de un punto de Π de caer en un conjunto pequeño A, y es más grande en regiones donde λ
es grande que en las que λ es pequeña. En el caso en que f = c es constante, de tal modo
que
µ (A) = c |A|
decimos que tenemos un proceso de Poisson homogéneo.
Consideremos el caso cuando S = R, y supongamos que µ es finita en conjuntos acotados.
Entonces la medida µ está determinada de manera única por sus valores en intervalos (a, b].
Definamos una función M : R → R,
µ (0, t] si t ≥ 0
M (t) = .
−µ (t, 0] si t < 0
entonces µ se ve como
16 T
Z
µ (A) = f (x) dx,
20 A
A
Teorema de Superposición
D
P (Π1 ∩ Π2 ∩ A = ∅) = 1.
Teorema D.1.33. Sea {Πn }∞ n=1 una familia de procesos de Poisson independientes en S
donde Πn tiene media µn para cada n. Entonces su superposición
∞
[
Π= Πn
n=1
16 T
Teorema de Mapeo
20 A
Si el espacio de estados de un Proceso de Poisson es mapeado en otro espacio de estados,
entonces, los puntos aleatorios transformados por el mapeo también forman un proceso de
lio IM
Poisson. Sólo hay que tener cuidado cuando la función no es inyectiva, y para esto basta
ver cómo se transforma la medida media bajo el mapeo. Sea Π un proceso de Poisson en un
espacio de estados S, con medida media µ, y sea f : S → T una función y T otro espacio de
Ju -C
Más aún, si los conjuntos B1 , . . . , Bk son disjuntos, también lo son sus imágenes inversas, de
tal forma que las variables aleatorias N ∗ (Bi ) son independientes. Ası́ f (Π) es un proceso de
Poisson en T en tanto los puntos f (Π) , X ∈ Π sean distintos. La medida µ∗ es la medida
inducida de µ por la función f . Sin embargo la condición de inyectividad de f |Π no es trivial,
tomemos por ejemplo f constante.
Teorema D.1.35. Sea Π un proceso de Poisson con medida media σ-finita µ en un espacio
de estados S, y sea f : S → T una función medible tal que la medida inducida de µ por f ,
µ∗ es no atómica. Entonces f (Π)es un proceso de Poisson en T , teniendo a µ∗ como medida
media.
276 Apéndice D. Medidas de Poisson para conjuntos aleatorios de puntos
Teorema de Existencia
Teorema D.1.36. Sea µ una medida no atómica en un espacio de estados S que puede ser
expresada en la forma
X∞
µ= µn , µn (S) < ∞.
n=1
16 T
Varias propiedades geométricas de un Proceso de Poisson homogéneo Π en un espacio
20 A
euclidiano Rd se cumplen con probabilidad uno; ver [122]. Por ejemplo, cada punto de un
Proceso de Poisson Π tiene un único vecino mas cercano. Recordemos que un vecino más
lio IM
cercano de un punto x en Rd es un elemento de Π que tiene una distancia mı́nima de x entre
todas los puntos de Π. Más aún, con probabilidad uno existe un único k–ésimo vecino más
cercano.
Ju -C
16 T
[1] M. Abramowitz, I.A. Stegun, Handbook of Mathematical Functions. Dover, 1974.
20 A
[2] N. Alon, J. H. Spencer, The Probabilistic Method. Wiley–Interscience, 2008.
lio IM
[3] G. W. Anderson, A. Guionnet, O. Zeitouni, An Introduction to Random Matrices. Cam-
bridge University Press, 2010.
Ju -C
[4] A. Araujo, E. Giné, The Central Limit Theorem for Real and Banach Valued Random
Variables. Wiley, 1980.
2015.
AT
[7] A. Banerjee, I.S. Dhillon, J. Ghosh, S. Sra,, Clustering on the Unit Hyperspher using
von Mises-Fisher Distributions. Journal of Machine Learning Research 6, 1345-1382,
2005.
[8] A. Barbour, L. Holst, S. Janson, Poisson Approximation. Oxford University Press, 1992.
[10] I. V. Basawa, B.L.S. Rao, Statistial Inference for Stochastic Processes. Academic Press,
1981.
277
278 Bibliografı́a
[15] O. Bobrowski, Algebraic Topology of Random Fields and Complexes. PhD Thesis, Duke
University, 2012.
[16] O. Bobrowski, R. J. Adler, Distance functions, critical points and topology for some
random complexes. arXiv: 1107.4775, 2011.
16 T
[17] O. Bobrowski, M. Kahle, Topology of random geometric complexes: a survey. ar-
Xiv:1409.4734, 2014.
20 A
[18] O. Bobrowski, S. Mukherjee, The topology of probability distributions on manifolds.
lio IM
Probability Theory and Related Fields, 161, 2015.
[20] J. Boissonat, F. Chazal, M. Yvinec, Computational Geometry and Topology for Data
Analysis. In progress.
D
[22] P. Bubenik, Statistical topological data analysis using persistence landscapes. Journal
of Machine Learning Research, 16, 77-102, 2015.
[23] P. Bubenik, G. Carlsson, P. T. Kim, Z. Luo, Statistical topology via Morse theory, per-
sistence and nonparametric estimation. Contemporary Mathematics, 516, 75-92, 2010.
[30] J.M. Chan, Network and Algebraic Topology of Influenza Evolution, PhD Dissertation,
Columbia University, 2013.
[31] J.M. Chan, G. Carlsson, R. Rabadan, Topology of viral evolution. Proceedings of the
16 T
National Academy of Sciences 110, 18566-18571, 2013.
20 A
[32] F. Chazal, D. Cohen–Steiner, L. J. Guibas, M. Glisse, S. Oudot, Proximity of persistent
modules and their diagrams. In Proccedings of the 25th ACM Symposium of Compu-
lio IM
tational Geometry, 2009.
2014.
[36] F. Chazal, V. de Silva, M. Glisse, S. Oudot, The structure and stability of persistence
modules. arXiv:1207.3674 [math.AT], 2012.
[37] J.P.R. Christensen, On some measures analogous to Haar measure. Mathematica Scan-
dinavica, 26, 103-106, 1970.
[38] J.P.R. Christensen, Uniform measures and spherical harmonics. Mathematica Scandi-
navica, 26, 293-302, 1970.
[39] M.K. Chung, P. Bubenik, P.T. Kim, Persistence diagrams of cortical surface data. In
Information in Medical Imaging, 386-397, Springer, 2004.
16 T
[45] M. L. Eaton, Multivariate Statistics: A Vector Space Approach. Wiley, 1983.
20 A
[46] H. Edelsbrunner, John, L. Harer. Computational Topology: An Introduction. American
Mathematical Society, 2010.
lio IM
[47] H. Edelsbrunner, D. Letscher, A. Zomorodian, Topological persistence and simplifica-
tion. Discrete Computation & Geometry, 28, 2002.
Ju -C
[48] B. Efron, Bootstrap methods: another look at the jackknife. The Annals of Statistics,
7, 1-26, doi:10.1214/aos/1176344552, 1979.
[49] B. Efron, Robert Tibshirani, An Introduction to the Bootstrap. Chapman & Hall/CRC,
D
1993.
AT
[59] J. A. González, Teorı́a de Morse discreta y gráficas de Reeb aplicadas a ATD, Notas
Proyecto ATD-CIMAT, 2015, http://atd.cimat.mx
16 T
[61] P. Good, Permutation, Parametric, and Bootstrap Tests of Hypothesis. Springer, 2005.
20 A
[62] L. Guibas, D. Morozov, D., Q. Mérigot, Witnessed k-distance. Discrete & Computational
lio IM
Geometry, 49, 22–45, 2013.
[67] W. Hoeffding, A class of statistics with asymptotically normal distribution. The Annals
of Mathematical Statistics, 19, 293-325, 1948.
[69] A.M. Ibekwe, J. Ma, D.E. Crowley, C.H. Yang, A. M Johnson, T.C. Petrossian, P.Y.
Lum, Topological data analysis of escherichia codi o157:h7 and non-o157 survival in
soils. Frontiers in Cellualr and Infection Microbiology 4, 122, 2014.
[70] I.T. Jolliffe, Principal Component Analysis, Wiley Online Library, 2005.
[71] F. Jones, Lebesgue Integration on Euclidean Space. Jones and Bartlett Books in Mat-
hematics, 1993.
[72] O. Jones, Introduction to Scientific Programming and Simulation Using R. CRC Press,
2014.
282 Bibliografı́a
[73] S. Jung, J.S. Marron, PCA Consistency in High Dimension, Low Sample Size Context.
The Annals of Statistics, 37, 4104–4130, 2009.
[74] M. Kac, Probability Theory and Related Topics in Physical Sciences, Wiley, 1959.
[75] M. Kahle, Topology of random clique complexes. Discrete Mathematics, 309, no. 6,
1658-1671, 2009.
[76] M. Kahle, Random geometric complexes. Discrete & Computational Geometry, 45, no.
3, 553-573, 2011.
16 T
[77] M. Kahle, Sharp vanishing thresholds for cohomology of random flag complexes. ar-
20 A
Xiv:1207.0149, 2012.
lio IM
[78] M. Kahle, Topology of random simplicial complexes: a survey. A M S Contemporary
Mathematics 620, 201-222, 2014.
[79] M. Kahle, E. Meckes, Limit theorems for Betti numbers of random simplicial complexes.
Ju -C
[80] J. T. Kent, A. M. Ganaeiber, K. V. Mardia, A new method to simulate the Birgham and
D
[81] D.G. Kendall, D. Barden, T.K. Carne, H. Le, Shape and Shape Theory. Wiley, 1999.
[82] J. F. C. Kingman, Random walks with spherical symmetry. Acta Mathematica, Vol. 109,
11-53, 1963.
[87] V. Kurlin, A Homologically persistent skeleton is a fast and robust descriptor for a
sparse cloud of inters points and saliency features in noisy 2D images. Lecture Notes in
Computer Science 9256, 606-617, 2015.
Bibliografı́a 283
[88] H. H. Kuo, Gaussian measures in Banach spaces. Lecture Notes in Mathematics 463,
Springer, 1975.
[90] M. Lesnick, Studying the shape of data using topology. The Insti-
tute Letter Summer 2013, Institute for Advanced Study, Princeton,
https://www.ias.edu/ideas/2013/lesnick-topological-data-analysis.
16 T
[91] C. Lunneborg, Data Analysis by Resampling. Duxbury Press, 1999.
20 A
[92] K. V. Mardia, P. Jupp, Directional Statistics. Wiley, 2000.
lio IM
[93] G. Marsaglia, Choosing a point from the surface of a sphere. The Annals of Mathematical
Statistics 43, 645-646, 1972.
Ju -C
[95] J. Milnor, Morse theroy. Based on lecture notes by M. Spivak and R. Wells. Annals of
D
[101] E. Munch, Applications of Persistent Homology to Time Varying Systems, PhD Dis-
sertation, Duke University, 2013.
16 T
[106] S. Palau C, Medida en grupos topológicos. Tesis de Licenciatura en Matemáticas,
UNAM, 2010. http://132.248.9.195/ptb2010/agosto/0660062/Index.html.
20 A
[107] L. Parida, F. Utro, D. Yorukoglu, A.P. Carrieri, D. Kuhn, S. Basu, Topological signatu-
lio IM
res for population admixture. In Research in Computational Molecular Biology, 261-275,
Springer, 2015.
[111] V. Pérez-Abreu, C. Tudor, Functional limit theorems for traces in the Dyson-Brownian
motion. Communications on Stochastic Analysis 1, 415-428, 2007.
[113] J. Ramsay, B.W. Silverman, Functional Data Analysis. Second Edition, Springer-
Verlag, 2005.
[114] L. K. Rivera E., Análisis estadı́stico de trayectorias sobre la esfera: Un caso de es-
tadı́stica sobre variedades. Tesis de Maestrı́a en Probabilidad y Estadı́stica, CIMAT,
2016. Proyecto ATD-CIMAT, http://atd.cimat.mx
[115] C. P. Robert, G. Casella, Introducing Monte Carlo Methods With R. Springer, 2010.
[117] G. Roussas, An Introduction to Probability and Statistical Inference. 2nd Edition, Aca-
demic Press, 2014.
[118] L. Santaló, Integral Geometry and Geometric Probability. 2nd Edition, Cambridge Uni-
versity Press, 2004.
16 T
[121] B.W. Silverman, Density Estimation for Statistics and Data Analysis. CRC Press,
20 A
1986.
lio IM
[122] C. G. Small, The Statistical Theory of Shape. Springer, 1996.
[130] http://amstat.tandfonline.com/doi/abs/10.1080/00031305.2016.1154108
[132] A. J. Zomorodian, The tidy set: a minimal simplicial set for computing homology of
clique complexes. In Proccedings of the 26th Symposium of Computational Geometry,
257-266, 2010.
Centro de
Investigación en
Matemáticas, A.C.
PERSISTENCIA, PROBABILIDAD
E INFERENCIA ESTADÍSTICA PARA
ANÁLISIS TOPOLÓGICO DE DATOS
Julio 2016
P ROYECTO FINAL DE LA C LASE :
P ROBABILIDAD E I NFERENCIA E STADÍSTICA PARA A NÁLISIS T OPOLÓGICO DE D ATOS
16 T
IMAGEN
20 A
lio IM
Ju -CD
A LUMNOS :
AT
L ICENCIATURA EN M ATEMÁTICAS
U NIVERSIDAD DE G UANAJUATO
P ROFESORES :
F ERMÍN R EVELES
V ÍCTOR P ÉREZ -A BREU
M IGUEL N AKAMURA
R OLANDO B ISCAY
Resumen
Las imágenes en dos dimensiones normalmente tienen puntos en los cuales se presentan
discontinuidades en el color y brillo. Al conjunto de estos puntos se le conoce como los
bordes de la imagen. La detección de estos bordes es un problema usual en el procesamiento
de imágenes y en visión computacional, además de tener aplicaciones en otras áreas como
medicina y biología.
En el presente proyecto se presenta un método para detectar puntos que pertenecen a los
bordes de una imagen dada, para después crear un grafo que aproxime dichos bordes. Para
esto se siguen los siguientes pasos:
16 T
Utilizar un método basado en mezclas gaussianas para segmentar dicha imagen.
20 A
A partir de la imagen segmentada se encuentra una nube de puntos sobre los bordes
lio IM
Utilizar un método basado en homología persistente para crear un grafo que se aproxi-
me a los bordes de la imagen.
Ju -C
para la obtención de la nube de puntos y python para la creación del grafo a partir de esta
nube de puntos.
1
Índice general
1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1. Para el pre-proceso de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . 4
16 T
2.2. Definiciones Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.
2.3. 20 A
Resultados importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obtención de la nube de puntos C . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
8
lio IM
3.1. Segmentación de la Imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Ju -C
5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7. Cosas por hacer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2
1. INTRODUCCIÓN
1. I NTRODUCCIÓN
El problema de detectar los bordes de un imagen es un problema que actualmente
sigue siendo un tema de investigación en áreas como procesamiento de imágenes y visión
computacional. Para su solución se han planteado varios métodos tales como métodos
basados en la función gradiente, métodos que buscan ajustar funciones a los bordes, métodos
basados en segundas derivadas, métodos de enlace basados en segmentación, entre otros.
Sin embargo ningún método que se ha planteado resuelve cualquier caso de detección, esto
en parte a que los bordes pueden deberse a diferentes razones, por ejemplo discontinuidad
en la profundidad de la imagen, discontinuidad de la orientación de las superficies, cambios
en las propiedades de los materiales o variaciones en la iluminación de la escena mostrada.
16 T
Mientras que algunos métodos funcionan mejor para algunos casos, otros pueden funcionar
mejor para otros casos. Así pues, se sigue en la búsqueda de nuevos métodos que funcionen
de manera más general.
20 A
lio IM
En un caso ideal la detección de bordes devuelve las fronteras de los objetos que se
encuentran sobre la imagen. El problema que se ataca en este proyecto es, dada una nube
de puntos que se suponen sobre las fronteras de los objetos, extraer de esta una estructura
Ju -C
informativa. Esta estructura debe de resumir información topológica de la frontera sobre las
que están dichos puntos, en especial la cantidad de cíclos uno dimensionales debería indicar,
D
en el mejor de los casos, la cantidad de objetos sobre la imagen. Esto podría ser de interés
para varias aplicaciones, por ejemplo la detección de tumores en imágenes cerebrales.
AT
3
2. PRELIMINARES
2. P RELIMINARES
16 T
fue segmentar la imagen. Antes de proceder a explicar como funciona el algoritmo, se debe
20 A
tener en claro lo que esto significa. Para esto daremos la definición de segmentar una imagen.
lio IM
Definición: Dada una imagen, se le llamará segmentar dicha imagen al proceso de divi-
dir los pixeles en cierta cantidad de grupos homogéneos y asignar a cada grupo un color
específico.
Ju -C
grupos serán únicamente 2, uno blanco y uno negro, puesto que el objeto de interés son los
puntos que están en las orillas de estos dos grupos.
AT
Además también se mencionó que el método que se utiliza para segmentar está basado
en mezclas gaussianas. La siguiente definición será útil al momento de explicar el algoritmo
para segmentar la imagen.
k
f (x|{αi , µi , σi }) = αi G i (x|µi , σi ),
X
i =1
Pk
donde 0 ≤ αi ≤ 1, i =1 αi = 1, y G i es una función de densidad gaussiana con media {µi } y
desviación estándar σi , para todos los valores i ∈ {1, 2, . . . , k}.
4
2. PRELIMINARES
sección se deberán definir algunas de estas nociones con las que el lector quizás no este
familiarizado.
Uno de los grafos que se utilizan, y de hecho es el primero que se obtiene en el algoritmo,
es el mínimo árbol recubridor, cuya definición se muestra a continuación.
Definición 1: Dada una nube de puntos C , el mínimo árbol recubridor es el árbol que tiene
como vértices los puntos de C y la suma total de las longitudes de las aristas del árbol es
menor o igual a la de cualquier otro árbol con vértices en C . Se denota por MST(C ).
16 T
bordes, por lo que debe ser cercana también al grafo. Sin embargo es válido preguntarse que
20 A
tan cercana es la nube de puntos al grafo que se busca aproximar. Para esto se tomarán en
cuenta las siguientes dos definiciones.
lio IM
Definición 2: Dada una nube de puntos C ⊂ R2 y un número α > 0, se define al α-Offset,
denotado por C α , como el subconjunto de R2 de todos los puntos que están a una distancia
Ju -C
Definición 4: Dado una nube de puntos C y un valor α > 0, entonces de define el bosque
reducido MST(C , α), como el grafo que se obtiene a partir de MST(C ) al remover todas las
aristas de longitud mayor a 2α.
5
2. PRELIMINARES
Definición 5: Se dice que un grafo G recubre a una nube de puntos C , si el conjunto de los
vértices de G coincide con C .
Recordando que durante el algoritmo no sólo se construye un grafo que aproxima los
bordes, sino también el primer diagrama de persistencia ([3] Definición 2.3.1) de la nube de
puntos dada, se debe tener en cuenta de qué manera este grafo se relaciona con el diagrama.
La respuesta a esta pregunta proviene de ciertas aristas especiales que tendrá el grafo y cuya
16 T
definición es la siguiente.
20 A
Definición 8: Dada la filtración de los complejos de Vietoris-Rips ([3] Definición 1.3.9)
lio IM
R(C , 0) ⊂ R(C , α0 ) ⊂ R(C , α1 ) ⊂ . . . ⊂ R(C , ∞),
nuevo agujero. Esta arista estará relacionada con el punto (b, d ) en el primer diagrama de
persistencia, donde b es el momento de nacimiento del agujero (es decir cuando aparece e),
D
Hechas ya las definiciones anteriores, se pueden definir ahora los grafos de mayor interés
para el problema. Los grafos que se definen en la Definición 10 son los grafos preliminares que
darán paso al grafo definido en la Definición 11. Este último grafo es aquel que tomaremos
como aproximación para los bordes de la imagen.
6
2. PRELIMINARES
Definición 10: Dada una nube de puntos C , se define el esqueleto de homología persistente,
denotado por HoPeS(C ), como la unión de MST(C ) y todas las aristas críticas. El esqueleto
reducido HoPeS(C , α) es obtenido a partir de HoPeS(C ) al remover todas las aristas de longitud
mayor a 2α y todas las aristas críticas e tales que su punto correspondiente (b e , d e ) cumple
d e ≤ α.
Definición 11: Para una nube de puntos C , el esqueleto derivado, denotado por HoPeS’(C )
es el grafo obtenido a partir de HoPeS(C ) al remover:
(2) Todas las aristas críticas con muerte≤ α(C ) o con (nacimiento,muerte) debajo de dgap(C ).
16 T
20 A
Para validar el uso de HoPeS’(C ) como una aproximación de los bordes de la imagen, se
lio IM
requiere probar el Teorema 2 de la siguiente sección. La siguiente definición es necesaria
tanto para entender el teorema como para la demostración del mismo.
Ju -C
ciclo L. Así que el agujero inicial rodeado por L tiene el tiempo de vida [0, ρ(L)). En general
si α aumenta, se pueden crear nuevos agujeros en algún punto α > 0. Supongase que estos
AT
están rodeados por L 1 , . . . , L k en sus momentos de nacimiento. A θ(G) = max j =1,...,k ρ(L j ) se
le llama el grosor de G.
Finalmente, el algoritmo que se describe en el artículo de Vitaly utiliza una nociones muy
conocidas de geometría computacional que se definen a continuación.
7
2. PRELIMINARES
Definición 13: La triangulación de Delaunay de una nube de puntos C se define como una
triangulación de los puntos que cumple que si p 1 , p 2 , p 3 son vértices de un triángulo en la
triangulación, entonces en el interior del circuncírculo de este triángulo no hay ningún otro
punto de C . Se denota por Del(C ).
Definición 14: Para una nube de puntos C y cierto punto p ∈ C , se tiene que la celda de
Voronoi de p es el conjunto de todos los puntos que están más cerca de p que de cualquier
otro punto en C . Es decir V (p) = {q ∈ R2 : d (p, q) ≤ d (p 0 , q)∀p 0 ∈ C }.
16 T
Un resultado de geometría computacional es que la triangulación de Delaunay contiene
20 A
a todos los triángulos con vertices p, q, r ∈ P tales que V (p) ∩ V (q) ∩ V (r ) 6= ;. Teniendo en
cuenta esto es posible demostrar que el complejo de Vietoris-Rips R(C , ∞) coincide con
lio IM
Del(C ), si consideramos que los triángulos formados por la triángulación son 2-simplejos
en Del(C ). Así pues, la filtración de complejos de Vietoris-Rips es una filtración para la
Ju -C
triángulación de Delaunay.
De esto tenemos que Del(C ) se obtiene al agregar aristas y triángulos en estos puntos
críticos:
D
8
2. PRELIMINARES
Lema 1: Dada una nube C y una escala α ≥ 0, el bosque reducido MST(C , α) tiene el mínimo
de longitud total de aristas entre todos los grafos que recubren a C α .
Demostración: Sean e 1 , e 2 , . . . , e m ⊂ MST(C ) todas las aristas que son más largas que 2α.
Entonces MST(C ) = MST(C , α) ∪ e 1 ∪ . . . ∪ e m . Supongamos que existe un grafo G que recubre
a C α y que es más corto que MST(C , α). Entonces G ∪ e 1 ∪ . . . ∪ e m recubre a C y es más corto
que MST(C ), lo que es una contradicción.
ä
16 T
Lema 2: Dada una nube de puntos C , la estructura HoPeS(C ) es invariante bajo cualquier
20 A
transformación afín cuya matrix 2 × 2 tiene los dos eigenvalores iguales.
Demostración: Sea A : R2 → R2 la transformación afín con los dos eigenvalores iguales a
lio IM
λ. Entonces todos los discos, α-offsets C α y complejos R(C , α) son escalados por el factor λ.
Así que el esqueleto de homología persistente HoPeS(C ) tiene la misma estructura topológica,
Ju -C
pero todos los puntos (nacimiento, muerte) del diagrama de persistencia son multiplicados
por λ.
D
Uno de los requisitos que se busca que se cumpla es que se mantengan las propiedades
AT
Lema 3: Dada una nube de puntos C y cualquier escala α ≥ 0, se tiene que HoPeS(C , α) ⊂
R(C , α).
Demostración: Por la definición 10 tenemos que todas las aristas de HoPeS(C , α) tienen
una longitud de a lo más 2α. Por la definición de un complejo de Vietoris-Rips, todas las aristas
de R(C , α) son las aristas de Del(C ) con una longitud de a lo más 2α. De esto HoPeS(C , α) ⊂
R(C , α).
ä
Ahora bien, la función inclusión i : HoPeS(C , α) → R(C , α) induce un homomorfismo
i ∗ : H1 (HoPeS(C , α)) → H1 (R(C , α)).
9
2. PRELIMINARES
Lema 4: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce un
isomorfismo i ∗ : H1 (G) → H1 (S). Si agregamos un arista crítica e tanto a G como a S que crea
una nueva clase de homología γ ∈ H1 (S ∪ e), entonces i ∗ se puede extender a un isomorfismo
H1 (G ∪ e) → H1 (S ∪ e).
Demostración: Sea L ⊂ G ∪ e el cíclo que contiene a la arista e. Entonces H1 (G sup e) ∼
=
H1 (G) ⊕ 〈[L]〉. Considera L como un ciclo i (L) ⊂ S ∪ e. obtenemos que H1 (S ∪ e) ∼
= H1 (S) ⊕
〈[i (L)]〉. Así extendemos i ∗ a un isomorfismo H1 (G) ⊕ 〈[L]〉 → H1 (S) ⊕ 〈[i (L)]〉.
ä
Lema 5: Sea i : G → S una inclusión del grafo G en un complejo simplicial S que induce
un isomorfismo i ∗ : H1 (G) → H1 (S). Supongamos que γ ∈ H1 (S) muere después de añadir
16 T
un triángulo T al complejo S. Sea e la arista más larga de T . Entonces i ∗ desciende a un
isomorfismo H1 (G − e) → H1 (S ∪ T ).
20 A
Demostración: Añadiendo el triángulo T a S mata a la clase de homología [∂T ], así
lio IM
que H1 (S ∪ T ) ∼
= H1 (S)/〈[∂T ]〉. Al borrar e de ∂T ⊂ G hace al grupo de homología más pe-
queño, haciendo que H1 (G − e) ∼ = H1 (G)/〈[∂T ]〉. Así pues, i ∗ desciende a un isomorfismo
H1 (G)/〈[∂T ]〉 → H1 (S)/〈[∂T ]〉
Ju -C
Una vez demostrado que en efecto existe un isomorfismo entre H1 HoPeS(C , α) y H1 R(C , α),
el Teorema 1 nos afirma que este grafo es la mejor opción entre los grafos que cumplen esto
basándose en que es el más pequeño en longitud de aristas. La Proposición 2 se utiliza para
demostrar dicho teorema.
Proposición 2: Sea α > 0. Sea G ⊂ R(C , α) un grafo que recubre a R(C , α) y H1 (G) → H1 (R(C , α))
el isomorfismo inducido por la inclusión. Sean (b i , d i ), i = 1, . . . , m todos los puntos de
dgm(R(C , α)), contando multiplicidades, tales que {nacimiento < α < muerte}. Entonces la
longitud de G está acotada por debajo por la longitud total de MST(C , α) más 2 m
P
i =1 b i .
10
2. PRELIMINARES
Demostración: Sea G 1 ⊂ G el subgrafo que consiste en todos las aristas que no desco-
nectan a G y sea e 1 ⊂ G 1 la arista más larga de algún triángulo. Al quitar e 1 de G, tenemos
que H1 (G) es más pequeño. De esto hay un ciclo L 2 ⊂ G que contiene e 1 y que representa a
una clase γ1 ∈ H1 (R(C , α)). Digamos que dicha clase corresponde al punto (b 1 , d 1 ). De esto
tenemos que |e 1 | ≥ 2b 1 , ya que de lo contrario γ1 nacería antes de α = b 1 . Podemos definir
G 2 ⊂ G − e 1 de manera análoga y proceder de la misma manera. De esta manera obtenemos
e 1 , e 2 , . . . , e m tales que m
P Pm
i =1 |e i | ≥ 2 i =1 b i .
Después de remover e 1 , e 2 , . . . , e m , tenemos que G − (e 1 ∪ e 2 ∪ . . . ∪ e m ) aun recubre a
R(C , α), porque siempre elegimos una arista que no desconectaba a G. De esto la longitud de
MST(C , α) aún es más pequeña que la longitud de G − (e 1 ∪ e 2 ∪ . . . ∪ e m ), por el lema 1.
ä
16 T
Teorema 1: Para cualquier nube de puntos C y cualquier escala α > 0, el grafo HoPeS(C , α)
20 A
tiene la mínima longitud total de aristas sobre todos los grafos G ⊂ C α que recubren a C α e
lio IM
inducen un isomorfismo en los primeros grupos de homología H1 (G) → H1 (C α ).
Demostración: HoPeS(C , α) satisface la condición de homología de la proposición 1.
Sean γ1 , . . . , γm clases correspondientes a todos los m puntos (b i , d i ) en dgm(R(C , α)), con-
Ju -C
Lema 6: Dada una nube de puntos C , el grafo HoPeS’(C ) es un subgrafo de HoPeS(C , α(C )),
donde α(C ) es la escala crítica definida antes.
Demostración: Por definición todas las aristas de HoPeS(C , α(C )) tienen una longitud de
a lo más 2α(C ) y todas las aristas críticas cumplen que su momento de muerte es mayor a α(C ).
La definición de HoPeS’(C ) agrega la restricción de que todas las arístas críticas en HoPeS’(C )
corresponden a puntos sobre dgap(C ). De esto claramente HoPeS’(C ) ⊂ HoPeS(C , α(C )).
ä
11
2. PRELIMINARES
muerte) ∈ dgm’(R(C , α)) con nacimiento≤ α(C ) <muerte. Todos estos m puntos están en una
correspondencia 1-1 con las aristas críticas de HoPeS’(C ). ä
16 T
entonces la escala crítica α(C ) < ² y el esqueleto HoPeS’(C ) es una 2²-muestra de G, y tiene el
tipo de homotopía de G.
20 A
Demostración: H1 (G) es generado por los m ciclos básicos L 1 , . . . , L m . Estos m ciclos dan
lio IM
puntos (0, ρ i ) en dgm(G α ). Todos los demás puntos de en diagrama vienen de agujeros más
pequeños de G α nacidos después. La máxima persistencia muerte-vida de estos agujeros
está acotado por arriba por θ(G).
Ju -C
La condición dada ρ 1 > 7² + θ(G) + máxi =1,...,m−1 {ρ i −1 − ρ i } garantiza que la brecha más
ancha {θ(G) < y − x < ρ 1 } en dgm(G α ) es más ancha que cualquier otra brecha, incluyendo
D
i ≥ 2, no puede saltar más bajo que la lineal y − x = ρ i − 2², ni más alto que y − x = ρ i + ².
Así que la brecha más ancha entre estos puntos perturbados tiene un ancho de a lo más
máxi =1,...,m−1 {ρ i −1 − ρ i } + 3². Todos los puntos cerca de la diagonal tienen brechas diagonales
no más anchas que θ(G) + 2². De esto en todos los casos la segunda brecha más ancha en
dgm(G α ) tienen un ancho más pequeña que ρ 1 − 4² − θ(G). De esto dgap(C ) subre la franja
{θ(G) + 2² < y − x < ρ 1 − 2²} ⊂ dgap(G) ⊂ dgm(G α ).
De esto el subdiagrama dgm’(R(C , α)) sobre la linea y − x = ρ 1 − 2² contiene sólo pertur-
baciones eh los puntos originales (0, ρ i ) en la brecha vertical {0 ≤ x < ²}. Por su definición, la
escala crítica α(C ) es el máximo nacimiento en dgm’(R(C , α)). Estos puntos están a lo más a
una distancia ² de sus puntos correspondientes (0, ρ i ). De esto la escala crítica α(C ) < ².
Todas las muertes de los puntos en dgm’(R(C , α)) son más grandes que ρ 1 − 2² > ² > α(C ).
De esto HoPeS’(C ) contiene todos las aristas críticas correspondientes a los m puntos en
dgm’(R(C , α)). Así pues, H1 (HoPeS’(C )) tiene la dimensión esperada m.
La desigualdad del Teorema significa que los ciclos del grafo G tienen tamaño comparable,
12
3. OBTENCIÓN DE LA NUBE DE PUNTOS C
es decir el radio más pequeño ρ 1 es más grande por un buen margen a cualquier brecha ρ i +1 −
ρ i . De esto la brecha diagonal {θ(G) < muerte − nacimiento < ρ 1 } en el diagrama dgm(G α )
del grafo G permanecerá suficientemente ancha para ser automáticamente reconocida en el
diagrama perturbado de dgm(R(C , α)) para cualquier ²−muestra C de G.
ä
Una vez demostrado este último teorema, se deben aclarar bajo que suposiciones se
puede afirmar que HoPeS’(C ) es una aproximación apropiada de los bordes. Lo que se está
suponiendo es la existencia de un grafo desconocido G que es el descriptor ideal de los bordes
de la imagen. Se debe suponer que G cumple con las condiciones del Teorema 2. Además se
supone también que la nube de puntos C es una ²-muestra de G. De esto el Teorema 2 afirma
16 T
que HoPeS’(C ) y G tienen el mismto tipo de homotopía, y que HoPeS’(C ) es una 2²-muestra
de G, lo que se puede considerar como afirmar que estos dos grafos están cerca el uno del
otro.
20 A
lio IM
3. O BTENCIÓN DE LA NUBE DE PUNTOS C
Ju -C
entre la suma máxima que resultó. De esta forma se tiene en todos los pixeles de la imagen
una intensidad de gris entre 0 y 1.
Una vez hecha la imagen de intensidades de grises, primero se buscará segmentar la
imagen en dos regiones. Para esto buscamos un valor T entre 0 y 1 que dependerá de los
valores de todos los pixeles y representará el punto de separación entre las dos regiones
¡ ¢
T = T {g (i , j )} ,
Para determinar el valor de T se utilizará el algoritmo EM, descrito más adelante, pa-
13
3. OBTENCIÓN DE LA NUBE DE PUNTOS C
16 T
De esta forma se llamará al algoritmo E M un total de L veces, variando el valor de k
20 A
desde 1 hasta la cantidad total de máximos locales. Después de ajustar estas L mezclas
gaussianas, se eligirá la que mejor se ajuste al histograma. Para esto calculamos para cada
lio IM
mezcla gaussiana su log-verosimilitud, que es
N
Ju -C
la imagen). De esta forma la mezcla gaussiana con la log-verosimilitud más grande es la que
mejor se aproxima a el histograma y es la mezcla elegida.
AT
1 Xm
T= µi ,
m i =1
donde m es la cantidad de gaussianas con las que se formó la mezcla gaussiana elegida.
3.2. Algoritmo EM
El algoritmo EM consiste en dos pasos:
1. El paso M: En este paso se calcula para cada valor x i en los pixeles de la imagen la
probabilidad de provenir de cada una de las k distribuciones gaussianas. En la iteración
s esto se calcula con la fórmula
14
4. PROCEDIMIENTO
α(s)
j
G j (x i |µ(s)
j
, σ(s)
j
)
(s)
ω j (x i ) =P (s) (s) (s)
.
k
r =1 αr G r (x i |µr , σ j )
1 X N
α(s+1)
j
= ω j (x i )(s) ,
N i =1
16 T
1
µ(s+1) ω j (x i )(s) x i ,
X
j
=
N α(s+1)
j i =1
20 A 1 N
lio IM
[σ(s+1) ]2 = ω j (x i )(s) (x i − µ(s+1)
X
j j
).
N α(s+1)
j i =1
Ju -C
puntos cercanos a las fronteras de los objetos, es decir puntos que esten cerca de la frontera
entre las dos regiones. Por motivos de complejidad computacional para el resto del proyecto,
AT
4. P ROCEDIMIENTO
15
4. PROCEDIMIENTO
16 T
20 A
lio IM
Ju -CD
AT
16
4. PROCEDIMIENTO
16 T
launay precisamente en los momentos antes descritos, puesto que vamos retrocediendo
en la filtración. Nótese que cuando quitamos un triángulo, aparece una nueva región en
20 A
R2 − R(C , ²) y cuando quitamos una arista se unen dos regiones. Durante nuestro algoritmo
lio IM
mantenemos una estructura de bosque de búsqueda con nodos abstractos que están en una
correspondencia 1-1 con las regiones de cada triángulo y la región exterior a la triángulación.
Inicialmente en esta estructura hay un único nodo que corresponde a la región externa.
Ju -C
Cuando se quita un triángulo aparece un nuevo árbol con un único nodo y cuando se quita
una arista se unen dos árboles. Es necesario aclarar que cuando varios simplejos se quitan en
D
el mismo momento, primero quitaremos todos los 2-simplejos y luego todos los 1-simplejos.
A continuación se muestra una imagen donde se aprecia la manera en la que avanza el
AT
p
p 10
R(C , ∞) R(C , 5) R(C , 2
)
17
4. PROCEDIMIENTO
p p
5
R(C , 1,5) R(C , 2) R(C , 2
)
16 T
20 A
lio IM
p
R(C , 1) R(C , 22 )
Nótese que en las filtraciones generalmente cuando aparece una arista que forma un
ciclo se toma ese momento como el nacimiento del agujero que rodea este ciclo y cuando
Ju -C
aparece un 2-simplejo que cierra este agujero, este momento se toma como la muerte de
éste.
D
una arista, se conserva como momento de muerte de esa región fusionada el momento más
grande ²t 1 de muerte entre las dos regiones. Además se compara el momento de muerte de la
otra región ²t 2 con el momento ²e en que quitamos esta arista, ya que el momento en que
quitamos esta arista coincide con el nacimiento de esta región. De esta forma definimos dos
tipos de aristas especiales:
Arista crítica: Una arista que al momento de quitarse, este ²e es estrictamente menor
que el momento de muerte de la región más jóven ²t 2 . Por ejemplo en nuestra figura e
es una arista crítica. Esta arista estará asociada con el punto (²e , ²t 2 ) en el diagrama de
persistencia.
Arista externa: Una arista que al momento de quitarse, las dos regiones que "fusiona.eran
ya en ese momento la misma región. Por ejemplo en nuestra figura la arista f es una
arista externa. Nótese que al quitar una de estas aristas, nuestro grafo se vuelve un
grafo no conexo. Puesto que nos interesa que el grafo final sea un grafo conexo (ya que
va a ser el MST(C )), estas aristas se guardan para ser agregadas al final en el grafo.
18
5. RESULTADOS
El algoritmo acaba cuando todas las regiones son una sola, es decir cuando ya no hay
ningún cíclo en el grafo. Después de agregar las aristas externas, para asegurarnos que el
grafo coincida con el MST(C ), debemos decidir que aristas críticas agregamos para conseguir
HoPeS’(C ).
Para esto nos fijamos en el diagrama de persistencia formado durante el algoritmo, puesto
que guardamos todos los puntos asociados a aristas críticas.
16 T
20 A
lio IM
En este diagrama buscamos la franja más ancha entre dos puntos tal que no contenga
puntos del diagrama en el interior, es decir dgap(C ). Para formar HoPeS’(C ), tomamos en
Ju -C
cuenta sólo las aristas críticas que corresponden a puntos sobre dgap(C ) y muerte > α(C ) . En
el diagrama mostrado arriba se pueden ver que sólo tres cíclos son considerados importantes.
D
Se agrega al grafo las aristas críticas asociadas a estos puntos, que son por lo tanto las aristas
que cierran estos ciclos.
AT
5. R ESULTADOS
A continuación se muestran algunos resultados obtenidos con nuestro algoritmo. Para
cada imagen se muestra: La imagen original, el resultado de la segmentación, la nube de
19
5. RESULTADOS
puntos en los bordes y el grafo final. Además se mostrarán las aproximaciones realizadas
sobre el histograma de cada imagen y el diagrama de persistencia utilizado.
Imagen 1:
16 T
20 A
lio IM
Ju -CD
AT
La primera imagen que se muestra tiene bordes muy distinguibles a simple vista, puesto
que el color del fondo es muy distinto al color de los objetos en la imagen (el halcón y la rama
del árbol). Considerando esto se obtiene un resultado final esperado, que tiene una gran
semejanza, visualmente, con lo que se mostraba en la imagen originalmente.
Según el diagrama de persistencia generado por el algoritmo hay dos objetos en la imagen,
ya que sólo hay dos puntos por encima del dgap(C ) correspondientes cada uno a un 1-cíclo
en el grafo. Viendo el resultado se vuelve claro que uno de esos objetos es el halcón, aunque
el resultado mezcló dicho halcón con parte de la rama. Esto es entendible si se observa que el
tono de gris de la rama no cambiar tanto del gris del halcón. El otro .objeto"que existe en la
imagen corresponde al agujero que forma la rama a la derecha. Aunque este no es un objeto
20
5. RESULTADOS
en sí, como está totalmente rodeado por una rama, no sorprende tampoco que este lo tomara
como un objeto en la imagen.
Imagen 2:
16 T
20 A
lio IM
Ju -CD
AT
Al ver esta segunda imagen, en el resultado es claro que parte del grafo generado no
está realmente sobre las orillas de los objetos, sino en el interior, en especial el interior del
sombrero y la pluma. Esto refleja el problema que se comentó en la introducción sobre que
21
5. RESULTADOS
16 T
20 A
lio IM
Ju -CD
AT
22
5. RESULTADOS
importantes. Uno de ellos, según se aprecia es el rostro de la mujer. El otro se puede ver que
es la parte del cuello que está más iluminada. Este no es un resultado tan bueno, puesto que
no señala ni el libro ni el cabello de la mujer.
Viendo la segmentación que se obtuvo por nuestro algoritmo, se podría concluir que
la razón por la que parte del cuello fue señalada como un objeto en la imagen es porque
al segmentar quedó un gran espacio en blanco en esa área. Al ser espacios tan grandes los
dos señalados, puede que el libro, siendo un objeto más pequeño, ya no haya sido tomado
en cuenta por el dgap(C ). Esto en especial porque el ancho de dicha franja en esta imágen
es más ancha que las dos anteriores, sugiriendo gran diferencia de tamaño entre los cíclos
tomados en cuenta y los que no se tomaron en cuenta.
Imagen 4:
16 T
20 A
lio IM
Ju -CD
AT
En esta última imagen se tomó una cantidad menor de puntos para la nube C . De esta
forma podemos ver como se comporta el algoritmo con menos información de parte de la
23
6. CONCLUSIONES
6. C ONCLUSIONES
16 T
A pesar de que los resultados obtenidos muestran grafos que sí se asemejan a lo que
20 A
se mostraba en la imagen original, la utilización de homología persistente por sí sola
no logró arreglar el problema de diferenciar bordes que provienen de las orillas de los
lio IM
objetos y bordes que aparecen por otras razones (texturas, diferentes profundidades,
etc.). Se podría intentar diferentes métodos para la obtención de la nube de punto, para
Ju -C
Para imágenes que muestren objetos cuyo tono sea contrastante con el tono del fondo,
D
24
7. COSAS POR HACER
16 T
20 A
lio IM
Ju -CD
AT
25
8. REFERENCIAS
8. R EFERENCIAS
1. Huang, Zhi-Kai; Chau, Kwok-Wing
2. Kurlin, Vitaly.
A Homologically Persistent Skeleton is a fast and robust descriptor for a sparse cloud of
interest points and saliency features in noisy 2D images.
16 T
3. Reveles, Fermín; Pérez- Abreu, Víctor; Nakamura, Miguel; Biscay, Rolando
20 A
Persistencia, Probabilidad e Inferencia Estadística para Análisis Topológico de Datos.
lio IM
Ju -CD
AT
26
AT
Ju -CD
lio IM
20 A
16 T
Método para simular puntos uniformemente distribuidos
sobre una superficie en Rn
16 T
20 A
lio IM
Ju -CD
AT
Alumnos:
Gilberto Flores
Yair Hernández
Licenciatura en Matemáticas
Universidad de Guanajuato
Profesores:
Fermı́n Reveles (Topologı́a)
Vı́ctor Pérez-Abreu (Probabilidad)
Miguel Nakamura (Inferencia Estadı́stica)
Rolando Biscay (Campos Aleatorios)
1
Índice
1. Introducción 3
3. Método de aceptación-rechazo 4
4. Algunas observaciones 6
5. Simulaciones 7
7. Conclusiones 13
16 T
20 A
lio IM
Ju -CD
AT
2
1. Introducción
En este proyecto se presenta un algoritmo para simular puntos uniformemente distribuidos
sobre una superficie parametrizada m-dimensional contenida en Rn (m < n). Este trabajo se basa
en gran parte en el artı́culo de Diaconis, et al [2], el cual presenta el ejemplo del toro. Aquı́ se
explica con más detalle el método de aceptación-rechazo para este contexto y se presentan como
ejemplos la banda de Möbius y la botella de Klein, para la cual se utiliza una parametrización que
aparece en el artı́culo de Franzoni [4]. También se presentan estimaciones de los números de Betti
con simulaciones en el toro y la botella de Klein, utilizando la filtración dada por el estimador de
densidad tipo kernel.
El desarrollo del algoritmo consiste de 2 partes. En la primera parte se encuentra una función
de densidad correspondiente a una distribución uniforme sobre la superficie dada. En la segunda
parte se utiliza el método de aceptación-rechazo para simular los puntos a partir de la densidad
obtenida en la primera parte.
16 T
2. Descripción del método
20 A
Una idea que surge cuando se tiene una variedad parametrizada y se desean simular datos
lio IM
uniformemente distribuidos es simular parámetros uniformemente distribuidos (en el dominio) y
mapear estos Q puntos. En eln contexto de superficies parametrizadas se tiene generalmente una
función de m i=1 [ai , bi ] en R , de modo que elegir un punto de manera uniforme en el dominio
equivale a tomar un punto xi con distribución uniforme en el intervalo [ai , bi ], para i = 1, . . . , m
Ju -C
(xi , xj independientes para i 6= j) y ver qué punto corresponde a (x1 , . . . , xm ) en la superficie dada,
mediante la parametrización que se tenga. Por ejemplo, para el toro, con la parametrización que
se da en la sección 4 de este trabajo, el dominio es [0, 2π] × [0, 2π]. Luego elegir un punto con
D
distribución uniforme en el dominio equivale a elegir dos puntos (independientes) con distribución
uniforme en [0, 2π] y utilizar dicha parametrización para ver qué punto le corresponde sobre la
AT
superficie del toro. Posteriormente veremos ejemplos donde esta técnica proporciona resultados
distintos a lo deseado (que regiones con la misma área tengan unaQconcentración similar de puntos).
Es importante notar que si el dominio no es de la forma m i=1 [ai , bi ], distribución uniforme
en el dominio no necesariamente es equivalente a una distribución uniforme en cada uno de los
parámetros; por ejemplo, si el dominio es un cı́rculo (en R2 ), distribuir uniformemente en cada
coordenada dará puntos que pueden estar incluso fuera del dominio.
El método que se presenta es el expuesto en Diaconis et al. [2] y éste se basa en la fórmula
del área y en la medida de Hausdorff, ambas presentadas en las notas del curso (Teorema 3.6.8
y Definición 3.6.5). En la presentación correspondiente a este proyecto se incluyeron éstos re-
sultados y otro material de las secciones [1.6: Variedades] y [3.6: Probabilidades en variedades II:
medida geométrica], al cual aquı́ sólo se hace referencia. Por una parte la medida de Hausdorff nos
permite hablar del volumen de cualquier conjunto y, por otra parte, la fórmula del área
Z Z
m
g(f (x))Jm f (x)λ (dx) = g(y)N (f |A , y)Hn (dy)
A Rn
nos dice cómo obtener una muestra de cierta distribución con respecto a la medida de Hausdorff
desde una distribución en los parámetros. En nuestro caso f es la parametrización de la superficie
M que nos interesa y A es el dominio de f . Ahora bien, en la fórmula del área la integral es sobre
todo Rn , que en nuestro caso es R3 , pero N (f |A , y) = 0 para los y 6∈ f (A) y por lo tanto esta
3
integral es sobre M . Luego el problema se reduce a obtener puntos distribuidos según la densidad
dada por J2 f / vol(M ).
Dado que la función de densidad que resulta en los parámetros puede adquirir una forma muy
general se emplea el método de aceptación-rechazo para simularla.
3. Método de aceptación-rechazo
El método de aceptación-rechazo, mencionado en la introducción del Capı́tulo 4 de las notas
del curso, tiene como objetivo simular variables aleatorias con una densidad dada a partir de
simulaciones con otra densidad. En la presente sección presentamos algunos de los resultados más
relevantes respecto a este método. Se sugiere al lector revisar además el capı́tulo [3: Probabilidad]
de las notas del curso.
Sean f, g : Rm → R densidades tales que existe c > 0 tal que cg(x) ≥ f (x) para todo x ∈ Rm
(integrando ambos lados sobre todo Rm se tiene que si existe tal c se debe tener c ≥ 1). Supongamos
16 T
que se puede simular una variable aleatoria X con densidad g. Consideremos el siguiente algoritmo:
20 A
Se genera U independiente uniforme en [0, 1].
lio IM
Se hace T = c fg(X)
(X)
.
Se repiten los pasos anteriores hasta que U T ≤ 1. Cuando se cumpla la condición anterior
Ju -C
se hace Y = X.
Entonces Y tiene densidad f . Para verificarlo se utilizarán dos teoremas que se enuncian y
D
uniforme en [0, 1], y c > 0. Entonces (X, cU f (X)) se distribuye uniformemente en A = {(x, u) :
x ∈ Rm , 0 ≤ u ≤ cf (x)}. Si (X, V ) ∈ Rm+1 se distribuye uniformemente en A, entonces X tiene
densidad f en Rm .
4
Teorema 2. Sean X1 , X2 , . . . una sucesión de v.a.i.i.d. con valores en Rm y A ∈ B(Rm ) tal que
P (X1 ∈ A) = p > 0. Sea Y la primera Xi que toma un valor en A. Entonces Y tiene una
distribución dada por
P (X1 ∈ A ∩ B)
P (Y ∈ B) = , B ∈ B(Rm ).
p
En particular, si X1 tiene distribución uniforme en A0 (A0 ⊇ A), entonces Y se distribuye unifor-
memente en A.
Demostración. Para B ⊂ Rm boreliano se tiene
∞
X
P (Y ∈ B) = P (X1 ∈/ A, . . . , Xi−1 ∈
/ A, Xi ∈ B ∩ A)
i=1
X∞
= (1 − p)i−1 P (X1 ∈ A ∩ B)
i=1
16 T
1 1
= P (X1 ∈ A ∩ B) = P (X1 ∈ A ∩ B).
1 − (1 − p) p
20 A
Si X1 se distribuye uniformemente en A0 ,
lio IM
R R R
P (X1 ∈ A ∩ B) dx dx dx
P (Y ∈ B) = = AR0 AB · R A0 = RAB ,
P (X1 ∈ A) A0
dx AA0
dx A
dx
que corresponde a la distribución uniforme en A.
Ju -C
Veamos entonces que Y dada por el método de aceptación rechazo tiene densidad f . Por la
primera parte del teorema 1, los (X, cU g(X)) ∈ Rm+1 generados se distribuyen uniformemente en
D
la región bajo cg. Luego por el teorema 2, (Y, cU g(Y )) se distribuye uniformemente en la región
bajo f , y por la segunda parte del teorema 1, Y tiene densidad f .
AT
5
ası́ que conocer los valores pg, qf bastan para aplicar el método de aceptación-rechazo. Por ejemplo,
supongamos que se conoce f salvo por una constante de normalización; esto es, se conoce qf .
También supongamos que conocemos una constante k que acota qf en su soporte. Entonces la
función constante k es un múltiplo pg de la densidad uniforme g en el soporte de f . Esta densidad
uniforme es fácil de simular porque usualmente se tendrá que elQsoporte de f será el dominio de
una parametrización de una variedad; esto es, será de la forma m i=1 [ai , bi ]. Conociendo qf y una
constante k tal que k ≥ qf (x) para todo x ∈ Rm la implementación del método aceptación-rechazo
quedarı́a como sigue:
Hacemos T = c fg(X)
(X)
= pg(X)
qf (X)
= k
qf (X)
.
16 T
4. Algunas observaciones
20 A
lio IM
En el proyecto se trabajó con superficies y en este caso la siguiente observación es de especial
interés por las implicaciones que tiene.
Si M ⊂ R3 es una superficie
y f :M 0 ⊂ R2 → R3 una parametrización de ésta; denotemos a
∂f1 ∂f2 ∂f3
por ∂f y a ∂f 1 ∂f2 ∂f3
por ∂f
, , , , .
Ju -C
∂x ∂x ∂x ∂x ∂y ∂y ∂y ∂y
Ahora bien, en los puntos p ∈ M donde Df |u=f −1 (p) es de rango máximo se tiene que
∂f ∂f
D
|f −1 (p) , |f −1 (p)
∂x ∂y
AT
es una base de Tp (M ), que ha sido definido en la sección 1.6.3 de las notas, y por lo tanto
podemos preguntarnos por la matriz, con respecto a esta base, asociada al producto punto en
Tp (Mp) inducido por el producto punto de R3 . Si denotamos a dicha matriz por Ip , se puede ver
que det(Ip ) = J2 f |u=f −1 (p) . p
De ésto, la densidad que obtenemos en los parámetros es la función dada por det(Ip )/ vol(M ).
Ası́, obtenemos que si esta densidad pes la densidad de la distribución uniforme en los parámetros,
0
la parametrización debe satisfacer det(Ip ) = vol(M )/ vol(M ).
Lo anterior nos indica que no en todas las superficies puede encontrarse una parametrización
para la cual una muestra de la distribución uniforme en los parámetros tenga como imagen una
muestra con la distribución uniforme con respecto a la medida geométrica. Más aún, lo anterior nos
indica la manera en que la geometrı́a intrinseca de la superficie está influyendo en la distribución
de los parámetros.
En el proyecto se simularon puntos en la botella de Klein, en el toro y en la banda de Möbius.
Para el caso de la botella de Klein se empleó la parametrización de Dickson, presentada en Franzoni
[4].
Especı́ficamente las parametrizaciones empleadas para cada objeto son las siguientes:
6
1. Toro:
x = (R + r cos(θ)) cos(φ),
y = (R + r cos(θ)) sin(φ),
z = r sin(θ),
2. Botella de Klein:
(
6 cos(u)(1 + sin(u)) + 4(1 − 12 cos(u)) cos(u) cos(v) si 0 ≤ u ≤ π,
x=
6 cos(u)(1 + sin(u)) + 4(1 − 12 cos(u)) cos(v + π) si π < u ≤ 2π,
(
16 sin(u) + 4(1 − 21 cos(u)) sin(u) cos(v) si 0 ≤ u ≤ π,
y=
16 sin(u) si π < u ≤ 2π,
16 T
1
z = 4(1 − cos(u)) sin(v),
2
20 A
con (u, v) ∈ [0, 2π] × [0, 2π].
lio IM
3. Banda de Möbius
v
x = (R + u cos( )) cos(v),
2
Ju -C
v
y = (R + u cos( )) sin(v),
2
v
z = u sin( ),
D
2
donde (u, v) ∈ [−w, w] × [0, 2π] con w > 0.
AT
5. Simulaciones
Existen implementaciones más simples para casos particulares (por ejemplo, J2 tiene una forma
sencilla para el toro), pero para una superficie parametrizada (x(u, v), y(u, v), z(u, v)) se tiene el
siguiente procedimiento:
5. Obtener muestra de tamaño deseado y evaluar los puntos en las funciones del paso 1.
7
Es claro que dichas densidades son distintas a la densidad que se tendrı́a simulando puntos
con distribución uniforme en el dominio (como se describe al inicio de la sección 2), pues en ese
caso las densidades son una función constante en el dominio. Un proyecto futuro puede consistir
en estudiar teoricamente las densidades presentadas anteriormente.
A continuación presentamos ilustraciones para 500 puntos generados por el método mencionado,
16 T
comparando con 500 puntos obtenidos con distribución uniforme en el dominio.
20 A
Toro, con medida de Hausdorff:
lio IM
Ju -CD
AT
8
Botella de Klein, con medida de Hausdorff
16 T
20 A
lio IM
Ju -CD
9
Banda de Möbius, uniforme en el dominio:
16 T
Para el cálculo de los diagramas de persistencia se ha empleado como filtración la dada por
20 A
un estimador de densidad tipo kernel, que fueron presentados en la sección 5.4.5 de las notas del
curso. Conviene tomar ésta sobre otras, por que se espera que con este tipo de filtración se noten
lio IM
las diferencias entre las nubes de puntos generados con una y otra distribución.
Las especificaciones técnicas de la computadora donde se realizaron son:
Ju -C
10
mı́nimos/máximos del estimador de densidad (lo cual se verá reflejado con omisión de componentes
de interés en el diagrama de persistencia).
Sabemos que los números de betti, tomando los coeficientes en Z2 , de la botella de Klein y del
Toro son; β0 = 1, β1 = 2 y β2 = 1. Como veremos a continuación, para el caso de los diagramas de
persistencia calculados con la distribución uniforme respecto a la medida de Hausdorff, los puntos
que quedan fuera de la banda (los que pueden ser interpretados como señal topológica y no como
ruido) son aquellos que se esperan (los número de puntos negros, rojos, azules corresponden a β0 ,
β1 y β2 respectivamente).
Los primeros dos diagramas corresponden a los obtenidos tomando puntos en el toro con la
distribución especificada en cada imagen. La primera observación que surge al compararlos es que,
como se mencionó anteriormente, en el diagrama que corresponde a los puntos con distribución
uniforme respecto a la medida de Hausdorff se obtienen los puntos esperados.
16 T
20 A
lio IM
Ju -CD
AT
11
16 T
20 A
lio IM
Los dos diagramas siguientes corresponden a los obtenidos tomando puntos en la botella de
Klein con la distribución especificada en cada imagen.
Ju -CD
AT
12
16 T
20 A
lio IM
Notemos que en ambos casos, tanto para la botella de Klein como para el Toro, la distribución y
el tipo de filtración ha marcado una gran diferencia entre los diagramas de persistencia obtenidos.
Por ejemplo, en el caso del último diagrama, basándonos en los puntos fuera de la banda tendrı́amos
Ju -C
que la estimación de los números de betti son 1, 0 y 1, que no corresponden a la botella de Klein
sino a una esfera.
D
7. Conclusiones
AT
La medida de Hausdorff permite relacionar las propiedades intrı́nsecas de la variedad donde los
datos se encuentran, lo cual es esencial cuando se está simulando sobre variedades: si se desea, se
puede evitar concentrar datos en ciertas regiones. Esto proporciona un camino para retroalimentar
las técnicas vistas hasta ahora en el análisis topológico de datos, y aquellas que se desarrollen
posteriormente.
Desde el punto de vista computacional, se resalta poder omitir el tener que normalizar Jm f
(lo cual requiere integrar numéricamente). Sin embargo, si se trabaja en altas dimensiones, una
dificultad ineludible es el cálculo de un determinante al evaluar Jm f en varios puntos, pues en altas
dimensiones esto es costoso.
Visualmente es evidente que distribuciones distintas proporcionan gráficas distintas, ası́ que un
problema que se desprende es: dada una nube de puntos distribuida sobre una superficie dada,
inferir caracterı́sticas de la distribución de la cual provienen. En caso de que se tengan datos
provenientes de dos o más distribuciones, se podrı́a emplear MAPPER (proyecto elaborado por
Pérez Angulo) para ilustrar con mayor claridad las diferencias entre ellas.
Otro tema que de aquı́ se puede desprender es utilizar las técnicas presentadas en otros proyectos
para comparar los códigos de barras y diagramas de persistencia generados.
En el artı́culo de Franzoni [4] se encuentran parametrizaciones que dan formas distintas a la
“clásica”(que es la que se utiliza en este proyecto), sobre las cuales también se pueden simular
puntos utilizando los procedimientos aquı́ descritos. Un posible tema a tratar a futuro es comparar
13
las estimaciones de homologı́a persistente como se hizo aquı́ con el toro y una parametrización de
la botella de Klein.
Referencias
[1] Devroye, Luc. Non-uniform Random Variate Generation. New York: Springer-Verlag, 1986.
[2] Diaconis, Persi, Susan Holmes y Mehrdad Shahshahani. “Sampling from a Manifold.”Advances
in Modern Statistical Theory and Applications: A Festschrift in Honor of Morris L. Eaton
Institute of Mathematical Statistics Collections (2013): 102-25.
[4] Franzoni, Gregorio. “The Klein Bottle: Variations on a Theme.”Notices of the American Mat-
hematical Society 59.08 (2012): 1076.
16 T
20 A
lio IM
Ju -CD
AT
14
ANÁLISIS TOPOLÓGICO DE DATOS
UTILIZANDO MAPPER
Y COMPLEJOS TESTIGO
Proyecto final de la clase:
Probabilidad e Inferencia Estadística para Análisis Topológico de Datos
Centro de Investigación en Matemáticas, A.C.
16 T
20 A
lio IM
Ju -CD
AT
Alumno:
1. Introducción 3
I Marco teórico 4
2. Complejos testigo 4
2.1. Denición de W (D) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Elección de los puntos de referencia L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Familias anidadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Algoritmo Mapper 5
3.1. Construcción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1. Motivación y antecedentes topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.2. Estructura multiresolución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2. Implementación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2.1. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
16 T
3.2.2. Espacios parametrales de dimensiones mayores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3. Funciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
20 A
3.3.1. Kernel gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3.2. Exentricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3.3. Laplacianos de grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
lio IM
3.3.4. Componentes de la SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4. Agrupamiento jerárquico 8
4.1. Distancia mínima o similitud máxima (Single linkage) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Ju -C
II Uso de software 9
6. Paquetería TDA de R 9
AT
7. Javaplex en Matlab 11
7.1. Complejo testigo fuerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7.2. Complejo testigo débil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8. Python Mapper 12
10.Circulo unitario 17
10.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
10.2. N(0,1), ruido σ = 0.003 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
10.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
10.4. N(0,Σ), ρ = 0.95 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
10.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
10.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
10.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
10.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
10.9. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1
10.10.Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
10.11.Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
10.12.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
10.13.Cauchy(0,3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
10.14.Cauchy(0,3), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
10.15.Cauchy(0,3), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.Doble anillo 31
11.1. N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.2. N (0, 1), ruido σ = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
11.3. N (0, 1), ruido σ = 0.009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
12.Esfera unitaria 35
12.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
12.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
12.3. N(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
12.4. N3 (0, Σ), ρ = (0.9, 0.5, 0.8) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
12.5. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
16 T
12.6. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
12.7. GUE, ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
20 A
12.8. Cauchy(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
12.9. Cauchy(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
12.10.Cauchy(0,1), ruido σ = 0.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
lio IM
13.Toro 44
13.1. N(0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
13.2. N(0,1), ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Ju -C
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
13.7. GUE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
13.8. GUE, ruido σ = 0.005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
AT
IV Observaciones y conclusiones 57
2
Resumen
En este proyecto se abordan dos alternativas a las construcciones simpliciales usuales vistas en el curso. La primera
son los complejos testigo, mismos que se basan en una submuestra de una nube de datos dada, de donde a partir de tal
selección se construye el complejo simplicial utilizando la muestra completa como soporte. La segunda alternativa es
utilizar un algoritmo llamado Mapper, el cual centra su idea en la selección de funciones de referencia y en un método
estadístico particular: el clustering. Esto con un propósito simple, construir un grafo que exprese las características
geométricas de nuestra nube de datos. Se presentan los resultados de un estudio de simulación comparativo entre
estos dos algoritmos y el ya conocido Vietoris-Rips, analizando diversos escenarios de distribuciones y ruido sobre las
variedades S1 , S2 y T2 , utilizando distintos tamaños de muestra para cada una. Finalmente, se presenta también un
pequeño tutorial sobre el software actual disponible para calcular persistencia y una implementación en Python del
algoritmo Mapper.
1. Introducción
Sabemos que una de las problemáticas principales al aplicar el Análisis Topológico de Datos es el costo o viabilidad
16 T
computacional. De los primeros enfoques para el cálculo de la homología persistente fue la ltración de ech, la cual
llegado un punto en la misma, crea simplejos con dimensión muchísimo más grande que la del espacio ambiente así como
20 A
un sin número de simplejos en cada paso. Una forma de relajar el cálculo de la homología usando la ltración de ech es
mediante la ltración de Vietoris-Rips, pero aún ésta sigue presentando el problema de encontrar simplejos de dimensión
lio IM
mucho mayor a la del espacio ambiente de nuestros datos.
En este proyecto presentamos algunas alternativas presentadas por Carlsson, De Silva, Mémoli y Singh (ver [2] y [6]).
En el primer enfoque se presentan los complejos testigo, mismos que se basan en una selección de puntos de referencia L de
una nube de puntos mediante un método particular de muestreo. A partir de ellos se construye un complejo simplicial que
Ju -C
evite sobremanera la construcción de simplejos innecesarios así como el incremento en la dimensionalidad de los mismos. El
segundo enfoque es el algoritmo Mapper, el cual se basa en elección de funciones que van de la nube de puntos a un espacio
euclideano, así como de métodos de agrupamiento (clustering) para crear simplejos de dimensión pequeña (regularmente
1 y 2) que nos permitan describir la estructura de los datos.
D
Uno de los objetivos de este proyecto es evaluar la aplicación de estas técnicas, explorando ventajas y desventajas de las
mismas y con respecto al algoritmo Vietoris-Rips. Para ello, realizamos un estudio de simulación comparativo entre estos
métodos, ante diversos escenarios controlados de diferentes distribuciones y tipos de ruido sobre una misma variedad. Se
AT
consideran tres variedades y se utilizan distintos tamaños de muestra ya que el costo computacional depende del tamaño
de cada una de estas variedades.
En la Parte I de este trabajo presentamos una breve descripción del método de agrupamiento jerárquico poniendo
especial énfasis en el modelo Single linkage clustering, así como la explicación de la descomposición en valores singulares
(SVD) de una matriz de tamaño m×n arbitrario, pues son las herramientas principales que se utilizan en el algoritmo
Mapper, el cual que se describe en esta misma sección. También se presentan conceptos y el desarrollo teórico de los
complejos testigo.
Dado que el proyecto se basa fuertemente en la realización de simulaciones, así como de manipulación de los datos
para realizar nuestro análisis, en la Parte II de este documento damos una breve introducción a las paqueterías que se
utilizarán para las simulaciones y análisis en este proyecto, las cuales incluyen la paquetería TDA del software estadístico
R, las librerías de Javaplex implementadas en Matlab, así como una aplicación compilada sobre Python, llamada Python
Mapper. La intensión de esta parte es que el lector tenga un primer acercamiento al software utilizado en el ATD.
La parte central de nuestro proyecto se presenta en la Parte III, donde se realiza una serie de simulaciones sobre
el círculo unitario S1 , la esfera unitaria S2 y el toro tridimensional T2 usando las técnicas de simulación de variables
aleatorias presentadas en el Capítulo 4 de las notas del curso. En base a estas simulaciones, realizamos un análisis de los
resumenes topológicos, donde interpretamos la persistencia de características homológicas, así como algunas características
geométricas que nos brinda Mapper para las nubes de datos generadas, tratando de ver similitudes y diferencias entre
cada algoritmo, y comparando también su eciencia computacional. Como resúmenes presentamos: los diagramas de
persistencia, códigos de barra y grafos Mapper.
Por último, en la parte IV damos conclusiones de todos los hallazgos encontrados a lo largo del proyecto, así como
algunas recomendaciones y proyectos a desarrollar a corto plazo.
3
Parte I
Marco teórico
2. Complejos testigo
La idea de los complejos testigo es que estos imiten el comportamiento de las triangulaciones de Delaunay en la
geometría intrínseca de un conjunto de datos X. Se toma un conjunto de puntos de referencia L⊂X y el resto de los
puntos toman un rol para determinar qué simplejos aparecen en el complejo simplicial. Sin embargo, su interpretación no
es tan difícil como la de una triangulación de Delaunay.
16 T
Mediante inducción en p: supóngase que todas las caras del p−simplejo σ = [a0 a1 · · · ap ] pertenecen a W∞ (D).
20 A
Entonces, σ pertenece a W∞ (D) si y solo si existe un punto 1 6 i 6 N tal que D(a0 , i), D(a1 , i), ..., D(ap , i) son las
p+1 entradas más pequeñas de la i−ésima columna, en algún orden.
lio IM
En cada caso i es considerado un testigo de la existencia de σ.
Existe también una versión oja de un complejo testigo. Formalmente, se dene W1 (D) ⊇ W∞ (D) como sigue:
El p−simplejo σ = [a0 a1 · · · ap ] pertenece a W1 (D) si y solo si cada una de sus aristas pertenece a W1 (D).
Nota: Esta construcción se puede aplicar para cualquier matriz de distancias D, bajo la distancia euclidiana o cualquier
otra métrica. En particular, una alternativa importante es la métrica intrínseca del grafo DG , la cual se dene calculando
D
las distancias en un grafo adecuado G con vértices todos los puntos en X .En algunas situaciones es mejor utilizar la
métrica intrínseca.
AT
Inductivamente, si `1 , `2 , ..., `i−1 han sido elegidos, sea `i ∈ X\{`0 , `1 , ..., `i−1 } el punto que maximiza la función
donde D es la métrica.
Los puntos elegidos mediante maxmin tienden a estar más espaciados, pero son suceptibles a tomar outliers. El número
de puntos de referencia a elegir deben ser tales que la razón N/n esté acotada. Los autores sugieren esta cota como 20 de
manera heurística debido a los experimentos realizados por ellos mismos.
4
2.3. Familias anidadas
Supóngase que D es una matriz n × N de distancias, como se denió antes. Para cada entero no negativo ν construímos
una familia de complejos simpliciales W (D; ε, ν) donde ε ∈ [0, ∞]. El conjunto de vértices de W (D; ε, ν) es {1, 2, ..., n}.
Denimos entonces:
El p−simplejo σ = [a0 a1 · · · ap ] pertenece a W (D; ε, ν) si y sólo si todas sus caras pertenecen a W (D; ε, ν); equiva-
lentemente si y sólo si existe un testigo 1 6 i 6 N tal que
16 T
Nótese la identidad W (D; 0, 2) = W (D) = W1 (D). Los casos de ν = 0, 1, 2 son de particular importancia pues para:
20 A
ν = 0: La familia de complejos W (D; ε, 0) está cercanamente relacionada a la familia de complejos Rips R(L; ε).
Especícamente, se cumplen las siguientes inclusiones:
lio IM
W (D; ε, 0) ⊆ Rips(L; 2ε) ⊆ W (D; 2ε, 0).
ν = 1: Se puede interpretar como proveniente de una familia de cubiertas del espacio X mediante regiones de Voronoi
Ju -C
W (D; 0, 2) = W (D).
En la práctica, las familias con ν = 2 aparentemente dan intervalos de persistencia más claros, con poco ruido. Una
AT
explicación de esto se debe a la identidad recién mencionada, pues el complejo simplicial está esencialmente correcto
cuando ε = 0, por lo que es necesario incrementar un poco el valor de ε.
3. Algoritmo Mapper
3.1. Construcción
Se da primero, una idea general de la motivación topológica que da lugar a este nuevo método. Posteriormente se
presentan detalles sobre la implementación, así como la utilización de algunas funciones de referencia en las que se basa
el algoritmo.
Ya se ha denido previamente el nervio de una cubierta U X , y se puede oibtener información extra de esta, de
de
una partición de unidad se puede obtener una función que vaya de X a N (U). Una partición de unidad subordinada a la
cubierta abierta nita U es una familia de funciones real valueadas {ψα }α∈A con las siguientes propiedades:
La cerradura del conjunto {x ∈ X|ψα (x) > 0} está contenida en el conjunto abierto Uα .
5
Recordemos que podemos representar los puntos en un k−simplejo mediante sus coordenadas baricéntricas (r0 , r1 , ..., rk ).
Denamos T (x) ⊆ A como el conjunto de todos los x ∈ Uα . Denamos ρ(x) ∈ N (U) el punto en el simpejo
α tales que
generado por los vértices α ∈ T (x), cuyas coordenadas baricéntricas son (ψα0 , ψα1 , ..., ψαl ) donde {α0 , α1 , ..., αl } es alguna
enumeración del conjunto T (x). La función ρ resulta ser continua y además otorga una çoordenización"parcial al conjunto
X con valores en N (U).
Supongamos que tenemos un espacio X y una función continua f : X → Z a un espacio de parámetros Z , que además
el espacio Z cuenta con una cubierta abierta U = {Uα }α∈A , para un conjunto nito de índices A. Dada la continuidad de f ,
−1
los conjuntos f (Uα ) forman una cubierta abierta para X . Y para cada α, considérese la descomposición de f −1 (Uα ) en
−1
Sjα
sus componentes conexas, de modo que se pueda escribir f (Uα ) = i=1 V (α, i) donde jα es el número de componentes
−1
conexas en f (Uα ). Denotamos Ū a la cubierta de X obtenida de esta manera.
Para denir la multiresolución, necesitamos denir un mapeo de cubiertas, el cual, dadas dos cubiertas U = {Uα }α∈A
y V = {Vβ }βinB es una función f :A→B tal que para cada α ∈ A, se tiene que Uα ⊆ Vf (α) para cada α ∈ A. Se presenta
el siguiente
Ejemplo 1. Sean X = [0, N ], y ε > 0. Los conjuntos Ilε = (l − ε, l + ε + 1) ∩ X , para l = 0, 1, ..., N − 1 forman una
0
16 T
cubierta abierta Iε para X . Todas las cubiertas Iε tienen el mismo conjunto de índices, y para ε 6 ε , el mapeo identidad
ε ε
en el conjunto de índices es un mapeo de cubiertas dado que Il ⊂ Il .
20 A
Nótese que si tenemos dos cubiertas U y V y un mapeo de cubiertas f , entonces existe un mapeo inducido de complejos
simpliciales N (f ) : N (U → N (V , dado sobre los vértices por el mapeo f . En consecuencia, si tenemos una familia de
lio IM
cubiertas {Ui }i∈n y mapeos de cubiertas fi : Ui → Ui+1 para cada i, obtenemos un diagrama de complejos simpliciales y
mapeos simpliciales
N (f0 ) N (f1 ) N (fn−1 )
N (U0 ) −→ N (U1 ) −→ · · · −→ N (UN )
Retomando el caso del espacio X y la función f : X → Z, y un mapeo de cubiertas U → V, existe el correspondiente
Ju -C
mapeo de cubiertas Ū → V̄ .
3.2. Implementación
D
Se pasa de la idea teórica a la implementación mediante estadística, usando técnicas de agrupamiento para realizar la
partición del espacio de interés en componentes conexas.
AT
Primero, encontramos el rango I de la función restringida a los puntos dado. Particionamos el rango I en un conjunto
de intervalos más pequeños S que se traslapan para encontrar una cubierta de los datos dados. De modo que tenemos dos
p y la longitud de los intrvalos de S . Luego, para
parámetros para modicar la resolución, a saber el porcentaje de traslape
cada intervalo Ij ∈ S , Xj = {x|f (x) ∈ Ij }. Claramente la familia de conjuntos {Xj }
encontramos el conjunto de puntos
forman una cubierta para X . Para cada conjunto Xj encontramos clusters {Xjk }. De modo que tratamos cada cluster
como un vértice en nuestro complejo y dibujamos una arista entre los vértices siemrpe que Xjk ∩ Xlm 6= ∅.
3.2.1. Agrupamiento
Mapper no impone ningún tipo de condiciones sobre el algoritmo de agrupamiento, de modo que cualquiera que se
especique sobre el dominio puede funcionar.
Para obtener información sobre características de agujeros dimensionales de orden mayor es necesario contruir un
complejo simplicial de dimensión mayor utilizando el número de ltros requeridos. Así mismo, cualquier cubierta del
espacio parametral puede funcionar, pero deberíamos tener en cuenta que cuanto más intersecciones haya en esta habra
complejos simpliciales de orden mayor.
Consideraremos el caso particular R2
usando dos funciones ltro f1 , f2 y el rango de éstas cubierto por rectángulos.
Tenemos la región R = [mı́n f1 , máx f1 ]×[mı́n f2 , máx f2 ]. De modo que tenemos una cubierta de R tal que cada Ai,j , Ai+1,j
se intersectan al igual que cada Ai,j , Ai,j+1 . Un algoritmo para calcular un complejo simplicial reducido es el siguiente:
1. Para cada i, j , elíjanse los puntos para los cuales los valores de las funciones f1 , f2 caen en Ai,j . Encuéntrese los
clusters para este cojunto y consíderese que cada cluster representa un vértice (0−simplejo). Manténgase una lista
de vértices para cada Ai,j y un conjunto de índices para los puntos de cada cluster.
6
2. Para todos los vértices en los conjuntos {Ai,j , Ai+1,j , Ai,j+1 , Ai+1,j+1 }, si la intersección de los clusters asociados
con los vértices es no vacía añadimos una arista (1− simplejo).
3. Cuando los clusters correspondientes a cualesquiera 3 vértices tengan intersección no vacía, añadimos un triángulo
(2−simplejo) con esos 3 vértices.
4. Cuando los clusters correspondientes a cualesquiera 4 vértices tengan intersección no vacía, añadimos un tetraedro
(3−simplejo) con esos 4 vértices.
3.3. Funciones
El algoritmo Mapper es altamente dependiente de los ltros que se eligen para particionar el conjunto de datos. Se
asume que la nube de puntos está dotada de una función distancia d(x, y), se mencionan a continuación algunas de las
funciones utilizadas en Mapper que describen algunas propiedades estructurales de los datos:
16 T
Para ε > 0, tenemos el estimador de densidad
−d(x, y)2
20 A
X
fε (x) = Cε exp ,
y
ε
lio IM
R
donde x, y ∈ X y Cε es una constante tal que fε (x)dx = 1. El parámetro ε controla la suavidad del estimador de la
densidad de los datos.
Ju -C
3.3.2. Exentricidad
La idea intuitiva es encontrar los puntos que se encuentren alejados de un centro. Dado 1 6 p 6 +∞,
p1
d(x, y)p
P
D
y∈X
Ep (x) = , con x, y ∈ X.
N
AT
Se puede extender la denición a p = +∞ haciendo E∞ (x) = máxx0 ∈X d(x, x0 ). En general, tiende a tomar valores
grandes para puntos que estan alejados de un centro.
Esta familia de funciones se origina de considerar el operador Laplaciano de un grafo denido como sigue: El conjunto
de vértices de este grafo es el conjunto X de todos los puntos, y el peso de las aristas entre los puntos x, y ∈ X es
donde k es un kernel de suavizamiento. Una matriz Laplaciana del grafo (normalizada) se calcula como
w(x, y)
L(x, y) = pP pP .
z w(x, z) z w(y, z)
De este modo, los eigenvectores de la matriz Laplaciana normalizada del grafo nos dan un conjunto de vectores ortogonales
que nos brindan información geométrica interesante de la nube de datos.
En dos secciones subsecuentes describimos de qué se trata la SVD (Descomposición en Valores Singulares), se pueden
utilizar proyecciones sobre las primeras componentes para obtener información geométrica de los datos. En este proyecto
particularmente, utilizamos las dos primeras componentes.
7
4. Agrupamiento jerárquico
Existen dos tipos de métodos generales dentro de los catalogados en esta categoría, están aquellos que mezclan grupos
para formar uno nuevo (aglomerativos o ascendentes) y aquellos que separan un grupo existente para dar lugar a dos
nuevos (disociativos o descendentes). Estos métdos a su vez, presentan una gran diversidad de variantes
Haremos énfasis especial en los métodos aglomerativos, pues es en los que se basa el análisis que realizamos en este pro-
yecto. Estas paqueterías están implementadas en diversos softwares estadísticos bajo el nombre de AGNES (AGglomerative
NESting).
La idea general de los métodos aglomerativos es la siguiente.
1. Inicie con tantos grupos como puntos haya, donde cada punto va en uno y solo un grupo. La medida de similaridad
entre grupos en este paso es igual a la distancia entre los puntos que contiene cada grupo.
2. Encuentre el par de grupos más cercanos (con mayor similitud) y mézclelos en un solo grupo.
3. Calcule las distancias (similaridades) entre el nuevo grupo y cada uno de los grupos antiguos.
4. Repita los pasos 2 y 3 hasta que se alcanze un número deseado de grupos o todos los puntos se hayan mezclado en
un solo grupo.
16 T
Los métodos jerárquicos nos permiten la constucción de un árbol de clasicación ,llamado dendograma (4), el cual nos
muestra cuáles grupos se van uniendo y a qué nivel lo hacen, así como la medida de asociación entre los grupos cuando
20 A
estos se mezclan (nivel de fusión).
lio IM
Ju -CD
AT
Dentro de nuestro particular interés sobre los métodos aglomerativos, explicaremos una de las variantes, los métodos
linkage clustering (que traduciremos como amalgamamiento).
Por otro lado, si usamos una medida de similitud entre grupos, tendríamos:
La Descomposición en Valores Singulares (SVD por sus siglas en inglés) nos dice que dada una matriz A arbitraria de
tamaño m × n (m > n). Entonces podemos descomponerla como
A = U ΣV T (3)
8
donde las matrices U es una matriz de m × n que satisface que U T U = In y la matriz V es una matriz de n × n que
T
satisface que V V = In , y Σ = diag(σ1 , σ2 , ..., σn ) con σ1 > σ2 > · · · σn > 0.
Las columnas u1 , . . . , un de la matriz U son llamados valores singulares izquierdos, mientras que las columnas v1 , ..., vn
de la matriz V son llamados vectores singulares derechos. Los valores σi son llamados valores singulares.
Existe un gran número de propiedades algebraicas y geométricas importantes de la SVD, de las más importantes son
las siguientes:
1. Supóngase que la matriz A es simétrica, con valores propios λi y vectores propios ortonormales vi . En otras palabras,
A = U ΛV T es una descomposición propia de A, con Λ = diag(λ1 , ..., λn ), y U T U = I . Entonces una SVD de A es
A = U ΣV T , donde σi = |λi | y vi = signo(λi )ui donde signo(0) = 1.
2. Los valores propios de la matriz simétrica AT A son σi2 . Los vectores singulares derechos vi son sus vectores propios
ortonormales correspondientes.
3. Los valores propios de la matriz simétrica AAT son σi2 y m − n ceros. Los vectores singulares izquierdos ui son
los vectores propios correspondientes a los valores propios σi2 . Se pueden tomar cualesquiera m − n otros vectores
ortogonales como vectores propios para el valor propio 0.
0 AT
4. Sea , donde A es cuadrada y A = U ΣV T es la SVD de A. Sean Σ = diag(σ1 , ..., σn ), U = [u1 , ..., un ] y
16 T
A 0
1 v i
V = [v1 , ..., vn ]. Entonces los 2n valores propios de H son ±σi , con vectores propios correspondientes √ .
20 A
2 ±ui
7. Supóngase que σ1 > · · · > Σr > σr+1 = · · · = σn = 0. Entonces el rango de A es r. El espacio nulo de A, es decir,
Ju -C
el subespacio de vectores v tales que Av = 0., es generado por las columnas r + 1 a n de V : span(vr+1 , ..., .vn ). El
rango del espacio A, el subespacio de vectores de la forma Aw para todo w , es el espacio generado por las columnas
1 a r de U : span(u1 , ..., ur ).
8. Sea Sn−1 Rn : Sn−1 : {x ∈ Rn : kxk2 = 1}. Sea A · Sn−1 la imagen de Sn−1 bajo A: A · Sn−1 =
la esfera unitaria en
D
{Ax : x ∈ R y kxk2 = 1}. Entonces A · Sn−1 es un elipsoide centrado en el origen de Rm , con ejes principales σi ui .
n
n
AT
A = U ΣV T = σi ui viT
P
9. Escríbase V = [v1 , v2 , ..., vn ] y U = [u1 , ..., un ] de modo que (suma de matrices rango 1).
i=1
n
σi ui viT ,
P
Entonces una matriz de rango k <n cercana a A (medida con k · k2 ) es Ak = y kA − Ak k2 = σk+1 .
i=1
También se puede escribir Ak = U Σk V T , donde Σk = diag(σ1 , ..., σk , 0, ..., 0).
Parte II
Uso de software
En esta parte nos enfocamos a dar una breve introducción a las paqueterías computacionales que se utilizan en el
proyecto, con el n de que un usuario no experimentado tenga un primer contacto con el software. En las secciones
referentes a la paquetería TDA de R y Javaplex de Matlab, pondremos código de referencia con comentarios donde se da
una breve explicación de lo que se hace en cada paso. En la sección dedicada a Mapper, explicamos sobre cada una de las
funciones que incluye el programa
6. Paquetería TDA de R
9
#Tamaño de muestra para todas las simulaciones
n<-1000
d<-2
#########################################################################
#********************Caso normales independientes***********************#
#########################################################################
x<-matrix(0,n,2)
y<-matrix(0,n,2)
#Generamos dos muestras muestras de n elementos en S1
for(i in 1:n){
x[i,]<-c(rnorm(1),rnorm(1))
x[i,]<-x[i,]/(norm(as.matrix(x[i,]),"f"))
y[i,]<-c(rnorm(1),rnorm(1))
y[i,]<-y[i,]/(norm(as.matrix(y[i,]),"f"))
}
16 T
#Proyectamos a R3, para poder visualizarlo
20 A
T2.NI=matrix(0,n,3)
for(i in 1:n){
T2.NI[i,]=X[i,3]*c(0,0,1)+(X[i,4]+2)*c(X[i,1],X[i,2],0)
lio IM
}
write.matrix(T2.NI,"C:/ruta-a-exportar-datos/T2NI1000.txt")
#Cálculo de la homología
ini<-proc.time()
D
Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram
par(mfrow=c(1,2),mai=c(0.8,0.8,0.3,0.1))
plot(Diag,main="Diagrama Rips")
AT
#Cálculo de la homología
#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T
T2.NI.R1<-RuidoNormal(T2.NI,0.1)
write.matrix(T2.NI.R1,"C:/ruta-a-exportar-datos/T2NI1000R1.txt")
#Realizamos justo el mismo cálculo que para la muestra sin ruido, sólo cambiando el nombre de la variable a T
# #Cálculo de la homología
Diag<-ripsDiag(T2.NI,2,2,library="GUDHI",printProgress = FALSE)$diagram
El cual sólo es una parte de la serie de parámetros que podemos usar en
10
En lo anterior, X puede ser una matriz de datos sólo si dist=euclidean o ser una matriz de distancias entre n puntos
sólo si dist=arbitrary . maxdimension deber ser un número entero se reere a la dimensión máxima que le permitiremos
calcular al algoritmo (recordemos que 0 es la cantidad de componentes conexas, 1 componentes conexas y ciclos, etc.). dist
nos permite elegir entre euclidean donde utilizamos la distancia euclideana y arbitrary nos permite utilizar la distancia
dada en el cálculo de la matriz de distancias. El parámetro library nos permite elegir entre los 3 posibles algoritmos de
cálculo de la homología, a saber PHAT, Dyonisus, GUDHI. En particular para este proyecto se utilizará la paquetería
GUDHI pues se ha probado que es la más rápida de las 3. Utilizar una librería en particular nos restringe o da ventajas
de cálculo entre las otras 2. El parámetro location nos regresa la ubicación de los puntos de nacimiento y muerte de cada
característica homológica. Por último, printProgress imprime una barra de progreso, así como el número de simplejos
calculados.
16 T
1. Dada una muestra X = {x1 , ..., xn }, calcule el estimador de densidad pbh .
20 A
√
2. Tome una muestra con reemplazo X ∗ = {x∗1 , ..., x∗n } de X = {x1 , ..., xn } y calcule θ∗ = p∗h (x) − pbh (x)k∞ ,
nkb donde
pb∗h es el estimador de densidad calculado usando X .
∗
lio IM
3. Repita el paso anterior B veces para obtener θ1∗ , ..., θB
∗
.
n o
1 θj∗ > q 6 α
1
PB
4. Calcule qα = ı́nf q : B j=1
Ju -C
h i
5. La banda de conanza de tamaño 1−α para E [b
ph ] es pbh − qα
√
n
, pbh + qα
√
n
.
El siguiente código calcula una banda de conanza de nivel 90 % para una nube de puntos X dada bajo el estimador
D
bootstrapBand(X = X, FUN = kde, Grid = Grid, B = 100, parallel = FALSE, alpha = 0.1, h = h)
AT
En la última expresión, Grid es una rejilla de puntos previamente denida de la dimensión correspondiente a la nube
de puntos, h es el ancho de banda del estimador kernel y B es el número de remuestreo en el algoritmo Bootstrap.
La relevancia estadística del método Bootstrap se detalla también en el Capítulo 5 de las notas del curso. Para más
información sobre la utilización de la paquetería TDA y las características que contiene, por favor reérase a [4].
7. Javaplex en Matlab
Presentamos el código para el cómputo de los complejos testigo fuerte y débil, cuyos detalles se dieron en la Parte II
de este proyecto.
11
%Creación del complejo Witness
stream=api.Plex4.createWitnessStream(L,mdim,mfv,ndiv);
%Número de simplejos en el cálculo
num_simplices=stream.getSize()
%Cálculo de la homología
persistence=api.Plex4.getModularSimplicialAlgorithm(mdim,2);
intervals=persistence.computeIntervals(stream);
%Opciones de graficación del código de barras
options.filename='Figura';
options.max_filtration_value=mfv;
options.max_dimension=mdim-1;
%Código de barras
plot_barcodes(intervals,options);
%Tiempo final del cálculo
toc
16 T
%Tiempo inicial del cálculo
tic
20 A
%Parámetros para el cálculo de la homología persistente y selección de
%puntos de referencia.
X=importdata('C:/ruta-a-los-datos/datos.txt');
lio IM
num_landmark=100; %Número de puntos de referencia a utilizar
dim_max=3; %Dimensión máxima de interés.
nu=2; %Número de testigos en el complejo débil
num_div=100;
Ju -C
lazy.finalizeStream();
%Número de simplejos
lazy.getSize()
%Cálculo de la homología persistente
pers=api.Plex4.getModularSimplicialAlgorithm(dim_max,2);
intervalos=pers.computeIntervals(lazy);
%Opciones de graficación del código de barras
options.filename='Figura';
options.max_filtration_value=vmf;
options.max_dimension=dim_max-1;
%Código de barras
plot_barcodes(intervalos,options);
%Tiempo total del cálculo
toc
Para instrucciones sobre la instalación, así como mayores detalles sobre la librería, por favor reérase a [1]
8. Python Mapper
12
16 T
20 A
lio IM
A continuación damos un detalle breve de las acciones que realiza cada sección.
En el Paso 1, podemos notar que existen tres apartados:
Ju -C
Example shapes Contiene una base de datos predeterminada, la cual contiene una muestra de datos tomada sobre
objetos 3D que representan diferentes animales.
Synthethic Shapes Nos permite generar muestras de datos del tamaño deseado sobre S1 y T 2, cabe destacar que la
D
2
forma de generar los datos sobre T no se da de manera uniforme como lo vimos en clase, los datos se ven como
sigue:
AT
Load Data Este apartado es de nuestro particular interés, pues aquí es donde llamamos el archivo de texto que
contiene los datos generados en las simulaciones que presentaremos más adelante, nuestro archivo no debe contener
encabezados, sólo debe contener los datos en forma matricial, automáticamente detecta el número de datos así como
su dimensionalidad.
13
En el Paso 2 podemos encontrar dos opciones:
Ambient/Original metric En esta parte nos brinda tres opciones para la métrica denida sobre el espacio ambiente
de los datos: Euclideana, Minkowski y Chebyshev. Pero como el software se encuentra aún en fase de desarrollo sólo
permite elegir la métrica euclideana.
Intrinsic metric Hace uso de la métrica intrínseca denida en la parte II de este trabajo a partir de la selección de
un número apropiado de vecinos más cercanos, el mismo software nos puede arrojar un número de vecinos adecuados
para que el grafo creado en el conjunto de datos sea conexo.
En el Paso 3 es donde realizamos la selección del ltro para el análisis de los datos, en donde podemos elegir entre:
Exentricidad.
Kernel Gaussiano.
Laplaciano de un grafo.
16 T
Descomposición SVD.
20 A
Sin ltro.
lio IM
Así mismo, nos da la opción de centrar los datos mediante la media. También podemos modicar un ltro de manera
particular mediante la introducción de ciertos parámetros en lter transformation.
Es aquí donde podemos ver cómo se colorean los puntos de acuerdo al ltro elegido.
En el Paso 4 es donde podemos elegir nuestra cubierta de 3 posibles opciones:
Ju -C
Descomposición de subrango.
Así mismo, es posible elegir el porcentaje de traslape entre los intervalos así como la cantidad de estos. También es
AT
Estos métodos de agrupamiento entran dentro de la categoría de agrupamiento jerárquico, cuyos detalles generales
dimos en la Parte I.
En esta misma sección podemos elegir el parámetro de corte (cuto ) el cuál no es otra cosa que la distancia máxima
que se permite haya dentro de cada cluster, es decir, para cada subgrupo que se encuentre a una distancia mayor a este
parámetro son puestos en diferentes clústers.
El Paso 5 nos permite elegir el tipo de coloreado de los datos, por defecto se utiliza un espectro de azul a rojo, donde
azul determina el valor más pequeño brindado por el ltro y el rojo determina el valor más alto. Se pueden introducir
diferentes métodos de coloreado, por ejemplo que se base en la altura de la coordenada z de los puntos.
Un ejemplo de esto, es la simulación de datos de una gura con forma de camello en 3D, la cual consta de 21887
puntos. En la gura 8 podemos ver en la segunda imagen cómo el algoritmo nos ayuda a explicar la estructura de la nube
de datos, en la cual se destacan las cuatro extremidades y con una mayor concentración de puntos en rojo, la cabeza.
14
16 T
20 A
Figura 2: Simulación y análisis Mapper de una gura 3 dimensional.
lio IM
Ju -CD
AT
15
Parte III
de costo computacional
9. Contexto
La simulación base de variables aleatorias en el círculo, la esfera y el toro están fundamentadas en la teoría presentada
para este n en el Capítulo 4 de las notas del curso. La simulación de los elementos mostrados a continuación toman las
ideas de simulación base y se hacen combinaciones de ellas, así como un par de variantes que se detallan en cada uno de los
casos presentados. Mostraremos la nube de datos, así como los códigos de barra respectivos a los cálculos de la homología
persistente para los complejos simpliciales generados en la muestra mediante las ltraciones: Vietoris-Rips, testigo fuerte
y testigo débil, cuyos detalles se dan en los Capítulos 1 y 2 de las notas de clase, así como en la Parte I de este proyecto.
Los grafos mostrados al nal de cada grupo de imágenes corresponden a la salida que entrega el algoritmo Mapper en
dimensión 1. También, se muestra una tabla que resume la interpretación sobre huecos de hasta dimensión 2 en el caso
de los algoritmos simpliciales Vietoris-Rips y Testigo, mientras que para Mapper tenemos sólo la capacidad de visualizar
16 T
características geométricas de dimensión 1 puesto que el software Python Mapper que utilizamos se encuentra en fase de
desarrollo y aún faltan muchas cosas por ser implementadas en el mismo. En esta misma tabla, se anexan los tiempos de
20 A
ejecución de cada uno de los algoritmos para comparativa entre ellos mismos, de modo que se pueda percibir en cada caso
cuál de los algoritmos tienen un mejor comportamiento en el sentido de costo computacional. Nos referimos a los huecos
de dimensión 1 como ciclos y a los dimensión 2 como vacíos, tal cual es acostumbrado en la literatura de ATD.
lio IM
Los encabezados en cada subtipo de simulación que mostraremos a continuación se rigen de la siguiente manera:
N(0,1) Con esto indicamos que cada una de las componentes Xi del vector Xd = (X1 , ...Xd ) tienen una distribución N (0, 1)
N(0,Σ),ρ En este caso, la matriz Σ tiene sobre su diagonal valores iguales a 1, mientras que fuera de la diagonal nos muestra la correlación que
existe entre cada par de variables, donde el(los) valor(es) ρ nos indican tal correlación. De manera particular, en el caso de el toro T2 , la
Ju -C
a = 1 (Toro y esfera).
A partir de estas simulaciones, se construye el vector R = (X1 /kXd k, . . . , Xd /kXd k) correspondiente a cada tipo de simulación. El tamaño
de muestra y el valor máximo de la ltración cuando usamos la ltración de Vietoris-Rips cambian respecto a la variedad
AT
que se este estudiando en cada caso, pues en ocasiones es necesario un valor menor o mayor dependiendo del tamaño de
las variedades. Para los casos de S1 utilizamos muestras de tamaño 500 pues estas describen de buena manera al círculo
unitario. Para S 2
utilizamos muestras de tamaño 1000 y para el T2 utilzaremos submuestras de tamaño 800 de una muestra
original de tamaño 1000. En el caso de los complejos testigo usamos la muestra completa de tamaño 1000 tanto para S2
y T2 . Los valores máximos de las ltraciones de Vietoris-Rips fueron 1,0.8 y 2 respectivamente para S , S y T . En el
1 2 2
caso de las ltraciones para los complejos testigo, el valor máximo de la ltración varia con respecto a la muestra, el cual
se calcula tomando una proporción de la distancia máxima existente entre los puntos de referencia y la nube de datos
completa.
Al pie de cada imagen indicamos si la muestra simulada tiene ruido añadido o no. En cada caso, el ruido es N (0, σId ),
donde d es la dimensión del espacio ambiente donde está encajada cada una de nuestras nubes de datos. Cabe aclarar
que en el caso del toro T2 , a pesar de que la simulación es de S1 × S1 cuya dimensión es 4, aplicamos un homeomorsmo
(aplicación que nos conserva la topología del espacio) sobre el toro T2 = S1 × S1 a R3 para poder visualizarlo. Dicho
homeomorsmo es:
f (x, y, w, z) = ((z + 2)x, (z + 2)y, w).
El fundamento teórico de Mapper está descrito también en la parte I de este proyecto, además en el análisis desarrollado
en esta simuliaciones, cuando nos referimos a las llamaradas estamos hablando de los grafos que no tienen ciclo (con forma
de ramas o brazos) y parten de una raiz común. El hecho de llamarlos así es una latinización de como Carlsson et al. [6] los
llaman en su artículo, se reeren a ellos como ares haciendo referencia a las erupciones solares. Para este mismo resumen,
estamos utilizando las primeras dos componentes de la descomposición SVD de la matriz de distancias de nuestras nubes
de datos simuladas
Cabe señalar que las interpretaciones realizadas en cada una de las simulaciones son a ojo, pues se trató de implementar
las bandas de conanza descritas tanto en la Parte I de este proyecto como en el Capítulo 5 de las notas de clase, pero no
tienen un buen comportamiento al implementarlas en los diagramas calculados mediante la ltración de Vietoris-Rips, aún
16
utilizando elección de un h óptimo en el caso de utilizar la función kernel en el comando bootstrapBand de la paquetría
TDA de R.
Las simulaciones con ruido se realizan utilizando el modelo
10.1. N(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Podemos observar que no es ningún problema para los 4 algoritmos el encontrar que se trata de una sola componente
conexa, con un ciclo de dimensión 1.
Particularmente, observamos que la ltración Vietoris-Rips encuentra un poco de ruido respecto a las componentes
conexas, pero ningún tipo de ruido al encontrar el hueco 1-dimensional. Mientras que ambos complejos testigo, tanto el
17
fuerte como el débil, a pesar de tener sólo una décima parte del tamaño de la muestra, encuentra en el primer instante la
homología del círculo unitario S1 .
Mapper es el más rápido de los 3 en encontrar dichas características.
16 T
20 A
lio IM
Ju -CD
AT
Al añadir un poco de ruido, notamos que el algoritmo Vietoris-Rips agrega bastante ruido topológico cercano a la
diagonal al calcular la persistencia del ciclo de dimensión 1; igualmente lo hacen ambos complejos testigo.
En el grafo que nos entrega de salida Mapper, observamos que detecta fácilmente el ciclo 1-dimensional, pero las
llamaradas que salen del grafo en color azul y rojo, denotan la existencia de una mayor concentración de puntos alrededor
de este color, como podemos notarlo en la representación arriba a la izquierda de la nube de puntos. Los pequeños puntos
del centro, son puntos en los que el algoritmo no pudo agruparlos en ninguno de los clústers creados.
18
10.3. N(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
En este caso, al añadir un ruido más grande, observamos que el círculo que esperaríamos ver, se nota casi cerrado.
La ltración Vietoris-Rips encuentra casi cercana a la diagonal la persistencia de un ciclo 1-dimensional (aquí es donde
nos sería util la utilización de las bandas de conanza vistas en clase para poder determinar cuando algo cercano a la
diagonal es relevante para nuestro análisis).
En el caso de los complejos testigo, ambos encuentran rápidamente la componente conexa, pero se les diculta bastante
encontrar el agujero 1-dimensional, el que logran encontrar, en ambos casos, logra persistir hasta alrededor de 0.04.
En el último caso, Mapper logra detectar el hueco 1-dimensional, pero con más dicultad comparándolo con los dos
casos anteriores, las llamaradas más largas que salen en este caso de los extremos nos indican la evidente concentración
que tenemos alrededor de dicho hueco.
19
10.4. N(0,Σ), ρ = 0.95
16 T
20 A
lio IM
Ju -CD
AT
A pesar de que podemos ver una separación notoria en la parte superior izquierda en la representación de nuesta nube
de datos, la ltración Vietoris-Rips detecta en la homología sólo una componente conexa y un sólo ciclo, pero aquí cabe
destacar que de principio logra detectar 3 componentes conexas, las cuales a un tiempo aproximado a 0.3 se cubren dos de
éstas, dando paso a solo una componente conexa. Luego, cuando t = 0.5 aproximadamente, aparece el ciclo de dimensión
1 que persiste hasta el nal del valor máximo de nuestra ltración.
En el caso del complejo testigo débil, es capaz de detectar dos componentes conexas que persisten y ningún ciclo
de dimensión 1. El complejo testigo fuerte logra detectar dos componentes conexas pero rápidamente se unen cuando la
ltración está alrededor de 0.05.
Mapper logra detectar dos componentes conexas, cuyos colores nos indican cuál es cada una de estas componentes. La
gran cantidad de grafos pequeños que encontramos en la parte inferior son los puntos que se encuentran entre las que
Mapper considera como las dos componentes conexas, nuevamente podemos utilizar el color de los nodos para determinar
esto.
20
10.5. N(0,Σ), ρ = 0.95, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
Al añadir ruido, podemos notar que el hecho de que las variables tengan dependencia nos genera una acumulación de
datos en el sentido de la recta identidad, cuestión que no fuimos capaces de detectar cuando no había ruido.
Pero nuevamente, a la ltración Vietoris-Rips se le complica detectar la separación de la cual hablábamos en el caso
anterior, misma que se da debido a la correlación de las variables. Esta algoritmo detecta al nal de la ltración sólo una
componente conexa y un ciclo de dimensión 1.
El complejo testigo débil logra detectar 3 componentes conexas de inicio, las cuales se van uniendo a otra componente
conexa con el paso del tiempo. Para el caso del complejo testigo fuerte, podemos ver que sólo encuentra una componente
conexa y es capaz de detectar un ciclo de dimensión 1.
Mapper logra detectar dos componentes conexas y ruido entre ellas, esto debido a la densidad que existe en cada uno
de los clusters deidos por el algoritmo.
21
10.6. N(0,Σ), ρ = 0.95, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
En este caso podemos observar una clara distinción en dos grupos de datos en nuestra nube, a pesar de esto y
dada la cercanía que existe entre los dos conjuntos de datos, los 4 resúmenes topológicos son capaces de detectar una
sola componente conexa. También, todos los algoritmos son capaces de detectar un ciclo de dimensión 1, el cual muere
rápidamente por la distancia que existe entre los puntos. Las llamaradas largas que nalizan en naranja en el grafo de
Mapper nos indican cómo se da la concentración de datos y cómo se acumulan en una misma dirección.
22
10.7. GUE
16 T
20 A
lio IM
Ju -CD
AT
Para el presente caso, volvemos a notar como se concentran los datos en dos componentes y que existe una repulsión en
el la dirección y = x. En los 4 casos es posible detectar las dos componentes conexas. Claramente después de cierto tiempo
en las ltraciones de Vietoris-Rips y en el testigo debil se unen las dos componentes para formar un ciclo de dimensión
1, el cual no es detectado por el testigo fuerte. Debido a la técnica de clustering implementada en tiene Mapper, éste es
capaz de detectar ambas componentes conexas y ninguna especie de puente entre ellas. Podemos observar que en este
caso todas realizan los cálculos en tiempos similares.
23
10.8. GUE, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
Similar al caso anterior, podemos observar que la ltración Vietoris-Rips detecta ambas componentes conexas y después
de un tiempo dado estas se vuelven una para formar además, el ciclo 1-dimensional que esperariamos ver en S1 .
El caso es ligeramente distinto para los complejos testigo, pues estos detectan una sola componente conexa desde el
principio de la ltración, misma que pasado un tiempo se cierra y forma el ciclo 1-dimensional descrito en el código de
barras.
Nuevamente, Mapper a pesar del ruido es capaz de detectar ambas componentes conexas y separa además el ruido que
hace de puente entre las dos componentes causante de que las ltraciones al calcular la homología detecten como si se
tratara de una sola.
24
10.9. GUE, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
En esta situación, vemos que los 4 algoritmos detectan una sola componente conexa. El Vietoris-Rips logra captar el
agujero 1 dimensional del centro y persiste de manera considerable para ser considerado como característica de los datos.
Los complejos testigo logran captar una componente conexa desde el principio de la ltración y encuentran pequeños
ciclos 1-dimensionales, los cuales rápidamente mueren.
Por último, Mapper detecta también este ciclo, el cual nos hace ver que es pequeño a consideración de la densidad de
los datos y cómo estos se concentran en una dirección particular, por eso es que podemos observar esas llamaradas que
salen del ciclo en el grafo.
25
10.10. Cauchy(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Este caso se comporta de una manera muy similar al primero de los mostrados, cuando las variables son N (0, 1). Al
igual que en ese caso, las ltraciones Vietoris-Rips y ambas testigo, captan inmediatamente las características topológias
que debería presentar el círculo: una componente conexa y un solo ciclo 1-dimensional. Como podemos notar en los
primeros 3 códigos de barras, el ruido encontrado en cada caso es mínimo e inmediatamente dan paso a los números de
Betti β0 = 1, β1 = 1.
En este ejemplo, hay una característica importante de que mencionábamos anteriormente que Mapper es capaz de
detectar, además de la componente conexa y el ciclo 1-dimensional, puede darnos detalle de cómo están concentrados los
datos alrededor de S1 . En el grafo podemos ver que los puntos de color más fuerte tanto para el azul y el rojo son de mayor
tamaño. El hecho de que los nodos vayan decreciendo en diámetro nos indica que hay una alta concentración de puntos en
los polos; éste último detalle es lo que distingue las nubes de datos provenientes de cocientes de normales independientes
y Cauchy independientes.
26
10.11. Cauchy(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
Es ahora cuando podemos notar la diferencia descrita en el caso anterior. Es posible observar cómo la concentración de
datos se da alrededor de los polos y en cierta medida en lo que sería la intersección con el eje x, lo cual también se puede
notar en el grafo que nos otorga Mapper en conjunto con las llamaradas que son notorias en el mismo. En el caso de las 3
ltraciones restantes, podemos ver que son ecientes al encontrar la componente conexa y el ciclo 1-dimensional, efectiva-
mente se encuentran con ruido, pero este queda muy cercano a la diagonal en el diagrama de persistencia correspondiente
a la ltración Vietoris-Rips. Por último, para los complejos testigo el ruido encontrado es casi nulo.
27
10.12. Cauchy(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
28
10.13. Cauchy(0,3)
16 T
20 A
lio IM
Ju -CD
AT
Vemos que este caso es parecido al Cauchy(0,1), con la diferencia de que ahora la concentración de los puntos aumenta
sobre la intersección del eje x. Podemos decir entonces que dicha concentración de los datos es sobre los puntos cardinales
de S1 . También es posible notar que tanto la ltración Vietoris-Rips, como las de los complejos testigo no tienen problema
alguno en detectar la única componente conexa, así como el hueco 1-dimensional.
Esta vez, es más evidente en el grafo arrojado por Mapper que hay una mayor concentración sobre los polos, así
mismo es posible notar concentración en los otros dos puntos cardinales. Esta concentración se ve aumentada conforme
incrementamos el valor de a en la distribución de Cauchy.
29
10.14. Cauchy(0,3), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
A diferencia con respecto al caso sin ruido, podemos notar ruido topológico en el cálculo de la homología, el cual se ve
reejado en la ltración Vietoris-Rips. Para los complejos testigo el ruido topológico es apenas perceptible en la dimensión
1. Por último, en Mapper podemos notar la presencia de ruido por las llamaradas que salen del grafo y en una mayor
concentración sobre los nodos cercanos a estas.
30
10.15. Cauchy(0,3), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
Por último, vemos que como en los casos anteriores, es difícil para los algoritmos de los complejos simpliciales encontrar
el hueco 1-dimensional que logramos percibir a vista en la nube de datos. Mapper logra encontrar el ciclo, asi como la
concentración perceptible en mayor nivel alrededor de éste.
11.1. N (0, 1)
Generamos dos juegos de variables independientes mediante la distribución cociente de normales que dan lugar a la
distribución uniforme en S1 . Cada muestra es de tamaño n = 5000. Cabe destacar que ambos anillos no se tocan de alguna
manera.
31
16 T
20 A
lio IM
Ju -CD
AT
Para este caso, podemos ver cómo ninguna de las ltraciones, ni el algoritmo Mapper tienen problemas para detectar
dos componentes conexas y dos ciclos 1-dimensionales. En el caso Vietors-Rips, los puntos que representan tanto a las
componentes conexas, como a los 1-ciclos están sobrepuestas en el diagrama de persistencia respectivo.
Una de las diferencias destacables es que el tiempo de cálculo en los complejos testigo es mucho menor. Además, para
poder calcular la homología en el caso de la ltración Vietoris-Rips, fue necesario tomar una submuestra de tamaño 2000,
esta muestra fue tomada de forma aleatoria. Mapper no tiene ningún problema en manejar la muestra completa, esto
debido a los algoritmos de agrupamiento utilizados y la simplicidad de grafo calculado.
32
11.2. N (0, 1), ruido σ = 0.002
16 T
20 A
lio IM
Ju -CD
AT
Nuevamente, ninguno de los algoritmos tuvo problema en detectar las dos componentes conexas y los dos ciclos. En esta
ocasión el tiempo de cálculo en el testigo débil se triplicó y el tiempo en el cálculo de la ltración Vietoris-Rips también se
vió incrementado por casi 10 segundos, esto puede deberse a la presencia del ruido, lo que hace que se encuentren mucho
más simplejos durante la ltración. Mapper mantiene su posición y realiza el cálculo de manera muy rápida comparado
con los otros 3 métodos, encontrando las mismas características que la vez anterior a ésta.
33
11.3. N (0, 1), ruido σ = 0.009
16 T
20 A
lio IM
Ju -CD
AT
En este caso, podemos notar que los cuatro métodos son capaces de encontrar una sola componente conexa y localizan
tres ciclos, esto puede deberse a que en la presencia de ruido grande, los dos anillos casi se tocan, por lo que es difícil
para los algoritmos notar que se trata de componentes conexas distintas, además, dicha unión crea los tres 1-ciclos que
detectan las distintas ltraciones.
34
12. Esfera unitaria
12.1. N(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Al igual que como se ha presentado hasta el momento en las muestras sin ruido, tanto las ltraciones Vietoris-Rips
como las testigo débil y fuerte, son capaces de encontrar la componente conexa y el vacío 2-dimensional que representan
homológicamente a la esfera S2 . Aunque podemos ver que, tanto la ltración Vietoris-Rips, como la del complejo tes-
tigo testigo fuerte, encuentran ruido topológico 1-dimensional, pero este persiste poco tiempo para ser considerado una
propiedad topológica relevante de la muestra.
Como mencionamos al principio, uno de los problemas que tenemos actualmente con el algoritmo Mapper, es que no
podemos mostrar aún propiedades homológicas 2-dimensionales, sólamente somos capaces de mostrar la estructura de los
datos, que en este caso sólo nos dice que se trata de una componente conexa, y debido a que cada grupo generado mediante
el agrupamiento, todos son del mismo tamaño, esto puede se debe a la uniformidad con la que se generaron los datos en
la esfera.
35
12.2. N(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
En esta situación, podemos notar que la presencia de ruido 1-dimensional se comporta de manera similar al caso en
el que no teníamos ruido añadido a la muestra, pero el ruido topológico de dimensión 2 aumenta bastante, aunque este
se encuentra muy cerca de la diagonal. Este ruido 2-dimensional casi no es detectado por los complejos testigo, pero en el
caso del testigo débil se ve aumentada la actividad del ruido 1-dimensional. Para Mapper, el resultado de salida no se ve
perturbado en comparación al caso anterior.
36
12.3. N(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
Al aumentar el tamaño del ruido, vemos que la esfera se ve colapsada en una sola nube de puntos aglomerados, lo
cual detectan los algoritmos de complejos simpliciales. Podemos notar una mayor presencia de ruido 1 y 2 dimensional en
todos los casos, pero dicha presencia es mucho más evidente en el caso del Vietoris-Rips. También, podemos notar que en
esta situación el tiempo del cálculo se ve disminuido en el VR a comparación del caso anterior. En esta situación, Mapper
nos describe muy poco de la estructura de nuestros datos dada la naturaleza del algoritmo.
37
12.4. N3 (0, Σ), ρ = (0.9, 0.5, 0.8)
16 T
20 A
lio IM
Ju -CD
AT
Para esta situación, sólo corrimos el análisis para Mapper y los complejos testigo, pues en el caso de la ltración Vietoris-
Rips fue imposible para el equipo de cómputo en el que estamos trabajando realizar los cálculos de la homología. Para
los casos que presentamos, podemos ver que encuentran una sola componente conexa, así como 2 ciclos 1-dimensionales.
También podemos ver que todos los algoritmos encuentran presencia de más ruido 1-dimensional.
38
12.5. GUE
16 T
20 A
lio IM
Ju -CD
AT
A pesar de lo que podemos ver en la representación gráca de la nube de puntos, la ltración Vietoris-Rips detecta una
sola componente conexa además de un ciclo 1-dimensional, aunque podemos observar que existen 3 puntos que podríamos
considerar relevantes además del que persiste hasta el nal de la ltración.
Los complejos testigo no son capaces más que de detectar una sola componente conexa, pero aquí podemos ver que se
encuentran un número mayor de 1-ciclos que persisten un buen tiempo en la ltración. También, podemos ver que estas
ltraciones notan que la esfera no está cerrada, ya que no encuentran algún vacío de dimensión 2.
Por último, Mapper no detecta ciclos uno dimensionales como tal, si no que podríamos considerarlos como ruido al ser
demasiados pequeños, podemos ver que detecta dos componentes conexas, una probable explicación de las 3 llamaradas
en cada grafo, es que podrían ser cada uno de los gajos que podemos ver y que estas posibles dos componentes conexas se
vean separadas por donde hay una mayor repulsión, al centro de la esfera.
39
12.6. GUE, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
En esta situación podemos observar de manera visual como es que los gajos que podíamos ver anteriormente, comparten
puntos entre ellos, razón por la cual es aún más difícil para los algoritmos simpliciales detectarlos, detalle que podemos
observar en los códigos de barras asociados a cada ltración. Nuevamente podemos ver que los tres algoritmos simpliciales
detectan al menos un ciclo de dimensión 1 al nal de la ltración, pero también se detecta mucho más ruido de esta
dimensión, mientras que para dimensión 2, el ruido es casi imperceptible en los 3 casos.
En el caso de Mapper, podemos observar cómo se fusionan las dos componentes conexas detectadas anteriormente,
pero dicho puente entre ellas es débil y apenas contiene puntos en común, cosa que podemos observar en el tamaño de
los vértices centrales, esto indica una baja densidad en cada uno de estos grupos; así mismo, somos capaces de observar
nuevamente al menos 4 llamaradas.
40
12.7. GUE, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
En este caso, podemos ver cómo los gajos que observamos anteriormente ya no existen, se han unido todos como
una sola componente conexa y por tanto en esta ocasión los 3 algoritmos simpliciales alcanzan a detectar ruido de hasta
dimensión dos, habiendo algunos que persisten fuertemente. También notemos en el Diagrama de Rips que se encuentran
muchas más componentes conexas que las que podría detectar cualquiera de los otros algoritmos. Mapper sólo alcanza a
notar una componente conexa, en cuyo caso el comportamiento del grafo es similar a los correspondientes formados por
las esferas que hemos simulado hasta ahora.
41
12.8. Cauchy(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Para el caso Cauchy, podemos observar claramente tanto en las ltraciones Vietoris-Rips como ambas de los complejos
testigo cómo es que se detectan una sola componente conexa y un vacío 2-dimensional tal cual se tratase de una esfera,
pesar de que estos algoritmos detectan ruido 1-dimensional. Mapper es capaz de detectar cómo se da la concentración en
los puntos cardinales de la esfera, es por eso que podemos ver llamaradas con un centro en común y cuyas puntas se ven
cargadas con una mayor densidad de puntos.
42
12.9. Cauchy(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
En esta ocasión, podemos ver cómo las características homológicas detectadas por los 3 algoritmos simpliciales tienen
un comportamiento similar a la situación anterior, pero Mapper nos indica cómo se crea un nuevo grupo de concentración
de puntos en la esfera.
43
12.10. Cauchy(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
Al igual que en el caso GUE, podemos ver cómo se cierra la esfera en una nube densa de puntos que, para la ltración
Vietoris-Rips es imposible detectar más allá de una componente conexa, sólo ruido 1 y 2 dimensional, cuyo comportamiento
comparte con las ltraciones de los complejos testigo débil y fuerte. Igualmente, Mapper sólo alcanza a detectar un
comportamiento similar al de una esfera, salvo que no podríamos decir más pues como hemos estado mencionando, somos
incapaces de inferir características homológicas de dimensión 2 o mayor.
13. Toro
En cada uno de los casos que presentamos a continuación, se cambió la organización de los resúmenes topológicos. La
imagen de la nube de datos a la izquierda corresponde al grafo superior y la imagen de la nube de datos a la derecha
corresponde al grafo inferior. Así mismo, el cálculo de la homología mediante la ltración Vietoris-Rips se realizó con una
submuestra de tamaño 800.
44
13.1. N(0,1)
16 T
20 A
lio IM
Ju -C
Vietoris-Rips(800) 1 2 1 1060.79
Testigo débil(100) 1 2 1 3.42
Testigo fuerte(100) 1 2 1 1.12
Mapper(1000) 1 2 - 0.79
Podemos ver que Mapper es capaz de localizar una componente conexa y los dos ciclos de dimensión 1. Igualmente,
los complejos testigo detectan una componente conexa, dos ciclos de dimensión 1 y un vacío 2 dimensional, aunque en
el caso del testigo débil, podemos ver que el vacío 2 dimensional aparece casi al nal de la ltración y su persistencia es
corta hasta ese instante. Así mismo, podemos ver que se ubica bastante ruido 1 dimensonal en ambos complejos testigo,
pero con mayor presencia en el testigo fuerte.
45
13.2. N(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
En este caso, ninguno de los algortimos tiene problemas en detectar la única componente conexa, los dos agujeros 1
dimensionales así como el vacío 2 dimensional respectivos del toro. Podemos notar en los tres algoritmos simpliciales que
existe ruido, pero en el caso de Vietoris-Rips este se encuentra bastante cercano a la diagonal, mientras que para ambas
ltraciones testigo se tiene bastante ruido 1 dimensional que persiste casi hasta la mitad de la ltración. En el caso de
Mapper, es capaz de detectar ambas componentes conexas, así como los dos agujeros 1 dimensionales.
46
13.3. N(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
Como es de esperarse, ninguno de los algoritmos es capaz de detectar los ciclos, esto debido a cómo se cierra la nube de
puntos. Vietoris Rips tampoco detecta más que ruido en el caso 2 dimensional, pero podemos notar varias componentes
de este tipo que pueden ser consideradas relevantes en ambas ltraciones testigo, también, estas mismas nos muestran
bastante ruido 1 dimensional en la persistencia. Todos los algoritmos son capaces de detectar una sola componente conexa.
Mapper no detecta esta vez algún ciclo.
47
13.4. N (0, Σ), ρ = 0.9
16 T
20 A
lio IM
Ju -CD
AT
En este caso, podemos ver que Mapper es capaz de detectar una sola componente conexa, dos ciclos grandes y
alrededor de 4 ciclos más pequeños pequeños. Mientras que Vietoris Rips detecta una sola componente conexa, 1 ciclo que
es notable, pero también logra percibir otros 3 ciclos cuya persistencia es menor pero destacable tanto en el diagrama de
persistencia como en el código de barras. En el caso de los complejos testigo, podemos ver que el débil alcanza a detectar
una componente conexa, dos ciclos de mayor persistencia, pero alrededor de 3 ciclos más cuya persistencia es notoria en
el código de barras, mientras que en el fuerte además de una componente conexa, podemos ver que al nal de la ltración
persisten 5 ciclos pero son notorios alrededor de 5 más a lo largo de la ltración.
48
13.5. N (0, Σ), ρ = 0.9, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
Mapper detecta una componente conexa con bastante ruido alrededor de ella, dos ciclos grandes y otros dos ciclos
más pequeños, así mismo podemos notar una concentración mayor en la parte central y en una de las laterales misma
que se alcanza a apreciar tanto en el coloreado de los nodos como en el tamaño de los mismos. Vietoris-Rips deecta al
nal de la ltración una componente conexa pero alrededor de 4 0 5 ciclos destacables, aunque es más difícil determinar
cuantos vacíos podemos considerar relevantes en la ltración. Los complejos testigo detectan ambos una sola componente
conexa, pero mientras el débil detecta dos ciclos destacables y un vacío 2 dimensional, el complejo testigo fuerte detecta
al menos 5 ciclos 1 dimensionales.
49
13.6. N (0, Σ), ρ = 0.9, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
Cuando añadimos ruido cuyo valor es σ = 1, podemos ver como se cierra la nube de puntos en una sola componente
conexa, situación que podemos observar en los resúmenes que tenemos de cada uno de los métodos. Nuevamente, los
algoritmos simpliciales correspondientes a los complejos testigo además de la única componente conexa, detectan bastante
ruido 1 dimensional que persiste bastante tiempo en la ltración, así como dos vacíos que persisten un buen lapso de
tiempo en el testigo débil, mientras que para el fuerte también detecta al menos 3 vacíos que persisten una cantidad
similar de tiempo en la ltración. En el caso de Mapper se detecta una sola componente conexa, pero cuando utilizamos
el segundo valor de la SVD podemos ver cómo el ciclo aquí presente se ve afectado por ruido.
50
13.7. GUE
16 T
20 A
lio IM
Ju -CD
AT
Similar a los casos anteriores, podemos ver en el algoritmo Vietoris Rips que solo detecta una componente conexa
y en las demás dimensiones solo ruido que podríamos considerar irrelevante. En el caso de los complejos testigo, ambos
detectan una componente conexa y ruido 2 dimensional que persiste durante buena parte de la ltración, mientras que
para el ruido 1 dimensional, se tiene un comportamiento similar a casos anteriores, vemos que se detecta bastante y hay
algunos ciclos que persisten durante bastante tiempo en la ltración.
51
13.8. GUE, ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
En este caso podemos ver cómo Mapper detecta al menos 5 ciclos pequeños y uno de tamaño un poco mayor, así como
una sola componente conexa. Los tres algoritmos simpliciales detectan una sola componente conexa. En el caso de Vietoris
Rips, podemos ver que se encuentran 2 ciclos que podríamos considerar destacables, pero ningún vacío. En los casos de
los complejos testigo, ninguno de los detecta algún vacío, pero si encuentran bastantes ciclos 1 dimensionales que son más
fáciles de ver en el código de barras correspondiente al complejo testigo débil.
52
13.9. GUE, ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
A pesar de que todos los algoritmos nos dicen que se encuentra una sola componente conexa, podemos notar de manera
visual en la representación de nuestra nube de puntos la ligera separación que crean las variables GUE al centro de la
misma. Nuevamente, todos los algoritmos simpliciales detectan bastante ruido 1 y 2 dimensional, pero al igual que en los
casos anteriores, los complejos testigo presentan mucho mayor ruido de estas dimensiones que persiste periodos más largos
en proporción al tiempo total de la ltración.
53
13.10. Cauchy(0,1)
16 T
20 A
lio IM
Ju -CD
AT
Como hemos visto hasta ahora en los casos para S1 y S2 , cuando simulamos variables independientes Cauchy(0,1), el
comportamiento es similar al caso en el que tenemos variables normales independientes de media µ=0 y varianza σi = 1,
cuestión que podemos notar cierta limpieza, tanto del código de barras como el diagrama de persistencia en la ltración
Vietoris-Rips. Sin embargo, podemos ver cómo en el caso de las ltraciones testigo, se encuentra un alto número de ciclos
que consideramos como ruido pero de alguna manera nos indican alguna anormalidad en los datos, en comparación con
la distribución uniforme sobre la esfera. En el caso de Mapper podemos ver cómo se extienden las llamaradas en ambas
proyecciones sobre los primeros vectores propios.
54
13.11. Cauchy(0,1), ruido σ = 0.005
16 T
20 A
lio IM
Ju -CD
AT
En este caso, es mucho más perceptible para Mapper la concentración en al menos dos puntos de T2 , cosa que sigue
pasando desapercibida para la ltración Vietoris-Rips. Nuevamente podemos ver alta presencia de ruido 1 dimensional en
ambos complejos testigo, además el testigo débil no logra notrar la presencia del vacío 2 dimensional que tanto la fuerte
como la Vietoris-Rips detectan.
55
13.12. Cauchy(0,1), ruido σ = 0.1
16 T
20 A
lio IM
Ju -CD
AT
Este caso no es diferente a sus análogos en las demás situaciones de simulación, tanto Mapper como Vietoris Rips son
incapaces de detectar ciclos 1 y 2 dimensionales, encontrando este último bastante ruido en estas dimensiones. Ambas
ltraciones testigo detectan bastante ruido 1-dimensional, además de la única componente conexa que sus otras dos
contrapartes, pero en esta situación el ruido persiste una cantidad de tiempo mucho más corta que lo que hemos venido
viendo en comportamiento hasta ahora para todos los casos del Toro; también, las ltraciones testigo pueden detectar al
menos 2 vacíos 2 dimensionales que persisten bastante tiempo.
56
Parte IV
Observaciones y conclusiones
En este proyecto, como el lector pudo haberlo constatado, estamos trabajando con escenarios que están bajo nuestro
control, pues como se comenta en la parte introductoria al Capítulo 4 de las notas, nos permite analizar los métodos
presentados en el curso ante supuestos alternativos. Así mismo, sabemos qué tipo de información homológica y geométrica
deben entregarnos los algoritmos, de modo que el análisis explotatorio realizado en la Parte III nos sirvió como guía para
determinar de buena manera tamaños de submuestra que hagan ecientes nuestros cálculos y que además preserven la
forma de los datos.
A continuación mencionamos algunos detalles que encontramos sobre el algoritmo simplicial de Vietoris-Rips imple-
mentado en la paquetería TDA de R.
El cálculo de la homología mediante la ltración de Vietoris-Rips implementada en la paquetería TDA de R, muy
particularmente para el toro T2 , pudimos ver que una muestra de tamaño menor a 800 puntos, se comporta de una
manera amigable con el equipo de cómputo, mientras que para muestras de tamaño mayor a este número, el sistema
operativo se queda sin recurso suciente para seguir funcionando. Cabe aclarar que el tamaño de la ltración estaba en 2,
pues antes de esto no captaba algunas características homológicas que debíamos esperar. Así pues, además del tamaño de
16 T
muestra, también inuye bastante tanto el tamaño de la ltración, como la dimensión en la que se calcula la homología.
De modo que tuvimos que buscar hacer combinaciones entre tamaño de muestra y de la ltración, de forma tal que los
recursos computacionales no se vieran fuertemente afectados.
20 A
En el caso de la esfera, el algoritmo de Vietoris-Rips no tiene problema en calcular la homología para una nube de
datos de tamaño 1000. A diferencia del toro, el valor de la ltración de 0.7 captura todas las características homológicas
lio IM
de S2 . Así pues, como mencionamos en el párrafo anterior, es posible encontrar una combinación en equilibrio entre el
tamaño de muestra y el valor máximo de la ltración.
Al realizar los cálculos sobre el círculo unitario S1 , dada su baja dimensión, el algoritmo no tiene complicaciones en
trabajar con muestras de tamaño 1000 o superior, tomando en cuenta que el valor máximo de la ltración era a lo más 1.
Ju -C
Cuando agregamos ruido pequeño a nuestra nube de datos, pudimos observar que la detección de las características
homológicas en rara ocasión se vió afectada, pues el comportamiento en los códigos de barras y en los diagramas de
persistencia se mantiene de manera similar, salvo ruido topológico que podríamos considerar despreciable. De tal modo
que es necesario implementar bandas de conanza para distinguir características reales de ruido topológico. También, para
D
cada caso, cuando añadimos ruido más grande, pudimos notar como las características detectadas para los casos sin ruido
y con ruido pequeño se perdían la mayoría de las veces.
AT
En cambio, cuando hacemos uso de los complejos testigo tenemos un comportamiento en costo computacional diferente.
En el caso del círculo unitario S1 bastó tomar una selección de puntos de referencia no mayor a tamaño 40 para que éste
capturara las características homológicas particulares de esta variedad. En el caso de la esfera S2 y el toro T2 , la selección
de puntos de referencia siempre fue ja en 150 puntos, en ambos casos, el algoritmo detectaba de manera eciente las
características homológicas de interés en los casos sin ruido e incluso con ruido pequeño. Al añadir ruido grande, el
algoritmo tenía un comportamiento similar al VR en el sentido de que las características homológicas se perdían, pues no
era capaz de detectarlas. El tiempo de ejecución de los complejos testigo es mucho menor en comparación al Vietoris-Rips
en el caso de muestras grandes, pero hay ocasiones en las que no es capaz de detectar de manera correcta las características
homológicas, esto puede deberse al tamaño del conjunto de puntos de referencia tomado. Nótese también que los valores
en estas ltraciones varian con respecto a la muestra, pues como indicamos en la Parte III, al presentar los complejos
testigo, es necesario un valor pequeño en la ltración para capturar de manera eciente las características que describen
a cada variedad, este valor de la ltración fue tomado en función de la distancia máxima que existe entre los puntos de
referencia y la nube de datos completa.
A pesar de la eciencia en tiempo comparado ante los otros dos métodos, una de las problemáticas principales que
tenemos con Mapper es que estamos restringidos sólo a detectar huecos de dimensión 0 y 1, esto debido a que el software
se encuentra aún en fase de desarrollo. Se intentó modicar el código madre del software para tratar de implementarlo en
huecos de dimensión 2, pero esa situación va más allá de los alcances pretendidos en este proyecto así como del curso.
Mapper es bastante bueno al ser utilizado como herramienta complementaria a los resúmenes topológicos presentados
en este proyecto, pues nos permite darnos una idea de las estructura de los datos, así como posibles concentraciones
anormales de datos en las variedades. Así mismo, los complejos testigo también pueden ayudar como una segunda
opinión a lo obtenido mediante la ltración Vietoris-Rips.
Una de las cosas que también se estuvo trabajando en este proyecto, es en la eliminación de datos aberrantes (outliers)
de las muestras, pero no se reporta debido a que su funcionamiento no es eciente, pues suceden dos cosas, o elimina
demasiados puntos de modo que se pierden las características homologícas y geométricas de los datos, o elimina muy
57
pocos puntos de tal manera que las características aberrantes tanto geométricas como homológicas se mantienen.
Nota: Todas las simulaciones se corrieron bajo un procesador x6 a 3.5GHz con 16GB de memoria RAM hasta los
casos de la esfera. Para el toro sólo pudimos realizar los cálculos con estas características para los complejos testigo y para
Mapper. En el caso de la ltración de Rips fue imposible realizar los cálculos de la homología para una nube de puntos
mayor a 800, para la cual incluso el tiempo de cómputo fue bastante grande (más de 1 hora para cada uno), razón por la
cual decidimos usar el la estación de trabajo del proyecto de ATD. Incluso el servidor del proyecto de ATD fue incapaz de
realizar los cálculos para las nubes de puntos de tamaño 1000 en un tiempo no menor a 1 hora con 20 minutos. Las razones
descritas anteriormente nos llevo a realizar los cálculos de la homología tomando submuestras de tamaño 800 corriéndolos
en la estación de trabajo, en promedio les tomó alrededor de 20 a 30 minutos cada uno en realizarse. Dependiendo del
número de puntos y de la distribución con la que se generaron las muestras, la cantidad de memoria RAM que utilizaba
el algoritmo se veía bastante alterada, llegando a consumir un 80 % de la totalidad de memoria del servidor cuando las
muestras eran de tamaño 1000 y estaban sobre variedades donde la distribución no era uniforme. Cabe señalar que las
características del servidor del proyecto de ATD del CIMAT son las siguientes: 2 procesadores x6 a 3.4GHz con 128GB de
memoria RAM . Así pues, creemos que el algoritmo de TDA implementado en R tiene algunos problemas de optimización,
de modo que un posible camino sería explorar de manera particular el algoritmo GUDHI el cual está implementado por
el grupo de INRIA y compilado bajo librerías de C + +.
16 T
Cosas por hacer:
20 A
Se requiere optimizar la paquetería TDA de R, pues utiliza bastante recurso de memoria y procesamiento a tal grado
que inutiliza el sistema operativo.
lio IM
Explorar de manera individual las paqueterías Dyonisus, DIPHA y GUDHI que se incluyen en la paquetería TDA
de R, pues al estar implementadas en C ++ posiblemente tengan una mayor eciencia.
ya que al aplicarlas de la manera en que están desarrolladas actualmente es posible inferir de manera errónea las
características homológicas.
Aplicar teoría estadística para interpretar la relevancia de características geometrícas brindadas por Mapper, ya
D
que existen muchas características detectadas en el algoritmo que podrían ser consideradas como ruido. Un posible
camino sería aplicar técnicas de bootstrap y calcular un p−valor sobre la hipótesis de un número determinado
de características geométricas, de dimensión 1, por ejemplo, herramientas que ya se han utilizado en las otras
AT
metodologías de TDA, como por ejemplo en diagramas y panoramas de persistencia, como se muestra en el capítulo
5 de las notas.
Mejorar o reescribir el código de Python Mapper para poder obtener características geométricas de dimensión
mayor, pues como lo mencionamos en el desarrollo del proyecto, sólo podemos obtener características geométricas
de dimensión 0 y 1.
En base al punto anterior, aplicar técnicas de homología a los simplejos generados por el algoritmo para encontrar
características homológicas.
Eliminación eciente de ruido grande u outliers en la muestra, mediante una elección óptima del radio de la vecindad
sobre cada uno de los puntos de la nube de datos, así como de la cantidad de observaciones contenidas en ésta, de
modo que tales puntos sean signicativos en la muestra.
Profundizar con mayor detalle todos los casos presentados en este proyecto al cambiar tamaños de muestra, así
como otros tipos de ruido agregado a las variedades. Esto, con la nalidad de encontrar otras posibles combinaciónes
tamaño-valor de ltración, que hagan ecientes los cálculos.
58
Referencias
[2] V. De Silva, G. Carlsson, Topological estimation using witness complexes, Proc. Sympos. Point-Based Graphics,
157-166, 2004.
[4] B.T. Fasy, J. Kim, F. Lecci, C. Maria, Introduction to the R package TDA.arXiv preprint arXiv:1411.1830, 2014.
[5] D. Müllner, A. Babu, Python Mapper: An open-source toolchain for data exploration, analysis and visualization,
http://danifold.net/mapper, 2013.
[6] G. Singh, F. Mémoli, G. Carlsson, Topological methods for the analysis of high dimensional sets and 3D object
recognition, SPBG, 91-100, 2007.
16 T
20 A
lio IM
Ju -CD
AT
59