Está en la página 1de 7

Los datos recopilados de una variedad de fuentes han sido

acumulando rápidamente. Muchos campos de la ciencia tienen

pasado de estar hambriento de datos a ser rico en datos

y necesita aprender a lidiar con grandes datos

conjuntos. La creciente ola de datos también afecta directamente

nuestra vida cotidiana, en la que las computadoras nos rodean

usar algoritmos de procesamiento de datos para ayudarnos en las tareas

que van desde encontrar la ruta más rápida hasta nuestro

destino considerando las condiciones actuales del tráfico

para etiquetar automáticamente nuestras caras en imágenes; desde

Actualización en tiempo casi real de los precios de los artículos en oferta.

para sugerir la próxima película que podríamos querer

reloj.

El objetivo general de la minería de datos es encontrar útiles

y patrones interpretables en los datos. El término puede

abarcan muchos métodos diversos y por lo tanto

significa cosas diferentes para diferentes personas. Aquí nosotros

discutir algunos aspectos de la minería de datos potencialmente de

interés para una amplia audiencia de matemáticos.

Suponga un punto de datos de muestra x i (por ejemplo, una imagen)

puede emitirse en forma de un largo vector de números

(por ejemplo, las intensidades de píxeles en una imagen): representamos

como un punto en R D. Dos tipos de objetivos relacionados.

existe. Una es detectar patrones en este conjunto de puntos,

y el otro es predecir una función en los datos:

dado un conjunto de entrenamiento (x i, f (x i)) i, queremos predecir

f en puntos fuera del conjunto de entrenamiento. En el caso de

documentos de texto o páginas web, es posible que deseemos

etiquetar automáticamente cada documento como perteneciente


a un área de investigación; en el caso de las fotos, nosotros

podría querer reconocer caras; al sugerir el

próxima película para ver clasificaciones anteriores de películas

por un espectador, f consiste en clasificaciones de películas no vistas.

Por lo general, x i es ruidoso (p. Ej., Valores de píxeles ruidosos) y

también lo es f (x i) (por ejemplo, muestras mal etiquetadas en el entrenamiento

conjunto).

Por supuesto, los matemáticos se han preocupado mucho

ellos mismos con problemas de alta dimensión. Uno

ejemplo es estudiar soluciones de PDEs como funciones

iones en espacios de funciones de dimensiones infinitas y

realizar cálculos eficientes proyectando

el problema en subespacios de baja dimensión (a través de

discretizaciones, elementos finitos o composición del operador

presión) para que el problema reducido pueda ser

resuelto numéricamente en una computadora. En el caso

de soluciones de una PDE, el modelo para los datos

se especifica: mucha información sobre el PDE

es conocido, y esa información se explota para

predecir las propiedades de los datos y construir

proyecciones de baja dimensión. Para los datos digitales

discutido anteriormente, sin embargo, típicamente tenemos poco

información y modelos pobres. Podemos comenzar con

modelos crudos, miden su adecuación a los datos y

capacidad predictiva y, al no ser satisfactorias,

mejorar los modelos Este es uno de los principales

ceses en modelado estadístico y minería de datos. Eso

no es diferente a lo que hace un matemático aplicado

al modelar un sistema físico complejo: puede


comenzar con supuestos simplificadores para construir un

Modelo "manejable", deriva las consecuencias de tal

modelo (p. ej., propiedades de las soluciones) analíticamente

y / o con simulaciones, y compara los resultados

a las propiedades exhibidas por el mundo real

sistema ical Nuevas medidas y mundo real

se pueden realizar simulaciones y la aptitud

del modelo reevaluado y mejorado según sea necesario

para la próxima ronda de validación. Mientras que la física

impulsa el modelado en matemática aplicada, un

Nuevo tipo de intuición, basado en experiencias en el

mundo de conjuntos de datos de alta dimensión en lugar de

en el mundo de la física, impulsa la intuición de la

matemático establecido para analizar de alta dimensión

conjuntos de datos, donde los modelos "manejables" son geomet-

modelos ricos o estadísticos con un pequeño número de

parámetros

Una de las razones para centrarse en la reducción

ing la dimensión es para permitir cálculos,

pero una motivación fundamental es la llamada

maldición de dimensionalidad. Una de sus manifestaciones

surge en la aproximación de una función 1-Lipschitz

ción en el cubo de la unidad, f: [0, 1] D → R satisfactoria

| f (x) - f (y) | ≤ || x - y || para x, y ∈ [0, 1] D. A

lograr error uniforme? , muestras dadas (x i, f (x i)),

en general se necesita al menos una muestra en cada

cubo de lado? , para un total de? −D muestras, que es

demasiado grande incluso para, digamos,? = 10 −1 y D = 100 (a

dimensión bastante pequeña en aplicaciones). Una común


se supone que las muestras x yo yazco

un subconjunto de baja dimensión de [0, 1] D y / o f es

no simplemente Lipschitz sino que tiene una suavidad que

es adecuadamente grande, dependiendo de D (ver referencias

en 3 ]). Tomando la ruta anterior, se supone

que los datos se encuentran en un subconjunto de baja dimensión en

el espacio ambiental de alta dimensión, como un

hiperplano de baja dimensión o uniones de los mismos, o

colectores de baja dimensión o conjuntos más duros. Re-

los problemas de búsqueda requieren ideas de diferentes áreas

de las matemáticas, incluida la geometría, geométrica

teoría de la medida, topología y teoría de grafos, con

sus herramientas para estudiar múltiples o conjuntos más duros;

probabilidad y análisis funcional geométrico para

estudiar muestras aleatorias y medidas en alto

dimensiones; análisis armónico y aproximación

teoría, con sus ideas de análisis multiescala y

aproximación de funciones; y análisis numérico,

porque necesitamos algoritmos eficientes para analizar

datos del mundo real.

Como ejemplo concreto, considere lo siguiente

construcción. Dados n puntos {x i} n

i = 1 ⊂ R D y? >

0, construye W ij = exp (-

|| x i −x j || 2

2?

), D ii =

PAG

j W ij,
y la matriz laplaciana L = I - D -

2 WD -

2 en

el gráfico ponderado G con vértices {x i} y aristas

ponderado por W. Cuando x i se muestrea de un hombre

ifold M yn tiende al infinito, L se aproxima

(en un sentido adecuado) el operador de Laplace-Beltrami

en M [2], que es un objeto completamente intrínseco.

La caminata aleatoria en G, con matriz de transición

P = D −1 W, aproxima el movimiento browniano en M.

Considere, por un tiempo t> 0, la llamada difusión

distancia d t (x, y): = || P t (x, ·) - P t (y, ·) || L 2 (G) (ver

[2]). Esta distancia es particularmente útil para cap-

Turing clusters / agrupaciones en los datos, que son

regiones de difusión rápida conectadas por cuellos de botella

Esa lenta difusión. Sea 1 = λ 0 ≥ λ 1 ≥ ··· be

los valores propios de P y be yo soy el correspondiente

ing vectores propios (ϕ 0, cuando G es un gráfico web, es

relacionado con el pagerank de Google). Considere un diffu-

mapa de sion Φ t

re

que incrusta el gráfico en Euclidiana

espacio, donde Φ t

d (x): = (

λ t 1 ϕ 1 (x), ...,

q
λt

d ϕ d (x)),

para algunos t> 0 [2]. Se puede demostrar que el euclidiano

distancia entre Φ t

d (x) y Φ

d (y) aproximadas

d t (x, y), la distancia de difusión en la escala de tiempo t

entre x e y en el gráfico G.

En la Figura 1 aplicamos esta técnica a dos

conjuntos de datos completamente diferentes. El primero es un conjunto

de configuraciones de un péptido pequeño, obtenido por un

simulación de dinámica molecular: un punto x i ∈ R 12 × 3

contiene las coordenadas en R 3 de los 12 átomos

en la molécula de dipéptido de alanina (representada

como un recuadro en la Figura 1). Las fuerzas entre el

los átomos en la molécula restringen las trayectorias

estar cerca de conjuntos de baja dimensión en el 36-

espacio de estado dimensional. En la Figura 1 aplicamos el

construcción por encima de 1 y representan la difusión

incrustación de mapas de las configuraciones recopiladas [4].

El segundo es un conjunto de documentos de texto (artículos

de Science News), cada uno representado como un R 1153

vector cuya coordenada k es la frecuencia de

k ésima palabra en un diccionario de 1153 palabras. La difusión

incrustación en dimensiones bajas revela aún más baja-

estructuras geométricas dimensionales, que resultan

ser útil para comprender la dinámica de

el péptido considerado en el primer conjunto de datos y para


agrupación automática de documentos por tema en el

caso del segundo conjunto de datos. Ideas de probabilidad

(muestras aleatorias), análisis armónico (laplaciano),

y la geometría (múltiples) se unen en estos

tipos de construcciones.

Este es solo el comienzo de uno de muchos

buscar avenidas exploradas en los últimos años. Muchos

existen otras oportunidades interesantes, por ejemplo, la

estudio de redes dinámicas estocásticas, donde un

muestra es una red y múltiples muestras son

recogido a tiempo: cuantificación y cambio de modelado

requiere la introducción de métricas sensatas y robustas

entre grafos.

Lecturas adicionales: [5, 3, 1] y las referencias

en esto.

También podría gustarte