Mineria de Datos

Los datos recopilados de una variedad de fuentes han sido
acumulando rápidamente. Muchos campos de la ciencia tienen
pasado de estar hambriento de datos a ser rico en datos
y necesita aprender a lidiar con grandes datos
conjuntos. La creciente ola de datos también afecta directamente
nuestra vida cotidiana, en la que las computadoras nos rodean
usar algoritmos de procesamiento de datos para ayudarnos en las tareas
que van desde encontrar la ruta más rápida hasta nuestro
destino considerando las condiciones actuales del tráfico
para etiquetar automáticamente nuestras caras en imágenes; desde
Actualización en tiempo casi real de los precios de los artículos en oferta.
para sugerir la próxima película que podríamos querer
reloj.
El objetivo general de la minería de datos es encontrar útiles
y patrones interpretables en los datos. El término puede
abarcan muchos métodos diversos y por lo tanto
significa cosas diferentes para diferentes personas. Aquí nosotros
discutir algunos aspectos de la minería de datos potencialmente de
interés para una amplia audiencia de matemáticos.
Suponga un punto de datos de muestra x i (por ejemplo, una imagen)
puede emitirse en forma de un largo vector de números
(por ejemplo, las intensidades de píxeles en una imagen): representamos
como un punto en R D. Dos tipos de objetivos relacionados.
existe. Una es detectar patrones en este conjunto de puntos,
y el otro es predecir una función en los datos:
dado un conjunto de entrenamiento (x i, f (x i)) i, queremos predecir
f en puntos fuera del conjunto de entrenamiento. En el caso de
documentos de texto o páginas web, es posible que deseemos
etiquetar automáticamente cada documento como perteneciente

a un área de investigación; en el caso de las fotos, nosotros
podría querer reconocer caras; al sugerir el
próxima película para ver clasificaciones anteriores de películas
por un espectador, f consiste en clasificaciones de películas no vistas.
Por lo general, x i es ruidoso (p. Ej., Valores de píxeles ruidosos) y
también lo es f (x i) (por ejemplo, muestras mal etiquetadas en el entrenamiento
conjunto).
Por supuesto, los matemáticos se han preocupado mucho
ellos mismos con problemas de alta dimensión. Uno
ejemplo es estudiar soluciones de PDEs como funciones
iones en espacios de funciones de dimensiones infinitas y
realizar cálculos eficientes proyectando
el problema en subespacios de baja dimensión (a través de
discretizaciones, elementos finitos o composición del operador
presión) para que el problema reducido pueda ser
resuelto numéricamente en una computadora. En el caso
de soluciones de una PDE, el modelo para los datos
se especifica: mucha información sobre el PDE
es conocido, y esa información se explota para
predecir las propiedades de los datos y construir
proyecciones de baja dimensión. Para los datos digitales
discutido anteriormente, sin embargo, típicamente tenemos poco
información y modelos pobres. Podemos comenzar con
modelos crudos, miden su adecuación a los datos y
capacidad predictiva y, al no ser satisfactorias,
mejorar los modelos Este es uno de los principales
ceses en modelado estadístico y minería de datos. Eso
no es diferente a lo que hace un matemático aplicado
al modelar un sistema físico complejo: puede

comenzar con supuestos simplificadores para construir un
Modelo "manejable", deriva las consecuencias de tal
modelo (p. ej., propiedades de las soluciones) analíticamente
y / o con simulaciones, y compara los resultados
a las propiedades exhibidas por el mundo real
sistema ical Nuevas medidas y mundo real
se pueden realizar simulaciones y la aptitud
del modelo reevaluado y mejorado según sea necesario
para la próxima ronda de validación. Mientras que la física
impulsa el modelado en matemática aplicada, un
Nuevo tipo de intuición, basado en experiencias en el
mundo de conjuntos de datos de alta dimensión en lugar de
en el mundo de la física, impulsa la intuición de la
matemático establecido para analizar de alta dimensión
conjuntos de datos, donde los modelos "manejables" son geomet-
modelos ricos o estadísticos con un pequeño número de
parámetros
Una de las razones para centrarse en la reducción
ing la dimensión es para permitir cálculos,
pero una motivación fundamental es la llamada
maldición de dimensionalidad. Una de sus manifestaciones
surge en la aproximación de una función 1-Lipschitz
ción en el cubo de la unidad, f: [0, 1] D → R satisfactoria
| f (x) - f (y) | ≤ || x - y || para x, y ∈ [0, 1] D. A
lograr error uniforme? , muestras dadas (x i, f (x i)),
en general se necesita al menos una muestra en cada
cubo de lado? , para un total de? −D muestras, que es
demasiado grande incluso para, digamos,? = 10 −1 y D = 100 (a
dimensión bastante pequeña en aplicaciones). Una común

se supone que las muestras x yo yazco
un subconjunto de baja dimensión de [0, 1] D y / o f es
no simplemente Lipschitz sino que tiene una suavidad que
es adecuadamente grande, dependiendo de D (ver referencias
en 3 ]). Tomando la ruta anterior, se supone
que los datos se encuentran en un subconjunto de baja dimensión en
el espacio ambiental de alta dimensión, como un
hiperplano de baja dimensión o uniones de los mismos, o
colectores de baja dimensión o conjuntos más duros. Re-
los problemas de búsqueda requieren ideas de diferentes áreas
de las matemáticas, incluida la geometría, geométrica
teoría de la medida, topología y teoría de grafos, con
sus herramientas para estudiar múltiples o conjuntos más duros;
probabilidad y análisis funcional geométrico para
estudiar muestras aleatorias y medidas en alto
dimensiones; análisis armónico y aproximación
teoría, con sus ideas de análisis multiescala y
aproximación de funciones; y análisis numérico,
porque necesitamos algoritmos eficientes para analizar
datos del mundo real.
Como ejemplo concreto, considere lo siguiente
construcción. Dados n puntos {x i} n
i = 1 ⊂ R D y? >
0, construye W ij = exp (-
|| x i −x j || 2
2?
), D ii =
PAG
j W ij,
y la matriz laplaciana L = I - D -
2 WD -
2 en
el gráfico ponderado G con vértices {x i} y aristas
ponderado por W. Cuando x i se muestrea de un hombre
ifold M yn tiende al infinito, L se aproxima
(en un sentido adecuado) el operador de Laplace-Beltrami
en M [2], que es un objeto completamente intrínseco.
La caminata aleatoria en G, con matriz de transición
P = D −1 W, aproxima el movimiento browniano en M.
Considere, por un tiempo t> 0, la llamada difusión
distancia d t (x, y): = || P t (x, ·) - P t (y, ·) || L 2 (G) (ver
[2]). Esta distancia es particularmente útil para cap-
Turing clusters / agrupaciones en los datos, que son
regiones de difusión rápida conectadas por cuellos de botella
Esa lenta difusión. Sea 1 = λ 0 ≥ λ 1 ≥ ··· be
los valores propios de P y be yo soy el correspondiente
ing vectores propios (ϕ 0, cuando G es un gráfico web, es
relacionado con el pagerank de Google). Considere un diffu-
mapa de sion Φ t
re
que incrusta el gráfico en Euclidiana
espacio, donde Φ t
d (x): = (
λ t 1 ϕ 1 (x), ...,
q
λt
d ϕ d (x)),
para algunos t> 0 [2]. Se puede demostrar que el euclidiano
distancia entre Φ t
d (x) y Φ
d (y) aproximadas
d t (x, y), la distancia de difusión en la escala de tiempo t
entre x e y en el gráfico G.
En la Figura 1 aplicamos esta técnica a dos
conjuntos de datos completamente diferentes. El primero es un conjunto
de configuraciones de un péptido pequeño, obtenido por un
simulación de dinámica molecular: un punto x i ∈ R 12 × 3
contiene las coordenadas en R 3 de los 12 átomos
en la molécula de dipéptido de alanina (representada
como un recuadro en la Figura 1). Las fuerzas entre el
los átomos en la molécula restringen las trayectorias
estar cerca de conjuntos de baja dimensión en el 36-
espacio de estado dimensional. En la Figura 1 aplicamos el
construcción por encima de 1 y representan la difusión
incrustación de mapas de las configuraciones recopiladas [4].
El segundo es un conjunto de documentos de texto (artículos
de Science News), cada uno representado como un R 1153
vector cuya coordenada k es la frecuencia de
k ésima palabra en un diccionario de 1153 palabras. La difusión
incrustación en dimensiones bajas revela aún más baja-
estructuras geométricas dimensionales, que resultan
ser útil para comprender la dinámica de
el péptido considerado en el primer conjunto de datos y para

agrupación automática de documentos por tema en el
caso del segundo conjunto de datos. Ideas de probabilidad
(muestras aleatorias), análisis armónico (laplaciano),
y la geometría (múltiples) se unen en estos
tipos de construcciones.
Este es solo el comienzo de uno de muchos
buscar avenidas exploradas en los últimos años. Muchos
existen otras oportunidades interesantes, por ejemplo, la
estudio de redes dinámicas estocásticas, donde un
muestra es una red y múltiples muestras son
recogido a tiempo: cuantificación y cambio de modelado
requiere la introducción de métricas sensatas y robustas
entre grafos.
Lecturas adicionales: [5, 3, 1] y las referencias
en esto.

Mineria de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Los datos recopilados de una variedad de fuentes han sido

acumulando rápidamente. Muchos campos de la ciencia tienen

pasado de estar hambriento de datos a ser rico en datos

y necesita aprender a lidiar con grandes datos

conjuntos. La creciente ola de datos también afecta directamente

nuestra vida cotidiana, en la que las computadoras nos rodean

usar algoritmos de procesamiento de datos para ayudarnos en las tareas

que van desde encontrar la ruta más rápida hasta nuestro

destino considerando las condiciones actuales del tráfico

para etiquetar automáticamente nuestras caras en imágenes; desde

Actualización en tiempo casi real de los precios de los artículos en oferta.

para sugerir la próxima película que podríamos querer

El objetivo general de la minería de datos es encontrar útiles

y patrones interpretables en los datos. El término puede

abarcan muchos métodos diversos y por lo tanto

significa cosas diferentes para diferentes personas. Aquí nosotros

discutir algunos aspectos de la minería de datos potencialmente de

interés para una amplia audiencia de matemáticos.

Suponga un punto de datos de muestra x i (por ejemplo, una imagen)

puede emitirse en forma de un largo vector de números

(por ejemplo, las intensidades de píxeles en una imagen): representamos

como un punto en R D. Dos tipos de objetivos relacionados.

existe. Una es detectar patrones en este conjunto de puntos,

y el otro es predecir una función en los datos:

dado un conjunto de entrenamiento (x i, f (x i)) i, queremos predecir

f en puntos fuera del conjunto de entrenamiento. En el caso de

documentos de texto o páginas web, es posible que deseemos

etiquetar automáticamente cada documento como perteneciente

podría querer reconocer caras; al sugerir el

próxima película para ver clasificaciones anteriores de películas

por un espectador, f consiste en clasificaciones de películas no vistas.

Por lo general, x i es ruidoso (p. Ej., Valores de píxeles ruidosos) y

también lo es f (x i) (por ejemplo, muestras mal etiquetadas en el entrenamiento

Por supuesto, los matemáticos se han preocupado mucho

ellos mismos con problemas de alta dimensión. Uno

ejemplo es estudiar soluciones de PDEs como funciones

iones en espacios de funciones de dimensiones infinitas y

realizar cálculos eficientes proyectando

el problema en subespacios de baja dimensión (a través de

discretizaciones, elementos finitos o composición del operador

presión) para que el problema reducido pueda ser

resuelto numéricamente en una computadora. En el caso

de soluciones de una PDE, el modelo para los datos

se especifica: mucha información sobre el PDE

es conocido, y esa información se explota para

predecir las propiedades de los datos y construir

proyecciones de baja dimensión. Para los datos digitales

discutido anteriormente, sin embargo, típicamente tenemos poco

información y modelos pobres. Podemos comenzar con

modelos crudos, miden su adecuación a los datos y

capacidad predictiva y, al no ser satisfactorias,

mejorar los modelos Este es uno de los principales

ceses en modelado estadístico y minería de datos. Eso

no es diferente a lo que hace un matemático aplicado

al modelar un sistema físico complejo: puede

Modelo "manejable", deriva las consecuencias de tal

modelo (p. ej., propiedades de las soluciones) analíticamente

y / o con simulaciones, y compara los resultados

a las propiedades exhibidas por el mundo real

sistema ical Nuevas medidas y mundo real

se pueden realizar simulaciones y la aptitud

del modelo reevaluado y mejorado según sea necesario

para la próxima ronda de validación. Mientras que la física

impulsa el modelado en matemática aplicada, un