Está en la página 1de 7

ANALISIS DE SECUENCIAS DE DATOS USANDO GEOMETR IA COMPUTACIONAL

CARLOS CHAVARR IA-GARZA

1. Introduccion La Minera de Datos puede ser denida como una actividad que extrae alguna nueva informacin no trivial contenida en bases de datos persistentes o en ujos de datos a o tiempo real. El objetivo de la miner de datos es descubrir patrones ocultos, interrelaciones inespera adas, u otras relaciones subyacentes o implicadas en los datos, usando una combinacin o de tcnicas que van desde aprendizaje de mquina, estad e a stica, y tecnolog de bases de as datos. Es comn el uso de la miner de datos en prevencin de fraudes, investigaciones mdicas, u a o e detecciones tempranas de desastres, etc. La lista de aplicaciones de la miner de datos es a grande y sus l mites se expandirn en los aos por venir. a n La Miner de Datos Secuenciales u Ordinales se ocupa del minado de datos con respecto a algn u ndice secuencial. Por ejemplo, las series de tiempo constituyen una clase popular de secuencias de datos, donde los registros son indexados por el tiempo. Otro ejemplo de datos secuenciales son los textos, secuencias genticas, secuencias de prote e nas, , etc. Aqu aunque no existe una nocin de tiempo como tal, el orden entre los registros es muy , o importante y es lo central para la modelacin/descripcin de los datos. o o La Miner de Datos Secuenciales o Temporales es un desarrollo mas reciente que el a de las series de tiempo, con algunas restricciones y objetivos distintos. Una diferencia fundamental reside en el tamao y naturaleza de los conjuntos de datos y la manera en n que los mismos son colectados. La miner de datos temporales debe ser capaz de analizar conjuntos de datos que a son prohibitivamente grandes para las tcnicas tradicionales de modelacin sobre series e o de tiempo. Adems, la presencia de variables categricas, nominales y/o simblicas hace a o o inaplicable las tcnicas autorregresivas de modelacin. e o La segunda mayor diferencia (entre miner de datos temporales y las tcnicas clsicas a e a de anlisis de series de tiempo) descansa en la clase de informacin que se desea estimar o a o descubrir a partir de los datos. El enfoque de la minera de datos temporales se extiende mas all de las aplicaciones a de control o de pronstico del anlisis de series de tiempo. Con mucha frecuencia, en las o a aplicaciones de miner de datos, ni siquiera se conocen cuales variables en los datos se a espera que exhiban cualquier correlacin o relaciones causales. Mas an, los parmetros o u a
1

CARLOS CHAVARR IA-GARZA

exactos de un modelo (p.ej. los coecientes de un modelo ARIMA o los ponderadores de una red neuronal) podr ser de bien poco inters en el contexto de la miner de datos. an e a 2. Justificacion Las tcnicas tradicionales de miner de datos, como son el agrupamiento, la clasicacin, e a o similitud y de-similitudes deben su xito a la estabilidad de las bases de datos con las cuales e se trabaja. Las tcnicas de miner de datos son extensiones de la estad e a stica, aplicadas a conjuntos de datos para su exploracin y anlisis. o a As los rboles de clasicacin estudian las distribuciones de frecuencia construidas , a o emp ricamente a partir de los conjuntos de datos para hacer inferencias sobre alguna transaccin futura de un sistema. o Es clsico el caso de miner de datos aplicado al otorgamiento de visas temporales o de a a turistas hacia los EEUU. Cada registro de datos representa a algn solicitante, el cual se u descompone en atributos o variables (dimensiones) que lo representan. Se insertan variables categricas espec o cas a pronosticar, el inters es pronosticar mee diante un rbol de clasicacin si el solicitante se quedara o no como migrante ilegal en los a o EEUU (A-alien, NA-no alien). Utilizando tcnicas Bayesianas o paramtricas se estima mediante los valores de los e e atributos de un conjunto disponible de casos solicitantes anteriores, la probabilidad de P (A|t1 , t2 , .., tn ) donde ti son los valores de los atributos i. Este tipo de fenmenos es fcilmente analizable mediante la miner de datos, en tanto o a a las distribuciones de probabilidad de cada atributo se asuman como uniformes y de iguales parmetros a los largo del tiempo, pues de otra manera el error de clasicacin va en a o aumento montonamente. o Con el aumento de la digitalizacin del mundo moderno el nmero de variables y transaco u ciones para un fenmeno cualquiera crece asintticamente, de tal suerte que va resultando o o inmanejable el asegurar niveles apropiados de soporte y conanza que conduzcan a un error bajo. El fenmeno de crecimiento de datos conocido por big data que ha dado origen a la o necesidad de explotar enormes nubes de datos ha puesto en entredicho la conabilidad de los mtodos comnmente usados de miner debido a que cuando el universo muestral e u a, se aproxima al innito en trminos reales como es el caso de las nubes de datos-dentro e del mismo se esconden ciclos de diferente magnitud que no son detectados con los medios muestrales usuales. Por que no trabajar el minado de datos con todo el universo de los mismos en vez de extraer muestras?. La razon es simple: los algoritmos a la mano resultan ser poco ecientes ante volmenes del orden de gigabytes como para resultar de aplicacin prctica[1]. u o a 3. Descubrimiento y reconocimiento de patrones. A diferencia de las aplicaciones de bsqueda y recuperacin en bases de datos, en la u o operacin para el descubrimiento patrones no existe un query espec o co a la mano para

ANALISIS DE SECUENCIAS DE DATOS USANDO GEOMETR COMPUTACIONAL IA

buscar en una base de datos. El propsito es simplemente despejar todos los patrones de o inters[2]. Es importante hacer notar que los mtodos de prediccin , clasicacin, clustering, etc., e o o aplicados a secuencias tienen su origen en otras disciplinas, como la teor de la estimacin, a aprendizaje de mquina, etc., mientras que el descubrimiento de patrones en secuencias a tiene su origen en la miner de datos en s que por la naturaleza no supervisada de su a , operacin, es algo que por si solo preserva el concepto de la miner de datos.[3] o a La primera versin relevante de miner de secuencias se sustenta en la nocin de patrones o a o frecuentes, que son el punto de partida para el descubrimiento de reglas. No obstante la concentracin en la bsqueda de frecuencias de episodios en secuencias induce el propio o u descubrimiento de patrones. Los mtodos de bsqueda de patrones de frecuencia son considerados importantes porque e u pueden ser usados para descubrir reglas utiles. Esas reglas pueden a su vez usarse para inferir algunas regularidades interesantes en los datos. Una regla consiste de un par de proposiciones Booleanas- valuadas, como una proposicin de mano izquierda (antecedente) o y una proposicin de mano derecha (la consecuente). La regla puede establecer que si el o antecedente adquiere el valor de verdad, el consecuente ser verdad tambin. e Las reglas han sido representaciones populares de conocimiento en aprendizaje de mquina a y en Inteligencia Articial por muchos aos. Los Arboles de Decisin Clasicadores, por n o ejemplo, producen un conjunto de reglas de clasicacin para categorizar datos. o En Miner de Datos, las reglas de asociacin son usadas para capturar correlaciones a o entre diferentes atributos en los datos (Agrawal and Srikant 1994). En tales casos, el (estimado de) probabilidad condicional de un consecuente ocurriendo dado un antecedente, es referido como la conanza de la regla. Por ejemplo en un ujo de datos secuenciales el patrn B sigue a A aparece f1 veces, y el patrn C sigue a B que sigue a A aparece f2 veces, es posible inferir una regla de asociacion f2 temporal siempre que B sigue a A, C seguir tambin con una conanza f1 . Una regla e es usualmente de inters, solo si tiene una alta conanza respecto a un umbral objetivo y, e ademas que sea comn en los datos. u El marco de referencia mas comn para descubrimiento de patrones secuenciales lo u constituye el Algoritmo Apriori [1] (Agrawal 1993), y su aplicacin t o pica al anlisis de a las transacciones de clientes en un supermercado. Sea D la base de datos de transacciones mencionada. Una transaccin es simplemente o una coleccin no ordenada de productos comprados por un cliente en una visita al supero mercado. El Algoritmo Apriori sistemticamente despeja todos los patrones en la forma a de conjuntos (no ordenados) de art culos que aparecen en un grupo de transacciones. Se introduce una notacin para denir este marco de referencia. Un conjunto no-vac o o de art culos es llamado itemset. Un itemset i denotado por i1 , i2 , im donde i es un art culo. Como i tiene m art culos, es llamado a veces m itemset. De una manera trivial puede decirse que cada transaccin en D es un itemset., sin embargo, dado un arbitrario itemset i, podr o no estar contenido en en una transaccin cualquiera T . La fraccin de todas las a o o

CARLOS CHAVARR IA-GARZA

transacciones en D en la cual un itemset esta contenido es llamado el soporte del itemset en cuestin. o A un itemset cuyo soporte excede un umbral denido por el usuario es llamado un itemset frecuente. Estos itemset son los patrones de inters en este problema. El mtodo e e de fuerza bruta para determinar el soporte de todos los itemset es un esfuerzo combinatorio explosivo no factible en bases de datos grandes. El Algoritmo Apriori explota el siguiente muy simple principio: si i y j son itemset tales que j es un subconjunto de i, entonces el soporte de j es mayor o igual que el soporte de i. Entonces, para que un itemset sea frecuente todos sus subconjuntos tambin deber serlo. an El algoritmo hace mltiples pasadas sobre los datos. Empezando con los itemset de u tamao 1 p.ej. 1 itemset, cada pasada descubre itemset frecuentes del siguiente tamao n n mas grande. Entonces son combinados para generar candidatos de 2itemset y determinar su soporte haciendo otra pasada sobre los datos hasta que los 2 itemset se encuentren. La generacin de candidatos antes de la m esima pasada usa el principio A priori o descrito antes: un m-itemset es considerado candidato solo si todos los (m 1) itemset contenidos en este han sido declarados como frecuentes en las pasadas anteriores. La eciencia computacional de Algoritmo A priori se calcula (M. Hgland, lecture notes, 2005, Australian National University) por la expresin T = d2 n , As para 10,000 art o culos (d), 1000,000 de registros (n), y tiempo de transaccin de (?) 1 nanosegundo consumir 30 o a horas para concluir la generacin de candidatos frecuentes. Lo cual es bastante considerable o desde cualquier ptica. o A partir de su nacimiento el Algoritmo A priori ha recibido mejoras importantes. Los mismos Agrawal and Srikant (1995) propusieron los algoritmos de conteo-parcial que explotan ciertas restricciones de maximalidad, en los cuales la bsqueda sea solo de secuencias mximas, y evitar contar secuencias que de cualquier manera estarn contenidas en las a mayores. Se han desarrollado algoritmos paralelos para ecientar el descubrimiento de patrones secuenciales; siempre con el A priori de base; propuestos por Shintani y Kitsuregawa (1998). Los algoritmos de Agrawal y Shrikant requieren tantas pasadas a la base de datos como sea la longitud mas larga del patrn de secuencias, para ello Zaki(1998) propuso un enfoque de o a rboles tericos para descomponer el espacio de bsqueda original en piezas mas pequeas o u n (cada una de las cuales puede ser procesada en la memoria principal) con lo que el nmero u de pasadas se reduce considerablemente. Lin y Lee (2003) propusieron un sistema para descubrimiento interactivo de patrones de secuencias, en el cual los queries de usuario con varios umbrales de soporte m nimo se mueven iterativamente y descubren el conjunto deseado de patrones correspondiente al ultimo umbral. A pesar de todos estos avances para ecientar los algoritmos basados en frecuencias al aumentar la dimensionalidad la complejidad del procesamiento conduce a consumir cantidades importantes de tiempo.

ANALISIS DE SECUENCIAS DE DATOS USANDO GEOMETR COMPUTACIONAL IA

4. Planteamiento del problema. Los mtodos de aprendizaje estadstico, como los rboles de regresin, resultan muy utiles e a o cuando: i) se trata de desarrollar aplicaciones que se insertaran en procesos de decisin o discretos, y, ii) cuando se dispone de tiempo para efectuar todo el anlisis de datos acotado a a un conjunto de dimensiones que resultan de inters. e El mtodo CRISP[2] ha resuelto bastante bien el problema. La toma de tres conjuntos e aleatorios de datos (diseo o modelacin, prueba, y validacin) para construir y probar un o o modelo que al nal habr de conducir a las l neas de cdigo que se insertaran en los sistemas o en uso para su aplicacin. o En la actualidad, sin embargo, el enorme volmen de datos as como la maldicin de la u o dimensionalidad hacen insucientes a las metodolog de inferencia estad as stica, as como a las computacionales, como son las tcnicas de similitud y de-similitud (clustering, mquinas e a de soporte vectorial, redes neuronales, etc.) cuando se trata de la bsqueda de conocimiento u en el estudio de eventos y organizacin de episodios, como es el caso de las transacciones o en la WEB, comunicaciones, y controles transaccionales a tiempo real. El uso de Series de Tiempo se muestra tambin insuciente ante la magnitud de las e nubes de datos referenciadas a tiempo u ordenadas en alguna secuencia espec ca. Aun con la adicin del anlisis de componentes principales (Fourier) y la renormalizacin, la o a o propagacin de la incertidumbre en espacios de datos de grandes dimensiones produce o niveles de error sistmicos muy elevados que a la postre reducen el soporte y conanza de e los modelos basados en series. Para atajar los problemas antes descritos se plantea el explorar otras formas de representacin de datos que sean mas ecientes que las basadas solo en combinatoria, como es o el caso de patrones frecuentes (rboles) o las de tiempo continuo (series). a

5. Hipotesis Los nicos conjuntos los cuales pueden ser manejados en computadoras son discretos o conjuntos digitales, lo que signica, conjuntos que contienen en su mayora un cantidad enumerable de elementos. Existen dos fuentes de conjuntos discretos: a. las estructuras de datos de las ciencias computacionales son enumerables por denicin, o tal que unicamente objetos discretos pueden ser representados. Ejemplo, clasicacin disc o reta de plantas o animales, o las estrellas dentro de patrones espectrales. b. Los objetos continuos pueden ser discretizados, y as aproximarse por medio de objetos discretos. Por ejemplo, en procesamiento de imgenes, donde una imagen intr a nsecamente continua es representada mediante un conjunto discreto de pixeles. Todos los elementos de un conjunto discreto pueden mapearse sobre el conjunto de los numeros reales Z y por lo tanto formar grupos. Todos los conjuntos discretos pueden incrustarse dentro de un espacio geomtrico. Las e secuencias de episodios son conjuntos parcialmente ordenados de eventos mediante algn u ndice, por lo tanto son tambien conjuntos discretos.

CARLOS CHAVARR IA-GARZA

La presencia de un ndice con sentido fsico o lgico (orden de aparicin) convierte a o o cualquier secuencia en un espacio conectado cerrado y por ende susceptible de transformarse sin modicar sus invariantes. En el mismo sentido, el ndice permite construir una mtrica dentro del espacio de datos e posibilitando la construccin de lgebras y geometr asociadas. o a as El espacio mas simple construible a partir de secuencias de datos referentes a eventos es el complejo lineal, luego entonces es factible transformarlo en un complejo celular hasta llegar a un manifold o variedad n-dimensional. Todo manifold n-dimensional puede ser cortado por un campo vectorial dejando sobre este una imagen homemrca de la divisin. Los sub-espacios incrustados en las imgenes o o a mantienen una homotop respecto al complejo lineal inicial por lo que tendrn los mismos a invariantes. En tanto no se alteren los invariantes del espacio la estructura del mismo no se altera. Aplicando cortes sucesivos a los sub-manifolds se obtendrn los sub-espacios para transa formarlos hasta encontrar relaciones entre los conjuntos incrustados en ellos.

6. Analisis topologico de datos La topolog es una rea de las matemticas que estudia las propiedades de los objetos a a a geomtricos que no dependen de las coordenadas escogidas, de suerte por ejemplo, que un e tringulo, rectngulo o c a a rculo son topolgicamente iguales. o Esto incluye el estudio de los componentes conectados de un espacio, o en general es el estudio de la informacin de la conectividad, lo cual incluye la clasicacin de ciclos y o o supercies de alta dimensionalidad dentro del espacio. Lo que sugiere la extensin de las o metodolog topolgicas, tales como la homolog para el estudio cualitativo de nubes de as o a, datos. La topolog estudia las propiedades geom a e tricas de una forma que es menos sensitiva a la seleccin de la mtrica, tal como ocurre en o e los mtodos geomtricos euclidianos, donde por ejemplo, el concepto de curvatura es muy e e sensible. De hecho, la topolog ignora los valores cuantitativos de las funciones de distancia, y a los reemplaza con la nocin de cercan innita de un punto a un subconjunto en el espacio o a subyacente. La topolog computacional ha evolucionado en los aos recientes a partir del avance en a n mtodos de reconocimiento de patrones visuales muy utilizados en reconstruccin y anlisis e o a de imgenes. a

7. Propositos Desarrollar los algoritmos y/o procesos para realizar la bsqueda de patrones de inters u e o inesperados en corrientes de datos dinmicas multidimensionales. a

ANALISIS DE SECUENCIAS DE DATOS USANDO GEOMETR COMPUTACIONAL IA

8. Metodolog a A. Se usara una base de datos con solo 2 variables o dimensiones mas el index, para despus avanzar en la generalizacin. Exploracin visual y paramtrica de la base datos y o o e segmentacin de los datos at o picos (outliers). B. Construir mediante triangulacin (Delaunay) el complejo simplicial que represente a o la base de datos, para despus continuar con la formacin de un 3-manifold. o C. Elaborar un diseador de campos vectoriales homolgico con el 1-manifold, para n o realizar los cortes en el mismo. Extraer las imgenes obtenidas y denotarlas mediante el a index. D. Explorar las imgenes para encontrar las relaciones entre datos mediante soporte veca torial. Si no se obtienen ciclos identicables, regresar a la etapa C. Cada ciclo representara un episodio de inters. Derivar las mtricas de los episodios de inters. e e e E. Construir las matrices de episodios de inters para exploracin de la base de datos e o sometida a dinmicas o alarmas de inters a tiempo real. a e F. Aumentar el volmen y dimensionalidad de los datos. u G. Extensin del proceso al n-manifold. o 9. Producto final. Paquete de software elaborado en LAMP capaz de operar los algoritmos a desarrollar. Se propone el uso de LAMP (suite integrada por Linux-Apache-MySql-Perl) para facilitar la portabilidad de las soluciones as como por su sencillez para integrar mdulos de o especialidad, como por ejemplo en lenguaje R. 10. Bibliografia [1] A Survey of temporal data mining, Laxman, Indian Institute of Science, 2001. [2] Top 10 Algorithms in data mining, Wu, Kumar, Ghosh, y otros, Springer-Verlag, London, 2007. [3] Reglas de Asociacion en Series Temporales: panorama, Conti and Martinez, Espania, 2006. [4] Digital Topology, Eckhardt and Latecki, Hamburger Beitrge zur Angenwandten Mathematik, 1994. [5] Topological Approach for Testing Equivalence in Heterogeneous Relational Databases, Baik and MillerTeh Computer Jornal, Vol. 33, No 1, 1990. [6] Topology and Data, Carlsson, Stanford University, 2008. [7] Temporal Data Mining: An Overview, Antunes and Oliverira, Lecture notes on computer sciences, 2008. [8] Mining Closed Episodes From Event Sequences Eciently, Zhou, Liu, and Cheng, Tsinghua University, Springer-Varlag Berlin, 2010. [9] Discovering Knowledge in Data, Daniel T. Larose, Wiley-Interscience, 2005.