Está en la página 1de 10

ESTADO DEL ARTE EN LA UTILIZACIN DE TECNICAS AVANZADAS PARA LA BUSQUEDA DE INFORMACIN NO TRIVIAL A PARTIR DE DATOS EN LOS SISTEMAS DE ABASTECIMIENTO

DE AGUA POTABLE

Jos Luis Daz Arvalo1; Rafael Prez Garca1

Resumen La aplicabilidad de tcnicas heursticas combinadas con lo que genricamente se ha denominado minera de datos, es un tema de investigacin que puede proporcionar una gran utilidad en la bsqueda de patrones no triviales a partir de los datos disponibles en el planeamiento, operacin y gestin de las redes de abastecimiento de agua. Es importante tener en cuenta que en gran porcentaje el xito en la aplicabilidad de estas tcnicas radica en la informacin base de la que se disponga, es decir los datos (inputs) de entrada. El tema, pese al gran potencial del que dispone, no ha sido an muy desarrollado para aplicaciones de abastecimiento de agua potable, aunque en campos de finanzas, comunicaciones, negocios y pginas web se est aplicando desde hace algunos aos.

Abstract The applicability of combined heuristic techniques with which generically data mining has been denominated, is an investigation subject that can provide a great utility in the search of patterns non-trivial from the data available in the planning, operation and management of the networks of water supply. It is important to consider that in great percentage the success in the applicability of these techniques is in the information bases which it is had, is to say the data (inputs) of entrance. The subject, in spite of the great potential which it has, has not been still very developed for applications of potable water supply, although in fields of finances, communications, businesses, pages Web it has been applied for some years.

Palabras clave: Minera de datos, extraccin de patrones, aplicaciones, sistemas de abastecimiento de agua.

Universidad Politcnica de Valencia Departamento de Ingeniera Hidrulica y Medio Ambiente Grupo Mecnica de Fluidos Camino de Vera S/N CP 46022 Valencia (Espaa) Tel: 34 96 3877611 Fax: 34 96 3877619 E-mail: jodiaar@doctor.upv.es ; rperez@gmf.upv.es

INTRODUCCIN
La velocidad con la que se almacenan los datos es muy superior a la velocidad con la que estos son analizados. En las ltimas dcadas se ha presentado una gran explosin de cantidad de datos digitales, mientras que el nmero de cientficos, ingenieros y analistas disponibles para analizar estos datos ha permanecido esttico. Para obviar este problema se necesitan soluciones de investigacin tendientes a minar grandes y masivas bases de datos, desarrollar algoritmos y sistemas para minar nuevos tipos de datos y mejorar la utilizacin de los sistemas de minera de datos. El estudio y aplicacin de tcnicas avanzadas para el anlisis de informacin almacenada en bases de datos es un tema de investigacin en el que ya se han involucrado mucha especialidades, pero que sus aplicaciones en ingeniera civil y ms especficamente en los sistemas de abastecimiento de agua potable an no han sido lo suficientemente explotados, y es una herramienta que nos puede servir o ser de gran ayuda para resolver problemas de planificacin, gestin y operacin de sistemas de abastecimiento de agua potable. Existen muchas formas de almacenar datos, pero no se archivan convenientemente o su entendimiento es nulo. Con este texto, se pretende mostrar la importancia de realizar investigaciones tendientes a desarrollar algoritmos y aplicaciones para la extraccin automtica de informacin de los datos almacenados durante las etapas de construccin y operacin de un sistema de conduccin de agua potable. Se debe tener en cuenta que es un tema que ha sido muy poco desarrollado para aplicaciones especficas de abastecimientos de agua potable, pero en el cual se nota un gran potencial y una herramienta para la extraccin o bsqueda de patrones no triviales a travs de los datos disponibles. Es muy importante tener claro que la base de estas investigaciones son los datos, lo cual es un tema que est bastante descuidado en la gestin de los sistemas, aunque ltimamente con la aparicin de los sistemas de informacin geogrfica, se ha mejorado bastante en mantener una buena calidad y cantidad de datos almacenados, o por lo menos se han iniciado tareas que conducen a la recopilacin y almacenamiento de informacin para ser utilizada por los SIG. Este artculo presenta el concepto de minera de datos e intenta dar una comprensin del proceso y las herramientas utilizadas en general: como resulta el proceso, que se puede realizar con el, cules son las principales tcnicas detrs de el, cules son los aspectos operacionales. Se hace una introduccin al estado del arte de la minera de datos en la ingeniera civil y ms especficamente a su aplicacin en gestin y operacin de sistemas de abastecimiento de agua. Adems se presenta en la bibliografa algunos artculos que ayudan en la profundizacin del tema.

MINERIA DE DATOS (DATA MINING)

DEFINICIONES
La minera de datos es un componente de la actividad llamada Descubrimiento de Conocimiento en Bases de Datos (KDD, de sus siglas en ingls), es decir en la minera de datos se aplica un algoritmo para extraer patrones de los datos y el KDD es el proceso completo (Pre-procesamiento, minera, post-procesamiento) Minera de datos es el descubrimiento semi-automtico de patrones, asociaciones, cambios, anomalas y estructuras estadsticamente significantes y eventos en los datos, (Grossman, 1998). La minera de datos difiere de la estadstica tradicional en cuanto a que en la estadstica una hiptesis est formulada y validad en los datos, mientras que en el proceso de minera de datos los patrones se extraen automticamente de los datos, dicho de otra forma la minera de datos es un manejo de datos mientras que la estadstica es un manejo ms del hombre. KDD es comnmente definido como el proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y entendibles en los datos.(Ohrn, 1999) KDD involucra investigacin de reas cmo: aprendizaje computacional, reconocimiento de patrones, bases de datos, estadstica, inteligencia artificial, adquisicin de conocimiento y visualizacin de datos. Por otro lado est relacionado con mtodos de descubrimiento automtico (por ejemplo de leyes fsicas) y con sistemas de manejo de informacin (Management Information Systems). Las tcnicas de Minera de Datos (Data Mining) pueden proveer una solucin para adquirir conocimiento abstracto de bases de datos de infraestructura civil. Las tcnicas de minera de datos son solo una parte de un gran esquema. Descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases KDD) es el proceso no trivial

de identificar patrones vlidos en datos, novedosos, potencialmente tiles y finalmente comprensibles (Buchheit, 2000). El descubrimiento de conocimiento (Knowledge discovery) ha sido definido como la extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til de datos. (Carbone, 1997). Minera de datos es una denominacin folklrica de una actividad compleja que apunta a extraer informacin sintetizada y previamente desconocida de grandes bases de datos. (Olaru, 1999), dependiendo del puntos de vista la minera de datos es considerada como un paso del proceso llamado Descubrir conocimiento en las bases de datos (KDD), o en otras ocasiones cmo un sinnimo de este. Es un anlisis exploratorio de datos, probado para descubrir patrones tiles en los datos que no son obvios para el usuario. Un minero de datos, es la persona, generalmente con conocimiento en computadores y estadstica y en la especialidad de inters, o una pareja de especialistas, uno con conocimiento en la minera de datos y otro en la especialidad de inters capaces de ejecutar los pasos del proceso de minera.

ANTECEDENTES Y GENERALIDADES
El concepto de minera de datos apareci hace ms de 10 aos. El inters en este campo y su explotacin en diferentes especialidades (negocios, finanzas, ingeniera, banca, salud, sistemas de energa, meteorologa....), se ha incrementado recientemente debido a la combinacin de diferentes factores, los cuales incluyen: El surgimiento de gran cantidad de datos (terabytes 1012 bytes de datos) debido a la medicin y/o recopilacin de datos automtica, registros digitales, archivos centralizados de datos y simulaciones de software y hardware. El abaratamiento de los costos de los medios de almacenamiento. El surgimiento y rpido crecimiento del manejo de sistemas de bases de datos. Los avances en la tecnologa computacional tal como los computadores rpidos y las arquitecturas paralelas. Los desarrollos continuos en tcnicas de aprendizaje automtico. La posible presencia de incertidumbre en los datos (ruido, outliers, informacin perdida). El propsito general de la minera de datos es procesar la informacin de la gran cantidad de datos almacenados o que se puedan generar, y desarrollar procedimientos para manejar los datos y tomar futuras decisiones. Generalmente, una de las primeras tareas en el proceso de la minera de datos consiste en resumir la informacin almacenada en la base de datos, con el fin de comprender bien su contenido. Esto se realiza por medio de anlisis estadsticos o tcnicas de bsqueda y reporte. Las operaciones ms complejas consisten en la identificacin de modelos para predecir informacin acerca de objetos futuros. El trmino aprendizaje supervisado supervised learning (conocido como aprendizaje con profesor) est implicado en el minado de datos, en el cual para cada entrada (input) de los objetos de aprendizaje, el objetivo de la salida (output) deseada es conocida e implicada en el aprendizaje. En los mtodos de aprendizaje sin supervisin unsupervised learning (aprendiendo por observacin) el resultado no es suministrado o considerado del todo, y el mtodo aprende por si solo de los valores de los atributos de entrada.

Pasos o procesos de la minera de datos


El proceso de minera involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de tipo estadstico, en el sentido que se permite un cierto ruido o error dentro del modelo. En general el proceso de la minera de datos itera a travs de cinco pasos bsicos, tal como se muestra en la Figura 1: Seleccin de datos: consiste en buscar el objetivo y las herramientas del proceso de minera, identificando los datos a ser extrados, buscando los atributos apropiados de entrada y la informacin de salida para representar la tarea. Las comprobaciones bsicas deben incluir el tipo de consistencia, la validez de rangos, etc. Un sistema de minera de datos puede ser utilizado para este propsito, se pueden buscar patrones generales y reglas en las bases de datos que identifiquen valores irregulares que no cumplen las reglas establecidas. Trasformacin de datos: las operaciones de transformacin incluyen organizar los datos en la forma deseada, convirtiendo un tipo de datos en otro (por ejemplo de simblico a numrico) definiendo nuevos atributos, reduciendo la dimensionalidad de los datos, removiendo ruidos, outliers, normalizando, decidir estrategias para manejar datos perdidos. Minera de datos: los datos trasformados son minados, utilizando una o ms tcnicas para extraer patrones de inters. Interpretacin de resultados y validacin: para comprender el significado del conocimiento extrado y su rango de validez, la aplicacin de minera de datos prueba su robustez, utilizando mtodos de validacin establecidos y probndolo con datos diferentes a los utilizados para crear el modelo. Lo que se hace generalmente es dividir los datos en una serie para trabajo y otra para validacin. Solo la serie de trabajo es utilizada para evaluar la habilidad del modelo desarrollado. La informacin extrada es tambin valorada (ms subjetivamente) comparndola con experiencias anteriores.

Incorporacin del conocimiento descubierto: presentacin de los resultados del modelo para poder comprobar o resolver conflictos con creencia o resultados anteriores y aplicar el nuevo modelo. Datos
Seleccin Datos Seleccionados Pre - procesamiento Datos Preprocesados Trasformacin Datos Trasformados Minera de datos Modelos Interpretacin / Evaluacin Conocimiento

Figura 1 Pasos de la minera de datos. Las herramientas de minera de datos buscan dirigirse a dos requerimientos bsicos: Descripcin: descubriendo patrones, asociaciones y grupos de informacin. Puede incluir deteccin de desviaciones, segmentacin de bases de datos, agrupamientos, asociaciones, reglas, resmenes, visualizacin y minado de textos. Prediccin: utilizando aquellos patrones para predecir tendencias y comportamientos futuros. La prediccin incorpora tareas de clasificacin, regresin y anlisis de series temporales.

Clases de minera de datos


Dependiendo principalmente de la aplicacin especifica y en el inters del minero, se pueden identificar algunos tipos de tareas de minera de datos para las cuales se producen posibles respuestas. Algunas de las clases o categoras de minera de datos utilizados para la descripcin y/o prediccin son las siguientes: Presentacin concisa de datos: apunta a producir descripciones compactas y caractersticas para un conjunto dado de datos. Pueden tomar mltiples formas: numrica (medidas simples de descripcin estadstica cmo medias, desviaciones estndar....), formas grficas (histogramas, dispersiones), o en la forma de reglas si-entonces. Se pueden realizar descripciones de la totalidad de los datos o seleccionando subconjuntos. Clasificacin: desarrollando perfiles de grupos u objetos en trminos de sus atributos. Un problema de clasificacin es un aprendizaje supervisado, donde la informacin de salida es una clasificacin discreta, es decir teniendo un objeto y sus atributos de entrada, el resultado de la clasificacin es una de los posibles recprocas clases exclusivas del problema. La tarea de clasificacin tiende a descubrir alguna clase de relacin entre los atributos de entrada y las clases de salida, tal que el conocimiento descubierto puede ser utilizado para predecir la clase de un nuevo objeto desconocido. Regresin: estableciendo relaciones entre series de objetos con el propsito de predecir. Un problema de regresin es un aprendizaje supervisado de construccin de un modelo ms o menos trasparente, donde la informacin de salida es un valor numrico continuo o un vector de tales valores en vez de una clasificacin discreta. Entonces, dando un objeto es posible predecir uno de sus atributos por medio de otros atributos, utilizando el modelo construido. La prediccin de valores numricos se puede realizar por mtodos estadsticos clsicos o ms avanzados, y por mtodos simblicos a menudo utilizados en las tareas de clasificacin. Problemas temporales: es una regresin utilizando adicionalmente la informacin del tiempo. En ciertas aplicaciones es til producir reglas que tengan en cuenta explcitamente el papel del tiempo. Las bases de datos que contienen informacin temporal pueden ser explotadas buscando patrones similares o aprendiendo a anticipar alguna situacin anormal en los datos.

Agrupamiento: fraccionando clases o tems que presentan comportamientos o caractersticas similares en subconjuntos o grupos. El problema de agrupamiento, es un problema de aprendizaje sin supervisin, en el cual se busca encontrar en los datos grupos de objetos similares compartiendo un nmero de propiedades importantes. Se puede utilizar en la minera de datos para evaluar similitudes entre datos, construir un conjunto de prototipos representativos, analizar correlaciones entre atributos, o representar automticamente un conjunto de datos por pequeos nmeros de regiones, preservando las propiedades topolgicas del espacio original de entrada. Modelos de causalidad: es un problema de descubrir relaciones de causa y efecto entre atributos. Una regla causal del tipo si-entonces, indica no solo que existe una correlacin entre la regla antecedente y la consecuente, sino que tambin la antecedente es causa de la consecuente. Anlisis de asociacin: reconociendo que la presencia de un grupo de tems implica la presencia de otro grupo. Descubrimiento de secuencias: reconociendo que un grupo de tems es seguido por otro grupo. Modelos de dependencia: consiste en descubrir un modelo que describe dependencias significantes entre atributos. Estas dependencias son generalmente expresadas como reglas si-entonces en la forma si el antecedente es verdadero entonces la consecuencia es verdadera, donde tanto el antecedente como la consecuencia de la regla pueden ser una combinacin de atributos. Deteccin de desviaciones: esta tarea esta enfocada a descubrir cambios significantes o desviaciones en los datos entre el contenido actual y el contenido esperado que puede ser previamente medido o de valores normalizados. Esto incluye la bsqueda de desviaciones en el tiempo y la bsqueda de diferencias inesperadas entre dos subconjuntos de datos. La clasificacin, regresin, y series temporales son utilizadas para prediccin, mientras que el agrupamiento, la asociacin y el descubrimiento de secuencias entre otras son ms apropiados para describir relaciones existentes en los datos.

Tcnicas de minera de datos En general las tcnicas de minera de datos se pueden dividir en aquellas que hacen uso de ecuaciones tales cmo la estadstica o las redes neuronales o las que se basan en la lgica cmo los rboles de decisin y las reglas, aunque algunas pueden hacer uso tanto de ecuaciones o de la lgica, o pueden ser una combinacin de tcnicas .
Tcnicas de minera de datos

Basadas en ecuaciones

Basadas en lgica

Estadsticas

Redes Neuronales Artficiales

rboles de decisin

Reglas

Figura 2. Tcnicas de minera de datos. Las tcnicas de minera de datos estn basadas en un conjunto de herramientas importantes originadas en inteligencia artificial, la estadstica, la teora de informacin, el aprendizaje de mquinas, el razonamiento con incertidumbre (conjuntos borrosos), el reconocimiento de patrones o visualizacin. As, un paquete de programa de minera de datos esta basado en diferentes niveles por un conjunto de tecnologas, algunas de las tcnicas de minera de datos ms utilizadas son las siguientes: rboles de decisin: un rbol de decisin es una estructura en forma de rbol que visualmente describe una serie de reglas (condiciones) que causan que una decisin sea tomada. Algoritmos genticos: los algoritmos genticos son tcnicas de optimizacin que pueden ser utilizadas para mejorar otros algoritmos de minera de datos obteniendo como resultado el mejor modelo para una serie de datos. El modelo resultante es aplicado a los datos para descubrir patrones escondidos o para realizar predicciones. Redes Neuronales Artificiales: Estos son modelos de prediccin no lineales que aprenden como detectar un patrn para emparejar un perfil particular a travs de un proceso de entrenamiento que envuelve aprendizaje iterativo, utilizando un conjunto de datos que describe lo que se quiere encontrar. Las redes neuronales son conocidas en la estructura del aprendizaje automtico cmo aproximaciones universales con un gran carcter paralelo de calculo y buenas capacidades de generalizacin, pero tambin como cajas negras debido a la dificultad para penetrar dentro de las relaciones aprendidas. Son utilizadas en el la minera de datos: para generar modelos de regresin que puedan predecir comportamientos futuros, sobre la base de pares de datos de entrada salida de informacin numrica histrica continua (la red neuronal asocia salidas numricas (outputs) con cualquier nuevo objeto de valores de atributos conocidos), y automticamente representa un conjunto de datos por un pequeo nmero de prototipos representativos, preservando las propiedades topolgicas del espacio original del atributo (aprendizaje sin supervisin).

Tcnicas estadsticas: una variedad de tcnicas pueden ser utilizadas para identificar patrones, los cuales pueden ser entonces utilizados para predecir el futuro. Estas incluyen las regresiones lineales, los modelos aditivos generalizados (GAM) y las regresiones adaptativas multivariadas por splines. rboles e Induccin de reglas: la induccin de reglas es el proceso de extraer reglas (si-entonces) de datos, basadas en significados estadsticos. El aprendizaje de mquinas (ML, de sus siglas en ingls), es el centro del concepto de la minera de datos, debido a su capacidad de ganar penetracin fsica dentro del problema, y participar directamente en la seleccin de datos y en los pasos de bsqueda del modelo. Para dirigir problemas de clasificacin (rboles de decisin claros y borrosos), regresin (rboles de regresin), prediccin temporal (rboles temporales), el campo del aprendizaje de mquinas, bsicamente se centra en el diseo automtico de reglas si-entonces, similares a aquellas utilizadas por los expertos humanos. La induccin de rboles de decisin es capaz de manejar problemas de gran escala debido a su eficiencia computacional, dar resultados interpretables y en particular identificar los atributos ms representativos para una tarea dada. Reglas de asociacin: la generacin de reglas de asociacin es una tcnica potente de minera de datos utilizada para buscar en un conjunto de datos, por reglas que revelan la naturaleza y frecuencia de las relaciones o asociaciones entre las entidades de los datos. Las asociaciones resultantes pueden ser utilizadas para filtrar la informacin por anlisis humano y posiblemente definir un modelo de prediccin basado en el comportamiento observado. Lgica Borrosa (Fuzzy Logic): la lgica borrosa maneja conceptos imprecisos (como pequeo, grande, joven, viejo, alto, bajo) y es ms flexible que otras tcnicas. Proporciona la nocin de un conjunto borroso ms que una clara demarcacin de lmites, por ejemplo en vez de 0 o 1 hay tambin 0.9, 0.85, 0.93, 0.21, 0.05 etc. Mtodos de agrupamiento: es utilizado en el paso de pre-procesamiento de los datos, debido a la caracterstica de aprender semejanzas sin supervisin entre objetos y reducir el espacio de bsqueda a un conjunto de los atributos ms importantes parta la aplicacin o a un conjunto finito de objetos. El mtodo ms frecuentemente utilizado para agrupar es el k-means el cual identifica un cierto nmero de grupos u objetos similares el cul puede ser utilizado conjuntamente con el mtodo de la Vecindad ms prxima (K-Nearest Neighbor k-NN), esta tcnica coloca un objeto de inters dentro de clases o grupos examinando sus atributos y agrupndolo con otros cuyos atributos son cerrados a el. k-NN es una tcnica clsica para descubrir asociaciones y secuencias cuando los atributos de los datos son numricos. Con atributos no numricos o variables es difcil aplicar esta tcnica por la dificultad de definir una medida que pueda ser utilizada para cuantificar la distancia entre un par de valores no numricos. Tcnicas de visualizacin: histogramas (estimando la distribucin de probabilidad para ciertos atributos numricos dados en un conjunto de objetos), grficas de dispersin (proporcionan informacin sobre la relacin entre dos atributos numricos y unos discreto), grficas tridimensionales, dendrogramas (anlisis de correlacin entre atributos u objetos)..... Conjuntos Aproximados (Rough Sets): La teora de conjuntos aproximados es adecuada para problemas que pueden ser formulados cmo tareas de clasificacin y ha ganado un significante inters cientfico como estructura de minera de datos y KDD (Ohrn, 1999). La base de la teora de los conjuntos aproximados est en la suposicin de que cada objeto del universo de discurso tiene rasgos caractersticos, los cuales son presentados por informacin (conocimiento, datos) acerca del objeto. (Pawlak, 2002). Los objetos que tienen las mismas caractersticas son indiscernibles. La teora ofrece herramientas matemticas para descubrir patrones escondidos en los datos, identifica dependencias parciales o totales, es decir relaciones causa efecto, en bases de datos, elimina redundancia en los datos, da aproximaciones a valores nulos o invlidos, datos perdidos, datos dinmicos etc. Los pasos seguidos en la estructura de conjuntos aproximados son los siguientes:

Seleccin: el vehculo bsico para la representacin de datos en la estructura de la teora de conjuntos aproximados es plano, tablas de datos en dos dimensiones. Esto no implica que la tabla sea una simple tabla fsica, una tabla puede ser una vista lgica entre algunas tablas adyacentes. Una tabla adecuada es seleccionada para anlisis subsecuentes. Las columnas de las tablas son llamadas atributos, las filas objetos, y las entradas en la tabla son los valores de los atributos.
Pre-procesamiento: si la tabla seleccionada contiene huecos en forma de valores perdidos o entradas de celdas vacas, la tabla puede ser preprocesada de varas formas para llenar o completar la tabla. Transformacin: los atributos numricos pueden ser discretizados, es decir el uso de intervalos o rangos en vez de los valores de los datos exactos. Minera de datos: en la metodologa de los conjuntos aproximados, se producen conjunciones de proposiciones elementales o reglas si-entonces. Esto se realiza en un proceso de dos etapas, en el cual subconjuntos de mnimos atributos son primero computados antes de que los patrones o reglas sean generados. Interpretacin y evaluacin: Los patrones individuales o reglas pueden ser ordenados por alguna medida de bondad y manualmente inspeccionados. Conjuntos de reglas pueden ser empleados para clasificar nuevos casos y registrar el desempeo de clasificacin.

La teora de los conjuntos borrosos tiene enlaces con mtodos de razonamiento buliano, estadstica, redes neuronales, morfologa matemtica, y puede ser utilizada en combinacin con otras tcnicas cmo conjuntos borrosos, algoritmos genticos, mtodos estadsticos, redes neuronales, etc. Adems, algunos paquetes de minera de datos incluyen: descubrimiento de secuencias de patrones (objetos con igual sucesin de valores de atributos sobre un periodo de tiempo), similitud en series temporales (detecta series temporales similares en un periodo de tiempo), redes bayesianas (modelos grficos que codifican relaciones probabilsticas entre variables de inters, sistemas capaces de adquirir relaciones de causa), neurofuzzy systems (sistemas de inferencia borrosa que incorporan el aprendizaje y las habilidades de generalizacin de las redes neuronales). Las tcnicas de minera de datos son diferentes unas a otras en trminos de la representacin del problema, parmetros a optimizar, exactitud, complejidad, tiempo de ejecucin, transparencia e interpretacin. El xito del minado de datos est determinado por algunos factores, entre los cuales se tienen: Las herramientas apropiadas: una caracterstica que distingue un software de minera de datos es la calidad de sus algoritmos, la efectividad de las tcnicas y algunas veces su velocidad. Adems, la eficiencia del hardware utilizado, el sistema operativo, los recursos de la base da datos y el clculo paralelo influencian el proceso. Por otra parte, el conjunto particular de herramientas tiles para una aplicacin depende altamente del problema prctico. As, en un paso prototipo, es til tener disponible un conjunto de tcnicas amplio para identificar aplicaciones de inters. Sin embargo, en el producto final para la implementacin es posible solo utilizar un pequeo subconjunto de las herramientas. Personalizar las tcnicas de minera de datos a la aplicacin especfica y utilizar mtodos confiables realzan el proceso de extraer informacin til. Los datos apropiados: los datos a ser minados deben contener informacin que valga la pena minar: consistente, limpia, representativa para la aplicacin. Es intil aplicar minera de datos a bases de datos invlidas con altos errores de medicin o errores en la estimacin de datos, o intentar realizar estimaciones a partir de datos con un alto contenido de ruido. Una parte importante de los errores resultantes en la minera de datos son debidos a la incertidumbres en la modelacin y generacin de objetos en ciertas bases de datos en discordancia con las probabilidades reales de la apariencia del fenmeno en el sistema. Es por esto que los errores en la minera de datos a menudo no tienen un significado por ellos mismos, ellos justamente dan un significado prctico para comparar eficiencias de diferentes criterios aplicados a la misma base de datos. El minero apropiado: las operaciones de minera de datos no son an una operacin automtica con muy poca o sin intervencin del hombre. El anlisis del hombre juega un papel importante, principalmente en las reas de la seleccin e interpretacin de datos / conocimiento. El minero debe tener una compresin de los datos bajo anlisis y la especialidad o industria a la cual pertenece. La aplicacin adecuada: es importante definir claramente los objetivos o metas que se pretenden para tomar las decisiones convenientes a los procesos subyacentes. Las preguntas adecuadas: para que la herramienta proporcione las respuestas que se persiguen. El adecuado sentido de la incertidumbre: el minero de datos generalmente est ms interesado en la comprensibilidad que en la exactitud o capacidad de prediccin del modelo. A menudo, an con los mejores mtodos de bsqueda pueden quedar incertidumbres acerca del modelo o la prediccin correctas.

Aplicaciones Comunes de minera de datos


Muchas actividades o especialidades se pueden beneficiar del uso de la minera de datos, ya sea para realizar extraccin de patrones o predecir comportamientos futuros, algunas de las aplicaciones ms frecuentes estn en anlisis de mercados para identificar afinidades entre productos y servicios adquiridos por el consumidor, segmentacin de clientes para identificar caractersticas y comportamientos de clientes o consumidores en general que puedan ser explotados por el mercado, deteccin de fraudes en tarjetas de crdito, telecomunicaciones, sistemas de computo, deteccin de patrones en textos, imgenes o en la web, diagnsticos mdicos etc.

APLICACIONES DE MINERA DATOS EN INGENIERA CIVIL


En cuanto a las aplicaciones de la minera de datos en ingeniera civil y ms especficamente a los sistemas de abastecimientos de agua urbana, es muy escasa la informacin disponible al respecto, a pesar de la cantidad de datos que se pueden almacenar durante las etapas de construccin, operacin y gestin de una red de abastecimiento con las consecuentes posibles aplicaciones como por ejemplo ampliacin de redes, anlisis del reemplazo de tuberas, deteccin de fugas, cambio de dimetros (capacidades), fraudes, deteccin de contadores daados, reposicin del parque de contadores, tipos de materiales en tuberas, anlisis de calidad del agua etc. En un sistema de abastecimiento que requiera de bombeos ya sea para alimentar embalses o directamente la red de distribucin, es muy importante optimizar el costo energtico de la utilizacin de las bombas. Muchos operadores de las estaciones de bombeo, pueden utilizar heurstica o reglas para minimizare el costo de la energa utilizada por las bombas, o realizar predicciones de demandas o ayudar a mantener el nivel de los embalses en rangos aceptables.

Una regla de tipo heurstico podra ser: si el clima en los ltimos 7 das fue caluroso y seco, y en los prximos 7 das se espera que sea caluroso y seco, y el periodo de tiempo antes de una demanda alta es menor o igual a 8 horas, entonces utilice una bomba de gran capacidad durante un periodo corto de tiempo. Este tipo de reglas es necesario documentarlas en sistemas expertos para reducir los costos de operacin y distribucin de los sistemas de abastecimiento de agua, ya que el conocimiento adquirido manualmente es inadecuado para manejar todas las situaciones que pueden presentarse en un problema complejo de ingeniera. Un mtodo alternativo de adquisicin de conocimiento es el aprendizaje automatizado de los datos observados, que es disear un algoritmo que pueda adquirir y afinar reglas de decisin de un conjunto de muestras o datos observados. Este mtodo es conocido como aprendizaje inductivo o adquirir conocimiento por ejemplos. Una aplicacin de aprendizaje inductivo, es el descubrir reglas de datos para realizar predicciones de demandas (An et al.), cuya metodologa est basada en la teora de los conjuntos aproximados, cuya caracterstica es hacer uso de la informacin estadstica inherente a los datos para manejar la informacin incompleta y ambigua. El objetivo es el descubrimiento automatizado de reglas a partir de una muestra de datos para realizar predicciones de la demanda diaria de agua. La base de datos contiene 306 muestras recogidas durante 10 meses que cubren la informacin de 14 factores ambientales y sociolgicos y su correspondiente distribucin de volumen de flujo. Los factores utilizados como posibles afectaciones del consumo diario de agua son: el da de la semana, y factores climticos agrupados en temperatura, humedad, precipitacin, viento, y horas de brillo del sol. Los consumos diarios se tomaron sumando las distribuciones diarias en cada estacin de bombeo. Utilizando una extensin de la teora de los conjuntos borrosos (Pawlak, Z), se obtuvieron reglas a partir de los datos seleccionados, del tipo si-entonces que describen importantes relaciones entre los factores condicionantes y el consumo de agua, las cuales son fcilmente comprensibles. Tanto la informacin bsica como los resultados fueron agrupadas en rangos discretos tanto para su procesamiento como para su interpretacin. En total se generaron 149 reglas para los diferentes conceptos o rangos de prediccin de demanda de agua. Algunos ejemplos del tipo de reglas generadas son los siguientes: Para el rango D = [53 60], (a0 = (D or L or MA) (a5 > 64) (a10<=10.84) (a3 <= -3.36) 1 (53 < D <=60), Esta regla cubre el 66.7% de los objetos de entrada que incluyen el rango y establece que si el da de la semana es domingo, lunes o martes y la humedad mnima es mayor que 64 y el promedio de velocidad del viento es menor o igual a 10.84 y la temperatura media es menor o igual que 3.36, entonces la demanda de agua est entre 53 y 60 con una probabilidad 1, es decir que la totalidad de los objetos seleccionados para el rango cumplen la regla. Para el rango D = (89 90], (a1 <= 23.18) (a12 <= 36.88) (a3 > 10.78) (50 <= a5 <= 64) 1 (80 < D <=90), Esta regla cubre el 10.5% de los objetos de entrada que incluyen el rango. Establece que si la mxima temperatura es menor o igual que 23.18 y la mxima velocidad del viento es menor o igual que 36.88 y la temperatura mnima es mayor de 10.78 y la humedad mnima est entre 50 y 64 inclusive, entonces la demanda de agua est entre 60 y 90 con una probabilidad de 1. Para el rango D = (100 110], (a2 > 10.78) (a12 > 27.03) (a5 <=31) (a13 >9.60) 1 (100 < D <= 110), Esta regla cubre el 33.3% de las muestras que incluyen el rango, y establece que si la temperatura mnima es mayor de 10.78 y la mxima velocidad del viento es mayor de 27.03 y la mnima humedad es menor o igual a 31 y el nmero de horas de brillo del sol es mayor de 9.60, entonces la demanda de agua est entre 100 y 110 con una probabilidad de 1. Otra aplicacin desarrollada es la aproximacin por minera de datos a la modelacin de activos en sistemas de suministro de agua (Babovic et al), la red de tubera de una ciudad y todos los componentes asociados con esta red (vlvulas, bombas, reservorios, etc) constituyen los activos de un suministro de agua, y como cualquier otro activo, es importante invertir en su mantenimiento para que cumplan con su tarea. La motivacin de este trabajo se produjo debido a la poltica implementada en la ciudad de Copenhague (Dinamarca), en los aos 80 de reemplazar un 1% de longitud de la tubera de la red de abastecimiento de agua por ao debido a razones econmicas, prdidas de agua, capacidad, calidad del agua, reclamaciones y compensaciones, cooperacin en trabajos de construccin y visin a largo plazo. El trabajo presenta dos tcnicas de minera de datos para el anlisis del riesgo de rotura de tubos en una red de suministro. Las tcnicas utilizadas son los modelos de punteo y las redes bayesianas. El modelo de punteo une casos que presentan un comportamiento similar. Esto se lleva a cabo asignando un puntaje (un valor entre 0 y 100) a cada caso y agrupando casos en clases de puntajes similares, los operadores utilizados son binarios no lineales y la bsqueda del mejor modelo se realiza utilizando algoritmos genticos. Las redes bayesianas amplan el concepto de los modelos determinsticos tomando en cuenta las incertidumbres. Las salidas y las entradas no son declaradas como variables fijas sino como distribuciones de probabilidad. Una red bayesiana es una red con arcos directos y no ciclos. Los nodos (puntos de arco) representan variables random y decisiones. Los puntos de arco en variables random indican dependencia probabilstica, mientras que los puntos de arco en decisiones especifican la informacin disponible en el periodo de decisin.

La red bayesiana es alimentada con parmetros acerca del tubo, del suelo y de la presin dentro del tubo como inputs. Como output, el modelo produce un estimativo de la historia del tubo y el valor de las funciones de los tres estados limite; esfuerzo circunferencial, esfuerzo de corte y el estado lmite de fatiga. La tcnica empleada para finalizar el modelo del proceso de rotura son los rboles de clasificacin. La estrategia utilizada en el modelo de puntaje es primero construir un modelo que separe casos que tengan baja probabilidad de rotura de aquellos que presentan incertidumbre de rotura y luego construir un modelo con el resultado del modelo de incertidumbre. Los resultados obtenidos con el modelo de puntaje presentan que aun cuando la edad esta entre las variables utilizadas por le modelo, su poder de prediccin es relativamente bajo. El mejor estimador de prediccin para la primera particin (casos con baja probabilidad de rotura), es la longitud del tubo, a mayor longitud mayor nmero de roturas. Otro elemento de prediccin utilizado fue el inicio o comienzo, es decir el nmero de la casa donde el tubo inicia, la cual no parece ser una relacin obvia pero el modelo es ms sensible a esta variable que a la edad del tubo. El anlisis de sensibilidad del modelo refinado (modelo de incertidumbres), toma como elemento de prediccin principal el nmero de roturas en el modelo anterior, parece ms probable que un tubo que se ha roto anteriormente se vuelva a romper. El segundo elemento de prediccin es el momento en que se toma la instantnea, el cual tiene que ver con el instante en el tiempo (ao, mes, da, hora), este elemento de prediccin es un indicador de que en algunos periodos existe ms probabilidad de rotura que en otros. Los modelos de puntaje proveen un mtodo para ordenar los tubos de acuerdo a su riesgo de rotura, lo cual es necesario para presentar un esquema de rehabilitacin de la red. La calidad del modelo depende de la calidad de los datos utilizados. La fuerza de los modelos de puntaje radica en encontrar relaciones entre variables que no son obvias para la mente humana.

CONCLUSIONES
Se ha presentado una visin general acerca del estado del arte de la minera de datos y su aplicacin a problemas concernientes a los sistemas de abastecimiento de agua potable. Se pretende resaltar en este documento la importancia y el gran potencial que tienen estas tcnicas de descubrimiento de patrones no triviales o no obvios a simple vista, para la aplicacin en la planificacin, operacin y gestin de las redes de distribucin de agua. El centro del proceso es la minera de datos, el anlisis automtico de grandes o complejas bases de datos para descubrir patrones o enlaces significantes que de otra forma no se conoceran. El xito en la aplicacin de una tcnica de minera de datos radica principalmente en contar con una informacin bsica o datos de entrada (inputs) suficiente y de buena calidad. Dentro de este documento se presentan las bases y tcnicas de la minera de datos as como un par de ejemplos acerca de su aplicabilidad en los sistemas de abastecimiento de agua potable. El estudio e investigacin de estas tcnicas an no ha sido lo suficientemente desarrollado para su aplicabilidad en la planificacin, operacin y gestin de redes de abastecimiento de agua potable, sin embargo es una tarea que aunque difcil por la escasez o pobre calidad de la informacin con la que cuentan nuestros sistemas de abastecimiento, parece tener bastante futuro para la resolucin de problemas de nuestras redes. Se han mostrados un par de ejemplos que muestran la efectividad que puede tener el proceso de la minera de datos aplicado a problemas de abastecimientos de agua, pero se debe tener en cuenta que an falta investigar lo suficiente para desarrollar y aplicar tcnicas adecuadas para cada tipo de problema que se nos puede presentar, o quiz buscar informacin que no nos ha sido obvia o no est presente de antemano cuando nos planteamos que solucin le podramos dar a problemas cotidianos dentro de la operacin de un sistema de distribucin de agua, como por ejemplo: la deteccin de fugas, el funcionamiento de los contadores, el material utilizado para las tuberas, problemas de ampliacin de redes, o cualquier interrogante que nos pueda surgir y pueda ser resuelto con una gran cantidad de informacin de la que se dispone pero no est siendo utilizada.

REFERENCIAS BIBLIOGRFICAS

AN, A.; SHAN, N.; CHAN, C.; CERCONE, N.; ZIARKO, W. 1997, Applying knowledge discovery to predict water-supply consumption, IEEE Intelligent Systems & Their Applications, Volume 12, Number 4, pages 72-78. BABOVIC, V.; DRCOURT, J.; KEIJZER, M.; HANSEN, P. 2001, Modelling of Water Supply Assets: A Data Mining Approach, D2K Technical Report 1000-1, 2000, February 6, 2001. BUCHHEIT, R.B.; GARRETT, J.H. JR; LEE, S.R.; BRAHME, R. 2000, A Knowledge Discovery Framework for City Civil Infrastructure: A Case Study of the Intelligent Workplace, Engineering with Computers, Number 16, Pages 264-274, 2000. CARBONE, P.; 1997, Data Mining or "Knowledge Discovery in Databases" An Overview, Mitre Corporation, 1997. FERGUSON, M.; Evaluating and selecting data mining tools, InfoDB, Volume 11, Number 2. GROSSMAN, R.; KASIF, S.; MOORE, R.; ROCKE, D.; ULLMAN, J.; 1998, Data mining research: opportunities and challenges, A report of three NSF workshops on mining large, massive, and distributed data, September 18, 1998. OLARU, C.; WEHENKEL, L. 1999. Data Mining. IEEE Computer Applications in Power, Volume 12, Number 3, July 1999, pages 19-25. OHRN, A. 1999. Discernibility and Rough Sets in Medicine: Tools and Applications, Department of Computer and Information Science, Norwegian University of Science and Technology, N7941 Trondheim, Norway. PAWLAK, Z. 2001, Rough sets and their applications, Institute of theoretical and applied sciences, February 28, 2002. REICH, Y.; BARAI, S.V. 1999 Evaluating Machine Learning Models for Engineering Problems, Artificial Intelligence in Engineering, Volume 13, Number 3, Pages 257 272, 1999. REICH, Y. 1997, Machine Learning Techniques for Civil Engineering Problems, Microcomputers in Civil Eng., Volume 12, Number 4, Pages 295 310, 1997. SAVIC, D.A.; DAVIDSON, J.W.; DAVIS, R.B. 1999, Data Mining and Knowledge discovery for the water industry, Water Industry Systems, modelling and optimisation applications, Volume 2, Edited by Dragan A. Savic and Godfrey A. Walters, Research Studies Press Ltd, August, 1999. SKIPWORTH, P.J.; SAUL, A.J.; MACHELL, J.; 1999, Predicting water quality in distribution systems using artificial neural networks. Proceedings of the Institution of Civil EngineersWater Maritime & Energy, Volume 136, Number 1, Pages 1-8, July 1, 1999.

También podría gustarte