Está en la página 1de 35

INGENIERA EN SISTEMAS COMPUTACIONALES

TALLER DE INVESTIGACION 2
Algoritmos de Minera de Datos

Profesores : Ricardo Flores Oliveros

Alumnos: Jorge Pineda Lagarza NC : 07320441 Jos Luis Dirzo Casarrubias N.C: 05320246 David Hidalgo Melchor N.C: 07320393

Pgina 1

INGENIERA EN SISTEMAS COMPUTACIONALES

Indice
Introduccin.3 Marco Terico..4 Identificacin del problema..14 Hiptesis.....14 Objetivo general.....14 Objetivo especifico.14 Justificacin14 Delimitacin....15 Impacto tico, social, tecnolgico, econmico y ambiental15 Metodologa16 Cronograma16 Estado del arte...18 Desarrollo...24 Conclusiones..33 Bibliografa..34

Pgina 2

INGENIERA EN SISTEMAS COMPUTACIONALES


Introduccin
En esta investigacin, se podrn encontrar los algoritmos ms comunes en la minera de datos, su estructura bsica y como es su funcionamiento en general. Tambin se encontrara un poco de la historia de la minera de datos y explicaciones sencillas para un fcil entendimiento de cmo es que ocurren los procesos de minera, cules pueden ser sus aplicaciones y porque es que se an vuelto tan importantes para las empresas y sus procesos de tomas de decisiones.

Pgina 3

INGENIERA EN SISTEMAS COMPUTACIONALES

Marco Terico
La minera de datos (es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD), es un campo de las ciencias de la computacin referido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos. Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que involucra aspectos de bases de datos y gestin de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, mtricas de Intereses, consideraciones de la Teora de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualizacin y actualizacin en lnea. El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la informacin (recoleccin, extraccin, almacenamiento, anlisis y estadsticas), pero tambin se ha generalizado a cualquier tipo de sistema de apoyo informtico decisin, incluyendo la inteligencia artificial , aprendizaje automtico y la inteligencia empresarial. En el uso de la palabra, el trmino clave es el descubrimiento, comnmente se define como "la deteccin de algo nuevo". Incluso el popular libro "La minera de datos: sistema de prcticas herramientas de aprendizaje y tcnicas con Java" (que cubre todo el material de aprendizaje automtico) originalmente iba a ser llamado simplemente "la mquina de aprendizaje prctico", y el trmino "minera de datos" se aadi por razones de marketing. A menudo, los trminos ms generales "(gran escala) el anlisis de datos", o "anlisis" -. o cuando se refiere a los mtodos actuales, la inteligencia artificial y aprendizaje automtico, son ms apropiados. La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (anlisis cluster), registros poco usuales (la deteccin de anomalas) y dependencias (Asociacin Minera regla). Esto generalmente implica el uso de tcnicas de bases de datos como los ndices espaciales. Estos patrones pueden entonces ser visto como una especie de resumen de los datos de entrada, y puede ser utilizado en el anlisis adicional o, por ejemplo, en la mquina de aprendizaje y anlisis predictivo. Por ejemplo, el

Pgina 4

INGENIERA EN SISTEMAS COMPUTACIONALES


paso de minera de datos podran identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados ms precisos de prediccin por un sistema de soporte de decisiones. Ni la recoleccin de datos, preparacin de datos, ni la interpretacin de los resultados y la informacin son parte de la etapa de minera de datos, pero que pertenecen a todo el proceso KDD como pasos adicionales. Los trminos relacionados con el dragado de datos, la pesca de datos y espionaje de los datos se refieren a la utilizacin de mtodos de minera de datos a las partes de la muestra de un conjunto de datos de poblacin ms grandes establecidas que son (o pueden ser) demasiado pequeo para las inferencias estadsticas fiables que se hizo acerca de la validez de cualquier patrones descubiertos. Estos mtodos pueden, sin embargo, ser utilizado en la creacin de nuevas hiptesis que se prueba contra las poblaciones de datos ms grandes. La minera de datos suele describirse cmo el proceso de extraer informacin vlida, autntica y que se pueda procesar de las bases de datos de gran tamao. En otras palabras, la minera de datos deriva patrones y tendencias que existen en los datos. Estos patrones y tendencias se pueden recopilar y definir como un modelo de minera de datos. Los modelos de minera de datos se pueden aplicar a situaciones empresariales como las siguientes: Definir el problema. Preparar los datos. Explorar los datos. Generar modelos. Explorar y validar los modelos. Implementar y actualizar los modelos. El siguiente diagrama describe las relaciones entre cada paso del proceso

Pgina 5

INGENIERA EN SISTEMAS COMPUTACIONALES

Proceso que se ilustra la generacin de un modelo de minera de datos. Aunque el proceso que se ilustra en el diagrama es circular, esto no significa que cada paso conduzca directamente al siguiente. La creacin de un modelo de minera de datos es un proceso dinmico e iterativo. Una vez que se han explorado los datos, puede que se descubra que resultan insuficientes para crear los modelos de minera de datos adecuados y que, por tanto, se debe buscar ms datos. Se puede generar varios modelos y descubrir que no responden al problema planteado cuando se lo defini y que, por tanto, se debe volver a definir el problema. Es posible que se deba actualizar los modelos una vez implementados debido a que haya ms datos disponibles. Por esto, es importante comprender que la creacin de un modelo de minera de datos es un proceso, y que cada paso del proceso puede repetirse tantas veces como sea necesario para crear un modelo vlido. IBM DB2 Intelligent Miner for Data V8.1 ofrece un entorno integrado para crear y trabajar con modelos de minera de datos. El entorno incluye algoritmos y herramientas de minera de datos que facilitan la generacin de una solucin completa para diversos proyectos. Para obtener ms informacin acerca de cmo usar IBM DB2 Intelligent Miner for Data V8.1 ver el Captulo No4 (Introduccin a Intelligent Miner for Data).

Definir el Problema El primer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en definir claramente el problema a resolver

Pgina 6

INGENIERA EN SISTEMAS COMPUTACIONALES

El primer paso del proceso, implica en definir claramente el problema. Este paso incluye analizar los requisitos de la organizacin, definir el mbito del problema, definir las mtricas por las que se evaluar el modelo y definir el objetivo final del proyecto de minera de datos. Estas tareas se traducen en preguntas como las siguientes: Qu se est buscando?. Qu atributo del conjunto de datos se desea intentar predecir?. Qu tipos de relaciones se intenta buscar?. Se desea realizar predicciones a partir del modelo de minera de da tos o slo buscar asociaciones y patrones interesantes?. Cmo se distribuyen los datos?. Cmo se relacionan las columnas?, o en caso de haber varias tablas, cmo se relacionan las tablas?. Para responder a estas preguntas, es probable que se deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la organizacin con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que se deba volver a definir el proyecto.

Preparar los Datos El segundo paso del proceso de minera de datos, como se indica en el siguiente diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el Problema

Pgina 7

INGENIERA EN SISTEMAS COMPUTACIONALES

El segundo paso, consiste en la depuracin y consolidacin de los datos. Los datos pueden estar dispersos en la organizacin y almacenados en distintos formatos. IBM DB2 Intelligent Miner for Datapuede utilizar como datos de entrada archivos planos, donde estos tambin pueden contener incoherencias como datos faltantes missings , fuera de rango outliers o simplemente contener errores. Por ejemplo: los datos pueden mostrar que un cliente adquiri un producto incluso antes de haber nacido o que el cliente compra regularmente en una tienda situada a 3.000 kilmetros de su casa. Antes de empezar a generar modelos, se debe solucionar estos problemas. Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada transaccin. Es por ello que este paso es de suma importancia ya que es aqu donde se tendr que realizar las correspondientes y verificaciones para obtener resultados fehacientes. Calidad en los Datos El xito de las actividades de Data Mining se relaciona directamente con la calidad de los datos. Muchas veces resulta necesario pre-procesar los datos antes de derivarlos al modelo de anlisis. El pre-procesamiento puede incluir transformaciones, reducciones o combinaciones de los datos. La semntica de los datos debe ayudar para la seleccin de una conveniente representacin y las bondades de la representacin elegida gravitan directamente sobre la calidad del modelo y de los resultados posteriores.
Problemas con los Datos En la fase de Preparacin de Datos, pueden suceder una diversidad de casos: Demasiados datos: Datos corruptos o con ruido. Datos redundantes (requieren factorizacin). Datos irrelevantes. Excesiva cantidad de datos (muestreo). Pocos datos: Atributos perdidos (missings). Valores perdidos. Poca cantidad de datos Datos fracturados. Datos incompatibles. Mltiples fuentes de datos.

Pgina 8

INGENIERA EN SISTEMAS COMPUTACIONALES

Explorar los Datos El tercer paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en explorar los datos preparados

Se debe comprender los datos para seleccionar un modelo adecuado. Se debe comprender los datos para tomar las decisiones adecuadas al crear los modelos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y mximos, calcular la media y las desviaciones estndar y examinar la distribucin de los datos. Una vez explorados los datos, se puede decidir si el conjunto de datos contiene datos con errores y, a continuacin, crear una estrategia para solucionar los problemas.

Generar Modelos El cuarto paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en generar los modelos de minera de datos Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobacin independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de comprobacin para comprobar la precisin del modelo mediante la creacin de consultas de prediccin.

Pgina 9

INGENIERA EN SISTEMAS COMPUTACIONALES

Un modelo, es una tabla de datos compuesta por filas y columnas. Se utilizarn los conocimientos adquiridos en el paso Explorar los Datos para definir y crear un modelo de minera de datos. Normalmente, los modelos contienen: Columnas de Entrada. Columna de Identificacin. Columna de Prediccin. Es decir que los datos para data mining se organizan en forma de una tabla plana compuesta por Filas y Columnas, donde: Las Filas: Son las unidades de anlisis. Por ejemplo: una cuenta bancaria, un ticket de un supermercado, etc. Las Columnas: Los atributos de cada unidad de anlisis. Por ejemplo: la frecuencia de uso de la tarjeta de crdito, sexo, edad, etc. Una vez definida la estructura del modelo de minera de datos, se la procesa rellenando la estructura vaca con los patrones que describen el modelo. Esto se conoce como entrenar el modelo. Los patrones se encuentran al pasar los datos originales por un algoritmo matemtico. IBM DB2 Intelligent Miner for Data V8.1 contiene un algoritmo

Pgina 10

INGENIERA EN SISTEMAS COMPUTACIONALES


diferente para cada tipo de modelo que se puede generar. Se puede utilizar parmetros para ajustar cada algoritmo. El modelo de minera de datos se define mediante: Objeto de estructura de minera de datos. Objeto de modelo de minera de datos. Algoritmo de minera de datos. Caractersticas de las Tablas de Datos para Data Mining Como se haca referencia anteriormente, un modelo de Minera de Datos se organiza como una tabla plana, con filas y columnas. En donde en ella se tiene las siguientes particularidades: Cada fila debe corresponder a una instancia relevante al caso de estudio. Todos los datos deben estar en una sola tabla o vista de la Base de Datos. Las columnas sin variabilidad deben ser ignoradas. Los atributos con valores nicos para cada caso deben ser ignoradas (nro.de cuenta, DNI, etc.). Muchas veces este tipo de informacin contiene datos sensibles. Datos sensibles: Datos personales que revelan origen racial y tnico, opiniones polticas, convicciones religiosas, filosficas o morales, afiliacin sindical e informacin referente a la salud o a la vida sexual. Art. No 7 de la Ley No25326 Proteccin de los Datos Personales. Resumiendo, para tener una mejor comprensin del problema se debe factorizar (reducir dimensionalidad) logrando as un modelo terminado. Explorar y Validar los Modelos El quinto paso del proceso de Minera de Datos, como se resalta en el siguiente diagrama, consiste en explorar los modelos que se han generado y comprobar su eficacia

Pgina 11

INGENIERA EN SISTEMAS COMPUTACIONALES

La validacin implica la seleccin del modelo que se adapte mejor. No se debe implementar un modelo en un entorno de produccin sin comprobar hayan creado varios modelos y se deba decidir cul funciona mejor. Si ninguno de los modelos que se han creado en el paso Generar Modelos funciona correctamente, puede que se deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos.

Implementar y Actualizar los Modelos El ltimo paso del proceso de minera de datos, como se resalta en el siguiente diagrama, consiste en implementar los modelos que funcionan mejor en un entorno de produccin

La implementacin es el ltimo paso de el proceso. Una vez que los modelos de minera de datos se encuentran en el entorno de produccin, se pueden llevar acabo diferentes tareas, dependiendo de las necesidades. stas son algunas de las tareas que se pueden realizar:

Utilizar los modelos para crear predicciones que se puedan utilizar para tomar decisiones empresariales. Por ejemplo: la prediccin de
Pgina 12

INGENIERA EN SISTEMAS COMPUTACIONALES


demanda , optimizacin de campaas - tracking de campaas y prediccin de respuesta / no respuesta.

Incrustar la funcionalidad de minera de datos directamente en una aplicacin. Aplicaciones del modelo de minera de datos a negocios electrnicos . Por ejemplo: para mejorar la estructura del Website (mejora en tiempos de acceso, anlisis de trfico y uso de recursos de e-business), se pueden aplicar las siguientes tcnicas: Propensin a la fuga - modelos de prediccin de abandono del sitio. Propensin a la compra venta cruzada (afinidad) - canasta de consumo. Reglas de asociacin de pginas visitadas. Segmentacin de visitantes, panelistas. Scoring de riesgo. Anlisis cross/up sell - caracterizacin de perfiles de clientes para definir acciones de up selling y cross selling. Deteccin de fraude.

Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minera de datos existente.

La actualizacin del modelo forma parte de la estrategia de implementacin. A medida que la organizacin recibe ms datos, debe volver a procesar los modelos para mejorar as su eficacia.

Pgina 13

INGENIERA EN SISTEMAS COMPUTACIONALES

Identificacin del problema


En el mundo se est haciendo ms comn al uso de minera de datos para la bsqueda de conocimiento y patrones de conocimiento, para que las empresas puedan tomar decisiones en base a datos que ya existen intentando predecir escenarios que pueden presentarse y as estar preparados para ellas. Entonces la problemtica que nos aqueja es; Cules son los mtodos de minera de datos que se emplean actualmente y cmo funcionan?

Hiptesis
El estudiar los diversos mtodos de minera de datos nos permiten desarrollar la habilidad de elegir adecuadamente ,que tipo de tcnica de minera se adecua mas a las necesidades del caso, se deber poder identificar que tcnica, de entre las que se observaran en esta investigacin, es la mas adecuada para el proceso de minera de datos.

Objetivo general
Conocer y comprender los algoritmos existentes para la aplicacin de minera de datos, y con ello poder elegir los que aplicaremos a nuestro proyecto.

Objetivos especficos
Ampliar nuestro conocimiento sobre los algoritmos de minera de datos Escoger los algoritmos que mejor se adapten a nuestro sistema Entender cmo funciona la adquisicin de conocimientos

Justificacin
Este trabajo se justifica en la necesidad de buscar y entender los distintos algoritmos para la minera de datos con el fin de aplicarlos a nuestros proyectos y

Pgina 14

INGENIERA EN SISTEMAS COMPUTACIONALES


as observar y entender cmo funciona la adquisicin de conocimiento en las computadoras o tambin cmo funciona la I.A. (inteligencia artificial). Adems de prepararnos con ese conocimiento para afrontar las necesidades de empresas en el exterior.

Delimitacin
En esta investigacin, centraremos nuestra atencin en los mtodos principales de minera de datos ,los principales los cuales pertenecen a la rama de las tcnicas basadas en ecuaciones, y las tcnicas basadas en lgica . Estas tcnicas son las de estadsticas y redes neuronales artificiales (de tcnicas basadas en ecuaciones) , y arboles de decisin y reglas (basadas en tcnicas de lgica).

Impacto tico, social, tecnolgico, econmico y ambiental


Su impacto tico es mnimo, dado que al desarrollar sistemas donde se maneja tanta informacin, por lo general se firman acuerdos de confidencialidad sumamente detalladlos, los cuales no dan pie a conductas poco ticas. El impacto que esta investigacin tendr en la sociedad indirecto, dado que esta investigacin no est dirigida a un amplio pblico, sino a un sector de la poblacin en especfico. El impacto tecnolgico se podra decir que es considerable, dado que los procesos de minera de datos hoy en da son sumamente importantes y , hasta cierto grado, algo difciles de comprender y aun mas, de realizar ,es aqu en donde radica la importancia de esta investigacin, el brindar un soporte, el cual permita la comprensin e implementacin de los mtodos de minera de datos. En cuanto el impacto econmico ,este podra ser muy moderado, dado que solo podra propiciar el desarrollo de mas empresas las cuales brinden los servicios de minera de datos, o se mejoren los ya existentes, reduciendo los costos. El impacto ambiental es nulo.

Pgina 15

INGENIERA EN SISTEMAS COMPUTACIONALES


Metodologa
Investigacin Documental La investigacin Documental como una variante de la investigacin cientfica, cuyo objetivo fundamental es el anlisis de diferentes fenmenos (de orden histricos, psicolgicos, sociolgicos, etc.), utiliza tcnicas muy precisas, de la Documentacin existente, que directa o indirectamente, aporte la informacin. Podemos definir a la investigacin documental como parte esencial de un proceso de investigacin cientfica, constituyndose en una estrategia donde se observa y reflexiona sistemticamente sobre realidades (tericas o no) usando para ello diferentes tipos de documentos. Indaga, interpreta, presenta datos e informaciones sobre un tema determinado de cualquier ciencia, utilizando para ello, una metdica de anlisis; teniendo como finalidad obtener resultados que pudiesen ser base para el desarrollo de la creacin cientfica. Visto en estos trminos, la Investigacin Documental podemos caracterizarla de la siguiente manera:

Se caracteriza por la utilizacin de documentos; recolecta, selecciona, analiza y presenta resultados coherentes. Utiliza los procedimientos lgicos y mentales de toda investigacin; anlisis, sntesis, deduccin, induccin, etc. Realiza un proceso de abstraccin cientfica, generalizando sobre la base de lo fundamental. Realiza una recopilacin adecuada de datos que permiten redescubrir hechos, sugerir problemas, orientar hacia otras fuentes de investigacin, orientar formas para elaborar instrumentos de investigacin, elaborar hiptesis, etc. Puede considerarse como parte fundamental de un proceso de investigacin cientfica, mucho ms amplio y acabado. Es una investigacin que se realiza en forma ordenada y con objetivos precisos, con la finalidad de ser base a la construccin de conocimientos. Se basa en la utilizacin de diferentes tcnicas de: localizacin y fijacin de datos, anlisis de documentos y de contenidos. En un sentido restringido, entendemos a la investigacin documental como un proceso de bsqueda que se realiza en fuentes impresas (documentos escritos). Es decir, se realiza una investigacin bibliogrfica especializada para producir nuevos asientos bibliogrficos sobre el particular. Una confusin muy generalizada, coloca como iguales, a la investigacin bibliogrfica y a la investigacin documental. Esta afirmacin como podemos observar, reduce la investigacin documental a la revisin y anlisis de libros dejando muy pobremente reducido su radio de accin. La investigacin

Pgina 16

INGENIERA EN SISTEMAS COMPUTACIONALES


bibliogrfica, aclaramos, es un cuerpo de investigacin documental. Asumimos la bibliografa como un tipo especfico de documento, pero no como el Documento.

Cronograma
Octubre 1-10 Octubre 11-20 Octubre 21-31 Noviembre 1-10 Noviembre 11-12

Actividad Introduccin, Marco Terico Identificacin del problema, Hiptesis Objetivo General, Especifico y Justificacin Delimitacin, Impactos, Metodologa

Estado del Arte, Desarrollo ,Conclusiones

Pgina 17

INGENIERA EN SISTEMAS COMPUTACIONALES


Estado del arte
Minera de datos (Data mining) La minera de datos es un componente de la actividad llamada Descubrimiento de Conocimiento en Bases de Datos (KDD, de sus siglas en ingls), es decir en la minera de datos se aplica un algoritmo para extraer patrones de los datos y el KDD es el proceso completo (Pre-procesamiento, minera, post-procesamiento) Minera de datos es el descubrimiento semi-automtico de patrones, asociaciones, cambios, anomalas y estructuras estadsticamente significantes y eventos en los datos, (Grossman, 1998). La minera de datos difiere de la estadstica tradicional en cuanto a que en la estadstica una hiptesis est formulada y validad en los datos, mientras que en el proceso de minera de datos los patrones se extraen automticamente de los datos, dicho de otra forma la minera de datos es un manejo de datos mientras que la estadstica es un manejo ms del hombre. KDD es comnmente definido como el proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y entendibles en los datos.(Ohrn, 19 99) KDD involucra investigacin de reas cmo: aprendizaje computacional, reconocimiento de patrones, bases de datos, estadstica, inteligencia artificial, adquisicin de conocimiento y visualizacin de datos. Por otro lado est relacionado con mtodos de descubrimiento automtico (por ejemplo de leyes fsicas) y con sistemas de manejo de informacin (Management Information Systems). Las tcnicas de Minera de Datos (Data Mining) pueden proveer una solucin para adquirir conocimiento abstracto de bases de datos de infraestructura civil. Las tcnicas de minera de datos son solo una parte de un gran esquema. Descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases KDD) es el proceso no trivial de identificar patrones vlidos en datos, novedosos, potencialmente tiles y finalmente comprensibles (Buchheit, 2000). El descubrimiento de conocimiento (Knowledge discovery) ha sido definido como la extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til de datos. (Carbone, 1997). Minera de datos es una denominacin folklrica de una actividad compleja que apunta a extraer informacin sintetizada y previamente desconocida de grandes bases de datos. (Olaru, 1999), dependiendo del puntos de vista la minera de datos es considerada como un paso del proceso llamado Descubrir conocimiento en las bases de datos (KDD), o en otras ocasiones cmo un sinnimo de este. Es un anlisis exploratorio de datos, probado para descubrir patrones tiles en los datos que no son obvios para el usuario. Un minero de datos, es la persona, generalmente con conocimiento en computadores y estadstica y en la especialidad de inters, o una pareja de

Pgina 18

INGENIERA EN SISTEMAS COMPUTACIONALES


especialistas, uno con conocimiento en la minera de datos y otro en la especialidad de inters, capaces de ejecutar los pasos del proceso de minera.

Antecedentes y Generalidades El concepto de minera de datos apareci hace ms de 10 aos. El inters en este campo y su explotacin en diferentes especialidades (negocios, finanzas, ingeniera, banca, salud, sistemas de energa, meteorologa....), se ha incrementado recientemente debido a la combinacin de diferentes factores, los cuales incluyen: El surgimiento de gran cantidad de datos (terabytes 1012 bytes de datos) debido a la medicin y/o recopilacin de datos automtica, registros digitales, archivos centralizados de datos y simulaciones de software y hardware. El abaratamiento de los costos de los medios de almacenamiento. El surgimiento y rpido crecimiento del manejo de sistemas de bases de datos. Los avances en la tecnologa computacional tal como los computadores rpidos y las arquitecturas paralelas. Los desarrollos continuos en tcnicas de aprendizaje automtico. La posible presencia de incertidumbre en los datos (ruido, outliers, informacin perdida). El propsito general de la minera de datos es procesar la informacin de la gran cantidad de datos almacenados o que se puedan generar, y desarrollar procedimientos para manejar los datos y tomar futuras decisiones.

Generalmente, una de las primeras tareas en el proceso de la minera de datos consiste en resumir la informacin almacenada en la base de datos, con el fin de comprender bien su contenido. Esto se realiza por medio de anlisis estadsticos o tcnicas de bsqueda y reporte. Las operaciones ms complejas consisten en la identificacin de modelos para predecir informacin acerca de objetos futuros. El trmino aprendizaje supervisado supervised learning (co nocido como aprendizaje con profesor) est implicado en el minado de datos, en el cual para cada entrada (input) de los objetos de aprendizaje, el objetivo de la salida (output) deseada es conocida e implicada en el aprendizaje. En los mtodos de aprendizaje sin supervisin unsupervised learning (aprendiendo por observacin) el resultado no es suministrado o considerado del todo, y el mtodo aprende por si solo de los valores de los atributos de entrada.

Pgina 19

INGENIERA EN SISTEMAS COMPUTACIONALES


Pasos o procesos de la minera de datos El proceso de minera involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de tipo estadstico, en el sentido que se permite un cierto ruido o error dentro del modelo. En general el proceso de la minera de datos itera a travs de cinco pasos bsicos, tal como se muestra en la Figura 1: Seleccin de datos: consiste en buscar el objetivo y las herramientas del proceso de minera, identificando los datos a ser extrados, buscando los atributos apropiados de entrada y la informacin de salida para representar la tarea. Las comprobaciones bsicas deben incluir el tipo de consistencia, la validez de rangos, etc. Un sistema de minera de datos puede ser utilizado para este propsito, se pueden buscar patrones generales y reglas en las bases de datos que identifiquen valores irregulares que no cumplen las reglas establecidas. Trasformacin de datos: las operaciones de transformacin incluyen organizar los datos en la forma deseada, convirtiendo un tipo de datos en otro (por ejemplo de simblico a numrico) definiendo nuevos atributos, reduciendo la dimensionalidad de los datos, removiendo ruidos, outliers, normalizando, decidir estrategias para manejar datos perdidos. Minera de datos: los datos trasformados son minados, utilizando una o ms tcnicas para extraer patrones de inters. Interpretacin de resultados y validacin: para comprender el significado del conocimiento extrado y su rango de validez, la aplicacin de minera de datos prueba su robustez, utilizando mtodos de validacin establecidos y probndolo con datos diferentes a los utilizados para crear el modelo. Lo que se hace generalmente es dividir los datos en una serie para trabajo y otra para validacin.

Solo la serie de trabajo es utilizada para evaluar la habilidad del modelo desarrollado. La informacin extrada es tambin valorada (ms subjetivamente) comparndola con experiencias anteriores. Incorporacin del conocimiento descubierto: presentacin de los resultados del modelo para poder comprobar o resolver conflictos con creencia o resultados anteriores y aplicar el nuevo modelo.

Pgina 20

INGENIERA EN SISTEMAS COMPUTACIONALES


Datos Seleccin Datos Seleccionados Pre - procesamiento Datos Preprocesados Trasformacin Datos Trasformados Minera de Datos Modelos

Interpretacin / Evaluacin Conocimiento Figura 1 Pasos de la minera de datos. Las herramientas de minera de datos buscan dirigirse a dos requerimientos bsicos: Descripcin: descubriendo patrones, asociaciones y grupos de informacin. Puede incluir deteccin de desviaciones, segmentacin de bases de datos, agrupamientos, asociaciones, reglas, resmenes, visualizacin y minado de textos. Prediccin: utilizando aquellos patrones para predecir tendencias y comportamientos futuros. La prediccin incorpora tareas de clasificacin, regresin y anlisis de series temporales.

Pgina 21

INGENIERA EN SISTEMAS COMPUTACIONALES


Clases de minera de datos Dependiendo principalmente de la aplicacin especifica y en el inters del minero, se pueden identificar algunos tipos de tareas de minera de datos para las cuales se producen posibles respuestas. Algunas de las clases o categoras de minera de datos utilizados para la descripcin y/o prediccin son las siguientes: Presentacin concisa de datos: apunta a producir descripciones compactas y caractersticas para un conjunto dado de datos. Pueden tomar mltiples formas: numrica (medidas simples de descripcin estadstica cmo medias, desviaciones estndar....), formas grficas (histogramas, dispersiones), o en la forma de reglas si-entonces. Se pueden realizar descripciones de la totalidad de los datos o seleccionando subconjuntos. Clasificacin: desarrollando perfiles de grupos u objetos en trminos de sus atributos. Un problema de clasificacin es un aprendizaje supervisado, donde la informacin de salida es una clasificacin discreta, es decir teniendo un objeto y sus atributos de entrada, el resultado de la clasificacin es una de las posibles recprocas clases exclusivas del problema. La tarea de clasificacin tiende a descubrir alguna clase de relacin entre los atributos de entrada y las clases de salida, tal que el conocimiento descubierto puede ser utilizado para predecir la clase de un nuevo objeto desconocido. Regresin: estableciendo relaciones entre series de objetos con el propsito de predecir. Un problema de regresin es un aprendizaje supervisado de construccin de un modelo ms o menos trasparente, donde la informacin de salida es un valor numrico continuo o un vector de tales valores en vez de una clasificacin discreta. Entonces, dando un objeto es posible predecir uno de sus atributos por medio de otros atributos, utilizando el modelo construido.

La prediccin de valores numricos se puede realizar por mtodos estadsticos clsicos o ms avanzados, y por mtodos simblicos a menudo utilizados en las tareas de clasificacin. Problemas temporales: es una regresin utilizando adicionalmente la informacin del tiempo. En ciertas aplicaciones es til producir reglas que tengan en cuenta explcitamente el papel del tiempo. Las bases de datos que contienen informacin temporal pueden ser explotadas buscando patrones similares o aprendiendo a anticipar alguna situacin anormal en los datos. Agrupamiento: fraccionando clases o tems que presentan comportamientos o caractersticas similares en subconjuntos o grupos. El problema de

Pgina 22

INGENIERA EN SISTEMAS COMPUTACIONALES


agrupamiento, es un problema de aprendizaje sin supervisin, en el cual se busca encontrar en los datos grupos de objetos similares compartiendo un nmero de propiedades importantes. Se puede utilizar en la minera de datos para evaluar similitudes entre datos, construir un conjunto de prototipos representativos, analizar correlaciones entre atributos, o representar automticamente un conjunto de datos por pequeos nmeros de regiones, preservando las propiedades topolgicas del espacio original de entrada. Modelos de causalidad: es un problema de descubrir relaciones de causa y efecto entre atributos. Una regla causal del tipo si-entonces, indica no solo que existe una correlacin entre la regla antecedente y la consecuente, sino que tambin la antecedente es causa de la consecuente. Anlisis de asociacin: reconociendo que la presencia de un grupo de tems implica la presencia de otro grupo. Descubrimiento de secuencias: reconociendo que un grupo de tems es seguido por otro grupo. Modelos de dependencia: consiste en descubrir un modelo que describe dependencias significantes entre atributos. Estas dependencias son generalmente expresadas como reglas si-entonces en la forma si el antecedente es verdadero entonces la consecuencia es verdadera, donde tanto el antecedente como la consecuencia de la regla pueden ser una combinacin de atributos. Deteccin de desviaciones: esta tarea esta enfocada a descubrir cambios significantes o desviaciones en los datos entre el contenido actual y el contenido esperado que puede ser previamente medido o de valores normalizados.

Esto incluye la bsqueda de desviaciones en el tiempo y la bsqueda de diferencias inesperadas entre dos subconjuntos de datos. La clasificacin, regresin, y series temporales son utilizadas para prediccin, mientras que el agrupamiento, la asociacin y el descubrimiento de secuencias entre otras son ms apropiados para describir relaciones existentes en los datos.

Pgina 23

INGENIERA EN SISTEMAS COMPUTACIONALES


Desarrollo
Tcnicas de minera de datos En general las tcnicas de minera de datos se pueden dividir en aquellas que hacen uso de ecuaciones tales como la estadstica o las redes neuronales o las que se basan en la lgica cmo los rboles de decisin y las reglas, aunque algunas pueden hacer uso tanto de ecuaciones o de la lgica, o pueden ser una combinacin de tcnicas.

Tcnicas de minera de datos Basadas en ecuaciones Basadas en lgica

Estadsticas

Redes Neuronales Artificiales rboles de decisin Reglas

Figura 2. Tcnicas de minera de datos. Las tcnicas de minera de datos estn basadas en un conjunto de herramientas importantes originadas en inteligencia artificial, la estadstica, la teora de informacin, el aprendizaje de mquinas, el razonamiento con incertidumbre (conjuntos borrosos), el reconocimiento de patrones o visualizacin. As, un paquete de programa de minera de datos est basado en diferentes niveles por un conjunto de tecnologas, algunas de las tcnicas de minera de datos ms utilizadas son las siguientes: rboles de decisin: un rbol de decisin es una estructura en forma de rbol que visualmente describe una serie de reglas (condiciones) que causan que una decisin sea tomada. Algoritmos genticos: los algoritmos genticos son tcnicas de optimizacin que pueden ser utilizadas para mejorar otros algoritmos de minera de datos obteniendo como resultado el mejor modelo para una serie de datos. El modelo resultante es aplicado a los datos para descubrir patrones escondidos o para realizar predicciones.

Pgina 24

INGENIERA EN SISTEMAS COMPUTACIONALES


Redes Neuronales Artificiales: Estos son modelos de prediccin no lineales que aprenden como detectar un patrn para emparejar un perfil particular a travs de un proceso de entrenamiento que envuelve aprendizaje iterativo, utilizando un conjunto de datos que describe lo que se quiere encontrar. Las redes neuronales son conocidas en la estructura del aprendizaje automtico cmo aproximaciones universales con un gran carcter paralelo de clculo y buenas capacidades de generalizacin, pero tambin como cajas negras debido a la dificultad para penetrar dentro de las relaciones aprendidas. Son utilizadas en l la minera de datos: para generar modelos de regresin que puedan predecir comportamientos futuros, sobre la base de pares de datos de entrada salida de informacin numrica histrica continua (la red neuronal asocia salidas numricas (outputs) con cualquier nuevo objeto de valores de atributos conocidos), y automticamente representa un conjunto de datos por un pequeo nmero de prototipos representativos, preservando las propiedades topolgicas del espacio original del atributo (aprendizaje sin supervisin). Tcnicas estadsticas: una variedad de tcnicas pueden ser utilizadas para identificar patrones, los cuales pueden ser entonces utilizados para predecir el futuro. Estas incluyen las regresiones lineales, los modelos aditivos generalizados (GAM) y las regresiones adaptativas multivariadas por splines. rboles e Induccin de reglas: la induccin de reglas es el proceso de extraer reglas (si-entonces) de datos, basadas en significados estadsticos. El aprendizaje de mquinas (ML, de sus siglas en ingls), es el centro del concepto de la minera de datos, debido a su capacidad de ganar penetracin fsica dentro del problema, y participar directamente en la seleccin de datos y en los pasos de bsqueda del modelo. Para dirigir problemas de clasificacin (rboles de decisin claros y borrosos), regresin (rboles de regresin), prediccin temporal (rboles temporales), el campo del aprendizaje de mquinas, bsicamente se centra en el diseo automtico de reglas si-entonces, similares a aquellas utilizadas por los expertos humanos. La induccin de rboles de decisin es capaz de manejar problemas de gran escala debido a su eficiencia computacional, dar resultados interpretables y en particular identificar los atributos ms representativos para una tarea dada. Reglas de asociacin: la generacin de reglas de asociacin es una tcnica potente de minera de datos utilizada para buscar en un conjunto de datos, por reglas que revelan la naturaleza y frecuencia de las relaciones o asociaciones entre las entidades de los datos. Las asociaciones resultantes pueden ser utilizadas para filtrar la informacin por anlisis humano y posiblemente definir un modelo de prediccin basado en el comportamiento observado.

Pgina 25

INGENIERA EN SISTEMAS COMPUTACIONALES


Lgica Borrosa (Fuzzy Logic): la lgica borrosa maneja conceptos imprecisos (como pequeo, grande, joven, viejo, alto, bajo) y es ms flexible que otras tcnicas. Proporciona la nocin de un conjunto borroso ms que una clara demarcacin de lmites, por ejemplo en vez de 0 o 1 hay tambin 0.9, 0.85, 0.93, 0.21, 0.05 etc. Mtodos de agrupamiento: es utilizado en el paso de pre-procesamiento de los datos, debido a la caracterstica de aprender semejanzas sin supervisin entre objetos y reducir el espacio de bsqueda a un conjunto de los atributos ms importantes parta la aplicacin o a un conjunto finito de objetos. El mtodo ms frecuentemente utilizado para agrupar es el kmeans el cual identifica un cierto nmero de grupos u objetos similares el cul puede ser utilizado conjuntamente con el mtodo de la Vecindad ms prxima (K-Nearest Neighbor k-NN), esta tcnica coloca un objeto de inters dentro de clases o grupos examinando sus atributos y agrupndolo con otros cuyos atributos son cerrados a l K-NN es una tcnica clsica para descubrir asociaciones y secuencias cuando los atributos de los datos son numricos. Con atributos no numricos o variables es difcil aplicar esta tcnica por la dificultad de definir una medida que pueda ser utilizada para cuantificar la distancia entre un par de valores no numricos. Tcnicas de visualizacin: histogramas (estimando la distribucin de probabilidad para ciertos atributos numricos dados en un conjunto de objetos), grficas de dispersin (proporcionan informacin sobre la relacin entre dos atributos numricos y unos discreto), grficas tridimensionales, dendrogramas (anlisis de correlacin entre atributos u objetos)..... Conjuntos Aproximados (Rough Sets): La teora de conjuntos aproximados es adecuada para problemas que pueden ser formulados cmo tareas de clasificacin y ha ganado un significante inters cientfico como estructura de minera de datos y KDD (Ohrn, 1999).

La base de la teora de los conjuntos aproximados est en la suposicin de que cada objeto del universo de discurso tiene rasgos caractersticos, los cuales son presentados por informacin (conocimiento, datos) acerca del objeto. (Pawlak, 2002). Los objetos que tienen las mismas caractersticas son indiscernibles. La teora ofrece herramientas matemticas para descubrir patrones escondidos en los datos, identifica dependencias parciales o totales, es decir relaciones causa efecto, en bases de datos, elimina redundancia en los datos, da aproximaciones a valores nulos o invlidos, datos perdidos, datos dinmicos etc. Los pasos seguidos en la estructura de conjuntos aproximados son los siguientes: Seleccin: el vehculo bsico para la representacin de datos en la estructura de la teora de conjuntos aproximados es plano, tablas de datos en dos dimensiones.

Pgina 26

INGENIERA EN SISTEMAS COMPUTACIONALES


Esto no implica que la tabla sea una simple tabla fsica, una tabla puede ser una vista lgica entre algunas tablas adyacentes. Una tabla adecuada es seleccionada para anlisis subsecuentes. Las columnas de las tablas son llamadas atributos, las filas objetos, y las entradas en la tabla son los valores de los atributos. Pre-procesamiento: si la tabla seleccionada contiene huecos en forma de valores perdidos o entradas de celdas vacas, la tabla puede ser pre procesada de varas formas para llenar o completar la tabla. Transformacin: los atributos numricos pueden ser discretizados, es decir el uso de intervalos o rangos en vez de los valores de los datos exactos. Minera de datos: en la metodologa de los conjuntos aproximados, se producen conjunciones de proposiciones elementales o reglas si-entonces. Esto se realiza en un proceso de dos etapas, en el cual subconjuntos de mnimos atributos son primero computados antes de que los patrones o reglas sean generados. Interpretacin y evaluacin: Los patrones individuales o reglas pueden ser ordenados por alguna medida de bondad y manualmente inspeccionados. Conjuntos de reglas pueden ser empleados para clasificar nuevos casos y registrar el desempeo de clasificacin. La teora de los conjuntos borrosos tiene enlaces con mtodos de razonamiento boliano, estadstica, redes neuronales, morfologa matemtica, y puede ser utilizada en combinacin con otras tcnicas cmo conjuntos borrosos, algoritmos genticos, mtodos estadsticos, redes neuronales, etc. Adems, algunos paquetes de minera de datos incluyen: descubrimiento de secuencias de patrones (objetos con igual sucesin de valores de atributos sobre un periodo de tiempo), similitud en series temporales (detecta series temporales similares en un periodo de tiempo), redes bayesianas (modelos grficos que codifican relaciones probabilsticas entre variables de inters, sistemas capaces de adquirir relaciones de causa), neurofuzzy systems (sistemas de inferencia borrosa que incorporan el aprendizaje y las habilidades de generalizacin de las redes neuronales). Las tcnicas de minera de datos son diferentes unas a otras en trminos de la representacin del problema, parmetros a optimizar, exactitud, complejidad, tiempo de ejecucin, transparencia e interpretacin. El xito del minado de datos est determinado por algunos factores, entre los cuales se tienen: Las herramientas apropiadas: una caracterstica que distingue un software de minera de datos es la calidad de sus algoritmos, la efectividad de las tcnicas y algunas veces su velocidad. Adems, la eficiencia del hardware utilizado, el sistema operativo, los recursos de la base de datos y el clculo
Pgina 27

INGENIERA EN SISTEMAS COMPUTACIONALES


paralelo influencia el proceso. Por otra parte, el conjunto particular de herramientas tiles para una aplicacin depende altamente del problema prctico. As, en un paso prototipo, es til tener disponible un conjunto de tcnicas amplio para identificar aplicaciones de inters. Sin embargo, en el producto final para la implementacin es posible solo utilizar un pequeo subconjunto de las herramientas. Personalizar las tcnicas de minera de datos a la aplicacin especfica y utilizar mtodos confiables realzan el proceso de extraer informacin til. Los datos apropiados: los datos a ser minados deben contener informacin que valga la pena minar: consistente, limpia, representativa para la aplicacin. Es intil aplicar minera de datos a bases de datos invlidas con altos errores de medicin o errores en la estimacin de datos, o intentar realizar estimaciones a partir de datos con un alto contenido de ruido.

Una parte importante de los errores resultantes en la minera de datos son debidos a la incertidumbre en la modelacin y generacin de objetos en ciertas bases de datos en discordancia con las probabilidades reales de la apariencia del fenmeno en el sistema. Es por esto que los errores en la minera de datos a menudo no tienen un significado por ellos mismos, ellos justamente dan un significado prctico para comparar eficiencias de diferentes criterios aplicados a la misma base de datos. El minero apropiado: las operaciones de minera de datos no son an una operacin automtica con muy poca o sin intervencin del hombre. El anlisis del hombre juega un papel importante, principalmente en las reas de la seleccin e interpretacin de datos / conocimiento. El minero debe tener una compresin de los datos bajo anlisis y la especialidad o industria a la cual pertenece. La aplicacin adecuada: es importante definir claramente los objetivos o metas que se pretenden para tomar las decisiones convenientes a los procesos subyacentes. Las preguntas adecuadas: para que la herramienta proporcione las respuestas que se persiguen. El adecuado sentido de la incertidumbre: el minero de datos generalmente est ms interesado en la comprensibilidad que en la exactitud o capacidad de prediccin del modelo. A menudo, an con los mejores mtodos de bsqueda pueden quedar incertidumbres acerca del modelo o la prediccin correctas.

Pgina 28

INGENIERA EN SISTEMAS COMPUTACIONALES


Aplicaciones Comunes de minera de datos Muchas actividades o especialidades se pueden beneficiar del uso de la minera de datos, ya sea para realizar extraccin de patrones o predecir comportamientos futuros, algunas de las aplicaciones ms frecuentes estn en anlisis de mercados para identificar afinidades entre productos y servicios adquiridos por el consumidor, segmentacin de clientes para identificar caractersticas y comportamientos de clientes o consumidores en general que puedan ser explotados por el mercado, deteccin de fraudes en tarjetas de crdito, telecomunicaciones, sistemas de computo, deteccin de patrones en textos, imgenes o en la web, diagnsticos mdicos etc.

Aplicaciones de Minera de Datos en Ingeniera Civil En cuanto a las aplicaciones de la minera de datos en ingeniera civil y ms especficamente a los sistemas de abastecimientos de agua urbana, es muy escasa la informacin disponible al respecto, a pesar de la cantidad de datos que se pueden almacenar durante las etapas de construccin, operacin y gestin de una red de abastecimiento con las consecuentes posibles aplicaciones como por ejemplo ampliacin de redes, anlisis del reemplazo de tuberas, deteccin de fugas, cambio de dimetros (capacidades), fraudes, deteccin de contadores daados, reposicin del parque de contadores, tipos de materiales en tuberas, anlisis de calidad del agua etc. En un sistema de abastecimiento que requiera de bombeos ya sea para alimentar embalses o directamente la red de distribucin, es muy importante optimizar el costo energtico de la utilizacin de las bombas. Muchos operadores de las estaciones de bombeo, pueden utilizar heurstica o reglas para minimizare el costo de la energa utilizada por las bombas, o realizar predicciones de demandas o ayudar a mantener el nivel de los embalses en rangos aceptables. Una regla de tipo heurstico podra ser: si el clima en los ltimos 7 das fue caluroso y seco, y en los prximos 7 das se espera que sea caluroso y seco, y el periodo de tiempo antes de una demanda alta es menor o igual a 8 horas, entonces utilice una bomba de gran capacidad durante un periodo corto de tiempo. Este tipo de reglas es necesario documentarlas en sistemas expertos para reducir los costos de operacin y distribucin de los sistemas de abastecimiento de agua, ya que el conocimiento adquirido manualmente es inadecuado para manejar todas las situaciones que pueden presentarse en un problema complejo de ingeniera. Un mtodo alternativo de adquisicin de conocimiento es el aprendizaje automatizado de los datos observados, que es disear un algoritmo que pueda

Pgina 29

INGENIERA EN SISTEMAS COMPUTACIONALES


adquirir y afinar reglas de decisin de un conjunto de muestras o datos observados. Este mtodo es conocido como aprendizaje inductivo o adquirir conocimiento por ejemplos. Una aplicacin de aprendizaje inductivo, es el descubrir reglas de datos para realizar predicciones de demandas (An et al.), cuya metodologa est basada en la teora de los conjuntos aproximados, cuya caracterstica es hacer uso de la informacin estadstica inherente a los datos para manejar la informacin incompleta y ambigua. El objetivo es el descubrimiento automatizado de reglas a partir de una muestra de datos para realizar predicciones de la demanda diaria de agua. La base de datos contiene 306 muestras recogidas durante 10 meses que cubren la informacin de 14 factores ambientales y sociolgicos y su correspondiente distribucin de volumen de flujo. Los factores utilizados como posibles afectaciones del consumo diario de agua son: el da de la semana, y factores climticos agrupados en temperatura, humedad, precipitacin, viento, y horas de brillo del sol. Los consumos diarios se tomaron sumando las distribuciones diarias en cada estacin de bombeo. Utilizando una extensin de la teora de los conjuntos borrosos (Pawlak, Z), se obtuvieron reglas a partir de los datos seleccionados, del tipo si-entonces que describen importantes relaciones entre los factores condicionantes y el consumo de agua, las cuales son fcilmente comprensibles. Tanto la informacin bsica como los resultados fueron agrupadas en rangos discretos tanto para su procesamiento como para su interpretacin. En total se generaron 149 reglas para los diferentes conceptos o rangos de prediccin de demanda de agua. Algunos ejemplos del tipo de reglas generadas son los siguientes: Para el rango D = [53 60], (a0 = (D or L or MA) (a5 > 64) (a10<=10.84) (a3 <= -3.36) 1 (53 < D <=60). Esta regla cubre el 66.7% de los objetos de entrada que incluyen el rango y establece que si el da de la semana es domingo, lunes o martes y la humedad mnima es mayor que 64 y el promedio de velocidad del viento es menor o igual a 10.84 y la temperatura media es menor o igual que 3.36, entonces la demanda de agua est entre 53 y 60 con una probabilidad 1, es decir que la totalidad de los objetos seleccionados para el rango cumplen la regla. Para el rango D = (89 90], (a1 <= 23.18) (a12 <= 36.88) (a3 > 10.78) (50 <= a5 <= 64) 1 (80 < D <=90), Esta regla cubre el 10.5% de los objetos de entrada que incluyen el rango. Establece que si la mxima temperatura es menor o igual que 23.18 y la mxima velocidad del viento es menor o igual que 36.88 y la temperatura mnima es mayor de 10.78 y la humedad mnima est entre 50 y 64 inclusive, entonces la demanda de agua est entre 60 y 90 con una probabilidad de 1. Para el rango D = (100 110], (a2 > 10.78) (a12 > 27.03) (a5 <=31) (a13 >9.60) 1 (100 < D <= 110).

Pgina 30

INGENIERA EN SISTEMAS COMPUTACIONALES


Esta regla cubre el 33.3% de las muestras que incluyen el rango, y establece que si la temperatura mnima es mayor de 10.78 y la mxima velocidad del viento es mayor de 27.03 y la mnima humedad es menor o igual a 31 y el nmero de horas de brillo del sol es mayor de 9.60, entonces la demanda de agua est entre 100 y 110 con una probabilidad de 1. Otra aplicacin desarrollada es la aproximacin por minera de datos a la modelacin de activos en sistemas de suministro de agua (Babovic et al), la red de tubera de una ciudad y todos los componentes asociados con esta red (vlvulas, bombas, reservorios, etc) constituyen los activos de un suministro de agua, y como cualquier otro activo, es importante invertir en su mantenimiento para que cumplan con su tarea. La motivacin de este trabajo se produjo debido a la poltica implementada en la ciudad de Copenhague (Dinamarca), en los aos 80 de reemplazar un 1% de longitud de la tubera de la red de abastecimiento de agua por ao debido a razones econmicas, prdidas de agua, capacidad, calidad del agua, reclamaciones y compensaciones, cooperacin en trabajos de construccin y visin a largo plazo. El trabajo presenta dos tcnicas de minera de datos para el anlisis del riesgo de rotura de tubos en una red de suministro. Las tcnicas utilizadas son los modelos de punteo y las redes bayesianas. El modelo de punteo une casos que presentan un comportamiento similar. Esto se lleva a cabo asignando un puntaje (un valor entre 0 y 100) a cada caso y agrupando casos en clases de puntajes similares, los operadores utilizados son binarios no lineales y la bsqueda del mejor modelo se realiza utilizando algoritmos genticos. Las redes bayesianas amplan el concepto de los modelos determinanticos tomando en cuenta las incertidumbres. Las salidas y las entradas no son declaradas como variables fijas sino como distribuciones de probabilidad. Una red bayesiana es una red con arcos directos y no ciclos. Los nodos (puntos de arco) representan variables random y decisiones. Los puntos de arco en variables random indican dependencia probabilstica, mientras que los puntos de arco en decisiones especifican la informacin disponible en el periodo de decisin. La red bayesiana es alimentada con parmetros acerca del tubo, del suelo y de la presin dentro del tubo como inputs. Como output, el modelo produce un estimativo de la historia del tubo y el valor de las funciones de los tres estados limite; esfuerzo circunferencial, esfuerzo de corte y el estado lmite de fatiga.

Pgina 31

INGENIERA EN SISTEMAS COMPUTACIONALES


La tcnica empleada para finalizar el modelo del proceso de rotura son los rboles de clasificacin. La estrategia utilizada en el modelo de puntaje es primero construir un modelo que separe casos que tengan baja probabilidad de rotura de aquellos que presentan incertidumbre de rotura y luego construir un modelo con el resultado del modelo de incertidumbre. Los resultados obtenidos con el modelo de puntaje presentan que aun cuando la edad est entre las variables utilizadas por el modelo, su poder de prediccin es relativamente bajo. El mejor estimador de prediccin para la primera particin (casos con baja probabilidad de rotura), es la longitud del tubo, a mayor longitud mayor nmero de roturas. Otro elemento de prediccin utilizado fue el inicio o comienzo, es decir el nmero de la casa donde el tubo inicia, la cual no parece ser una relacin obvia pero el modelo es ms sensible a esta variable que a la edad del tubo. El anlisis de sensibilidad del modelo refinado (modelo de incertidumbres), toma como elemento de prediccin principal el nmero de roturas en el modelo anterior, parece ms probable que un tubo que se ha roto anteriormente se vuelva a romper. El segundo elemento de prediccin es el momento en que se toma la instantnea, el cual tiene que ver con el instante en el tiempo (ao, mes, da, hora), este elemento de prediccin es un indicador de que en algunos periodos existe ms probabilidad de rotura que en otros. Los modelos de puntaje proveen un mtodo para ordenar los tubos de acuerdo a su riesgo de rotura, lo cual es necesario para presentar un esquema de rehabilitacin de la red. La calidad del modelo depende de la calidad de los datos utilizados. La fuerza de los modelos de puntaje radica en encontrar relaciones entre variables que no son obvias para la mente humana.

Pgina 32

INGENIERA EN SISTEMAS COMPUTACIONALES

Conclusiones
En el transcurso de la investigacin, pudimos ir encontrando los diversos mtodos de minera de datos, sus algoritmos y observamos los pro y contras de estos, se noto que las 2 ramas principales son las basadas en lgica y las basadas en ecuaciones ,cada una con sus propios mtodos y procesos definidos, los procesos de minera aun son algo jvenes por lo tanto no est por completo estandarizado el proceso a seguir, por lo tanto, cada proceso de minera en los deferentes datos es nico ,y en ocasiones pueden combinarse los lgicos y los de ecuacin ,segn sea las necesidades de la problemtica. Los procesos de minera son en demasa importantes, dado que en base a estos procesos se podrn elaborar reportes que nos permitan tomar decisiones o generar conocimiento nuevo, en base una extensa recopilacin de datos, por eso es que son tan laborosos y tardados, pero de suma importancia.

Pgina 33

INGENIERA EN SISTEMAS COMPUTACIONALES

Referencias Bibliograficas
AN, A.; SHAN, N.; CHAN, C.; CERCONE, N.; ZIARKO, W. 1997, Applying knowledge discovery to predict water-supply consumption, IEEE Intelligent Systems & Their Applications, Volume 12, Number 4, pages 72-78. BABOVIC, V.; DRCOURT, J.; KEIJZER, M.; HANSEN, P. 2001, Modelling of Water Supply Assets: A Data Mining Approach, D2K Technical Report 1000-1, 2000, February 6, 2001. BUCHHEIT, R.B.; GARRETT, J.H. JR; LEE, S.R.; BRAHME, R. 2000, A Knowledge Discovery Framework for City Civil Infrastructure: A Case Study of the Intelligent Workplace, Engineering with Computers, Number 16, Pages 264-274, 2000. CARBONE, P.; 1997, Data Mining or "Knowledge Discovery in Databases" An Overview, Mitre Corporation, 1997. FERGUSON, M.; Evaluating and selecting data mining tools, InfoDB, Volume 11, Number 2. GROSSMAN, R.; KASIF, S.; MOORE, R.; ROCKE, D.; ULLMAN, J.; 1998, Data mining research: opportunities and challenges, A report of three NSF workshops on mining large,massive, and distributed data, September 18, 1998. OLARU, C.; WEHENKEL, L. 1999. Data Mining. IEEE Computer Applications in Power,Volume 12, Number 3, July 1999, pages 19-25. OHRN, A. 1999. Discernibility and Rough Sets in Medicine: Tools and Applications, Department of Computer and Information Science, Norwegian University of Science and Technology, N-7941 Trondheim, Norway. PAWLAK, Z. 2001, Rough sets and their applications, Institute of theoretical and applied sciences, February 28, 2002. REICH, Y.; BARAI, S.V. 1999 Evaluating Machine Learning Models for Engineering Problems, Artificial Intelligence in Engineering, Volume 13, Number 3, Pages 257 272, 1999. REICH, Y. 1997, Machine Learning Techniques for Civil Engineering Problems, Microcomputers in Civil Eng., Volume 12, Number 4, Pages 295 310, 1997.

Pgina 34

INGENIERA EN SISTEMAS COMPUTACIONALES

SAVIC, D.A.; DAVIDSON, J.W.; DAVIS, R.B. 1999, Data Mining and Knowledge discovery for the water industry, Water Industry Systems, modelling and optimisation applications, Volume 2, Edited by Dragan A. Savic and Godfrey A. Walters, Research Studies Press Ltd, August, 1999. SKIPWORTH, P.J.; SAUL, A.J.; MACHELL, J.; 1999, Predicting water quality in distribution systems using artificial neural networks. Proceedings of the Institution of Civil Engineers- Water Maritime & Energy, Volume 136, Number 1, Pages 1-8, July 1, 1999.

Pgina 35