Está en la página 1de 3

Resumen del capitulo 2.

En la fase de integracin y recopilacin de datos se determinan las fuentes de informacin que pueden ser tiles y donde conseguirlas. Este almacn de datos facilita la navegacin y visualizacin previa de sus datos, para discernir que aspectos puede interesar que sean estudiados. La fase de seleccin, limpieza y transformacin. En la que se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los datos incompletos, las primeras dos faces se suelen englobar bajo el nombre de preparacin de datos. En la fase de minera de datos, se decide cual es la tarea realizada (clasificar, agrupar, etc.). La fase de evaluacin e interpretacin se evalan los patrones y analizan por los expertos, y si es necesario se vuelve a las fases anteriores para una nueva interacion, la fase de difusin se hace uso del nuevo conocimiento y se hace participe de el a todos los posibles usuarios. Las bases de datos y las aplicaciones basadas en el procesamiento tradicional de datos, que se conoce como procesamiento transaccional en lnea (OLTP, On-Line Transaction Processing) son suficientes para cubrir las necesidades diarias de una organizacin (tales como la facturacin, control de inventario, nominas) , la idea de la integracin de multiples bases de datos ha dado lugar a la tecnologa de almacenes de datos (data warehousing). Los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la informacin de maneras sofisticadas. Por ello, los datos se modelan con una estructura e base de datos multidimensional, donde cada dimensin corresponde as un atributo o conjunto de atributos en el esquema en torno a unos hechos que almacenan el valor de alguna medida agregada, como por ejemplo la cantidad vendida de un producto en un da concreto en una tienda. Esta visin multidimensional de los datos hace a los almacenes de datos adecuados para el procesamiento analtico en lnea (on-line analytical processing, OLAP). Las operaciones OLAP permiten un anlisis multidimensional de los datos, que es superior a SQL para computar resmenes y desgloses en muchas dimensiones, pudiendo utilizar conocimiento previo sobre el dominio de los datos para permitir su presentacin a diferentes niveles de abstraccin, acomodando as diferentes puntos de vista dl usuario. El usuario de una herramienta OLAP utiliza la herramienta para obtener informacin agregada a partir de informacin detallada, combinando la informacin de manera flexible. Esto permite obtener informes y visitas sofisticadas en tiempo real. Adems las herramientas OLAP pueden

utilizarse para comprobar rpidamente patrones y pautas hipotticas sugeridas por el usuario con el objetivo de verificarlas o rechazarlas. Fases de seleccin, limpieza y transformacin. La calidad del conocimiento descubierto no solo depende del algoritmo de minera utilizando, sino tambin de la calidad de los datos minados. Por ello, despus de la recopilacin, el siguiente pas en el proceso de KDD es seleccionar y preparar el subconjunto de datos que se va a minar, los cuales constituyen lo que se conoce como vista minable. Uno de estos problemas es la presencia de valores que no se ajustan al comportamiento general de los datos. Estos datos anmalos pueden representar errores e los datos o pueden ser valores correctos que son simplemente diferentes a los dems. La presencia de datos faltantes o perdidos (missing values) puede ser tambin un problema pernicioso que puede conducir a resultados poco precisos. No es necesario reflexionar primero sobre el significado de los valores faltantes antes de tomar ninguna decisin sobre como tratarlos ya que estos pueden deberse a causas muy diversas , como a un mal funcionamiento del dispositivo que hizo la lectura del valor, a cambios efectuados en los procedimientos usados durante la coleccin de los datos se recopilen desde fuentes diversas. Estos dos problemas son solo dos ejemplos que muestran la necesidad de la limpieza de datos, es decir, de mejorar su calidad. Como hemos dicho no es solo suficiente con tener una buena calidad de datos, sino adems poder proporcionar a los mtodos de minera de datos del subconjunto de datos ms adecuado para resolver el problema. La seleccin de atributos relevantes es uno de los pre procedimientos mas importantes, ya que es crucial que es crucial que los atributos utilizados sean relevantes para la tarea de minera de datos. Consecuentemente, una buena idea es usar una muestra (sample) a partir de algunos datos(o filas). La seleccin de la muestra debe ser hecha cuidadosamente para asegurar que es verdaderamente aletoria. El tipo de los datos puede tambin modificarse para facilitar el uso de tcnicas que requieren tipos de datos especficos. As algunos atributos se pueden numerizar, lo que reduce el espacio y permite usar tcnicas numricas. El proceso inverso consiste en los atributos continuos, es decir, transformar valores numricos en atributos discretos o normales. Los atributos discretizados pueden tratarse como atributos categricos con un nmero ms pequeo de valores.

Fases de la minera de datos. La clasificacin es quiz la tarea mas utilizada. En ella cada instancia (o registro de la base de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo que llamamos la clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los cuales corresponde a una clase. La regresin es tambin una tarea predictiva que consiste que consiste en aprender una funcin real que asigna a cada instancia un valor real. Esta es la principal diferencia respecto a la clasificacin; el valor a predecir es numrico. El argumento (clustering) es la tarea descriptiva por excelencia y consiste en obtener grupos naturales a partir de los datos. Hablamos de grupos y no de clases, porque, a diferencia de la clasificacin, en lugar de analizar datos etiquetados con una clase, los analiza para generar esta etiqueta. Las correcciones son una tarea descriptiva que se usa para examinar el grado de similitud de los valores de dos variables numricas. Las reglas de asociacin son tambin una tarea descriptiva, muy similar a las correlaciones, que tiene como objetivo identificar relaciones no explicitas entre atributos categricos. Pueden ser muchas formas, aunque la formulacin mas comn es del estilo si el atributo x toma el valor d entonces el atributo y toma el valor b. Las reglas de asociacin no implican una relacin causa-efecto. Las reglas de asociacin secuenciales, se usa para determinar patrones secuenciales en los datos. Estos patrones de acciones y difieren de las reglas de asociacin en que las relaciones entre los datos se basan en el tiempo. Los arboles de decisin son una serie de decisiones o condiciones organizadas en forma jerrquica, a modo de rbol. Son muy tiles para encontrar estructuras en espacios de alta dimensionalidad y en problemas que mezclen datos categricos y numricos. Esta tcnica se usa en tareas de clasificacin, agrupamiento y regresin. Los arboles de decisin usados para predecir variables categricas reciben el nombre de arboles de clasificacin, ya que distribuyen las instancias en clases. Cuando los arboles de decisin se usan para predecir variables continuas, se llaman arboles de regresin.

También podría gustarte