Está en la página 1de 4

FASE DE MINERA DE DATOS

Las distintas tareas de la fase de minera de datos puede ser predictivas o descriptivas PREDICTIVAS: Clasificacin Regresin Categorizacin Preferencias o priorizacin DESCRIPTIVAS: Correlacionales Agrupamiento (clustering) Reglas de asociacin Reglas de asociacin secuenciales

PREDICTIVAS: 1.- Clasificacin (o discriminacin):


Es la tarea ms utilizada. Cada instancia (o registro de la BD) pertenece a una clase, la cual se indica mediante el valor de un atributo que llamamos la clase de la instancia. Este atributo puede tomar varios valores discretos, c/u de los cuales corresponde a una clase. El objetivo es predecir la clase de nuevas instancias de las que se desconoce la clase. El algoritmo maximiza la razn de precisin de la clasificacin de las nuevas instancias, la cual se calcula como el cociente entre las predicciones correctas y el nmero total de predicciones (correctas e incorrectas).

Variantes de la tarea de clasificacin: aprendizaje de rankings, aprendizaje de preferencias, aprendizaje de estimadores de probabilidad. Dentro de estas variantes se encuentra la clasificacin suave que genera otra funcin que significa el grado de certeza de la prediccin hecha por la funcin. Este tipo de funciones permite realizar otras aplicaciones como son los rankings de predicciones o la seleccin de los n mejores ejemplos. Una clasificacin se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, nmero de miopas y astigmatismo han determinado los pacientes para los que su operacin de ciruga ocular ha sido satisfactoria. Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos.

Instituto Tecnolgico de Mrida

Ing. Hctor Jess Cetina Cordero

EJEMPLO: 1. Clasificar un mensaje de correo electrnico como spam o no. 2. Clasificar entre varios medicamentos cul es el mejor para una determinada enfermedad

2.- Regresin:
Es predictiva. Consiste en aprender una funcin real que asigna a cada instancia un valor real. Esta es la principal diferencia con la clasificacin, el valor a predecir es numrico (es decir entero o real). El objetivo es minimizar el error (generalmente el error cuadrtico medio) entre el valor predicho y el valor real. La diferencia respecto a la clasificacin es que es numrico, es decir puede ser un valor entero o real.

Ejemplos: 1. Estimar las ventas del ao 2007. 2. Predecir el nmero de unidades defectuosas de una partida de productos. 3. Un empresario quiere conocer cul es el costo de un nuevo contrato basndose en los datos correspondientes a contratos anteriores. Para ello una frmula de regresin lineal, ajustando con los datos pasados la funcin lineal y usndola para predecir el costo en el futuro.

3.- Categorizacin:
Es predictiva. En este caso no se trata de aprender una funcin, sino una correspondencia, es decir que se puede asignar varias categoras asociadas a un mismo dato, a diferencia de la clasificacin que asigna una y solo una categora.

Ejemplos: 1. Dado un conjunto de documentos, asignar categoras de los temas que trata cada documento, dados un conjunto de perfiles de clientes determinar qu productos pueden comprar. La categorizacin se puede presentar tambin en forma de categorizacin suave (cada categora asignada va acompaada de su certeza) o en forma de estimador de probabilidades (se estima una probabilidad para todas las categoras)

Instituto Tecnolgico de Mrida

Ing. Hctor Jess Cetina Cordero

4.- Preferencias o priorizacin:


El Aprendizaje de preferencias consiste en determinar a partir de dos o ms ejemplos, un orden de preferencia.

Ejemplos: 2. Dados una serie de candidatos para un trabajo, dar un orden priorizado para cubrir el puesto (el modelo de preferencia se habr estimado a partir de selecciones anteriores priorizaciones o comparaciones de grupos de candidatos anteriores etc. Quiz lo ms caracterstico de esta tarea es la presentacin de los datos, ya que, por ejemplo, con un clasificador suave o un estimador de probabilidades tambin se pueden hacer priorizaciones, aunque aqu lo que se prioriza es la clase no el ejemplo completo.

DESCRIPTIVAS: 1.- Correlacionales:


Se usa para examinar el grado de similitud de los valores de dos variables numricas. Una frmula estndar para medir la correlacin lineal es el coeficiente de correlacin r, el cual es un valor real comprendido entre -1 y 1. Si r es 1 (respectivamente, -1) las variables estn perfectamente correlacionadas (perfectamente correlacionadas negativamente), mientras que si es 0 no hay correlacin. Esto quiere decir que cuando r es positivo, las variables tienen un comportamiento similar, las variables tienen un comportamiento similar (ambas crecen o decrecen al mismo tiempo), y cuando r es negativo si una variable crece la otra decrece.

2.- Agrupamiento o (clustering):


Consiste en obtener grupos naturales a partir de los datos. Hablamos de grupos, no de clases. En vez de analizar datos etiquetados con una clase, los analiza para generar una etiqueta. El objetivo de esta tarea es de obtener grupos o conjuntos entre los elementos de tal manera que los elementos asignados al mismo grupo sean similares. Tambin se le suele llamar segmentacin.

Instituto Tecnolgico de Mrida

Ing. Hctor Jess Cetina Cordero

Ejemplo: Si reducimos un conjunto de datos de miles de ejemplos a media docena de grupos y analizamos los grupos formados, podemos entender los datos originales, y en cierto modo, estos grupos sirven como resumen de los datos originales.

3.- Reglas de asociacin:


Es una tarea descriptiva y su objetivo, en cierto modo, es similar a los estudios correlaciones que tienen como objetivo identificar relaciones no explcitas entre atributos categricos. Este tipo de estudios reciben, adems de reciben el nombre de anlisis de asociaciones. Formulacin ms comn: Si el atributo X toma el valor D entonces el atributo Y toma el valor B. Las reglas de asociacin no implican una relacin causa-efecto, es decir, puede no existir una causa para que los datos estn asociados.

Esta tarea se usa frecuentemente para el anlisis de la canasta de productos. Las reglas se evalan usando dos parmetros: precisin y soporte (cobertura).

4.- Reglas de asociacin secuenciales:


Son un caso especial. Se usan para determinar patrones secuenciales en los datos. Estos patrones se basan en secuencias temporales de acciones y difieren de las reglas de asociacin en que las relaciones entre los datos se basan en el tiempo. Ejemplo: Una tienda de venta de electrodomsticos y equipos de audio analiza las ventas que ha efectuado usando anlisis secuencial y descubre que el 30% de los clientes que compraron televisor hace 6 meses compraron un DVD en los siguientes dos meses.

Instituto Tecnolgico de Mrida

Ing. Hctor Jess Cetina Cordero

También podría gustarte