Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Las distintas tareas de la fase de minera de datos puede ser predictivas o descriptivas PREDICTIVAS: Clasificacin Regresin Categorizacin Preferencias o priorizacin DESCRIPTIVAS: Correlacionales Agrupamiento (clustering) Reglas de asociacin Reglas de asociacin secuenciales
Variantes de la tarea de clasificacin: aprendizaje de rankings, aprendizaje de preferencias, aprendizaje de estimadores de probabilidad. Dentro de estas variantes se encuentra la clasificacin suave que genera otra funcin que significa el grado de certeza de la prediccin hecha por la funcin. Este tipo de funciones permite realizar otras aplicaciones como son los rankings de predicciones o la seleccin de los n mejores ejemplos. Una clasificacin se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, nmero de miopas y astigmatismo han determinado los pacientes para los que su operacin de ciruga ocular ha sido satisfactoria. Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos.
EJEMPLO: 1. Clasificar un mensaje de correo electrnico como spam o no. 2. Clasificar entre varios medicamentos cul es el mejor para una determinada enfermedad
2.- Regresin:
Es predictiva. Consiste en aprender una funcin real que asigna a cada instancia un valor real. Esta es la principal diferencia con la clasificacin, el valor a predecir es numrico (es decir entero o real). El objetivo es minimizar el error (generalmente el error cuadrtico medio) entre el valor predicho y el valor real. La diferencia respecto a la clasificacin es que es numrico, es decir puede ser un valor entero o real.
Ejemplos: 1. Estimar las ventas del ao 2007. 2. Predecir el nmero de unidades defectuosas de una partida de productos. 3. Un empresario quiere conocer cul es el costo de un nuevo contrato basndose en los datos correspondientes a contratos anteriores. Para ello una frmula de regresin lineal, ajustando con los datos pasados la funcin lineal y usndola para predecir el costo en el futuro.
3.- Categorizacin:
Es predictiva. En este caso no se trata de aprender una funcin, sino una correspondencia, es decir que se puede asignar varias categoras asociadas a un mismo dato, a diferencia de la clasificacin que asigna una y solo una categora.
Ejemplos: 1. Dado un conjunto de documentos, asignar categoras de los temas que trata cada documento, dados un conjunto de perfiles de clientes determinar qu productos pueden comprar. La categorizacin se puede presentar tambin en forma de categorizacin suave (cada categora asignada va acompaada de su certeza) o en forma de estimador de probabilidades (se estima una probabilidad para todas las categoras)
Ejemplos: 2. Dados una serie de candidatos para un trabajo, dar un orden priorizado para cubrir el puesto (el modelo de preferencia se habr estimado a partir de selecciones anteriores priorizaciones o comparaciones de grupos de candidatos anteriores etc. Quiz lo ms caracterstico de esta tarea es la presentacin de los datos, ya que, por ejemplo, con un clasificador suave o un estimador de probabilidades tambin se pueden hacer priorizaciones, aunque aqu lo que se prioriza es la clase no el ejemplo completo.
Ejemplo: Si reducimos un conjunto de datos de miles de ejemplos a media docena de grupos y analizamos los grupos formados, podemos entender los datos originales, y en cierto modo, estos grupos sirven como resumen de los datos originales.
Esta tarea se usa frecuentemente para el anlisis de la canasta de productos. Las reglas se evalan usando dos parmetros: precisin y soporte (cobertura).