Está en la página 1de 7

Alejandro Manuel Flores Prez 06111389 - Minera de Datos

Tipos de Modelos de Datos


Existen bsicamente dos tipos de modelos de datos que pueden generar estas tcnicas de Minera de Datos, estos dos tipos son: Predictivos y/o Descriptivos. Algoritmos de anlisis

La

Minera

de

Datos

utiliza

diferentes

algoritmos

de

anlisis para la generacin de modelos segn el ciclo de minera de datos que vimos con anterioridad. En general se clasifican en algoritmos supervisados y no supervisados. Los primeros son predictivos y tienen como objetivo la prediccin del valor de uno o ms datos a partir del valor de otros. Los no supervisados son aquellos algoritmos que se conocen como descriptivos, que su funcin es la de descubrir patrones de comportamiento "ocultos" en el universo de datos (que es en si la parte mas importante de minera de datos).

Desglosando esta primera clasificacin, podemos decir que entre los algoritmos predictivos existen aqullos que son de clasificacin (rboles de decisin, rboles de opcin, tablas de evidencia, tablas de decisin) y los de regresin (rboles de regresin). Entre los algoritmos descriptivos nos encontramos con las

asociaciones de reglas y los mecanismos de clusterizacin.

Predictivos Un modelo predictivo, como su propio nombre indica, intenta predecir o responder a preguntas como: Qu tal se vender el prximo ao un producto X? o X tipo de persona, qu producto comprar? o Dnde se producir el siguiente atentado terrorista? o Qu riesgo tiene cierta persona de contraer una enfermedad X en base a sus caractersticas? o Qu clientes tienen ms riesgos de darse de baja de nuestra empresa?

Alejandro Manuel Flores Prez 06111389 - Minera de Datos

Algoritmo de rboles de decisin El algoritmo de rboles de decisin es un algoritmo de clasificacin y regresin para el modelado de prediccin de atributos discretos y continuos. Para los atributos discretos, el algoritmo hace predicciones basndose en las relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como estados, de estas columnas para predecir los estados de una columna que se designa como elemento de prediccin. Especficamente, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de prediccin. Para los atributos continuos, el algoritmo usa la regresin lineal para determinar dnde se divide un rbol de decisin. Si se define ms de una columna como elemento de prediccin, o si los datos de entrada contienen una tabla anidada que se haya establecido como elemento de prediccin, el algoritmo genera un rbol de decisin independiente para cada columna de prediccin. Ejemplo de Modelo Predictivo Vamos a predecir si jugaremos a ftbol hoy o no. Hemos recogido los siguientes datos de experiencias pasadas:

Alejandro Manuel Flores Prez 06111389 - Minera de Datos

Construimos el rbol de decisin asociado:

Con este modelo, podemos predecir si jugaremos o no. Por ejemplo: (Si Cielo = Soleado, Temperatura = Calor, Humedad = Alta y Viento = Fuerte) Resultado = No

Descriptivos Este tipo de modelo, trata de proporcionar informacin entre las relaciones de los datos y sus caractersticas. Algunas de las preguntas que se podran tratar de responder con este tipo de modelo son: Los clientes que compran X tambin compran Y. Los nios que no tienen X son muy distintos del resto. X e Y son los factores ms influyentes en contraer la enfermedad Z.

Alejandro Manuel Flores Prez 06111389 - Minera de Datos

Algoritmo de clsteres El algoritmo utiliza tcnicas iterativas para agrupar los casos de un conjunto de datos dentro de clsteres que contienen caractersticas similares. Estas agrupaciones son tiles para la exploracin de datos, la identificacin de anomalas en los datos y la creacin de predicciones. Los modelos de agrupacin en clsteres identifican las relaciones en un conjunto de datos que no se podran derivar lgicamente a travs de la observacin casual. Por ejemplo, puede discernir lgicamente que las personas que se desplazan a sus trabajos en bicicleta no viven, por lo general, a gran distancia de sus centros de trabajo. Sin embargo, el algoritmo puede encontrar otras caractersticas que no son evidentes acerca de los trabajadores que se desplazan en bicicleta. En el siguiente diagrama, el clster A representa los datos sobre las personas que suelen conducir hasta el trabajo, en tanto que el clster B representa los datos sobre las personas que van hasta all en bicicleta.

El algoritmo de clsteres se diferencia de otros algoritmos de minera de datos, como el algoritmo de rboles de decisin (visto anteriormente), en que no se tiene que designar una columna de prediccin para generar un modelo de agrupacin en clsteres. El algoritmo de clsteres entrena el modelo de forma estricta a partir de las relaciones que existen en los datos y de los clsteres que identifica el algoritmo. Cmo funciona el algoritmo El algoritmo de clsteres identifica primero las relaciones de un conjunto de datos y genera una serie de clsteres basndose en ellas. Un grfico de dispersin es una forma til de representar visualmente el modo en que el algoritmo agrupa los

Alejandro Manuel Flores Prez 06111389 - Minera de Datos

datos, tal como se muestra en el siguiente diagrama. El grfico de dispersin representa todos los casos del conjunto de datos; cada caso es un punto del grfico. Los clsteres agrupan los puntos del grfico e ilustran las relaciones que identifica el algoritmo.

Despus de definir los clsteres, el algoritmo calcula el grado de perfeccin con que los clsteres representan las agrupaciones de puntos y, a continuacin, intenta volver a definir las agrupaciones para crear clsteres que representen mejor los datos. El algoritmo establece una iteracin en este proceso hasta que ya no es posible mejorar los resultados mediante la redefinicin de los clsteres. Puede personalizar el funcionamiento del algoritmo seleccionando una tcnica de agrupacin en clsteres, limitando el nmero mximo de clsteres o cambiando la cantidad de soporte que se requiere para crear un clster. Para obtener ms informacin. Ejemplo de Modelo Descriptivo En este ejemplo queremos hacer una categorizacin de los empleados que tenemos actualmente en plantilla. Tenemos los siguientes datos:

Alejandro Manuel Flores Prez 06111389 - Minera de Datos

Para este ejemplo, utilizaremos un algoritmo de clustering K-means. Aplicando este algoritmo, el resultado son 3 clusters:

Por tanto, nos da como resultado 3 grupos principales con sus caractersticas, estos son:

Cluster 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. Cluster 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. Cluster 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.

Alejandro Manuel Flores Prez 06111389 - Minera de Datos

Formaciones taxonmicas La minera de datos puede ser aplicada en situaciones donde los datos de entrenamiento (los datos usados para entrenar el modelo de minera) estn perdiendo algn tipo de etiqueta (las etiquetas se usan para conceptualizar datos). Por ejemplo, en el anlisis que examina las relaciones entre las ventas y las temporadas, estas ltimas pueden ser categorizadas como primavera, verano, etc. El clustering o la segmentacin es el proceso de particionamiento de datos en clases o incluso en jerarquas de clases, para los cuales los miembros de un grupo tienen caractersticas similares.

Referencias:

Arboles de decisin y clusters: Data Mining Practical Machine Learning Tools and Techniques Ian H. Witten, Eibe Frank

Introduccin: http://www.mazalan.com/nota/2829/MINERIA-DEDATOS.html Ejemplos de algoritmos predictivos y descriptivos: http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Miner%C3 %ADa_de_Datos

Formaciones taxonmicas: http://ecibjaveriana.wordpress.com/category/mineria-de-datos/

También podría gustarte