Está en la página 1de 9

Tcnicas de Minera de Datos rboles de decisin Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una

base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Se pueden aplicar a casi todo. Los sistemas de aprendizaje basados en rboles de decisin son quizs el mtodo ms fcil de utilizar y de entender. Un rbol de decisin es un conjunto de condiciones organizadas en una estructura jerrquica, de tal manera que la decisin final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raz del rbol hasta alguna de sus hojas. Un rbol de decisin tiene unas entradas las cuales pueden ser un objeto o una situacin descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en ltimas es una decisin que es tomada a partir de las entradas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos. Se utilizan ms los valores discretos por simplicidad, cuando se utilizan valores discretos en las funciones de una aplicacin se denomina clasificacin y cuando se utilizan los continuos se denomina regresin. Un rbol de decisin lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar as una decisin. El rbol de decisin suele contener:nodos internos, nodos de probabilidad, nodos hojas y arcos. - Un nodo interno contiene un test sobre algn valor de una de las propiedades. - Un nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema, este tipo de nodos es redondo, los dems son cuadrados. - Un nodo hoja representa el valor que devolver el rbol de decisin y finalmente las ramas brindan los posibles caminos que se tienen de acuerdo a la decisin tomada. Nodo raz: Como nodo nico, forma el punto de entrada del rbol. Normalmente el punto ms alto.

El algoritmo bsico de los rboles de decisin es:

Simplemente, el algoritmo va construyendo el rbol (desde el rbol que slo contiene la raz) aadiendo particiones y los hijos resultantes de cada particin. Lgicamente, en cada particin, los ejemplos se van dividiendo entre los hijos. Finalmente, se llega a la situacin en la que todos los ejemplos que caen en los nodos inferiores son de la misma clase y esa rama ya no sigue creciendo. La nica condicin que hay que exigir es que las particiones al menos separen ejemplos en distintos hijos, con lo que la cardinalidad de los nodos ir disminuyendo a medida que se desciende en el rbol. Los pasos seran pues: 1. Entrenamiento. Se modeliza el rbol para representar los patrones detectados en el historial de los datos lo mejor posible. 2. Evaluacin. En este paso, totalmente opcional no obstante, podemos probar la validez del modelo entrenado enfrentndolo a otra coleccin de datos diferente (misma temtica y mismo contenido, pero diferentes en s). Si la precisin alcanzada no es la deseada, debemos redisear el modelo y repetir el proceso. 3. Prediccin. Por ltimo, obtenemos el resultado predicho a partir del modelo diseado, esto es, el valor o valores, o la decisin que buscamos tomar, para un determinado caso dado para nuestro conjunto de datos. Con esto podemos generar la representacin grfica del rbol. El rbol se construye con los

En la figura a continuacin, podemos observar un sencillo rbol de decisin. En este rbol se pretende predecir si un individuo comprar o no comprar un determinado producto en base a la edad, el salario y la ocupacin del mismo.

Regresin lineal Para predecir el valor de puntos por minuto de un dato de entrada, el algoritmo establece una funcin lineal del resto de atributos(nmero de asistencias por minuto, altura, tiempo jugado, edad) Ayuda a calcular una relacin lineal entre una variable independiente y otra dependiente y, a continuacin, utilizar esa relacin para la prediccin. Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. A partir de los datos de un conjunto de ejemplos,se busca una funcin real entre un atributo (atributo objetivo) y un conjunto de atributos significativos de tipo de objeto. Los dominios de los atributos deben ser numricos. El objetivo de la tarea es poder predecir el valor del atributo objetivo de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando la funcin generada Para visualizar la relacin entre la variable de respuesta y una variable explicativa, obtendremos el diagrama bivariante entre ambas variables. La forma de dicho diagrama aporta informacin sobre el tipo de relacin entre la variable de respuesta y la variable explicativa

Agrupamiento Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes Se agrupan datos dentro de un nmero (puede ser preestablecido o no) de clases. La agrupacin se puede realizar mediante criterios de distancia o similitud, de forma que si las clases son similares entre s estn agrupadas. Es un mtodo bastante til en lo que respecta a los clasificadores o reconocedores de patrones y en el modelado de sistemas. Debido a su naturaleza flexible, tambin se puede combinar con otro tipo de tcnica de minera de datos, obteniendo por tanto un sistema hbrido. Se buscan grupos naturales en el conjunto de ejemplos, a partir de los valores de sus atributos. Las tcnicas de DM agrupan los ejemplos basndose en el principio de maximizar la similitud entre los elementos de un grupo y de minimizar la similitud entre los elementos de grupos distintos. El objetivo de la tarea es poder describir de forma resumida el conjunto de ejemplos: cada grupo formado se considera un resumen de los elementos que lo forman.

Ejemplo: definir grupos diferenciados de empleados. El departamento de recursos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las polticas sociales de la empresa. La organizacin dispone en sus bases de datos de informacin sobre sus empleados

Actividad para los estudiantes Se le administrara un frmaco X al paciente si: 1.- Tiene presin alta, su azcar en la sangre es alto, es alrgico a antibiticos y NO tiene otras alergias. 2.- Tiene presin alta, su azcar en la sangre es alto y NO es alrgico a los antibiticos. 3.- Tiene presin arterial alta y su azcar en la sangre es bajo. 4.- Tiene presin arterial media y su ndice de colesterol es bajo. 5.- Tiene presin arterial baja No se le administrar el frmaco X si: 1.- Tiene presin arterial alta, su azcar en la sangre es bajo, es alrgico a los antibiticos y SI tiene otras alergias.
2.- Tiene presin arterial media y su ndice de colesterol es alto

http://www.utm.mx/~jahdezp/archivos%20estructuras/DESICION.pdf http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#T.C3.A9cnicas_de_miner.C3.ADa_ de_datos http://es.wikipedia.org/wiki/%C3%81rbol_de_decisi%C3%B3n http://www.it.uc3m.es/jvillena/irc/practicas/03-04/18.mem.pdf http://es.scribd.com/doc/19855790/Mineria-de-Datos-y-Data-Warehouse http://riunet.upv.es/bitstream/handle/10251/10097/PFC_DSIC80_Agust%C3%ADnCalleja.pdf