Está en la página 1de 9

Anlisis basado en rboles se tiene xito,el rbol quere sulta indica qu variable spredictoras estn relacionadas con mayor

fuerza con la variable objetivo. nodos terminale smuestran los grupos que pueden tener una mayor concentracin de casos con la caracterstica deseada. Usos Generales de los rboles de Decisin Segmentacin. Identificar personas son probablemente miembros de un grupo. Estratificacin. Asignacin de casos a categoras. Prediccin. Creacin de reglas para predecir eventos futuros. Reduccin de datos y filtro de variables. Seleccionar un subconjunto de variables para contruir un modelo paramtrico. Identificacin de interacciones. Identificar relaciones que pertenezcan a subgrupos especficos. Fusin de categoras. Colapsar variables contnuas en categoras discretas. Aplicaciones de los rboles de Decisin Correo directo. Determinar grupos demogrficos con alta tasa de respuesta. Credit Scoring. Usar historial crediticio para tomar decisiones de crdito. Recursos Humanos. Entender las reglas de pasadas de contratacin para afinar el proceso. Anlisis de mercado. Determinacin de variables geogrficas, precios, caractersticas del consumidor y otras Control de calidad. Determinacin de productos defectuosos. Estudio de polticas. Generar reglas de decisin en las polticas de contratacin. Salud. Descubrir variables que contribuyan a mejores resultados de salud. Tabla de Ganancia de Nodos

objetivo. Qu es CHAID?Chi-squareAutomaticInteractionDetector(DetectorAutomticodeInteraccinChi-cuadrado).

ora objetivo contra el Ntotal de la categora muestra total.

es un mtodo exploratorio del anlisis de datos usado para estudiar las relaciones entre una variable dependiente y una serie grande de variables predictoras. e sus interacciones que predicen ptimamente la medida de la variable dependiente. Elmodelodesarrollaunrboldeclasificacinconlosperfilesmsimportantesformadosporlasvariablesindependientesdiferenciadoloscri teriosdeunavariabledependiente. AIS es puede provee informacin relevantes obre unavariable dependiente,dondemo de los formales tienen dificultades(comomuchasvariables categricas o un limita dotamao de muestra). Principios y consideraciones tiende a crear rboles amplios msquelos mtodos binarios. con todo tipo de variables(cualitativasycuantitativas) comienza su anlisis seleccionando la variable independiente ms significativa(menorp-value). lavariable independiente tiene ms de 2 categoras,CHAID las compara y une la scategoras que no muestren diferencias en el resultado. variables nominales,cualquiercategorapuedeserunida,mientrasqueparaordinalessolocategorascontiguas.

Ventajas Elniveldemedidaparalavariabledependienteylasvariablespredictoraspuedensernominal,ordinalointervalo.

rbol. riteriosestadsticosseutiliza,ylosmodelosqueresultanacentanlosresultadosmsfuertes. El Mtodo C&RT

binarias sucesivas enl osdatos guindo se por un criterio,no una prueba estadstica comolo hace CHAID. o,lavariablepredictoraquemejoremselcriterio,seusaparahacerlasiguienteparticin.

impureza Es e nombre del criterio para crecerelrbolconunavariableobjetivonominal. el gradoen elquelos casos dentro de un nodo estn concentrado se nunasola categora. nodo puro es aquelen que t dos los casos estn en una sola categora. grado de impureza se da cuando todas las categoras de u na variable predictora contienen la misma cantidad de casos,es de cirtodas las categoras o clases aparecen en igua l proporcin,siendo este nodo nada util. Arboles de Regresion La parte rt de c&rt es la que nos permite predicir vairiables objetivos que sean continuas , es una alternativa actractiva puesto que puede capturar , de manera nativa relaciones no lineales entre variables , ademas de efectos de interacion Cuestion es minimiza la varianzadentro de cada nodo obteniendo asi los nodos mas homogeneos sobre la variable objetiva Dos razones para desarrollar QUEST

chascategoras(correccindeBonferroni) CaracteristicasCostoComplejoPodadelrbolValores perdidos reemplazados utilizando otras variables predictoras VENTAJAS DE LA HERRAMIENTA chaid Como herramienta de segmentacin el CHAID presenta bondades importantes. Primero, la tcnica no est basada en distribucin probabilstica alguna. Se fundamenta, nicamente, en pruebas de bondad de ajuste chi-cuadrada sobre tablas de contingencia. stas, dada una muestra de tamao aceptable, casi siempre funcionan bien. Segundo, permite determinar una variable a maximizar Arboles cDecisin

Caractersticas (features) continuas (reales) pueden ser clasificadas al permitir nodos que dividan una

caracterstica real en dos rangos basados en umbrales

rboles de clasificacin tienen valores discretos en las ramas, rboles de regresin permiten outputs reales en

las hojas

Algoritmos para encontrar rboles consistentes son eficientes para procesar muchos datos de entrenamiento para tareas de datamining Pueden manejar ruido en datos de entrenamiento

rboles de Decisin Contenidos rboles de Decisin Sobreajuste..Recorte (Pruning)

Mtodos de Sobreajuste

Prevencin de (Recorte o Pruning)

Dos ideas bsicas para rboles de decisin Prepruning: Parar de crecer el rbol en algn punto durante construccin top-down cuando no hay suficientes datos para toma de decisiones confiables. Postpruning: Crecer el rbol completo, entonces eliminar subarboles que no tengan suficiente evidencia. Etiquetar hoja que resulta de un recorte con la clase de

la mayora de los datos que quedan o con la distribucin de probabilidades de la clase. Mtodos para elegir subarboles a ser recortados: Validacion-cruzada: Reservar algunos datos de entrenamiento

(validation set, tuning set) para evaluar utilidad de subarboles. Test estadstico: Usar un test estadstico en los datos de entrenamiento para determinar si alguna regularidad aleatoria.

observada se puede eliminar por ser simplemente

Minimum description length (MDL): Determinar si la

complejidad adicional de la hiptesis es menos compleja que explcitamente recordar excepciones resultantes del recorte. Estructura de arboles de decesion Los rboles de decisin estn identificadores del ya formados por: de los atributos.

Nodos: Nombres o Ramas: Posibles valores Hojas: Conjuntos

atributo asociado al nodo. clasificados de ejemplos y etiquetados con el nombre de una clase.

Arboles de Decisin Atributos: La Son los factores que influencian la clasificacin o decisin. basarse en un el rbol conocimiento acumulado por la experiencia.

seleccin de cada

atributos debe

algoritmo

atributo forma intermedio en

cuyas hojas o nodos terminales son las clases o decisiones.

Clase: Posibles valores de solucin Arboles de decision Los rboles de decisin son unos de los algoritmos clasificadores ms conocidos y usados en las tareas de Data Mining , ya que son una forma de representacin sencilla para clasificar ejemplos de un nmero finito de clases. Se basan en la particin del conjunto de ejemplos segn ciertas condiciones que se aplican a los valores de las caractersticas. Su potencia descriptiva viene limitada por las condiciones o reglas con las que se divide el conjunto de entrenamiento. Una desventaja de los rboles de decisin: es que tienden a ser demasiado grandes en aplicaciones reales y, por tanto, se hacen difciles de interpretar desde el punto de vista humano Una red neuronal es una estructura compuesta por muchas unidades, muy simples, de procesamiento o neuronas, cada una con memoria local, habitualmente pequea. Las neuronas se conectan mediante canales de comunicacin, denominados conexiones, que manejan datos numricos. Operan slo con los datos locales por lo que tienen un gran potencial para el procesamiento paralelo dado que los clculos de los componentes en cada neurona son independientes. Las Redes Neuronales deben ser entrenadas y despus se debe comprobar la capacidad de prediccin de las mismas ante nuevas entradas. Segn el entrenamiento se dividen en: Redes Supervisadas: Durante la fase de aprendizaje, se indica a la red qu salida debe producir cada patrn, ajustando los pesos en funcin de ese valor.

Redes No Supervisadas: La Red localiza en los datos de entrada propiedades que utiliza para separar los patrones en clases. El aprendizaje no supervisado es caracterstico de las redes utilizadas en los casos en que los datos no tienen a priori ningn tipo de clasificacin. La red se utiliza para detectar las regularidades intrnsecas de los datos estableciendo as la mejor clasificacin posible.

Las arquitecturas de las redes neuronales se dividen en tres grandes a) Redes Progresivas o Unidireccionales (Feedforward Networks). b) Redes Recurrentes o Realimentadas (Feedback Networks). c) Redes Celulares o en Topologa de Malla.categoras: Las Redes Neuronales son Excelentes para obtener Modelos No Lineales de Buena Precisin, por eso SON MUY UTILIZADOS EN LA OPTIMIZACIN DE PROCESOS INDUSTRIALES HABITUALMENTE NO LINEALES. El campo de aplicacin de las Redes Neuronales es Enorme, no solo para modelado sino para otras tcnicas de minera de datos (agrupamiento, proyectores, filtrado, etc.) Cmo Desventajas Principales: 1. Necesitan mucha informacin para entrenarlas. 2. Hay que tener experiencia y cuidado a la hora de entrenarlas. Se necesita tiempo y potencia de clculo. Hay que seleccionar un nmero adecuado de capas y neuronas para no entrar en el sobreajuste. 3. Son cajas negras. No se pueden extraer de ellas fcilmente las relaciones entre variables (aunque existen algunas tcnicas). 4. No son muy robustas frente a espurios (aunque hay algunas redes neuronales robustas). Tecnicas bayesianas Se basan en teoras de probabilidad (Teorema de Bayes) para realizar inferencias a partir de los datos induciendo modelos probabilsticos y cuantificando la incertidumbre ante nuevos casos. Permite realizar tareas: Descriptivas: para descubrir relaciones de independencia y/o relevancia entre variables. Predictivas: mediante el uso de Redes Bayesianas. Probramacion evolutiva

Las estrategias de computacin evolutiva suponen un enfoque alternativo para abordar problemas complejos de bsqueda y aprendizaje a travs de modelos computacionales de procesos evolutivos. Las implantaciones concretas de tales estrategias se conocen como algoritmos evolutivos. Consiste en el uso de mecanismos de seleccin de soluciones potenciales y de construccin de nuevos candidatos por recombinacin de caractersticas de otros ya presentes, de modo parecido a como ocurre en la evolucin de los organismos naturales adaptados para la supervivencia en casi cualquier ecosistema. Metodos difusos La lgica difusa designa un conjunto de herramientas de la lgica convencional (booleana) que ha sido extendido para incluir el concepto de verdad parcial (valores de verdad entre completamente cierto y completamente falso).

Cluster Es una tcnica de anlisis exploratorio de datos para resolver problemas de clasificacin. su objeto consiste en ordenar objetos (personas, cosas, animales, plantas, variables) en grupos de forma que el grado de asociacin entre miembros del mismo cluster sea ms fuerte que el grado de asociacin entre miembros de diferentes clusters. Agrupamiento numrico: En primer lugar utilizaremos el algoritmo de agrupamiento K-medias, por ser uno de los ms veloces y eficientes, si bien uno de los ms limitados. Este algoritmo precisa nicamente del nmero de categoras similares en las que queremos dividir el conjunto de datos. algoritmo: algoritmo K-medias o SimpleKMeans Agrupamiento simblico: Finalmente, como alternativa a los algoritmos de agrupamiento anteriores, el agrupamiento simblico tiene la ventaja de efectuar un anlisis cualitativo que construye categoras jerrquicas para organizar los datos. Estas categoras se forman con un criterio probabilstico de "utilidad", llegando a las que permiten homogeneidad de los valores de los atributos dentro de cada una y al mismo tiempo una separacin entre categoras dadas por los atributos. Simplemente, un clster es un grupo de mltiples ordenadores unidos mediante una red de alta velocidad, de tal forma que el conjunto es visto como un nico ordenador, ms potente que los comunes de escritorio. Clasificacion de clusteres HPCC (High Performance Computing Clusters: clsteres de alto rendimiento). HA o HACC (High Availability Computing Clusters: clsteres de alta disponibilidad). HT o HTCC (High Throughput Computing Clusters: clsteres de alta eficiencia). Alto rendimiento: Son clsteres en los cuales se ejecutan tareas que requieren de gran capacidad computacional, grandes cantidades de memoria, o ambos a la vez. El llevar a cabo estas tareas puede comprometer los recursos del clster por largos periodos de tiempo.

Alta disponibilidad: Son clsteres cuyo objetivo de diseo es el de proveer disponibilidad y confiabilidad. Estos clsteres tratan de brindar la mxima disponibilidad de los servicios que ofrecen. La confiabilidad se provee mediante software que detecta fallos y permite recuperarse frente a los mismos, mientras que en hardware se evita tener un nico punto de fallos. Alta eficiencia: Son clsteres cuyo objetivo de diseo es el ejecutar la mayor cantidad de tareas en el menor tiempo posible. Existe independencia de datos entre las tareas individuales. El retardo entre los nodos del clster no es considerado un gran problema.

Redes neuronales Una red neuronal es un conjunto de elementos de Procesamiento de la informacin altamente interconectados, capaces de apren der con la informacin que las alimenta. La caracterstica principal de esta nueva tecnologa es que puede ser terminantemente aplicable a la mayora de problemas los cuales van desde problemas complejos reales a modelos tericos artificiales. Ejemplo: Reconocimiento de imgenes, voz Anlisis y filtrado de seales Clasificaciones Anlisis financiero Prediccin dinmica Fase de Aprendizaje Durante la primera fase, la fase de aprendizaje, la red es entrenada para realizar un determinado tipo de procesamiento. Una vez alcanzado un nivel de entrenamiento adecuado, se pasa a la fase de operacin, donde la red es utilizada . Fase de entrenamiento. Una vez seleccionada el tipo de neurona artificial que se utilizar en una red neuronal y determinada su topologa es necesario entrenarla para que la red para llevar a cabo la tarea para la cual fue entrenada. Fase de operacin.

Una vez finalizada la fase de aprendizaje, la red puede ser utilizada para realizar la tarea para la que fue entrenada. Una de las principales ventajas que. posee este modelo es que la red aprende la relacin existente entre los datos, adquiriendo la capacidad de generalizar conceptos