Exploracin mediante visualizacin Lenguajes, primitivas e interfaces de minera de datos 1. Contexto de la vista minable - Para entender el contexto nos debemos hacer las siguientes preguntas:
Que parte de los datos es pertinente analizar?
Que tipo de conocimiento se desea extraer y como se debe presentar? Que conocimiento puede ser valido, novedoso e interesante? Que conocimiento previo me hace falta para realizar esta tarea? 1. Contexto de la vista minable Una herramienta de minera de datos no puede digerir un conjunto de datos y producir algo razonable si no se le orienta
Por ejemplo: Uno puede realizar una compra en
un supermercado o por internet, pero en ningn caso podr realizar una compra si no indica lo que se quiere
Es necesario en muchos casos EXPLORAR los
datos, el contexto y los usuarios de la informacin. 1. Contexto de la vista minable Las 4 preguntas anteriores son en realidad, una manera de clasificar el conjunto de preguntas que se podran realizar ya que en el fondo todas estn relacionadas.
Por ejemplo: Si no se sabe el conocimiento que
puede ser til no se puede decidir que parte de los datos lo puede proporcionar. Por el contrario si no se selecciona y se estudia un subconjunto de datos no se puede saber que validez pueden tener los modelos extrados y si finalmente van a ser tiles. 1. Contexto de la vista minable No es solo necesario realizar una vista minable sino que debe ir acompaada de la tarea a realizar sobre ella y como evaluarla as como la forma de presentar el resultado final. Es as que vamos a dar nombre y describiremos las cuatro preguntas anteriores:
Vista minable: Que parte de los datos es pertinente
analizar? Una vista minable consiste en el sentido mas clsico de base de datos (una tabla). La mayora de mtodos de la minera de datos son solo capaces de tratar una tabla en cada tarea. Por tanto la vista minable ha de recoger toda la informacin necesaria para realizar la tarea de minera de datos. 1. Contexto de la vista minable
Tarea, mtodo y presentacin: Que tipo de conocimiento
se desea extraer y como se debe presentar?, Se trata de decidir que tarea (clasificacin, regresion, agrupamiento,etc)
Criterios de calidad: Que conocimiento puede ser valido,
novedoso e interesante?, en muchos casos hay que establecer unos criterios de comprensibilidad de los modelos, criterios de fiabilidad, criterios de utilidad y criterios de inters.
Conocimiento previo: Que conocimiento previo me hace
falta para realizar esta tarea?, Tanto a la hora de construir la vista minable final o para ayudar al propio algoritmo de minera de datos puede ser necesario establecer e incluso expresar de una manera formal cierto conocimiento previo. 1. Contexto de la vista minable Por ejemplo: Supongamos que hemos recolectado la informacin sobre diagnsticos y recetas de atencin primaria de toda una zona sanitaria. Nuestro objetivo es extraer conocimiento de estos datos. En primer lugar, antes incluso que mirar los datos, establecemos una seria de entrevistas con los jefes de servicio de atencin primaria de la zona. Entre las cosas que salen a la luz en las entrevistas es su preocupacin porque una multitud de nuevos medicamentos han aparecido recientemente para una serie de dolencias crnicas, y la mayora de mdicos prescriben de una manera aleatoria de entre los medicamentos generalmente efectivos, o como mucho, siguiendo patrones globales de xito de cada medicamente. Esto tiene como consecuencia que en muchos caos a los pocos das el paciente vuelve a la consulta, y el medico le receta otro medicamento, hasta que dan con el medicamento realmente efectivo y que no muestre contraindicaciones no previstas. Entre las necesidades que aparecen en las reuniones, se encuentra la de realizar modelos que determinen, segn el paciente que medicamento prescribir primero, con el objetivo de resolver cuanto antes el problema sanitario del paciente, evitar nuevas visitas de los pacientes y la reduccin de costos farmacuticos. 1. Contexto de la vista minable De acuerdo al ejemplo anterior podemos definir que la VISTA MINABLE va a formarse a partir de los diagnsticos de dicha patologa y los medicamentos prescritos. El medicamente satisfactorio es el ultimo prescrito ya que se supone que si no hay mas registros del mismo paciente y patologa, el ultimo medicamente fue bien. Por tanto habr que realizar una consulta que nos seleccione el ultimo medicamento prescrito a los pacientes de una patologa.
La tarea a realizar es una de CLASIFICACION debido a la
caractersticas de los usuarios y a la exigencia de comprensibilidad de los modelos, y se decide que los patrones extrados tenga forma de arboles de decisin ya que los mdicos estn acostumbrados a seguir este tipo de arboles a la hora de hacer diagnsticos o prescribir medicamentos. 1.1 Reconocimiento del dominio y de los usuarios Para conocer que se puede hacer con unos ciertos datos es necesario conocer el dominio y a los usuarios. En el caso de un gerente general o un directivo de una empresa probablemente no se debe realizar este reconocimiento. En el caso de un profesional en tecnologas de informacin que va a dedicarse a la minera de datos de varios clientes, va ser ajeno al dominio, es por tanto que la tarea principal ser de conocer y reconocer el dominio y los usuarios. El procedimiento mas similar a este reconocimiento para la minera de datos es el establecimiento de requerimientos realizado por analista de software. 1.2 Reconocimiento y exploracion de datos Adems del reconocimiento del dominio, debemos reconocer los datos
Para ello lgicamente se debe conocer lo que significan y esto
solo es posible si quien lo realiza conoce el dominio o los datos.
El reconocimiento de datos se suele conocer con distintos
nombres en ingles (survey, data fishing, etc)
El objetivo de la exploracin de datos para la minera de datos
es obtener una vista minable con una tarea asignada, para ellos se pueden realizar distintas tcnicas para obtener o refinar dicha vista: visualizacin, descripcin, generalizacin, agregacin y seleccin. Temas a tratar
Contexto de la vista minable
Exploracin mediante visualizacin Lenguajes, primitivas e interfaces de minera de datos 2. Exploracin mediante visualizacin
Las tcnicas de visualizacin de datos se
utilizan fundamentalmente con dos objetivos:
Aprovechar la gran capacidad humana de ver
patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos
Ayudar al usuario a comprender mas rpidamente
patrones descubiertos automticamente por un sistema de KDD 2. Exploracin mediante visualizacin Estos dos objetivos marcan dos momentos diferentes del uso de la visualizacin de los datos:
Visualizacin previa: Es la que normalmente recibe le
nombre de mineria de datos visual, se utiliza para entender mejor los datos y sugerir posibles patrones o que de tipo de herramienta de KDD utilizar. La visualizacin previa se utiliza frecuentemente por picapiedreros, para ver tendencias y resmenes de los datos.
Visualizacin posterior: se utiliza para mostrar los
patrones y entenderlos mejor. La visualizacin posterior se utiliza frecuentemente para validar y mostrar a los expertos los resultados de la extraccin de conocimiento. 2. Exploracin mediante visualizacin El primer tipo de visualizacin se trata de la visualizacin multidimensional de las herramientas OLAP, al menos parcialmente, y se puede interactuar con los datos.
Existen otros tipos de visualizaciones mas graficas
donde podemos apoyarnos para la preparacin de los datos.
Diferentes sistemas de mineria de datos tales como
Miner, SAS, SAS Enterprise Miner, IBM Intelligent Miner, disponen de tipos de graficas adecuadas para diferentes propositos, que se pueden navegar, rotar, modificar o combinar. 2.1 Visualizacin multidimensional Por ejemplo en la siguiente figura se muestra una figura multidimensional donde se muestran las caractersticas de doce pacientes de enfermedades cardiovasculares: el nivel de tabaquismo, colesterol, tensin, obesidad, alcoholismo, precedentes, estrs y riesgo estimado de enfermedades coronarias, normalizados del 0 al 10.
FIGURA 5.4 PAGINA 106
2.1 Visualizacin multidimensional Una variante del caso anterior cuando hay pocos ejemplos es la representacin radial circular como se muestra en la siguiente figura:
FIGURA 5.5 PAGINA 106
Temas a tratar
Contexto de la vista minable
Exploracin mediante visualizacin Lenguajes, primitivas e interfaces de minera de datos 3. Lenguajes, primitivas e interfaces de mineria de datos
Lenguajes de consulta: llamados tambin
lenguajes de consulta inductivos o de mineria de datos, permite enfocar el proceso de mineria de datos de una manera similar al proceso de consulta de una base de datos. Ya sea en una o mas instrucciones del lenguaje, estas consultas obtienen MODELOS o conjuntos de reglas a partir de los datos, siguiendo las especificaciones establecidas en las consultas. 3. Lenguajes, primitivas e interfaces de mineria de datos Conjuntos de primitivas o interfaces middleware: en vez de proporciona un lenguaje, se proporciona una serie de primitivas que, junto a un lenguaje de programacin (C++, Java, Python, etc) permiten especificar los componentes o realizar todos los pasos previos a la mineria de datos y la mineria de datos propiamente dicha.
Generalmente este conjunto de primitivas se organizan
en interfaces de programacin de aplicaciones (API, Aplication Programming Interface). Otro tipo de interfaces son aquellos que permiten interrelacionar servidores OLAP con aplicaciones que realicen anlisis a travs de un modelo cliente/servidor 3. Lenguajes, primitivas e interfaces de mineria de datos Interface o entornos integrados visuales: basados en la idea de flujo de datos / informacin / conocimiento, presentar una serie de nodos que tienen una serie de entradas y una serie de salidas, lo que permite interconectarlos. Esto permite ver todo el proceso como un flujo que se origina en la informacin y que termina en los patrones o en su evaluacin. 3.1 Lenguajes de consulta de mineria de datos Cuando se habla de una vista minable uno piensa que se puede utilizar un lenguaje de consulta como el SQL o alguna herramienta REPORTS para realizar estas vistas minables.
Con el tiempo han aparecido una seria de lenguajes
para la mineria de datos, algunos de estos lenguajes ven su descubrimiento de conocimiento en bases de datos como un proceso de consulta a una base de datos.
La mayora de lenguajes de consulta de mineria de
datos tiene sus origines a mitad de los aos 90. 3.1 Lenguajes de consulta de mineria de datos A continuacin veremos alguno de los lenguajes de consulta estndar para bases de datos relacionales:
M-SQL: se origino a mediados de los 90, este
lenguaje se centraba inicialmente en pocos tipos de patrones, bsicamente reglas de asociacin. 3.1 Lenguajes de consulta de mineria de datos
FIGURA 5.11 PAGINA 127
3.1 Lenguajes de consulta de mineria de datos En la figura se mostro que la vista minable se delega a unos parntesis, donde se pone el nombre de una tabla o una vista (con nombre T). Esto significa que la vista minable se construye con SQL estandar. Lo que si se permite especificar en la consulta son restricciones sobre la forma del modelo (en el ejemplo que en el consecuente de las reglas de asociacin debe aparecer el tributo AGE). Tambin se pueden especificar restricciones sobre la calidad o la evaluacin del mismo. En este caso, que el soporte sea mayor que 1000 y que la confianza se mayor que 0.65 3.1 Lenguajes de consulta de mineria de datos MQ o DMQL (Data Mining Query Language): Este es un lenguaje mucho mas completo y permite expresar la vista minable (especificando tablas e incluso base de datos de origen), el tipo de conocimiento a extraer (asociaciones, clasificacin ,etc), las medidas de evaluacin o de inters para determinar los patrones validos y la manera de representar el resultado. Entre los aspectos mas destacables del lenguaje se puede citar el hecho de que se puede definir conocimiento previo en forma de jerarquas, para los procesos de generalizacin. 3.1 Lenguajes de consulta de mineria de datos
FIGURA 5.12 PAGINA 127
COMENTARIO 3.1 Lenguajes de consulta de mineria de datos OLE DB FOR DATAMINING: de Microsoft, que es en realidad una extensin del protocolo de acceso a bases de datos OLE DB. En realidad es una extensin del SQL de este protocolo para trabajar con modelos de minera de datos. El proceso se estructura en 3 fases: crear un modelo vacio, entrenar el modelo y realizar predicciones.
FIGURA 5.13 PAGINA 128
3.2 Conjuntos de primitivas de minera de datos
Los lenguajes de consulta de minera de datos pueden utilizarse
interactivamente o pueden utilizarse dentro de algn lenguaje de programacin.
Si lo que deseamos es realizar minera de datos a travs de una
aplicacin puede ser preferible disponer de un conjunto de primitivas que se pueden utilizar, a forma de API, en nuestros programas.
Una propuesta para realizar esto es XML FOR ANALYSIS, es un
conjunto de interfaces de mensajes XML que utilizan el estndar SOAP (Simple Obkect Acess Protocol) para definir el acceso e interaccin con los datos entre una aplicacin cliente y un proveedor de datos analtico que estn separados por ejemplo por internet. 3.3 Interfaces visuales de minera de datos Uno de los aspectos que ha hecho popular la mineria de datos es la aparicion de unas interfaces visuales que facilitan en gran medida la realizacion de todo el proceso de extraccion de conocimiento.
Varios de los usuario s potenciales de la mineria de
datos no son informaticos ni profesionales de las tecnologias de informacion sino que pueden ser directivos o analistas.
Los ejemplos mas paradigmaticos de esta manera de
trabajar quiza sea las interfaces del SPSS Clementine y del SAS Enterprise Miner, ambas muy similares 3.3 Interfaces visuales de minera de datos
FIGURA 5.18 PAGINA 132
COMENTARIO 3.3 Interfaces visuales de minera de datos En la figura se muestra un ejemplo de un proceso de extraccin de conocimiento con SPSS CLEMENTINE. Como podemos ver en la parte superior izquierda, la informacin parte de un nodo denominado TITANIC.DAT y se le van aplicando nodos, transformndose, analizando, seleccionando, partiendo, visualizando en distintas ramas, que se pueden seguir pro las flechas que conectan los nodos. Esto hace ver el proceso de minera de datos como un flujo de trabajo (WORKFLOW) donde cada nodo transforma informacin en otra informacin. 3.3 Interfaces visuales de minera de datos
Las interfaces visuales tienen sus desventajas:
1ero. El usuario se acostumbra a utilizar una herramienta y
acaba dependiendo de ella, adems se dificulta en gran medida el poder portar a otras herramientas el flujo o trabajo de mineria de datos realizado.
2do. Estos entornos visuales estn diseados para que las
operaciones y el flujo se vayan construyendo a mano.
Esta parece ser el tendencia de cara al futuro, tener
lenguajes y primitivas estndar y por encima de ellas, interfaces visuales sobre las herramientas. GRACIAS POR SU ATENCION