Está en la página 1de 34

DATAMINING

Ing. CIP Richard Branko Luque del Carpio

Temas a tratar
Contexto

de la vista minable
Exploracin mediante visualizacin
Lenguajes, primitivas e interfaces de
minera de datos

1. Contexto de la vista minable

- Para entender el contexto nos debemos


hacer las siguientes preguntas:

Que parte de los datos es pertinente analizar?


Que tipo de conocimiento se desea extraer y
como se debe presentar?
Que conocimiento puede ser valido, novedoso e
interesante?
Que conocimiento previo me hace falta para
realizar esta tarea?

1. Contexto de la vista minable

Una herramienta de minera de datos no


puede digerir un conjunto de datos y producir
algo razonable si no se le orienta

Por ejemplo: Uno puede realizar una compra en


un supermercado o por internet, pero en ningn
caso podr realizar una compra si no indica lo que
se quiere

Es necesario en muchos casos EXPLORAR los


datos, el contexto y los usuarios de la
informacin.

1. Contexto de la vista minable

Las 4 preguntas anteriores son en realidad,


una manera de clasificar el conjunto de
preguntas que se podran realizar ya que en el
fondo todas estn relacionadas.

Por ejemplo: Si no se sabe el conocimiento que


puede ser til no se puede decidir que parte de los
datos lo puede proporcionar. Por el contrario si no
se selecciona y se estudia un subconjunto de
datos no se puede saber que validez pueden tener
los modelos extrados y si finalmente van a ser
tiles.

1. Contexto de la vista minable

No es solo necesario realizar una vista minable sino


que debe ir acompaada de la tarea a realizar sobre
ella y como evaluarla as como la forma de
presentar el resultado final. Es as que vamos a dar
nombre y describiremos las cuatro preguntas
anteriores:

Vista minable: Que parte de los datos es pertinente


analizar? Una vista minable consiste en el sentido mas
clsico de base de datos (una tabla). La mayora de
mtodos de la minera de datos son solo capaces de
tratar una tabla en cada tarea. Por tanto la vista minable
ha de recoger toda la informacin necesaria para realizar
la tarea de minera de datos.

1. Contexto de la vista minable

Tarea, mtodo y presentacin: Que tipo de conocimiento


se desea extraer y como se debe presentar?, Se trata de
decidir que tarea (clasificacin, regresion, agrupamiento,etc)

Criterios de calidad: Que conocimiento puede ser valido,


novedoso e interesante?, en muchos casos hay que establecer
unos criterios de comprensibilidad de los modelos, criterios de
fiabilidad, criterios de utilidad y criterios de inters.

Conocimiento previo: Que conocimiento previo me hace


falta para realizar esta tarea?, Tanto a la hora de construir la
vista minable final o para ayudar al propio algoritmo de
minera de datos puede ser necesario establecer e incluso
expresar de una manera formal cierto conocimiento previo.

1. Contexto de la vista minable

Por ejemplo:
Supongamos que hemos recolectado la informacin sobre diagnsticos y
recetas de atencin primaria de toda una zona sanitaria.
Nuestro objetivo es extraer conocimiento de estos datos. En primer lugar,
antes incluso que mirar los datos, establecemos una seria de entrevistas
con los jefes de servicio de atencin primaria de la zona. Entre las cosas
que salen a la luz en las entrevistas es su preocupacin porque una
multitud de nuevos medicamentos han aparecido recientemente para una
serie de dolencias crnicas, y la mayora de mdicos prescriben de una
manera aleatoria de entre los medicamentos generalmente efectivos, o
como mucho, siguiendo patrones globales de xito de cada medicamente.
Esto tiene como consecuencia que en muchos caos a los pocos das el
paciente vuelve a la consulta, y el medico le receta otro medicamento,
hasta que dan con el medicamento realmente efectivo y que no muestre
contraindicaciones no previstas. Entre las necesidades que aparecen en las
reuniones, se encuentra la de realizar modelos que determinen, segn el
paciente que medicamento prescribir primero, con el objetivo de resolver
cuanto antes el problema sanitario del paciente, evitar nuevas visitas de
los pacientes y la reduccin de costos farmacuticos.

1. Contexto de la vista minable

De acuerdo al ejemplo anterior podemos definir que la VISTA


MINABLE va a formarse a partir de los diagnsticos de dicha
patologa y los medicamentos prescritos. El medicamente
satisfactorio es el ultimo prescrito ya que se supone que si no
hay mas registros del mismo paciente y patologa, el ultimo
medicamente fue bien. Por tanto habr que realizar una
consulta que nos seleccione el ultimo medicamento prescrito
a los pacientes de una patologa.

La tarea a realizar es una de CLASIFICACION debido a la


caractersticas de los usuarios y a la exigencia de
comprensibilidad de los modelos, y se decide que los patrones
extrados tenga forma de arboles de decisin ya que los
mdicos estn acostumbrados a seguir este tipo de arboles a
la hora de hacer diagnsticos o prescribir medicamentos.

1.1 Reconocimiento del dominio y de los


usuarios

Para conocer que se puede hacer con unos ciertos


datos es necesario conocer el dominio y a los usuarios.
En el caso de un gerente general o un directivo de una
empresa probablemente no se debe realizar este
reconocimiento.
En el caso de un profesional en tecnologas de
informacin que va a dedicarse a la minera de datos
de varios clientes, va ser ajeno al dominio, es por
tanto que la tarea principal ser de conocer y
reconocer el dominio y los usuarios.
El procedimiento mas similar a este reconocimiento
para la minera de datos es el establecimiento de
requerimientos realizado por analista de software.

1.2 Reconocimiento y exploracion de datos

Adems del reconocimiento del dominio, debemos reconocer


los datos

Para ello lgicamente se debe conocer lo que significan y esto


solo es posible si quien lo realiza conoce el dominio o los
datos.

El reconocimiento de datos se suele conocer con distintos


nombres en ingles (survey, data fishing, etc)

El objetivo de la exploracin de datos para la minera de datos


es obtener una vista minable con una tarea asignada, para
ellos se pueden realizar distintas tcnicas para obtener o
refinar dicha vista: visualizacin, descripcin, generalizacin,
agregacin y seleccin.

Temas a tratar
Contexto

de la vista minable
Exploracin mediante visualizacin
Lenguajes, primitivas e interfaces de
minera de datos

2. Exploracin mediante visualizacin

Las tcnicas de visualizacin de datos se


utilizan fundamentalmente con dos objetivos:

Aprovechar la gran capacidad humana de ver


patrones, anomalas y tendencias a partir de
imgenes y facilitar la comprensin de los datos

Ayudar al usuario a comprender mas rpidamente


patrones descubiertos automticamente por un
sistema de KDD

2. Exploracin mediante visualizacin

Estos dos objetivos marcan dos momentos diferentes


del uso de la visualizacin de los datos:

Visualizacin previa: Es la que normalmente recibe le


nombre de mineria de datos visual, se utiliza para
entender mejor los datos y sugerir posibles patrones o que
de tipo de herramienta de KDD utilizar. La visualizacin
previa se utiliza frecuentemente por picapiedreros, para
ver tendencias y resmenes de los datos.

Visualizacin posterior: se utiliza para mostrar los


patrones y entenderlos mejor. La visualizacin posterior se
utiliza frecuentemente para validar y mostrar a los
expertos los resultados de la extraccin de conocimiento.

2. Exploracin mediante visualizacin

El primer tipo de visualizacin se trata de la


visualizacin multidimensional de las herramientas
OLAP, al menos parcialmente, y se puede interactuar
con los datos.

Existen otros tipos de visualizaciones mas graficas


donde podemos apoyarnos para la preparacin de los
datos.

Diferentes sistemas de mineria de datos tales como


Miner, SAS, SAS Enterprise Miner, IBM Intelligent Miner,
disponen de tipos de graficas adecuadas para diferentes
propositos, que se pueden navegar, rotar, modificar o
combinar.

2.1 Visualizacin multidimensional

Por ejemplo en la siguiente figura se muestra


una figura multidimensional donde se
muestran
las
caractersticas
de
doce
pacientes de enfermedades cardiovasculares:
el nivel de tabaquismo, colesterol, tensin,
obesidad, alcoholismo, precedentes, estrs y
riesgo estimado de enfermedades coronarias,
normalizados del 0 al 10.

FIGURA 5.4 PAGINA 106

2.1 Visualizacin multidimensional

Una variante del caso anterior cuando hay


pocos ejemplos es la representacin radial
circular como se muestra en la siguiente
figura:

FIGURA 5.5 PAGINA 106

Temas a tratar
Contexto

de la vista minable
Exploracin mediante visualizacin
Lenguajes, primitivas e interfaces
de minera de datos

3. Lenguajes, primitivas e interfaces de


mineria de datos

Lenguajes de consulta: llamados tambin


lenguajes de consulta inductivos o de mineria
de datos, permite enfocar el proceso de
mineria de datos de una manera similar al
proceso de consulta de una base de datos. Ya
sea en una o mas instrucciones del lenguaje,
estas
consultas
obtienen
MODELOS
o
conjuntos de reglas a partir de los datos,
siguiendo las especificaciones establecidas en
las consultas.

3. Lenguajes, primitivas e interfaces de


mineria de datos

Conjuntos de primitivas o interfaces middleware: en vez


de proporciona un lenguaje, se proporciona una serie de
primitivas que, junto a un lenguaje de programacin
(C++, Java, Python, etc) permiten especificar los
componentes o realizar todos los pasos previos a la
mineria de datos y la mineria de datos propiamente
dicha.

Generalmente este conjunto de primitivas se organizan


en interfaces de programacin de aplicaciones (API,
Aplication Programming Interface). Otro tipo de
interfaces son aquellos que permiten interrelacionar
servidores OLAP con aplicaciones que realicen anlisis a
travs de un modelo cliente/servidor

3. Lenguajes, primitivas e interfaces de


mineria de datos

Interface o entornos integrados visuales:


basados en la idea de flujo de datos /
informacin / conocimiento, presentar una
serie de nodos que tienen una serie de
entradas y una serie de salidas, lo que
permite interconectarlos. Esto permite ver
todo el proceso como un flujo que se origina
en la informacin y que termina en los
patrones o en su evaluacin.

3.1 Lenguajes de consulta de mineria de


datos

Cuando se habla de una vista minable uno piensa


que se puede utilizar un lenguaje de consulta como
el SQL o alguna herramienta REPORTS para realizar
estas vistas minables.

Con el tiempo han aparecido una seria de lenguajes


para la mineria de datos, algunos de estos lenguajes
ven su descubrimiento de conocimiento en bases de
datos como un proceso de consulta a una base de
datos.

La mayora de lenguajes de consulta de mineria de


datos tiene sus origines a mitad de los aos 90.

3.1 Lenguajes de consulta de mineria de


datos

A continuacin veremos alguno de los


lenguajes de consulta estndar para bases de
datos relacionales:

M-SQL: se origino a mediados de los 90, este


lenguaje se centraba inicialmente en pocos tipos
de patrones, bsicamente reglas de asociacin.

3.1 Lenguajes de consulta de mineria de


datos

FIGURA 5.11 PAGINA 127

3.1 Lenguajes de consulta de mineria de


datos

En la figura se mostro que la vista minable se


delega a unos parntesis, donde se pone el
nombre de una tabla o una vista (con nombre T).
Esto significa que la vista minable se construye
con SQL estandar. Lo que si se permite
especificar en la consulta son restricciones sobre
la forma del modelo (en el ejemplo que en el
consecuente de las reglas de asociacin debe
aparecer el tributo AGE). Tambin se pueden
especificar restricciones sobre la calidad o la
evaluacin del mismo. En este caso, que el
soporte sea mayor que 1000 y que la confianza
se mayor que 0.65

3.1 Lenguajes de consulta de mineria de


datos

MQ o DMQL (Data Mining Query


Language):
Este es un lenguaje mucho mas completo y
permite
expresar
la
vista
minable
(especificando tablas e incluso base de datos
de origen), el tipo de conocimiento a extraer
(asociaciones, clasificacin ,etc), las medidas
de evaluacin o de inters para determinar los
patrones validos y la manera de representar el
resultado. Entre los aspectos mas destacables
del lenguaje se puede citar el hecho de que se
puede definir conocimiento previo en forma
de
jerarquas,
para
los
procesos
de
generalizacin.

3.1 Lenguajes de consulta de mineria de


datos

FIGURA 5.12 PAGINA 127


COMENTARIO

3.1 Lenguajes de consulta de mineria de


datos

OLE DB FOR DATAMINING: de Microsoft,


que es en realidad una extensin del
protocolo de acceso a bases de datos OLE DB.
En realidad es una extensin del SQL de este
protocolo para trabajar con modelos de
minera de datos. El proceso se estructura en
3 fases: crear un modelo vacio, entrenar el
modelo y realizar predicciones.

FIGURA 5.13 PAGINA 128

3.2 Conjuntos de primitivas de minera de datos

Los lenguajes de consulta de minera de datos pueden utilizarse


interactivamente o pueden utilizarse dentro de algn lenguaje de
programacin.

Si lo que deseamos es realizar minera de datos a travs de una


aplicacin puede ser preferible disponer de un conjunto de
primitivas que se pueden utilizar, a forma de API, en nuestros
programas.

Una propuesta para realizar esto es XML FOR ANALYSIS, es un


conjunto de interfaces de mensajes XML que utilizan el estndar
SOAP (Simple Obkect Acess Protocol) para definir el acceso e
interaccin con los datos entre una aplicacin cliente y un
proveedor de datos analtico que estn separados por ejemplo
por internet.

3.3 Interfaces visuales de minera de datos

Uno de los aspectos que ha hecho popular la mineria


de datos es la aparicion de unas interfaces visuales
que facilitan en gran medida la realizacion de todo el
proceso de extraccion de conocimiento.

Varios de los usuario s potenciales de la mineria de


datos no son informaticos ni profesionales de las
tecnologias de informacion sino que pueden ser
directivos o analistas.

Los ejemplos mas paradigmaticos de esta manera de


trabajar quiza sea las interfaces del SPSS Clementine
y del SAS Enterprise Miner, ambas muy similares

3.3 Interfaces visuales de minera de datos

FIGURA 5.18 PAGINA 132


COMENTARIO

3.3 Interfaces visuales de minera de datos

En la figura se muestra un ejemplo de un


proceso de extraccin de conocimiento con
SPSS CLEMENTINE. Como podemos ver en la
parte superior izquierda, la informacin parte
de un nodo denominado TITANIC.DAT y se le
van
aplicando
nodos,
transformndose,
analizando,
seleccionando,
partiendo,
visualizando en distintas ramas, que se
pueden seguir pro las flechas que conectan
los nodos. Esto hace ver el proceso de minera
de datos como un flujo de trabajo
(WORKFLOW) donde cada nodo transforma
informacin en otra informacin.

3.3 Interfaces visuales de minera de datos

Las interfaces visuales tienen sus desventajas:

1ero. El usuario se acostumbra a utilizar una herramienta y


acaba dependiendo de ella, adems se dificulta en gran
medida el poder portar a otras herramientas el flujo o
trabajo de mineria de datos realizado.

2do. Estos entornos visuales estn diseados para que las


operaciones y el flujo se vayan construyendo a mano.

Esta parece ser el tendencia de cara al futuro, tener


lenguajes y primitivas estndar y por encima de ellas,
interfaces visuales sobre las herramientas.

GRACIAS POR SU ATENCION

También podría gustarte