Está en la página 1de 34

DATAMINING

Ing. CIP Richard Branko Luque del Carpio


Temas a tratar

Contexto de la vista minable


Exploracin mediante visualizacin
Lenguajes, primitivas e interfaces de
minera de datos
1. Contexto de la vista minable
- Para entender el contexto nos debemos
hacer las siguientes preguntas:

Que parte de los datos es pertinente analizar?


Que tipo de conocimiento se desea extraer y
como se debe presentar?
Que conocimiento puede ser valido, novedoso e
interesante?
Que conocimiento previo me hace falta para
realizar esta tarea?
1. Contexto de la vista minable
Una herramienta de minera de datos no
puede digerir un conjunto de datos y producir
algo razonable si no se le orienta

Por ejemplo: Uno puede realizar una compra en


un supermercado o por internet, pero en ningn
caso podr realizar una compra si no indica lo que
se quiere

Es necesario en muchos casos EXPLORAR los


datos, el contexto y los usuarios de la
informacin.
1. Contexto de la vista minable
Las 4 preguntas anteriores son en realidad,
una manera de clasificar el conjunto de
preguntas que se podran realizar ya que en el
fondo todas estn relacionadas.

Por ejemplo: Si no se sabe el conocimiento que


puede ser til no se puede decidir que parte de los
datos lo puede proporcionar. Por el contrario si no
se selecciona y se estudia un subconjunto de
datos no se puede saber que validez pueden tener
los modelos extrados y si finalmente van a ser
tiles.
1. Contexto de la vista minable
No es solo necesario realizar una vista minable sino
que debe ir acompaada de la tarea a realizar sobre
ella y como evaluarla as como la forma de
presentar el resultado final. Es as que vamos a dar
nombre y describiremos las cuatro preguntas
anteriores:

Vista minable: Que parte de los datos es pertinente


analizar? Una vista minable consiste en el sentido mas
clsico de base de datos (una tabla). La mayora de
mtodos de la minera de datos son solo capaces de
tratar una tabla en cada tarea. Por tanto la vista minable
ha de recoger toda la informacin necesaria para realizar
la tarea de minera de datos.
1. Contexto de la vista minable

Tarea, mtodo y presentacin: Que tipo de conocimiento


se desea extraer y como se debe presentar?, Se trata de
decidir que tarea (clasificacin, regresion, agrupamiento,etc)

Criterios de calidad: Que conocimiento puede ser valido,


novedoso e interesante?, en muchos casos hay que establecer
unos criterios de comprensibilidad de los modelos, criterios de
fiabilidad, criterios de utilidad y criterios de inters.

Conocimiento previo: Que conocimiento previo me hace


falta para realizar esta tarea?, Tanto a la hora de construir la
vista minable final o para ayudar al propio algoritmo de
minera de datos puede ser necesario establecer e incluso
expresar de una manera formal cierto conocimiento previo.
1. Contexto de la vista minable
Por ejemplo:
Supongamos que hemos recolectado la informacin sobre diagnsticos y
recetas de atencin primaria de toda una zona sanitaria.
Nuestro objetivo es extraer conocimiento de estos datos. En primer lugar,
antes incluso que mirar los datos, establecemos una seria de entrevistas
con los jefes de servicio de atencin primaria de la zona. Entre las cosas
que salen a la luz en las entrevistas es su preocupacin porque una
multitud de nuevos medicamentos han aparecido recientemente para una
serie de dolencias crnicas, y la mayora de mdicos prescriben de una
manera aleatoria de entre los medicamentos generalmente efectivos, o
como mucho, siguiendo patrones globales de xito de cada medicamente.
Esto tiene como consecuencia que en muchos caos a los pocos das el
paciente vuelve a la consulta, y el medico le receta otro medicamento,
hasta que dan con el medicamento realmente efectivo y que no muestre
contraindicaciones no previstas. Entre las necesidades que aparecen en las
reuniones, se encuentra la de realizar modelos que determinen, segn el
paciente que medicamento prescribir primero, con el objetivo de resolver
cuanto antes el problema sanitario del paciente, evitar nuevas visitas de
los pacientes y la reduccin de costos farmacuticos.
1. Contexto de la vista minable
De acuerdo al ejemplo anterior podemos definir que la VISTA
MINABLE va a formarse a partir de los diagnsticos de dicha
patologa y los medicamentos prescritos. El medicamente
satisfactorio es el ultimo prescrito ya que se supone que si no
hay mas registros del mismo paciente y patologa, el ultimo
medicamente fue bien. Por tanto habr que realizar una
consulta que nos seleccione el ultimo medicamento prescrito
a los pacientes de una patologa.

La tarea a realizar es una de CLASIFICACION debido a la


caractersticas de los usuarios y a la exigencia de
comprensibilidad de los modelos, y se decide que los patrones
extrados tenga forma de arboles de decisin ya que los
mdicos estn acostumbrados a seguir este tipo de arboles a
la hora de hacer diagnsticos o prescribir medicamentos.
1.1 Reconocimiento del dominio y de los
usuarios
Para conocer que se puede hacer con unos ciertos
datos es necesario conocer el dominio y a los usuarios.
En el caso de un gerente general o un directivo de una
empresa probablemente no se debe realizar este
reconocimiento.
En el caso de un profesional en tecnologas de
informacin que va a dedicarse a la minera de datos
de varios clientes, va ser ajeno al dominio, es por
tanto que la tarea principal ser de conocer y
reconocer el dominio y los usuarios.
El procedimiento mas similar a este reconocimiento
para la minera de datos es el establecimiento de
requerimientos realizado por analista de software.
1.2 Reconocimiento y exploracion de datos
Adems del reconocimiento del dominio, debemos reconocer
los datos

Para ello lgicamente se debe conocer lo que significan y esto


solo es posible si quien lo realiza conoce el dominio o los
datos.

El reconocimiento de datos se suele conocer con distintos


nombres en ingles (survey, data fishing, etc)

El objetivo de la exploracin de datos para la minera de datos


es obtener una vista minable con una tarea asignada, para
ellos se pueden realizar distintas tcnicas para obtener o
refinar dicha vista: visualizacin, descripcin, generalizacin,
agregacin y seleccin.
Temas a tratar

Contexto de la vista minable


Exploracin mediante visualizacin
Lenguajes, primitivas e interfaces de
minera de datos
2. Exploracin mediante visualizacin

Las tcnicas de visualizacin de datos se


utilizan fundamentalmente con dos objetivos:

Aprovechar la gran capacidad humana de ver


patrones, anomalas y tendencias a partir de
imgenes y facilitar la comprensin de los datos

Ayudar al usuario a comprender mas rpidamente


patrones descubiertos automticamente por un
sistema de KDD
2. Exploracin mediante visualizacin
Estos dos objetivos marcan dos momentos diferentes
del uso de la visualizacin de los datos:

Visualizacin previa: Es la que normalmente recibe le


nombre de mineria de datos visual, se utiliza para
entender mejor los datos y sugerir posibles patrones o que
de tipo de herramienta de KDD utilizar. La visualizacin
previa se utiliza frecuentemente por picapiedreros, para
ver tendencias y resmenes de los datos.

Visualizacin posterior: se utiliza para mostrar los


patrones y entenderlos mejor. La visualizacin posterior se
utiliza frecuentemente para validar y mostrar a los
expertos los resultados de la extraccin de conocimiento.
2. Exploracin mediante visualizacin
El primer tipo de visualizacin se trata de la
visualizacin multidimensional de las herramientas
OLAP, al menos parcialmente, y se puede interactuar
con los datos.

Existen otros tipos de visualizaciones mas graficas


donde podemos apoyarnos para la preparacin de los
datos.

Diferentes sistemas de mineria de datos tales como


Miner, SAS, SAS Enterprise Miner, IBM Intelligent Miner,
disponen de tipos de graficas adecuadas para diferentes
propositos, que se pueden navegar, rotar, modificar o
combinar.
2.1 Visualizacin multidimensional
Por ejemplo en la siguiente figura se muestra
una figura multidimensional donde se
muestran las caractersticas de doce
pacientes de enfermedades cardiovasculares:
el nivel de tabaquismo, colesterol, tensin,
obesidad, alcoholismo, precedentes, estrs y
riesgo estimado de enfermedades coronarias,
normalizados del 0 al 10.

FIGURA 5.4 PAGINA 106


2.1 Visualizacin multidimensional
Una variante del caso anterior cuando hay
pocos ejemplos es la representacin radial
circular como se muestra en la siguiente
figura:

FIGURA 5.5 PAGINA 106


Temas a tratar

Contexto de la vista minable


Exploracin mediante visualizacin
Lenguajes, primitivas e interfaces
de minera de datos
3. Lenguajes, primitivas e interfaces de
mineria de datos

Lenguajes de consulta: llamados tambin


lenguajes de consulta inductivos o de mineria
de datos, permite enfocar el proceso de
mineria de datos de una manera similar al
proceso de consulta de una base de datos. Ya
sea en una o mas instrucciones del lenguaje,
estas consultas obtienen MODELOS o
conjuntos de reglas a partir de los datos,
siguiendo las especificaciones establecidas en
las consultas.
3. Lenguajes, primitivas e interfaces de
mineria de datos
Conjuntos de primitivas o interfaces middleware: en vez
de proporciona un lenguaje, se proporciona una serie de
primitivas que, junto a un lenguaje de programacin
(C++, Java, Python, etc) permiten especificar los
componentes o realizar todos los pasos previos a la
mineria de datos y la mineria de datos propiamente
dicha.

Generalmente este conjunto de primitivas se organizan


en interfaces de programacin de aplicaciones (API,
Aplication Programming Interface). Otro tipo de
interfaces son aquellos que permiten interrelacionar
servidores OLAP con aplicaciones que realicen anlisis a
travs de un modelo cliente/servidor
3. Lenguajes, primitivas e interfaces de
mineria de datos
Interface o entornos integrados visuales:
basados en la idea de flujo de datos /
informacin / conocimiento, presentar una
serie de nodos que tienen una serie de
entradas y una serie de salidas, lo que
permite interconectarlos. Esto permite ver
todo el proceso como un flujo que se origina
en la informacin y que termina en los
patrones o en su evaluacin.
3.1 Lenguajes de consulta de mineria de
datos
Cuando se habla de una vista minable uno piensa
que se puede utilizar un lenguaje de consulta como
el SQL o alguna herramienta REPORTS para realizar
estas vistas minables.

Con el tiempo han aparecido una seria de lenguajes


para la mineria de datos, algunos de estos lenguajes
ven su descubrimiento de conocimiento en bases de
datos como un proceso de consulta a una base de
datos.

La mayora de lenguajes de consulta de mineria de


datos tiene sus origines a mitad de los aos 90.
3.1 Lenguajes de consulta de mineria de
datos
A continuacin veremos alguno de los
lenguajes de consulta estndar para bases de
datos relacionales:

M-SQL: se origino a mediados de los 90, este


lenguaje se centraba inicialmente en pocos tipos
de patrones, bsicamente reglas de asociacin.
3.1 Lenguajes de consulta de mineria de
datos

FIGURA 5.11 PAGINA 127


3.1 Lenguajes de consulta de mineria de
datos
En la figura se mostro que la vista minable se
delega a unos parntesis, donde se pone el
nombre de una tabla o una vista (con nombre T).
Esto significa que la vista minable se construye
con SQL estandar. Lo que si se permite
especificar en la consulta son restricciones sobre
la forma del modelo (en el ejemplo que en el
consecuente de las reglas de asociacin debe
aparecer el tributo AGE). Tambin se pueden
especificar restricciones sobre la calidad o la
evaluacin del mismo. En este caso, que el
soporte sea mayor que 1000 y que la confianza
se mayor que 0.65
3.1 Lenguajes de consulta de mineria de
datos
MQ o DMQL (Data Mining Query
Language):
Este es un lenguaje mucho mas completo y
permite expresar la vista minable
(especificando tablas e incluso base de datos
de origen), el tipo de conocimiento a extraer
(asociaciones, clasificacin ,etc), las medidas
de evaluacin o de inters para determinar los
patrones validos y la manera de representar el
resultado. Entre los aspectos mas destacables
del lenguaje se puede citar el hecho de que se
puede definir conocimiento previo en forma
de jerarquas, para los procesos de
generalizacin.
3.1 Lenguajes de consulta de mineria de
datos

FIGURA 5.12 PAGINA 127


COMENTARIO
3.1 Lenguajes de consulta de mineria de
datos
OLE DB FOR DATAMINING: de Microsoft,
que es en realidad una extensin del
protocolo de acceso a bases de datos OLE DB.
En realidad es una extensin del SQL de este
protocolo para trabajar con modelos de
minera de datos. El proceso se estructura en
3 fases: crear un modelo vacio, entrenar el
modelo y realizar predicciones.

FIGURA 5.13 PAGINA 128


3.2 Conjuntos de primitivas de minera de datos

Los lenguajes de consulta de minera de datos pueden utilizarse


interactivamente o pueden utilizarse dentro de algn lenguaje de
programacin.

Si lo que deseamos es realizar minera de datos a travs de una


aplicacin puede ser preferible disponer de un conjunto de
primitivas que se pueden utilizar, a forma de API, en nuestros
programas.

Una propuesta para realizar esto es XML FOR ANALYSIS, es un


conjunto de interfaces de mensajes XML que utilizan el estndar
SOAP (Simple Obkect Acess Protocol) para definir el acceso e
interaccin con los datos entre una aplicacin cliente y un
proveedor de datos analtico que estn separados por ejemplo
por internet.
3.3 Interfaces visuales de minera de datos
Uno de los aspectos que ha hecho popular la mineria
de datos es la aparicion de unas interfaces visuales
que facilitan en gran medida la realizacion de todo el
proceso de extraccion de conocimiento.

Varios de los usuario s potenciales de la mineria de


datos no son informaticos ni profesionales de las
tecnologias de informacion sino que pueden ser
directivos o analistas.

Los ejemplos mas paradigmaticos de esta manera de


trabajar quiza sea las interfaces del SPSS Clementine
y del SAS Enterprise Miner, ambas muy similares
3.3 Interfaces visuales de minera de datos

FIGURA 5.18 PAGINA 132


COMENTARIO
3.3 Interfaces visuales de minera de datos
En la figura se muestra un ejemplo de un
proceso de extraccin de conocimiento con
SPSS CLEMENTINE. Como podemos ver en la
parte superior izquierda, la informacin parte
de un nodo denominado TITANIC.DAT y se le
van aplicando nodos, transformndose,
analizando, seleccionando, partiendo,
visualizando en distintas ramas, que se
pueden seguir pro las flechas que conectan
los nodos. Esto hace ver el proceso de minera
de datos como un flujo de trabajo
(WORKFLOW) donde cada nodo transforma
informacin en otra informacin.
3.3 Interfaces visuales de minera de datos

Las interfaces visuales tienen sus desventajas:

1ero. El usuario se acostumbra a utilizar una herramienta y


acaba dependiendo de ella, adems se dificulta en gran
medida el poder portar a otras herramientas el flujo o
trabajo de mineria de datos realizado.

2do. Estos entornos visuales estn diseados para que las


operaciones y el flujo se vayan construyendo a mano.

Esta parece ser el tendencia de cara al futuro, tener


lenguajes y primitivas estndar y por encima de ellas,
interfaces visuales sobre las herramientas.
GRACIAS POR SU ATENCION

También podría gustarte