Está en la página 1de 41

Minera de Datos (parte I)

Dr. Vctor H. Escobar Jeria.


vescobar@utem.cl

Qu es la minera de
datos?
Extraccin de patrones (conocimiento)
en grandes cantidades de datos

Qu es la minera de
datos?
Extraccin de patrones (conocimiento)
en grandes cantidades de datos
Requisitos

No trivial
Implcito
Previamente desconocido
Potencialmente til

Qu es la minera de
datos?

Data rich,
Information poor
4

Conocimiento
(patrones interesantes)

KDD

(Knowledge Discovery in Databases)


Extraccin de conocimiento en bases de
datos

KDD

(Knowledge Discovery in Databases)


Extraccin de conocimiento en bases de
datos
Limpieza de datos
(eliminacin de ruido e inconsistencias)

Integracin de datos

(combinacin de mltiples fuentes de datos)

Reduccin/Seleccin de datos

(identificacin de datos relevantes para el problema)

Transformacin de datos

(preparacin de los datos para su anlisis)

Minera de datos

(tcnicas de extraccin de patrones y medidas de inters)

Presentacin de resultados

(tcnicas de visualizacin y de representacin del


conocimiento)

KDD

(Knowledge Discovery in Databases)


Extraccin de conocimiento en bases de
datos

Carcter multidisciplinar
Gestin de grandes cantidades de datos

Bases de datos

Evaluacin de resultados
Resumen de datos

Estadstica

Data Mining

IA

Visualizacin

Aprendizaje
Presentacin de resultados
Representacin del conocimiento
8

Clasificacin de tcnicas
En funcin de su propsito general:
Tcnicas descriptivas
Tcnicas predictivas
Tambin se pueden clasificar atendiendo a
el tipo de datos que hay que analizar
el tipo de conocimiento que se obtiene
el tipo de herramienta que utiliza
el dominio de aplicacin
9

Fuentes de datos

10

Bases de datos relacionales


Bases de datos multidimensionales
(DW)
Bases de datos transaccionales
Series temporales, secuencias y data
streams
Datos estructurados (grafos, redes
sociales)
Datos espaciales y espaciotemporales
Textos e hipertextos (p.ej. Web)
Bases de datos multimedia (p.ej.
imgenes)

Tcnicas de Data Mining


Caracterizacin o resumen
Discriminacin o contraste
Patrones frecuentes,
asociaciones y correlaciones
Clasificacin y prediccin
Deteccin de agrupamientos
(clustering)
Deteccin de anomalas (outliers)
Anlisis de tendencias (series
temporales)
11

Evaluacin de resultados
Un resultado es interesante si
es comprensible (por seres humanos)
es vlido con cierto grado de certeza
es potencialmente til
es novedoso o sirve para validar una
hiptesis

12

El inters de los resultados se puede


evaluar
objetivamente (criterios estadsticos)
subjetivamente (perspectiva del

Sistemas de Data Mining


Una tarea de minera de datos
puede describirse en trminos de
Datos relevantes
(lo que hay que analizar)

Tipo de conocimiento

(lo que se desea obtener)

Conocimiento previo

(background knowledge, para guiar el


proceso)

Medidas de inters

(para evaluar los resultados obtenidos)

Tcnicas de representacin

(para representar los resultados obtenidos)


13

Sistemas de Data Mining


Arquitectura
tpica

Interfaz de usuario
Evaluacin de patrones

Base de
conocimiento

Motor de minera de datos


Base de datos o
Data Warehouse

Limpieza, integracin, seleccin y transformacin de


datos
DB
14

DW

WWW

Temas de investigacin

Tcnicas eficientes de minera de datos

Incorporacin de conocimiento previo


Evaluacin de resultados (inters)
Interaccin con el usuario

Tcnicas interactivas (a distintos niveles de


abstraccin)
Tcnicas de presentacin y visualizacin de
resultados

Anlisis de nuevos tipos de datos

15

Escalabilidad
Tcnicas incrementales
Algoritmos paralelos

Estructuras complejas (grafos, redes sociales)


Bases de datos heterogneas

Metodologas de
Minera de Datos
Dr. Vctor H. Escobar Jeria.
vescobar@utem.cl

Metodologas SEMMA y
CRISP

Distintos proveedores de herramientas de


Minera de Datos se pusieron en la tarea de
esquematizar el proceso.
Las principales metodologas que hoy
existen en el medio: SEMMA y CRISP-DM.
Las que son confirmadas por una encuesta
realizada
por
www.kdnuggets.com
en
Agosto del 2007 (ltima versin de la
encuesta) [Kdnuggets, Agosto 2007].

Metodologas SEMMA y
CRISP

Fuente: (KDnuggets.com, Agosto 2007)

Metodologas SEMMA y
CRISP
SEMMA (Sample, Explore, Modify, Model,
Assess), como metodologa para procesos
de Minera de Datos fue propuesta por uno
de los proveedores de herramientas,
llamado SAS (Business Analytics software)
CRISP-DM, (Cross- Industry Standard
Process for Data Mining), fue propuesta por
un consorcio de varias empresas europeas
de herramientas de Minera de Datos como
NCR de Dinamarca, AG de Alemania, SPSS
de Inglaterra y OHRA de Holanda a fines de
1996.

SEMMA
Como se mencion anteriormente, SEMMA
con sus siglas en ingles (Sample, Explore,
Modify, Model, Assess), fue desarrollada por
SAS Institute.
Se define como una herramienta que ayuda
a los usuarios en los procesos de:

Seleccin,
Exploracin
Modelacin
Responder a preguntas o predecir eventos que
pueden pasar

Fases de SEMMA

Fases de SEMMA
Muestreo - Extraccin de una
muestra representativa:
- Se realiza la extraccin de un
conjunto de datos que sean una
buena
representacin
de
la
poblacin a analizar

Fases de SEMMA

Fases de SEMMA
Exploracin - Exploracin de
los datos en la muestra:
- Se hace para detectar,
identificar y eliminar datos
anmalos, ayudando a refinar
los procesos de descubrimiento

- En este punto del proceso, adems de


la visualizacin se pueden manejar
diferentes
tcnicas
estadsticas
como anlisis de factores, anlisis
de correspondencias, entre otros

Fases de SEMMA

Fases de SEMMA
Modificacin Modificacin de los datos:
- Se realiza creando,
seleccionando y
transformando las
variables en las cuales se va
a enfocar el proceso de
seleccin del modelo.

Fases de SEMMA

Fases de SEMMA
Modelacin - Modelacin
de los datos:
Las
herramientas
de
software se encargan de
realizar
una
bsqueda
completa de combinaciones
de
datos
que
juntos
predecirn de una manera
confiable
los
resultados
buscados.

Fases de SEMMA

Fases de SEMMA
Evaluacin - Evaluacin de los
datos obtenidos:
-Anlisis de los resultados para ver si
estos fueron exitosos de acuerdo a las
entradas que se tuvieron para analizar
el problema.
-Una buena prctica para identificar si
los resultados con el modelo creado
son los esperados, es aplicar este
modelo a una porcin de datos
diferente.

SEMMA
Segn SAS, ms que una metodologa
de procesos de Minera de Datos,
SEMMA se puede identificar como un
conjunto
de
herramientas
funcionales, enfocndose ms en
los aspectos del desarrollo del
modelo de Minera de Datos.

CRISP-DM
CRISP-DM es una metodologa de Minera de Datos
concebida en el ao 1996. Surge de la necesidad de
tres grandes empresas (DaimlerChrysler, SPSS y
NCR).
Entre las ventajas ms tangibles de este estndar se
encuentran que:
Es neutral con respecto al tipo de industria que la aplica.
Es independiente de la plataforma en la que se trabaja.
Est fuertemente relacionado al modelo de procesos de KDD
Es el punto de partida de todo el proceso de Minera de
Datos.

CRISP-DM
Ciclo de vida
del modelo de
procesos
CRISP-DM.

CRISP-DM
Business
Understanding
(Comprensin del Negocio) .
-Esta fase se enfoca en comprender los
objetivos y requerimientos desde la
perspectiva del negocio, en orden de
convertirlos en la definicin de un
problema de Minera de Datos

CRISP-DM
Data Understanding (Comprensin
de los datos).
Recoleccin temprana de los datos.
Identificar problemas de calidad.
Obtener las primeras ideas sobre el
dato o detectar subconjunto de datos
interesantes que permitan formular
hiptesis
acerca
de
informacin
escondida.

CRISP-DM
Data Preparation (Preparacin de los
datos).
Construir el conjunto final de datos que
ser utilizado como entrada para el(los)
modelo(s).
Se realizan tareas de seleccin de tablas,
registros
y
atributos
as
como
transformacin y limpieza de los datos
para las herramientas de modelado.

CRISP-DM
Modeling (Modelamiento)
Se seleccionan y aplican las tcnicas de
modelado y sus parmetros son calibrados
a sus valores ptimos.
Generalmente, existen varias tcnicas para
el mismo problema de Minera de Datos.
Algunas de ellas tienen requerimientos
especficos acerca de la forma del dato. Por
esta razn, volver hacia la fase de
preparacin de datos es frecuentemente
necesario.

CRISP-DM
Evaluation (Evaluacin de negocios).
Se evala la calidad de los modelos
construidos en orden de verificar que con
ellos se logran los objetivos de negocio que
fueron planteados.
Al final de esta fase se toma una decisin
acerca de si se utilizan los resultados
proporcionados por los modelos y se
contina a la fase siguiente.

CRISP-DM
Deployment (Despliegue).
Se debe organizar el conocimiento
obtenido en las fases previas de forma
que pueda ser utilizado y se decide que
acciones deben llevarse a cabo para que
se pueda hacer uso de los modelos
creados.

CRISP-DM. Tareas Genricas

Minera de Datos (parte


I)
Gracias!!!!
Dr. Vctor H. Escobar Jeria.
vescobar@utem.cl

También podría gustarte