Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4MineriadeDatos2014
4MineriadeDatos2014
Qu es la minera de
datos?
Extraccin de patrones (conocimiento)
en grandes cantidades de datos
Qu es la minera de
datos?
Extraccin de patrones (conocimiento)
en grandes cantidades de datos
Requisitos
No trivial
Implcito
Previamente desconocido
Potencialmente til
Qu es la minera de
datos?
Data rich,
Information poor
4
Conocimiento
(patrones interesantes)
KDD
KDD
Integracin de datos
Reduccin/Seleccin de datos
Transformacin de datos
Minera de datos
Presentacin de resultados
KDD
Carcter multidisciplinar
Gestin de grandes cantidades de datos
Bases de datos
Evaluacin de resultados
Resumen de datos
Estadstica
Data Mining
IA
Visualizacin
Aprendizaje
Presentacin de resultados
Representacin del conocimiento
8
Clasificacin de tcnicas
En funcin de su propsito general:
Tcnicas descriptivas
Tcnicas predictivas
Tambin se pueden clasificar atendiendo a
el tipo de datos que hay que analizar
el tipo de conocimiento que se obtiene
el tipo de herramienta que utiliza
el dominio de aplicacin
9
Fuentes de datos
10
Evaluacin de resultados
Un resultado es interesante si
es comprensible (por seres humanos)
es vlido con cierto grado de certeza
es potencialmente til
es novedoso o sirve para validar una
hiptesis
12
Tipo de conocimiento
Conocimiento previo
Medidas de inters
Tcnicas de representacin
Interfaz de usuario
Evaluacin de patrones
Base de
conocimiento
DW
WWW
Temas de investigacin
15
Escalabilidad
Tcnicas incrementales
Algoritmos paralelos
Metodologas de
Minera de Datos
Dr. Vctor H. Escobar Jeria.
vescobar@utem.cl
Metodologas SEMMA y
CRISP
Metodologas SEMMA y
CRISP
Metodologas SEMMA y
CRISP
SEMMA (Sample, Explore, Modify, Model,
Assess), como metodologa para procesos
de Minera de Datos fue propuesta por uno
de los proveedores de herramientas,
llamado SAS (Business Analytics software)
CRISP-DM, (Cross- Industry Standard
Process for Data Mining), fue propuesta por
un consorcio de varias empresas europeas
de herramientas de Minera de Datos como
NCR de Dinamarca, AG de Alemania, SPSS
de Inglaterra y OHRA de Holanda a fines de
1996.
SEMMA
Como se mencion anteriormente, SEMMA
con sus siglas en ingles (Sample, Explore,
Modify, Model, Assess), fue desarrollada por
SAS Institute.
Se define como una herramienta que ayuda
a los usuarios en los procesos de:
Seleccin,
Exploracin
Modelacin
Responder a preguntas o predecir eventos que
pueden pasar
Fases de SEMMA
Fases de SEMMA
Muestreo - Extraccin de una
muestra representativa:
- Se realiza la extraccin de un
conjunto de datos que sean una
buena
representacin
de
la
poblacin a analizar
Fases de SEMMA
Fases de SEMMA
Exploracin - Exploracin de
los datos en la muestra:
- Se hace para detectar,
identificar y eliminar datos
anmalos, ayudando a refinar
los procesos de descubrimiento
Fases de SEMMA
Fases de SEMMA
Modificacin Modificacin de los datos:
- Se realiza creando,
seleccionando y
transformando las
variables en las cuales se va
a enfocar el proceso de
seleccin del modelo.
Fases de SEMMA
Fases de SEMMA
Modelacin - Modelacin
de los datos:
Las
herramientas
de
software se encargan de
realizar
una
bsqueda
completa de combinaciones
de
datos
que
juntos
predecirn de una manera
confiable
los
resultados
buscados.
Fases de SEMMA
Fases de SEMMA
Evaluacin - Evaluacin de los
datos obtenidos:
-Anlisis de los resultados para ver si
estos fueron exitosos de acuerdo a las
entradas que se tuvieron para analizar
el problema.
-Una buena prctica para identificar si
los resultados con el modelo creado
son los esperados, es aplicar este
modelo a una porcin de datos
diferente.
SEMMA
Segn SAS, ms que una metodologa
de procesos de Minera de Datos,
SEMMA se puede identificar como un
conjunto
de
herramientas
funcionales, enfocndose ms en
los aspectos del desarrollo del
modelo de Minera de Datos.
CRISP-DM
CRISP-DM es una metodologa de Minera de Datos
concebida en el ao 1996. Surge de la necesidad de
tres grandes empresas (DaimlerChrysler, SPSS y
NCR).
Entre las ventajas ms tangibles de este estndar se
encuentran que:
Es neutral con respecto al tipo de industria que la aplica.
Es independiente de la plataforma en la que se trabaja.
Est fuertemente relacionado al modelo de procesos de KDD
Es el punto de partida de todo el proceso de Minera de
Datos.
CRISP-DM
Ciclo de vida
del modelo de
procesos
CRISP-DM.
CRISP-DM
Business
Understanding
(Comprensin del Negocio) .
-Esta fase se enfoca en comprender los
objetivos y requerimientos desde la
perspectiva del negocio, en orden de
convertirlos en la definicin de un
problema de Minera de Datos
CRISP-DM
Data Understanding (Comprensin
de los datos).
Recoleccin temprana de los datos.
Identificar problemas de calidad.
Obtener las primeras ideas sobre el
dato o detectar subconjunto de datos
interesantes que permitan formular
hiptesis
acerca
de
informacin
escondida.
CRISP-DM
Data Preparation (Preparacin de los
datos).
Construir el conjunto final de datos que
ser utilizado como entrada para el(los)
modelo(s).
Se realizan tareas de seleccin de tablas,
registros
y
atributos
as
como
transformacin y limpieza de los datos
para las herramientas de modelado.
CRISP-DM
Modeling (Modelamiento)
Se seleccionan y aplican las tcnicas de
modelado y sus parmetros son calibrados
a sus valores ptimos.
Generalmente, existen varias tcnicas para
el mismo problema de Minera de Datos.
Algunas de ellas tienen requerimientos
especficos acerca de la forma del dato. Por
esta razn, volver hacia la fase de
preparacin de datos es frecuentemente
necesario.
CRISP-DM
Evaluation (Evaluacin de negocios).
Se evala la calidad de los modelos
construidos en orden de verificar que con
ellos se logran los objetivos de negocio que
fueron planteados.
Al final de esta fase se toma una decisin
acerca de si se utilizan los resultados
proporcionados por los modelos y se
contina a la fase siguiente.
CRISP-DM
Deployment (Despliegue).
Se debe organizar el conocimiento
obtenido en las fases previas de forma
que pueda ser utilizado y se decide que
acciones deben llevarse a cabo para que
se pueda hacer uso de los modelos
creados.