Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BI - Data Mining
BI - Data Mining
(MINERIA DE DATOS)
Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
1.1. Qu se entiende por Data Mining? 1.2. Definicin de Data Mining 1.3. Usuarios del Data Mining 1.4. Aplicaciones de Data Mining 1.5. Tecnologa y Herramientas del Data Mining
La organizacin tiene su propia mina de datos, y tiene el potencia de organizaci encontrar la aguja y extraer las pepitas de revelaciones fundamentales en el fundamentales comportamiento. Para esta capacidad, la solucin del DW debe incorporar la soluci minera de datos a su plataforma de soporte a las decisiones (ver figura miner figura siguiente) . La minera de datos es un arma esencial en el arsenal del soporte de miner decisiones del analista.
Modalidad
Verificacin Verificaci Descubrimiento
Informtico Inform
(consultas y reportes)
Analtico Anal
(Anlisis Multidimensional (An y OLAP)
Enfoque
Los analistas empresariales tienen un rango de necesidades o metas del metas soporte de decisiones (ver figura siguiente).
Necesidades empresariales
Accin, indica sobre que puede hacerse o cuales acciones se puede tomar Por que esta sucediendo
Que
Necesidades empresariales
La minera de datos se centra en llenar la necesidad de descubrir el por que, miner para luego predecir y pronosticar las posibles acciones con cierto factor de cierto confianza para cada prediccin. predicci
5
Descubrimiento de conocimiento 7
10
Problema
Modificacin Objetivos
Datos transformados
Seleccin DATOS
Datos objetivo
11
El proceso de Data Mining, segn el grafico, es el proceso de aplicar a una Mining, seg determinada base de datos las operaciones requeridas de seleccin, selecci exploracin, muestre, transformacin y mtodos de modelado para extraer exploraci transformaci m los patrones y posteriormente evaluarlos para identificar el conjunto de ellos conjunto que representaran el conocimiento. El proceso de KDD (Knowledge Discovery in Databases) es un proceso (Knowledge Databases) iterativo porque incluye numerosos pasos en los que el usuario tiene que tiene tomar decisiones. Es iterativo porque puede ser necesario acceder desde acceder una fase a cualquiera de las anteriores, e interactivo porque el proceso es supervisado por el usuario de forma directa. El proceso consta de cuatro fases:
1. Seleccin de Objetivos Selecci 2. Preparacin de Datos Preparaci 3. Construccin del Modelo Construcci 4. Anlisis de los Resultados An
12
Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
Una vez definidos los objetivos , debemos elaborar un plan de ejecucin que ejecuci especifique:
. La duracin temporal. duraci . Un presupuesto. . Un anlisis de los costo monetarios y de oportunidades as como expectativas de beneficios. an as . La descripcin de las lneas de actuacin que se van a seguir para alcanzar los objetivos. Elaboracin de un descripci l actuaci Elaboraci cronograma. . Identificar los posibles factores externos claves para la organizacin pero fuera de su control que podran organizaci podr 13 afectar significativamente al logro de las metas establecidas.
Si se hace bien el planteamiento del problema, se descubre fcilmente las f fuentes de datos y los algoritmos de Data Mining que se aplicaran. Recordemos que esta fase es clave en el xito del proceso de Data Mining. A Mining. menudo investigadores y analistas inexpertos tienden a pensar que son los que datos los que determinan el origen de un proceso de Data Mining. Este error Mining. suele terminar con resultados improductivos y por tanto un desperdicio de desperdicio tiempo y los recursos empleados.
14
a) Seleccin de los Datos Selecci La meta de esta subfase es la identificacin de las fuentes de datos identificaci disponibles y la extraccin de los datos necesarios para un anlisis extracci an preliminar, de manera que al final de la fase se tengan los datos que se datos preparan para ser sometidos a las herramientas de Data Mining. Mining. Es obvio que la seleccin de los datos depende del tipo de problema a selecci resolver y de la meta perseguida. Suponiendo que se tiene reunidos los datos. La primera tarea es comprobar la cantidad y calidad de los mismos. Para construir modelos robustos es necesaria una buena cantidad de datos. Pero tener esta gran cantidad de datos no es suficiente, se tendr tendr que estudiar cada campo, los tipos de datos, los valores mximo y m mnimo de cara a tener grandes cantidades de datos con la mxima m calidad.
15
Dado que el conjunto de datos que se seleccione estar compuesto por estar una serie de registros que vendrn descritos por medio de una serie de vendr variables, ser necesario analizar los meta datos asociados con las ser variables para entender lo que cada uno significa . (ver figura) Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
Tabla: Empleados
Identificador I1 I2 I3
Edad 45 31 56
Tipo de Trabajador O A D
Sexo F F M
Los meta datos son: - Sueldo: sueldo mensual del trabajador en el ao 2005. a Variable Numrica (1000 10000 soles) Num - Edad: edad del trabajador. Variable Numrica (entre 18 y 65 aos) Num a - Tipo de Trabajador: funcion que realiza en la empresa. Variable nominal ordinal (O = operario; A = administrativo; D = directivo) - Sexo: variable binaria (F = femenino; M = masculino)
16
El tipo de algoritmo no so depende del tipo de problema a resolver sino resolver del tipo de variables que se utilicen para describir los datos. Estos tipos generalmente se dividen en: . Cuantitativas. Se subdividen en: Cuantitativas. Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
- Discretas (numero d empleados, numero de ordenadores, ) - Continuas (sueldo, metros cuadrados, beneficios, )
Cuando se seleccionan los datos, otra consideracin importante es el consideraci tiempo de vida de la variable, esto es, establecer el periodo de tiempo a partir del cual la variable habr perdido su semntica o habr dejado de habr sem habr ser significativa.
17
b) Exploracin (o preproceso) de los Datos Exploraci El objetivo de esta subfase es asegurar la calidad de los datos que se han seleccionado. Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez Como se ha comentado, el que los datos estn limpios y libres de est inconsistencias es el prerrequisito para un proyecto de Data Mining tenga xito. Cuando mas y mejor se conozcan los datos ser mas fcil saber donde ser f buscar en la fase de modelado. La inconsistencia, los valores nulos, los valores extremos y el ruido son propiedades de todas las bases de datos e incluso data warehuoses. warehuoses.
Los datos incompletos se ocasionan por distintas razones, pro ejemplo, ejemplo, los atributos de inters no estn siempre disponibles o la informacin que se tiene inter est informaci es errnea. err Otros datos no se tienen almacenados porque en el momento de introducir introducir los datos se pensaba que no eran de inters. inter En cuanto al ruido, es un error aleatorio o varianza en una variable que a variable menudo es un simple problema en los instrumentos y personal de recopilacin de recopilaci los datos o mal nombrado y asignacin de cdigos. Estas variable afectadas por el asignaci c ruido tendrn valores que caen fuera de los valores esperados para aquellas tendr variables. A estas que estn fuera de los rangos se les llama outliers, y sirven est outliers, para seguir buscando o simplemente ser datos incorrectos.
18
Lograr datos de calidad requiere de tres proceso bsicos: b . Limpieza . Integracin y Integraci . Transformacin Transformaci Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez La Limpieza, son rutinas que van ayudar a rellenar los valores nulos, nulos, identificando outliers y resolviendo las inconsistencias.
LIMPIEZA
La integracin es una rutina que integra (elimina redundancias e integraci inconsistencias) los datos de diferentes fuentes de datos
INTEGRACION
19
c) Transformacin de los Datos Transformaci Una vez que los datos estn listos para el anlisis, nos vamos a est an encontrar con que tenemos que el algoritmo que bamos a aplicar requiere entrada categrica de datos y que nuestras variables dadas categ como numricas, lo que nos llevara a transformar los datos antes de num proceder.
Sueldo 1000
TRANSFORMACION
2000 3000
20
Existen muchos problemas de Data Mining como los siguientes: . Predecir el nivel de morosidad de un cliente. . Saber quienes son mis cliente. . Encontrar el perfil de un comprador del producto A. . Encontrar los sntomas de enfermedades que mas a menudo apareces juntas. s . Encontrar alumnos en escuelas con alto riesgo de fracaso escolar. escolar. . Predecir si un paciente respondera adecuadamente a un tratamiento, etc
21
Ejemplos de estos son: - conocer cuales son los clientes de una organizacin (caractersticas de los mismos), organizaci (caracter - encontrar los productos que frecuentemente se compran juntos o - sintomas de enfermedades que se presentan juntas.
Los problemas descriptivos son aquellos cuya meta es simplemente encontrar una descripcin de los datos de estudio. descripci
22
Los problemas predictivos (o aprendizaje supervisado en entornos de inteligencia artificial) son aquellos cuya meta es obtener un modelo que en modelo un futuro pueda ser aplicado para predecir comportamientos. Los problemas predictivos se pueden subdividir en: Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
. Problemas de clasificacin: clasificaci Cuando la variable a predecir tiene un numero finito de valores. . Problemas de prediccin de valores: predicci Cuando la variable a predecir es numrica. num Ejm: la probabilidad de que un cliente que hace un prstamo lo devuelva. Ejm: pr devuelva.
Dependiendo del tipo de problema as ser la tcnicas que se utilizara para as ser t solucionarlo.
23
24