Está en la página 1de 12

DATA MINING

(MINERIA DE DATOS)
Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

T1: Introduccin al Data Mining Introducci T2: El Proceso de Data Mining

T1: Introduccin al Data Mining


Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

1.1. Qu se entiende por Data Mining? 1.2. Definicin de Data Mining 1.3. Usuarios del Data Mining 1.4. Aplicaciones de Data Mining 1.5. Tecnologa y Herramientas del Data Mining

1.1. Qu se entiende por Data Mining? Qu Mining?


Cuando los analistas empresariales utilizan el data warehouse para determinar lo que estn haciendo sus clientes, una importante pregunta est pasa por su mente, Por qu lo hacen?. Comprender la conducta de los qu clientes o comportamiento empresarial es fundamental para mejorar el balance de la empresa y tener clientes complacientes. El data warehouse proporciona a la gerencia empresarial dos ingredientes esenciales:
a) gran cantidad de datos y la historia de estos en la organizacin. organizaci Por ejemplo: la gran cantidad de datos sobre sus clientes, as como la historia entre el as cliente y la organizacin. organizaci b) carcter nico de los datos de la organizacin - ninguno de los competidores lo car organizaci posee.

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

La organizacin tiene su propia mina de datos, y tiene el potencia de organizaci encontrar la aguja y extraer las pepitas de revelaciones fundamentales en el fundamentales comportamiento. Para esta capacidad, la solucin del DW debe incorporar la soluci minera de datos a su plataforma de soporte a las decisiones (ver figura miner figura siguiente) . La minera de datos es un arma esencial en el arsenal del soporte de miner decisiones del analista.

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

Plataforma de soporte de decisiones

Modalidad
Verificacin Verificaci Descubrimiento

Informtico Inform
(consultas y reportes)

Analtico Anal
(Anlisis Multidimensional (An y OLAP)

Minera Miner de Datos


(Descubrimiento de Patrones y comportamientos)

Enfoque

Los analistas empresariales tienen un rango de necesidades o metas del metas soporte de decisiones (ver figura siguiente).
Necesidades empresariales

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

Accin Acci Por que

Accin, indica sobre que puede hacerse o cuales acciones se puede tomar Por que esta sucediendo

Que

Que esta sucediendo en la organizacin

Necesidades empresariales

La minera de datos se centra en llenar la necesidad de descubrir el por que, miner para luego predecir y pronosticar las posibles acciones con cierto factor de cierto confianza para cada prediccin. predicci
5

1.2. Definicin de Data Mining Definici


Data Mining es un termino que viene de la metfora de usar un computador met para clasificar grandes cantidades de informacin buscando gemas de informaci informacin, tarea simular a como en una mina se buscan piedras preciosas. informaci Las gemas de informacin son significativos e impredecibles patrones o informaci grupos de datos. Mientras los patrones pueden ser anomalas estadsticas que no indiquen anomal estad ninguna relacin causa-efecto, algunas veces ellos conducen a un valioso relaci causaconocimiento de la organizacin. organizaci El Instituto SAS define el concepto de Data Mining como el proceso de seleccionar (selecting), explorar (exploring), modificar (modifying), (selecting), (exploring), (modifying), modelizar (modeling) y valorar (assessment) grandes de datos con el modeling) (assessment) obejtivo de descubir patrones desconocidos que puedan ser utilizados como ventaja comprativa respecto a los competidores.

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

1.3. Usuarios del Data Mining


Los usuarios claves en perspectiva de la minera de datos son los analistas miner empresariales, los peritos en estadstica y los profesionales en tecnologa de estad tecnolog la informacin que auxilian a los usuarios empresariales. informaci Quienes tienen beneficios de los resultados de la minera de datos son los miner gerentes empresariales y los ejecutivos, que desean entender los factores de xito del negocio con base en datos completos del cliente, y utilizar luego utilizar este conocimiento para afinar las estrategias de produccin, precios y producci comercializacin. comercializaci Las funciones del analista empresarial se puede ver en la siguiente figura. siguiente

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

Conducida por el ANALISTA

Auxiliada por el ANALISTA

Conducida por los DATOS

Procesamiento informtico inform - Consultas - Reportes

Procesamiento analtico anal - OLAP MD SGBD - OLAP relacional

Anlisis An estadstico y estad de datos

Descubrimiento de conocimiento 7

1.4. Aplicaciones de Data Mining


En las aplicaciones empresariales, a la fecha, la tecnologa de minera de tecnolog miner datos se ha utilizado principalmente en aplicaciones de comercializacin, comercializaci ventas, mercadotecnia (comportamiento del cliente) y anlisis de crdito an cr Hoy en da, una influencia de tres fuerzas importantes conduce el d crecimiento en la minera de datos: miner - tecnologa de DW para proporcionar un banco de datos bien organizado e tecnolog histrico. hist - Hardware en paralelo, productos de BD. - Tecnologa y herramientas de minera de datos cada vez mas Tecnolog miner desarrolladas.

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

1.5. Tecnologa y herramientas del Data Mining Tecnolog


Estas herramientas y tecnologas de minera de datos se clasifican en tres tecnolog miner grandes categoras: categor Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez . Anlisis estadstico o de datos. An estad . Descubrimiento del conocimiento . Otros como sistemas de visualizacin, sistemas de informacin visualizaci informaci geogrfica, anlisis fractal (ciencia del caos-uso fractal: objeto geogr an caosfractal: geomtrico diferentes escalas). geom

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

T2: El Proceso de Data Mining


2.1. Qu se entiende por el Proceso de Data Mining? 2.2. Seleccin de Objetivos 2.3. Preparacin de Datos 2.4. Construccin del Modelo 2.5. Anlisis de los Resultados

10

2.1. Qu se entiende por el Proceso de Data Mining? Qu Mining?


La siguiente figura ilustra la idea de que el descubrimiento de conocimiento en base de datos es un proceso, es decir, que es un conjunto de tareas o fases. Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
Valoracin

Problema
Modificacin Objetivos

Modelizacin CONOCIMIENTO Modelos Exploracin Datos procesados

Datos transformados

Seleccin DATOS

Datos objetivo

11

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

El proceso de Data Mining, segn el grafico, es el proceso de aplicar a una Mining, seg determinada base de datos las operaciones requeridas de seleccin, selecci exploracin, muestre, transformacin y mtodos de modelado para extraer exploraci transformaci m los patrones y posteriormente evaluarlos para identificar el conjunto de ellos conjunto que representaran el conocimiento. El proceso de KDD (Knowledge Discovery in Databases) es un proceso (Knowledge Databases) iterativo porque incluye numerosos pasos en los que el usuario tiene que tiene tomar decisiones. Es iterativo porque puede ser necesario acceder desde acceder una fase a cualquiera de las anteriores, e interactivo porque el proceso es supervisado por el usuario de forma directa. El proceso consta de cuatro fases:
1. Seleccin de Objetivos Selecci 2. Preparacin de Datos Preparaci 3. Construccin del Modelo Construcci 4. Anlisis de los Resultados An

12

2.2. Seleccin de Objetivos Selecci


Estudiar el problema y decidir cual es la meta del proyecto. En primer lugar, valorar como se resuelve en el momento presente el problema que queremos tratar. Debemos as estudiar los antecedentes as acerca de cmo se ha resuelto el problema por otras organizaciones y c sealar las ventajas y carencias que presenta el procedimiento que se aplica se actualmente. A continuacin deben platearse los objetivos que queremos alcanzar con el continuaci proceso del Data Mining. Estas metas deben ser: Mining.
. Cuantificables. . Realistas. El grado de cumplimiento debe ser razonado y justificado. justificado. . Relevantes. . En el caso de existir una mltiples objetivos, realizar una lista de prioridades. m . Definicin de forma descriptiva clara y sin ambigedades de los objetivos. Definici ambig

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

Una vez definidos los objetivos , debemos elaborar un plan de ejecucin que ejecuci especifique:
. La duracin temporal. duraci . Un presupuesto. . Un anlisis de los costo monetarios y de oportunidades as como expectativas de beneficios. an as . La descripcin de las lneas de actuacin que se van a seguir para alcanzar los objetivos. Elaboracin de un descripci l actuaci Elaboraci cronograma. . Identificar los posibles factores externos claves para la organizacin pero fuera de su control que podran organizaci podr 13 afectar significativamente al logro de las metas establecidas.

Si se hace bien el planteamiento del problema, se descubre fcilmente las f fuentes de datos y los algoritmos de Data Mining que se aplicaran. Recordemos que esta fase es clave en el xito del proceso de Data Mining. A Mining. menudo investigadores y analistas inexpertos tienden a pensar que son los que datos los que determinan el origen de un proceso de Data Mining. Este error Mining. suele terminar con resultados improductivos y por tanto un desperdicio de desperdicio tiempo y los recursos empleados.

14

2.3. La Preparacin de los Datos Preparaci


Esta fase es la que mayor esfuerzo requiere. Esta fase consta de tres subfases o pasos: Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
a) Seleccin de los datos Selecci b) Exploracin (o preproceso) de los datos Exploraci c) Modificacin (o transformacin) de los datos Modificaci transformaci

a) Seleccin de los Datos Selecci La meta de esta subfase es la identificacin de las fuentes de datos identificaci disponibles y la extraccin de los datos necesarios para un anlisis extracci an preliminar, de manera que al final de la fase se tengan los datos que se datos preparan para ser sometidos a las herramientas de Data Mining. Mining. Es obvio que la seleccin de los datos depende del tipo de problema a selecci resolver y de la meta perseguida. Suponiendo que se tiene reunidos los datos. La primera tarea es comprobar la cantidad y calidad de los mismos. Para construir modelos robustos es necesaria una buena cantidad de datos. Pero tener esta gran cantidad de datos no es suficiente, se tendr tendr que estudiar cada campo, los tipos de datos, los valores mximo y m mnimo de cara a tener grandes cantidades de datos con la mxima m calidad.

15

Dado que el conjunto de datos que se seleccione estar compuesto por estar una serie de registros que vendrn descritos por medio de una serie de vendr variables, ser necesario analizar los meta datos asociados con las ser variables para entender lo que cada uno significa . (ver figura) Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
Tabla: Empleados

Identificador I1 I2 I3

Sueldo 1200 1400 3500

Edad 45 31 56

Tipo de Trabajador O A D

Sexo F F M

Los meta datos son: - Sueldo: sueldo mensual del trabajador en el ao 2005. a Variable Numrica (1000 10000 soles) Num - Edad: edad del trabajador. Variable Numrica (entre 18 y 65 aos) Num a - Tipo de Trabajador: funcion que realiza en la empresa. Variable nominal ordinal (O = operario; A = administrativo; D = directivo) - Sexo: variable binaria (F = femenino; M = masculino)

16

El tipo de algoritmo no so depende del tipo de problema a resolver sino resolver del tipo de variables que se utilicen para describir los datos. Estos tipos generalmente se dividen en: . Cuantitativas. Se subdividen en: Cuantitativas. Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
- Discretas (numero d empleados, numero de ordenadores, ) - Continuas (sueldo, metros cuadrados, beneficios, )

. Cualitativas. Se puede distinguir:


- Nominales. Nombrar el objeto al que se refiere sin poder Nominales. establecer un orden (estado civil, genero, raza, idiomas que civil, domina, ) - Ordinales. Se puede establecer un orden en sus valores (alto, Ordinales. medio, bajo)

Cuando se seleccionan los datos, otra consideracin importante es el consideraci tiempo de vida de la variable, esto es, establecer el periodo de tiempo a partir del cual la variable habr perdido su semntica o habr dejado de habr sem habr ser significativa.

17

b) Exploracin (o preproceso) de los Datos Exploraci El objetivo de esta subfase es asegurar la calidad de los datos que se han seleccionado. Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez Como se ha comentado, el que los datos estn limpios y libres de est inconsistencias es el prerrequisito para un proyecto de Data Mining tenga xito. Cuando mas y mejor se conozcan los datos ser mas fcil saber donde ser f buscar en la fase de modelado. La inconsistencia, los valores nulos, los valores extremos y el ruido son propiedades de todas las bases de datos e incluso data warehuoses. warehuoses.
Los datos incompletos se ocasionan por distintas razones, pro ejemplo, ejemplo, los atributos de inters no estn siempre disponibles o la informacin que se tiene inter est informaci es errnea. err Otros datos no se tienen almacenados porque en el momento de introducir introducir los datos se pensaba que no eran de inters. inter En cuanto al ruido, es un error aleatorio o varianza en una variable que a variable menudo es un simple problema en los instrumentos y personal de recopilacin de recopilaci los datos o mal nombrado y asignacin de cdigos. Estas variable afectadas por el asignaci c ruido tendrn valores que caen fuera de los valores esperados para aquellas tendr variables. A estas que estn fuera de los rangos se les llama outliers, y sirven est outliers, para seguir buscando o simplemente ser datos incorrectos.
18

Lograr datos de calidad requiere de tres proceso bsicos: b . Limpieza . Integracin y Integraci . Transformacin Transformaci Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez La Limpieza, son rutinas que van ayudar a rellenar los valores nulos, nulos, identificando outliers y resolviendo las inconsistencias.
LIMPIEZA

La integracin es una rutina que integra (elimina redundancias e integraci inconsistencias) los datos de diferentes fuentes de datos

INTEGRACION

19

c) Transformacin de los Datos Transformaci Una vez que los datos estn listos para el anlisis, nos vamos a est an encontrar con que tenemos que el algoritmo que bamos a aplicar requiere entrada categrica de datos y que nuestras variables dadas categ como numricas, lo que nos llevara a transformar los datos antes de num proceder.

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

Sueldo 1000
TRANSFORMACION

Sueldo Bajo Medio Alto

2000 3000

20

2.4. Construccin del Modelo Construcci


La fase de modelado es la fase central del proceso de descubrimiento en la descubrimiento que se aplican los algoritmos de bsqueda del conocimiento a los datos b previamente preparados. Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez Este paso es inseparable del siguiente en la cadena del anlisis de resultados an (o valoracin = assessment). De hecho a menudo el anlisis de los valoraci assessment). an resultados obtenidos provoca que se retroceda de nuevo a la fase de preparacin de los datos de cara a obtencin de mas datos o mas atributos. preparaci obtenci Para que el proceso sea correcto es fundamental que el analista disponga del conjunto de datos preparados, los correspondientes metadatos y toda la informacin que de los datos se haya previamente extrado en las fases informaci extra anteriores. La definicin del modelo a aplicar depende del problema a resolver (meta definici buscada) y del tipo de datos con los que estamos tratando en cada cada momento.

Existen muchos problemas de Data Mining como los siguientes: . Predecir el nivel de morosidad de un cliente. . Saber quienes son mis cliente. . Encontrar el perfil de un comprador del producto A. . Encontrar los sntomas de enfermedades que mas a menudo apareces juntas. s . Encontrar alumnos en escuelas con alto riesgo de fracaso escolar. escolar. . Predecir si un paciente respondera adecuadamente a un tratamiento, etc

21

Segn los problemas, estos lo podemos clasificar en: Seg


. Problemas descriptivos . Problemas predictivos

Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez

Ejemplos de estos son: - conocer cuales son los clientes de una organizacin (caractersticas de los mismos), organizaci (caracter - encontrar los productos que frecuentemente se compran juntos o - sintomas de enfermedades que se presentan juntas.

Los problemas descriptivos son aquellos cuya meta es simplemente encontrar una descripcin de los datos de estudio. descripci

Los problemas descriptivos se pueden subdividir en:


. Anlisis de Segmentacin: An Segmentaci Encontrar grupos homogneos en la poblacin de objetos origen. homog poblaci . Anlisis de Asociaciones: An Se persigue obtener relaciones entre los valores de atributos de una BD. El ejemplo tpico es el de analizar la canasta de compras del cliente t

22

Los problemas predictivos (o aprendizaje supervisado en entornos de inteligencia artificial) son aquellos cuya meta es obtener un modelo que en modelo un futuro pueda ser aplicado para predecir comportamientos. Los problemas predictivos se pueden subdividir en: Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez
. Problemas de clasificacin: clasificaci Cuando la variable a predecir tiene un numero finito de valores. . Problemas de prediccin de valores: predicci Cuando la variable a predecir es numrica. num Ejm: la probabilidad de que un cliente que hace un prstamo lo devuelva. Ejm: pr devuelva.

Dependiendo del tipo de problema as ser la tcnicas que se utilizara para as ser t solucionarlo.

23

2.5. Anlisis de Resultados An


En esta fase es cuando se interpretan y evalan los resultados obtenidos en eval la fase anterior. Gonz Christian Araujo Gonz lez Christian Araujo Gonz lez Se suele utilizar tcnicas de visualizacin (graficas de lnea o logartmicas) t visualizaci l logar para ver los resultados obtenidos. Una vez presentados los resultados, el usuario debe interpretarlos, y si no interpretarlos, responden a sus expectativas, debe volver a aplicar los algoritmos con otros algoritmos paramentos, e incluso ejecutar otros algoritmos para tratar de obtener obtener resultados mas deseables. Todo esto hace que el proceso de Data Mining sea iterativo. En esta fase tambin se debe determinar como usar los resultados tambi obtenidos. Los resultados se pueden integrar en un sistema experto o como experto procedimientos almacenado en un gestor de base de datos.

Lectura complementaria: Tema: Tecnologas y herramientas de minera de datos

24

También podría gustarte