Está en la página 1de 39

Universidad Autnoma de Tlaxcala

Facultad de Ciencias Bsicas, Ingeniera y Tecnologa

Capitulo I Introduccin Integrantes:


Julio Csar Moreno Guilln Jernimo Prez Morales Sarai Garca Snchez Ral Mexicano Hernndez Efrain Romero Vzquez

QU MOTIV A LA MINERA DE DATOS? POR QU ES IMPORTANTE?

o La minera de datos ha atrado una gran atencin en la industria de la informacin en la sociedad como un todo en los ltimos aos.

o Debido a la amplia disponibilidad de grandes cantidades de datos y la inminente necesidad de convertir estos datos en informacin y conocimiento til.

QU ES LA MINERA DE DATOS?

o En pocas palabras, la minera de datos se refiere a la extraccin de conocimiento grandes cantidades de los datos.

SECUENCUENCIA DE LA BASE DE CONOCIMIENTO


1. Limpieza de datos (para eliminar el ruido y datos inconsistentes) 2. La integracin de datos (donde mltiples fuentes de datos se pueden combinar) 3. Seleccin de datos (donde los datos pertinentes a la tarea de anlisis de bases de datos se recuperan) 4. Transformacin de datos (donde los datos se transforman o consolidan en formas apropiadas para la minera mediante la realizacin de operaciones de resumen o agregacin) 5. La minera de datos (un proceso esencial cuando se aplican mtodos inteligentes con el fin de extraer patrones de datos) 6. Evaluacin del patrn (para identificar los patrones realmente interesantes que representan el conocimiento sobre la base de algunas medidas. 7. Presentacin Conocimiento (donde las tcnicas de representacin de visualizacin y el conocimiento se utilizan para presentar el conocimiento extrado para el usuario)

SISTEMA DE MINERIA DE DATOS TIPICO

SISTEMA DE MINERIA DE DATOS TIPICO

o Base de datos, almacenamiento de datos, Word Wide Web, u otra informacin del repositorio: Este es una o un conjunto de bases de datos, almacenes de datos, hojas de clculo u otro tipo de informacin repositorios. Tcnicas de integracin de datos y de limpieza de datos se pueden realizaren los datos.

SISTEMA DE MINERIA DE DATOS TIPICO

o Base de datos o servidor de almacenamiento de datos: El servidor de base de datos o almacn de datos, es el responsable para ir a buscar los datos pertinentes, con base en solicitud de minera de datos del usuario.

SISTEMA DE MINERIA DE DATOS TIPICO

o Base de conocimientos: es el conocimiento del dominio que se utiliza para guiar la bsqueda o evaluar el grado de inters de los patrones resultantes.

SISTEMA DE MINERIA DE DATOS TIPICO

o Motor de minera de datos: Esto es esencial para el sistema de minera de datos y lo ideal consiste en un conjunto de mdulos funcionales para tareas tales como la caracterizacin, la asociacin y la correlacin anlisis, clasificacin, prediccin, anlisis de conglomerados, anlisis de valores atpicos y evolucin anlisis.

SISTEMA DE MINERIA DE DATOS TIPICO

o Mdulo de evaluacin de Patrn: Este componente suele emplear medidas inters e interacta con los mdulos de minera de datos con el fin de centrar la buscar hacia patrones interesantes.

SISTEMA DE MINERIA DE DATOS TIPICO

o Interfaz de usuario: Este mdulo se comunica entre los usuarios y el sistema de extraccin de datos, lo que permite al usuario interactuar con el sistema mediante la especificacin de una consulta de minera de datos o tarea, proporcionando informacin para ayudar a centrar la bsqueda, y la realizacin de los datos exploratorios minera basada en los resultados de la minera de datos intermedios.

BASE DE DATOS RELACIONAL

ALMACN DE DATOS

BASES DE DATOS TRANSACCIONALES

o Es un sistema de informacin diseado para recolectar, almacenar, modificar, y recuperar todo tipo de informacin que es generada por las transacciones en una organizacin.

o Debe ser capaz de controlar y administrar mltiples transacciones, determinando prioridades entre esta.

DATOS AVANZADOS Y SISTEMAS DE INFORMACIN Y APLICACIONES AVANZADAS

o Sistemas de bases de datos relacionales han sido ampliamente utilizados en aplicaciones comerciales. Con el progreso de la tecnologa de base de datos, varios tipos de datos avanzados y sistemas de informacin han surgido y estn experimentando el desarrollo para hacer frente a los requisitos de la nueva aplicaciones.

BASES DE DATOS OBJETO-RELACIONALES

o Conceptualmente, el modelo de datos objeto-relacional hereda los conceptos esenciales de las bases de datos orientadas a objetos, que, en trminos generales, cada entidad se considera como un objeto.

BASES DE DATOS DE TEXTO Y BASES DE DATOS MULTIMEDIA

o Bases de datos de texto son bases de datos que contienen descripciones de texto para los objetos. Estas palabras descripciones no suelen ser palabras sencillas, sino frases ms largas o prrafos, tales como especificaciones de producto, errores o informes de error, mensajes de advertencia, informes resumidos, notas u otros documentos.

SECUENCIA DE DATOS

o Muchas aplicaciones implican la generacin y el anlisis de un nuevo tipo de datos, llamados corriente datos, donde los datos fluyen dentro y fuera de una plataforma de observacin (o ventana) de forma dinmica.

World Wide Web


1. Minera del contenido de la Web.

2. Minera de la estructura de la Web.

3. Minera de los registros de navegacin en la Web.

FUNCIONALIDADES DE MINERA DE DATOS Qu tipo de patrones pueden ser extrados?


o Funcionalidades de minera de datos se utilizan para especificar el tipo de patrones que se encuentran en tareas de minera de datos. o Descriptivos: Las tareas de minera descriptiva caracterizan las propiedades generales de los datos en la base de datos o Predictivos: Las tareas de minera predictivos realizar inferencias sobre los datos actuales con el fin de hacer predicciones

FUNCIONALIDADES DE MINERA DE DATOS Y LOS TIPOS DE PATRONES SON:

1. Concepto / descripcin de la clase


2. Asociacin anlisis 3.Clasificacin y prediccin

4. La agrupacin de anlisis
5. Evolucin y anlisis de desviacin

CARACTERIZACIN Y DISCRIMINACIN

Tales descripciones de una clase o un concepto se llama concepto/ descripciones de clase.

Estas descripciones se pueden derivar a travs :

1.

La caracterizacin de datos, Caracterizacin de datos es un resumen de las caractersticas generales o caractersticas de una clase de destino de los datos. La discriminacin de datos, mediante la comparacin de la meta clase con una o un conjunto de las clases contrastantes.

2.

EJEMPLO:
Para estudiar las caractersticas de los productos de software cuyas ventas aumentaron un 10% en el ltimo ao, Hay varios mtodos para el resumen y los datos de caracterizacin eficaz. La salida de los datos de caracterizacin se puede presentar en diversas formas:

Ejemplos:
o Incluir grficos circulares. o Grficos de barras. o Curvas. o Cubos de datos multidimensionales . o Tablas multidimensionales, incluyendo tablas de referencias cruzadas.

CARACTERIZACIN DE DATOS.

Ejemplo:
o Resumen de las caractersticas de los clientes que gastan ms de $ 1,000 al ao en Todos los electrodomsticos.

El resultado podra ser un perfil general de los clientes, tales como son 40 a 50 aos de edad, empleado, y tienen excelentes calificaciones crediticias. El sistema debe permitir a los usuarios profundizar en cualquier dimensin, como en la ocupacin con el fin de ver estos clientes de acuerdo a su tipo de empleo.

DATOS DISCRIMINACIN
Es una comparacin de las caractersticas generales de los objetos de datos de clase de destino con las caractersticas generales de los objetos de un conjunto de clases contrastantes.

Ejemplo:

El usuario desea comparar las caractersticas generales de los productos de software cuyas ventas aumentaron un 10% en el ltimo ao con los cuyas ventas disminuyeron en un 30% durante el mismo perodo.

CMO ES LA DISCRIMINACIN DE SALIDA DESCRIPCIONES?


Un sistema de minera de datos debe ser capaz de comparar los dos grupos de todos los clientes electrnicos:

La descripcin resultante proporciona un perfil general de comparativa:

los clientes, como el 80% de los clientes que a menudo compran productos informticos tienen entre 20 y 40 aos de edad y tener una educacin universitaria, mientras que el 60% de los clientes que compran con frecuencia este tipo de productos son o bien personas mayores o jvenes, y no tienen ttulo universitario.

QU TIPO DE PATRONES SE PUEDE EXTRAER?


Patrones de Minera frecuentes, asociaciones y correlaciones.

Son patrones que se producen con frecuencia en los datos.

Un conjunto de elementos frecuentes tpicamente se refiere a un conjunto de elementos que con frecuencia aparecen juntos en un conjunto de datos transaccionales, tales como la leche y el pan.

Una subsecuencia se producen con frecuencia, tales como el patrn de que los clientes tienden a comprar primero un PC, seguido de una cmara digital, y a continuacin, una tarjeta de memoria, es un (frecuente) patrn secuencial.

EJEMPLO:
Como gerente de marketing de todos los electrnicos, usted desea determinar qu elementos se compran con frecuencia juntos en las mismas transacciones. Un ejemplo de una norma de este tipo, que se extrae de la base de datos transaccional de todos los electrnicos:

compras (X, "equipo")) compra (X, "software") [ayuda = 1%, la confianza = 50%] Donde X es una variable que representa un cliente. Una confianza o certeza del 50% Un soporte 1%

CLASIFICACIN Y PREDICCIN
La clasificacin es el proceso de encontrar un modelo, que describe y distingue las clases de datos o conceptos, con el fin de ser capaz de utilizar el modelo para predecir la clase de objetos cuya clase de etiqueta es desconocida.

Cmo se presenta el modelo derivado?

El modelo derivado puede ser representado en diversas formas, tales como:

reglas, rboles de decisin, frmulas matemticas, redes neuronales.

EL ANLISIS DE CONGLOMERADOS.
El anlisis de conglomerados se pueden realizar en los datos del cliente en todos los electrnicos Para identificar las subpoblaciones homogneas de los clientes. Estos grupos pueden representar grupos individuales de marketing.

ANLISIS DE VALORES ATPICOS

Los valores atpicos se pueden detectar usando pruebas estadsticas que asumen una distribucin o modelo de probabilidad para los datos

Anlisis: Puede descubrir el uso fraudulento de tarjetas de crdito mediante la deteccin de las compras de cantidades muy grandes de un nmero de cuenta indicado en comparacin con cargos regulares efectuados por la misma cuenta.

ANLISIS DE LA EVOLUCIN DE DATOS


Ejemplo: Supongamos que usted tiene el principal mercado de valores de datos de los ltimos aos disponibles en la Bolsa de Nueva York y que le gustara invertir en acciones de empresas industriales de alta tecnologa.

Un estudio de la minera de datos de capital pueden identificar acciones de irregularidades, evolucin de las poblaciones en general y para las acciones de empresas particulares. Estas regularidades pueden ayudar a predecir las tendencias futuras en capital los precios del mercado.

PATRONES (Medidas y objetivos de inters patrn)

Estos se basan en la estructura de los patrones descubiertos y las estadsticas subyacentes. Una medida objetiva de reglas de asociacin de la forma X y Y apoyo regla, lo que representa el porcentaje de transacciones de una base de transaccin que satisface las reglas dadas. Esto se toma como la probabilidad de P (X [Y), where X [Y indicates que una transaccin contiene both X andY,

CONFIANZA

Otra medida objetiva de reglas de asociacin es la confianza, que evala el grado de certeza de la asociacin detectada. Es tomado para ser la probabilidad P condicional (YJX)

Ms formalmente, el apoyo y la confianza se definen como apoyo (X) Y) = P (X [Y): confianza (X) Y) = P (YJX):

MEDIDAS INTERESANTES DE PATRON


son esenciales para el descubrimiento eficiente de los patrones de valor para el usuario dado. Estas medidas pueden ser utilizados despus de la etapa de minera de datos con el fin de clasificar los patrones detectados en funcin de su inters, filtrando las uniones interesantes. Tales medidas se pueden usar para guiar y limitar el proceso de descubrimiento, la mejora de la eficiencia de la bsqueda por la poda de distancia subconjuntos del patrn

MINERIA DE DATOS

o La minera de datos es un campo interdisciplinario, la confluencia de un conjunto de disciplinas, sistemas de bases de datos incluyendo, estadstica, aprendizaje automtico, visualizacin, y ciencias de la informacin.

CLASIFICACION DE LAS MINAS DE DATOS

Representacin del conocimiento, la programacin lgica inductiva o computacin de alto rendimiento. En funcin de los tipos de datos que se minadas o en la aplicacin de minera de datos.

El sistema de minera de datos tambin puede integrar las tcnicas de anlisis espacial de datos, informacin de recuperacin, reconocimiento de patrones, anlisis de imgenes, procesamiento de seales, computacin grfica.

La minera de datos como una confluencia de

TIPOS DE DISCIPLINAS

SISTEMAS DE MINERA DE DATOS

Escribir sistemas de minera de datos puede ser clasificados de acuerdo al tipo de conocimiento que la mina, es decir, sobre la base de datos: funcionalidades de minera, como la caracterizacin, la discriminacin, la asociacin y el anlisis de correlacin, clasificacin, prediccin, clustering, anlisis de valores atpicos y evolucin.

También podría gustarte