Documentos de Académico
Documentos de Profesional
Documentos de Cultura
o La minera de datos ha atrado una gran atencin en la industria de la informacin en la sociedad como un todo en los ltimos aos.
o Debido a la amplia disponibilidad de grandes cantidades de datos y la inminente necesidad de convertir estos datos en informacin y conocimiento til.
QU ES LA MINERA DE DATOS?
o En pocas palabras, la minera de datos se refiere a la extraccin de conocimiento grandes cantidades de los datos.
o Base de datos, almacenamiento de datos, Word Wide Web, u otra informacin del repositorio: Este es una o un conjunto de bases de datos, almacenes de datos, hojas de clculo u otro tipo de informacin repositorios. Tcnicas de integracin de datos y de limpieza de datos se pueden realizaren los datos.
o Base de datos o servidor de almacenamiento de datos: El servidor de base de datos o almacn de datos, es el responsable para ir a buscar los datos pertinentes, con base en solicitud de minera de datos del usuario.
o Base de conocimientos: es el conocimiento del dominio que se utiliza para guiar la bsqueda o evaluar el grado de inters de los patrones resultantes.
o Motor de minera de datos: Esto es esencial para el sistema de minera de datos y lo ideal consiste en un conjunto de mdulos funcionales para tareas tales como la caracterizacin, la asociacin y la correlacin anlisis, clasificacin, prediccin, anlisis de conglomerados, anlisis de valores atpicos y evolucin anlisis.
o Mdulo de evaluacin de Patrn: Este componente suele emplear medidas inters e interacta con los mdulos de minera de datos con el fin de centrar la buscar hacia patrones interesantes.
o Interfaz de usuario: Este mdulo se comunica entre los usuarios y el sistema de extraccin de datos, lo que permite al usuario interactuar con el sistema mediante la especificacin de una consulta de minera de datos o tarea, proporcionando informacin para ayudar a centrar la bsqueda, y la realizacin de los datos exploratorios minera basada en los resultados de la minera de datos intermedios.
ALMACN DE DATOS
o Es un sistema de informacin diseado para recolectar, almacenar, modificar, y recuperar todo tipo de informacin que es generada por las transacciones en una organizacin.
o Debe ser capaz de controlar y administrar mltiples transacciones, determinando prioridades entre esta.
o Sistemas de bases de datos relacionales han sido ampliamente utilizados en aplicaciones comerciales. Con el progreso de la tecnologa de base de datos, varios tipos de datos avanzados y sistemas de informacin han surgido y estn experimentando el desarrollo para hacer frente a los requisitos de la nueva aplicaciones.
o Conceptualmente, el modelo de datos objeto-relacional hereda los conceptos esenciales de las bases de datos orientadas a objetos, que, en trminos generales, cada entidad se considera como un objeto.
o Bases de datos de texto son bases de datos que contienen descripciones de texto para los objetos. Estas palabras descripciones no suelen ser palabras sencillas, sino frases ms largas o prrafos, tales como especificaciones de producto, errores o informes de error, mensajes de advertencia, informes resumidos, notas u otros documentos.
SECUENCIA DE DATOS
o Muchas aplicaciones implican la generacin y el anlisis de un nuevo tipo de datos, llamados corriente datos, donde los datos fluyen dentro y fuera de una plataforma de observacin (o ventana) de forma dinmica.
4. La agrupacin de anlisis
5. Evolucin y anlisis de desviacin
CARACTERIZACIN Y DISCRIMINACIN
1.
La caracterizacin de datos, Caracterizacin de datos es un resumen de las caractersticas generales o caractersticas de una clase de destino de los datos. La discriminacin de datos, mediante la comparacin de la meta clase con una o un conjunto de las clases contrastantes.
2.
EJEMPLO:
Para estudiar las caractersticas de los productos de software cuyas ventas aumentaron un 10% en el ltimo ao, Hay varios mtodos para el resumen y los datos de caracterizacin eficaz. La salida de los datos de caracterizacin se puede presentar en diversas formas:
Ejemplos:
o Incluir grficos circulares. o Grficos de barras. o Curvas. o Cubos de datos multidimensionales . o Tablas multidimensionales, incluyendo tablas de referencias cruzadas.
CARACTERIZACIN DE DATOS.
Ejemplo:
o Resumen de las caractersticas de los clientes que gastan ms de $ 1,000 al ao en Todos los electrodomsticos.
El resultado podra ser un perfil general de los clientes, tales como son 40 a 50 aos de edad, empleado, y tienen excelentes calificaciones crediticias. El sistema debe permitir a los usuarios profundizar en cualquier dimensin, como en la ocupacin con el fin de ver estos clientes de acuerdo a su tipo de empleo.
DATOS DISCRIMINACIN
Es una comparacin de las caractersticas generales de los objetos de datos de clase de destino con las caractersticas generales de los objetos de un conjunto de clases contrastantes.
Ejemplo:
El usuario desea comparar las caractersticas generales de los productos de software cuyas ventas aumentaron un 10% en el ltimo ao con los cuyas ventas disminuyeron en un 30% durante el mismo perodo.
los clientes, como el 80% de los clientes que a menudo compran productos informticos tienen entre 20 y 40 aos de edad y tener una educacin universitaria, mientras que el 60% de los clientes que compran con frecuencia este tipo de productos son o bien personas mayores o jvenes, y no tienen ttulo universitario.
Un conjunto de elementos frecuentes tpicamente se refiere a un conjunto de elementos que con frecuencia aparecen juntos en un conjunto de datos transaccionales, tales como la leche y el pan.
Una subsecuencia se producen con frecuencia, tales como el patrn de que los clientes tienden a comprar primero un PC, seguido de una cmara digital, y a continuacin, una tarjeta de memoria, es un (frecuente) patrn secuencial.
EJEMPLO:
Como gerente de marketing de todos los electrnicos, usted desea determinar qu elementos se compran con frecuencia juntos en las mismas transacciones. Un ejemplo de una norma de este tipo, que se extrae de la base de datos transaccional de todos los electrnicos:
compras (X, "equipo")) compra (X, "software") [ayuda = 1%, la confianza = 50%] Donde X es una variable que representa un cliente. Una confianza o certeza del 50% Un soporte 1%
CLASIFICACIN Y PREDICCIN
La clasificacin es el proceso de encontrar un modelo, que describe y distingue las clases de datos o conceptos, con el fin de ser capaz de utilizar el modelo para predecir la clase de objetos cuya clase de etiqueta es desconocida.
EL ANLISIS DE CONGLOMERADOS.
El anlisis de conglomerados se pueden realizar en los datos del cliente en todos los electrnicos Para identificar las subpoblaciones homogneas de los clientes. Estos grupos pueden representar grupos individuales de marketing.
Los valores atpicos se pueden detectar usando pruebas estadsticas que asumen una distribucin o modelo de probabilidad para los datos
Anlisis: Puede descubrir el uso fraudulento de tarjetas de crdito mediante la deteccin de las compras de cantidades muy grandes de un nmero de cuenta indicado en comparacin con cargos regulares efectuados por la misma cuenta.
Un estudio de la minera de datos de capital pueden identificar acciones de irregularidades, evolucin de las poblaciones en general y para las acciones de empresas particulares. Estas regularidades pueden ayudar a predecir las tendencias futuras en capital los precios del mercado.
Estos se basan en la estructura de los patrones descubiertos y las estadsticas subyacentes. Una medida objetiva de reglas de asociacin de la forma X y Y apoyo regla, lo que representa el porcentaje de transacciones de una base de transaccin que satisface las reglas dadas. Esto se toma como la probabilidad de P (X [Y), where X [Y indicates que una transaccin contiene both X andY,
CONFIANZA
Otra medida objetiva de reglas de asociacin es la confianza, que evala el grado de certeza de la asociacin detectada. Es tomado para ser la probabilidad P condicional (YJX)
Ms formalmente, el apoyo y la confianza se definen como apoyo (X) Y) = P (X [Y): confianza (X) Y) = P (YJX):
MINERIA DE DATOS
o La minera de datos es un campo interdisciplinario, la confluencia de un conjunto de disciplinas, sistemas de bases de datos incluyendo, estadstica, aprendizaje automtico, visualizacin, y ciencias de la informacin.
Representacin del conocimiento, la programacin lgica inductiva o computacin de alto rendimiento. En funcin de los tipos de datos que se minadas o en la aplicacin de minera de datos.
El sistema de minera de datos tambin puede integrar las tcnicas de anlisis espacial de datos, informacin de recuperacin, reconocimiento de patrones, anlisis de imgenes, procesamiento de seales, computacin grfica.
TIPOS DE DISCIPLINAS
Escribir sistemas de minera de datos puede ser clasificados de acuerdo al tipo de conocimiento que la mina, es decir, sobre la base de datos: funcionalidades de minera, como la caracterizacin, la discriminacin, la asociacin y el anlisis de correlacin, clasificacin, prediccin, clustering, anlisis de valores atpicos y evolucin.