Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MINING
http://www.espol.edu.ec
INTEGRANTES
Bastidas
Santos Washington
Raúl
López Serrano Silvio
Stephan
Montiel
Salazar Marcos Xavier
DATA WAREHOUSE
INTRODUCCIÓN
DW es una tecnología construida para optimizar el
uso y análisis de información utilizado por las
organizaciones para adaptarse a los cambios en
los mercados.
Su función esencial es ser la base de un sistema de
información gerencial. Debe cumplir el rol de
integrador de información proveniente de fuentes
funcionalmente distintas.
DATA WAREHOUSE
Se caracteriza por ser integrado, no volátil y variable en el
tiempo, que ayuda a la toma de decisiones en la entidad en la
que se utiliza
DETALLES
El DW se encuentra normalmente implementado
dentro de una arquitectura de cliente/servidor.
Por la complejidad de los DW es común utilizar
middleware entre los clientes y los servidores dando
una arquitectura de 3 niveles (three tier).
ARQUITECTURA
Online Transaction Processing (OLTP)
Consolidación
Middleware
Online Analytical Process (OLAP)
Data Marts
OLTP
Consultas rápidas, escuetas y predecibles
Poco volumen de información e información
disgregada
Transacciones rápidas
Gran nivel de concurrencia
Modo de actualización on-line
Baja redundancia de datos
Consolidación
Se encarga de producir el cambio de los sistemas OLTP a las
Middleware
Es un término genérico que se utiliza para referirse a todo
MOLAP
Base de datos multidimensional. el
resumen de la información es usualmente
calculado por adelantado.
la clave
principal estará
compuesta por las
claves principales de las
demás.
ESQUEMA EN COPO DE NIEVE
Un esquema en copo de
nieve es una estructura
algo más compleja que el
esquema en estrella. Se
da cuando alguna de las
dimensiones se
implementa con más de
una tabla de datos. La
finalidad es normalizar
las tablas y así reducir el
espacio de
almacenamiento al
eliminar la redundancia
de datos
DATAWAREHOUSE – DATA MINING
DATA WAREHOUSE
EXECUTIVE INFORMATION SYSTEM
(EIS)
Herramienta orientada a usuarios de nivel
gerencial.
Permite a usuarios con perfil no técnico construir
nuevos informes y navegar por los datos de la
compañía para descubrir información relevante.
Provee acceso instantáneo al estado de los
indicadores de negocio que le afectan.
DECISION SUPPORT SYSTEM (DSS)
Que no es?
Data warehousing
SQL / Ad Hoc Conocimiento
Queries / “Rico en datos, (patrones interesantes)
Reporting Pobre en información”
Software Agents
Online Analytical
Processing (OLAP)
Data Visualization
POR QUÉ MINERÍA DE DATOS?
Gran cantidad de
datos para analizar
de forma clásica
¿Cómo explorar
millones de registros, (Latitude, Longitude)2
QUERY
decenas o cientos de
RESULT
campos, y encontrar
patrones? (Latitude, Longitude)1
Knowledge Discovery in Databases
Test Set
8 No Single 85K Yes
9 No Married 75K No
Clasifica-
10 No Single 90K Yes Training Modelo
10
Set dor
REPRESENTACIÓN:
ÁRBOL DE DECISIONES
oria r ia uo
g go it n
te te
co
n se
ca ca cla Atributos Divididos
Tid Refund Marital Taxable
Status Income Cheat
Refund
1 Yes Single 125K No Yes No
2 No Married 100K No
NO MarSt
3 No Single 70K No
Single, Divorced Married
4 Yes Married 120K No
5 No Divorced 95K Yes TaxInc NO
6 No Married 60K No < 80K > 80K
7 Yes Divorced 220K No
8 No Single 85K Yes
NO YES
9 No Married 75K No
10 No Single 90K Yes
10
CLUSTERING
Divide la información en
diferentes grupos.
A diferencia de la
clasificación, no se sabe
donde habrá clúster o con que
atributos de los datos se
harán los clústeres.
Algoritmo K-means y Mapas
de Presentación de Kohonen
Clustering schemes
Basado en Distancia (Distancia
entre vectores)
Basado en Partición (Enumera y
valora)
Basado en Modelo(
ALGORITMO K-MEANS
Initial seeds
ALGORITMO K-MEANS
Nuevos Centros
ALGORITMO K-MEANS
Centros Finales
MODELO LÓGICO
Mining Model Training Data Mining Model To Predict
DB data
algorithm DB data
Client data
Client data
Application data
Application data
“Just one row”
Interfaz Gráfica
App Data
Resultado de la
Evaulacion