Está en la página 1de 37

13-08-2014

1
Minera de Datos
INTRODUCCIN
13-08-2014
2
Los negocios han cambiado.
No basta el ojo para los negocios
La mardita Era de la Informacin
Nuevas tecnologas para adquirir, guardar y procesar
informacin datos, datos y ms datos
Computarizacin de sistemas comerciales,
gubernamentales, cientficos, etc. etc. etc.
Amplio uso de tarjetas magnticas.
Amplio uso de cdigos de barra.
Y la lista sigue, evoluciona y crece, crece, crece
13-08-2014
3
Business Intelligence
Es un conjunto de metodologas y herramientas
orientadas a mejorar la toma de decisiones en una
organizacin o empresa mediante el anlisis de datos
existentes. Permiten recopilar, almacenar, manipular y
analizar datos, tanto internos como externos, que
permitan crear nuevo conocimiento.
13-08-2014
4
Business Intelligence
Informacin til:
Datos de los sistemas transaccionales
Productos y servicios: datos de produccin, inventario,
venta
Clientes: necesidades y su proceso de toma de
decisiones
Transacciones de negocios
Competidores: presiones competitivas, condiciones de la
industria
Informacin general: tendencias econmicas, tecnolgicas
y culturales
Business Intelligence prioridad para las empresas a nivel
mundial
13-08-2014
5
Tecnologas de
Inteligencia de Negocios
Permiten a las empresas apoyar su toma de decisiones en
la informacin que pueden extraer de los datos que
tienen disponibles sobre sus productos, clientes y el
mercado en general.
Tecnologas de
Inteligencia de Negocios
Por qu ahora?
Existe la oportunidad
Se producen grandes volmenes de datos
Cada vez ms datos se guardan en una memoria
corporativa
Hay capacidad de almacenamiento y poder de
cmputo disponible
13-08-2014
6
Tecnologas de
Inteligencia de Negocios
Por qu ahora?
Es necesario
La presin competitiva es fuerte
Existe la necesidad de apoyar la toma de decisiones
Es posible
Baja capacidad de manipularlos manualmente
Hay software disponible (comercial y Open Source)
Anlisis de grandes volmenes de datos para encontrar
relaciones no triviales, y para resumirlos de manera que
sean entendibles y tiles.
Hand, Mannila y Smyth
Extraccin de patrones y modelos interesantes,
potencialmente tiles y datos en base de datos de gran
tamao.
Hand
Minera de Datos
13-08-2014
7
Minera de Datos
Alias: Inferencia de conocimiento o knowledge discovery
in databases (KDD)
Es una tcnica de descubrimiento de informacin en
bases de datos.
Encuentra patrones y relaciones tiles entre los datos, e
infiere reglas que permiten la prediccin de resultados
futuros.
Minera un campo interdisciplinario
13-08-2014
8
Minera un campo interdisciplinario
Bases de datos
Inteligencia Artificial
Estadstica
Teora de la informacin
Visualizacin
Information retrieval
Psicologa
High performance computing
Conocimiento del campo de aplicacin: marketing,
administracin, gobierno, ciencia, medio ambiente,
PARA QUE ME SIRVE LA MINERA
DE DATOS?
13-08-2014
9
Casos
El FBI analizar las bases de datos comerciales para
detectar terroristas.
Casos
Deteccin de fraudes en las tarjetas de crdito.
13-08-2014
10
Casos
Migracin de clientes entre distintas compaas
Casos
Prediccin del tamao de las audiencias televisivas
13-08-2014
11
Casos
Supermercados Wal-mart
Casos
Conociendo si los recin titulados de una universidad
llevan a cabo actividades profesionales relacionadas con
sus estudios.
13-08-2014
12
Seleccin Alemana de Futbol
Casos
Seleccin Alemana de Futbol
https://www.youtube.com/watch?v=8ZBGfzOo73M

Casos
13-08-2014
13
Casos
Algunos Antecedentes
Aumento de volumen y variedad de informacin
informatizada.
Informacin histrica
Representacin de transacciones o eventos
"Memoria de la organizacin
Informacin que explique el pasado, entrenar el presente
y predecir el futuro.
13-08-2014
14
Algunos Antecedentes
Informacin para la toma de decisiones proviene de
fuentes diversas.
Conversin de los datos en conocimiento a travs de
anlisis e interpretacin en forma manual, volvindolo
lento, caro y subjetivo.
Anlisis de un BD mediante consultas con lenguajes como
SQL sobre la base de datos operacional, es decir junto al
procedimiento transaccional en lnea (On-Line Transaction
Processing, OLTP) de las aplicaciones de gestin.
.
Algunos Antecedentes
Informes poco flexible y escalable a grandes volmenes
de datos.
Surge nueva arquitectura tecnolgica: bodega de datos,
almacn de datos o data warehouse.
Se trata de un repositorio de fuentes heterogneas de
datos, integrados y organizados bajo un esquema
unificado para facilitar su anlisis y dar soporte a la toma
de decisiones.
13-08-2014
15
Algunos Antecedentes
Esta tecnologa incluye operaciones de procesamiento
analtico en lnea (On-Line Analytical Processing OLAP), es
decir tcnicas de anlisis como pueden ser el resumen,
consolidacin o la agregacin, as como la posibilidad de
ver la informacin desde distintas perspectivas.
Sin embargo, a pesar de que las herramientas OLAP
soportan cierto anlisis descriptivo y de sumarizacin que
permite transformar los datos en otros datos agregados o
cruzados de manera satisficiera, no generan reglas,
patrones o pautas, es decir, conocimiento que pueda ser
aplicado a otros datos.
Sin embargo, en muchos contactos, como en los
negocios, la medicina o la ciencia, los datos por s solos
tienen un valor relativo. Lo que de verdad es interesante
es el conocimiento que puede inferirse a partir de los
datos y, ms an, la capacidad de poder usar este
conocimiento.
13-08-2014
16
MD y la Estadstica
Existen otras herramientas analticas que han sido
empleadas para analizar los datos y tiene su origen en la
estadstica, algo lgico tendiendo en cuenta que la
materia prima de esta disciplina son los datos.
MD y la Estadstica
Aunque la estadstica es capaz de inferir patrones a partir
de los datos utilizando modelizacin estadstica
paramtrica o no paramtrica, el problema es que
generalmente no funcionan bien para las BD actuales
(cientos de tablas, millones de registros, varios gigantes y
una alta dimensionalidad) y alguno tipos de datos
frecuentes en ellos (atributos nominales con muchos
valores, datos textuales, multimedia, etc.), y no se intrigan
bien con los sistemas de informacin.
13-08-2014
17
No obstante diversos autores reconocen la estadstica
como la "madre" de la Minera de datos.
Todos estos problemas y limitaciones de las
aproximaciones clsicas han hecho surgir la necesidad de
una nueva generacin de herramientas y tcnicas para
soportar la extraccin de conocimiento til desde la
informacin disponible, y que se engloban
Trminos sinnimos
Anlisis (inteligente) de los datos (Berthold & Hand
2003) hace mas nfasis en las tcnicas de anlisis
estadstico.
Extraccin o descubrimiento de conocimiento en bases
de datos (Knowledge Discovery in Database KDD).
Ambos trminos se ah utilizado indistintamente para
referirse a un proceso que consta con una serie de fases,
mientras que la minera de datos es solo una de estas
fases.
13-08-2014
18
KDD
Se define el KDD como el proceso no trivial de identificar
patrones validos, novedosos, potencialmente tiles, y en
ltima instancia, comprensibles a partir de los datos
(Fayyad et al. 1996)
De esta definicin se deduce que las propiedades del
conocimiento extrados debe ser:
Valido: hace referencia a que los patrones deben seguir
siendo precisos para datos nuevos (con un cierto grado de
incertidumbre) y no solo para aquellos que han sido usado
en su obtencin.
Novedoso: que aporte algo desconocido tanto para el
sistema u preferiblemente para el usuario.
13-08-2014
19
Potencialmente til: la informacin debe conducir a
acciones que reporten algn tipo de beneficio para el
usuario.
Comprensible: la extracciones patrones no comprensibles
dificulta o imposibilita su interpretacin, revisin
validacin y uso en al toma de decisiones. De hecho una
informacin incomprensible no proporciona
conocimiento.
Como se deduce, el KDD es un proceso complejo que
incluye no solo la obtencin de los modelos y patrones (el
objetivo de la minera de datos), sino tambin al
evaluacin y posible interpretacin de los mismos.
13-08-2014
20
Los sistemas KDD permiten:
Seleccin
Limpieza
Transformacin Datos
Proyeccin
13-08-2014
21
Permite analizar los datos para extrae patrones y modelos
adecuados; evaluar e interpretar los patrones para
convertiros en conocimiento; consolidar el conocimiento
resolviendo posibles conflictos con conocimiento
previamente extrado; y hacer el conocimiento disponible
para su uso.
Con esto se clarifica al relacin de KDD y MD:
El KDD es el proceso global de describir conocimiento til
desde las bases de datos mientras la minera de datos se
refiere a la aplicacin de los mtodos de aprendizaje y
estadsticos para la obtencin de patrones y modelos.
Al ser la fase de generacin de modelos comnmente se
asimila KDD con minera de datos.
13-08-2014
22
TIPOS DE BASES DE DATOS
Segn Variabilidad
BD estticas
BD Dinmicas
13-08-2014
23
BD Estticas
Son bases de datos de solo lectura, utilizadas
primordialmente para almacenar datos histricos que
posteriormente se pueden utilizar para estudiar el
comportamiento de un conjunto de datos a travs del
tiempo, realizar proyecciones, tomar decisiones y realizar
anlisis de datos para inteligencia empresarial.
Base Dinmicas
stas son bases de datos donde la informacin
almacenada se modifica con el tiempo, permitiendo
operaciones como actualizacin, borrado y edicin de
datos, adems de las operaciones fundamentales de
consulta. Un ejemplo de esto puede ser la base de datos
utilizada en un sistema de informacin de un
supermercado.
13-08-2014
24
MODELOS DE BASES DE DATOS
Adems de la clasificacin por la funcin de las bases de
datos, stas tambin se pueden clasificar de acuerdo a su
modelo de administracin de datos.
Un modelo de datos es bsicamente una "descripcin" de
algo conocido como contenedor de datos (algo en donde
se guarda la informacin), as como de los mtodos para
almacenar y recuperar informacin de esos contenedores.
Los modelos de datos no son cosas fsicas: son
abstracciones que permiten la implementacin de un
sistema eficiente de base de datos; por lo general se
refieren a algoritmos, y conceptos matemticos.
13-08-2014
25
Tipos de Modelo de Bases de Datos
Bases de datos jerrquica
Base de datos de red
Base de datos relacional
Bases de datos orientadas a objetos
Bases de datos documentales
Base de datos deductivas
Base de datos espaciales
Bases de datos temporales
Bases de datos multimedia
Gestin de bases de datos distribuida
Base de Datos Jerrquica
stas son bases de datos que, como su nombre indica,
almacenan su informacin en una estructura jerrquica.
En este modelo los datos se organizan en una forma
similar a un rbol (visto al revs), en donde un nodo padre
de informacin puede tener varios hijos. El nodo que no
tiene padres es llamado raz, y a los nodos que no tienen
hijos se los conoce como hojas.
13-08-2014
26
Base de Datos Jerrquica
Las bases de datos jerrquicas son especialmente tiles en
el caso de aplicaciones que manejan un gran volumen de
informacin y datos muy compartidos permitiendo crear
estructuras estables y de gran rendimiento.
Una de las principales limitaciones de este modelo es su
incapacidad de representar eficientemente la
redundancia de datos.
13-08-2014
27
Base de datos de Red
ste es un modelo ligeramente distinto del jerrquico; su
diferencia fundamental es la modificacin del concepto de
nodo: se permite que un mismo nodo tenga varios padres
(posibilidad no permitida en el modelo jerrquico).
Fue una gran mejora con respecto al modelo jerrquico,
ya que ofreca una solucin eficiente al problema de
redundancia de datos; pero, aun as, la dificultad que
significa administrar la informacin en una base de datos
de red ha significado que sea un modelo utilizado en su
mayora por programadores ms que por usuarios finales.
13-08-2014
28
Base de Datos relacionales
ste es el modelo ms utilizado en la actualidad para
modelar problemas reales y administrar datos
dinmicamente.
En este modelo, el lugar y la forma en que se almacenen
los datos no tienen relevancia (a diferencia de otros
modelos como el jerrquico y el de red). Esto tiene la
considerable ventaja de que es ms fcil de entender y de
utilizar para un usuario espordico de la base de datos. La
informacin puede ser recuperada o almacenada
mediante "consultas" que ofrecen una amplia flexibilidad
y poder para administrar la informacin.
Base de Datos relacionales
El lenguaje ms habitual para construir las consultas a
bases de datos relacionales es SQL, Structured Query
Language o Lenguaje Estructurado de Consultas, un
estndar implementado por los principales motores o
sistemas de gestin de bases de datos relacionales.
13-08-2014
29
Base de Datos relacionales
Es una coleccin de relaciones (tablas).
Cada tabla consta de un conjunto de atributos (columnas
o campos) y puede contener un gran nmero de tuplas
(registros o filas)
Cada tupla representa un objeto , el cual describe a travs
de valores de sus atributos y se caracteriza por poseer una
clave nica o primaria que lo identifica.
13-08-2014
30
En la figura se ilustra una base de datos con dos relaciones
empleado y departamento. La relacin empleado tiene
seis atributos: el identificador o clave primaria (IdE), el
nombre del empleado, (Enombre), su sueldo (Sueldo), su
edad (Edad), su Sexo (Sexo) el departamento en el que
trabaja (IdD), y la relacin departamento tiene tres
tributos: su identificador o clave primaria (IdD), el nombre
(Dnombre) y su director (Director).
Una relacin empleado puede adems tener claves
ajenas, es decir, atributos que hagan referencia a otra
relacin, como por ejemplo el sexto atributo de la relacin
empleado, IdD, que hace referencia (por valor) al IdD de
departamento.
13-08-2014
31
Una de las principales caractersticas de las BD
relacionales es la existencia de un esquema asociado, es
decir los datos deben seguir una estructura y son, por
tanto, estructurados. As, el esquema de la base de datos
del ejemplo indica que las tuplas de la relacin empleado
tienen un valor para cada uno de sus seis atributos y las
de la relacin departamento constan de tres valores,
adems de indicar los tipos de datos (nmero, cadena de
caracteres , etc.)
La integridad de los datos se expresa a travs de las
restricciones de integridad. Estas pueden ser de dominio
(restringen el valor que puede tomar un atributo respecto
a su dominio y si puede tomar valor nulos o no), de
identidad (por ejemplo la clave primaria tiene que ser
nica) y referencial ( los valores de las claves ajenas se
deben corresponder con uno y solo un valor de la tabal
referenciada)
13-08-2014
32
La obtencin de informacin desde una base de datos
relacional se ha resulto tradicionalmente a travs de
lenguaje de consulta especialmente diseado para ello,
como SQL.
Una consulta en relacin ala tabla de ejemplo es listar la
media de edad de todos los empleados de una empresa
cuyo sueldo es mayor de 2.000, agrupados por
departamento.
13-08-2014
33
Base de Datos Orientadas a Objetos
Este modelo, bastante reciente, y propio de los modelos
informticos orientados a objetos, trata de almacenar en
la base de datos los objetos completos (estado y
comportamiento).
Una base de datos orientada a objetos es una base de
datos que incorpora todos los conceptos importantes del
paradigma de objetos.
13-08-2014
34
Bases de Datos Documentales
Permiten la indexacin a texto completo, y en lneas
generales realizar bsquedas ms potentes. Tesauros es
un sistema de ndices optimizado para este tipo de bases
de datos.
Bases de Datos Deductivas
Un sistema de base de datos deductivas, es un sistema de
base de datos pero con la diferencia de que permite hacer
deducciones a travs de inferencias. Se basa
principalmente en reglas y hechos que son almacenados
en la base de datos. Tambin las bases de datos
deductivas son llamadas base de datos lgica, a raz de
que se basan en lgica matemtica.
13-08-2014
35
Bases de Datos espaciales
Contiene informacin relacionada con el espacio fsico en
un sentido amplio (una ciudad, una regin montaosa, un
atlas cerebral.).
Estas BD incluyen datos geogrficos, imgenes medicas,
redes de transporte o informacin de trafico, etc. donde
las relaciones espaciales son muy relevantes. La minera
de datos sobre estas BD permite encontrar patrones entre
los datos.
Bases de Datos temporales
Incluyen muchos atributos relacionados con el tiempo o
en el que este es muy relevante.
Estos atributos pueden referirse a distintos instantes o
intervalos temporales.
En este tipo de BD la minera de datos pueden utilizarse
para encontrar las caractersticas de la evolucin o las
tendencias del cambios de distintas medidas o valores de
BD.
13-08-2014
36
Bases de Datos multimedia
Almacenan imgenes, audio y video.
Soportan objetos de gran tamao ya que por ejemplo, los
videos pueden necesitar varios GB de capacidad para su
almacenamiento.
Para la minera de datos estas BD tambin es necesario
integrar los mtodos de minera con tcnicas de bsqueda
y almacenamiento.
Gestin de Bases de datos distribuidas
La base de datos est almacenada en varias
computadoras conectadas en red. Surgen debido a la
existencia fsica de organismos descentralizados. Esto les
da la capacidad de unir las bases de datos de cada
localidad y acceder as a distintas universidades,
sucursales de tiendas, etctera
13-08-2014
37
La World Wide Web
Repositorio de informacin ms grande y diverso de los
existentes en al actualidad.
Hay gran cantidad de datos en la web de los que se puede
extraer conocimiento relevante y til.
Minera web: mina r la web no es sencillo, debido a que
muchos de los datos no son estructurados o semi-
estructurados, a que muchas paginas contienen datos
multimedia y a que estos datos puede recibir en diversos
servidores o en archivos.
La World Wide Web
Otros aspectos que dificultan la minera web son como
determinar a que pginas debemos acceder y como
seleccionar la informacin que va a ser til para extraer
conocimiento.
Toda esta diversidad hace que la minera web se organice
en tronos a tres categoras:
Minera del contenido, para encontrar patrones de los
datos de las pginas web.
Minera de la estructura, entendiendo por estructura
los hipervnculos y URLs.
Minera del uso que hace el usuario de las pginas web
(navegacin)

También podría gustarte