Está en la página 1de 34

ndice de contenidos

Unidad 4 Adquisicin del conocimiento


4.1 Introduccin a la minera de datos

4.2 Tcnicas para el pre-procesamiento de datos: limpiado, reduccin y normalizacin.


4.3 Tcnicas para identificacin de conceptos, reglas y relaciones.
4.4 Herramienta para anlisis del conocimiento, seleccin de datos, extraccin de reglas .

Empresa, Organismo, Institucin, Dependencia

Datos

Informacin

Procesos

Datos

Informacin

Minera de
datos

Conocimien
to

Descubrimiento del conocimiento en base de datos


Es un proceso en el cual se identifican patrones tiles en los datos para obtener
posteriormente conocimiento til, valido y relevante.
relevante

El conocimiento resultante debe ser presentado de manera clara y comprensible ya


que de esta manera de puede decir que el trabajo de generar cocimiento fue un
xito.

Interpretacin/evalua
cin

Proceso

Transformac
in

Minera
de datos

Seleccin

Conocimi
ento

Data
Warehous
e

Datos
procesados

Datos
transforma
dos

Patrones

INFORMACIO
N

conocimiento
Conjunto de tcnicas que se utilizan para la obtencin de informacin implcita de las grandes bases de datos.. En
otras palabras es una tecnologa poderosa y de gran potencial que permite a las organizaciones la recoleccin de
informacin desconocida para sus propias bases (almacn de datos).

1.Limpieza de datos(Crear

rutinas para llenar valores nulos, duplicados,

errneos e inconsistentes)

2.Integracin de los datos.(Consiste

principalmente en modificaciones sintcticas

llevadas a cabo sobre los


datos, sin que supongan un cambio en el
significado de los mismos.)

3.

Transformacin de los datos..(Conversin

de datos a formas mas apropiadas para

trabajar la minera de datos)

4.

Reduccin de los datos....(Consiste en decidir qu datos deben ser utilizados

para el anlisis)

Redes neuronales
rboles de decisin
Modelos estadsticos
Agrupamiento o Clustering
Algoritmos supervisados (o predictivos)
Algoritmos no supervisados (o del descubrimiento del conocimiento)

Redes Neuronales
Son un paradigma de aprendizaje y procesamiento automtico inspirado en la
forma en que funciona el cerebro. Se trata de un sistema de interconexin de
neuronas en una red que colabora para producir un estmulo de salida.

Arboles de decisin
Es un modelo de prediccin utilizado en la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones lgicas, muy similares a
los sistemas de prediccin basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva para la
resolucin de un problema.
VENTAJAS

Facilita la interpretacin
Explica el comportamiento
Reduce las variables
Gestiona

DESVENTAJAS

Puede convertirse en una


maraa
Probabilstico
Subjetivo

Arboles de decisin

Arboles de decisin

Arboles de decisin

Arboles de decisin
Por ejemplo:
En un escenario para predecir qu clientes van a adquirir probablemente una
bicicleta,
Si 9 de 10 clientes jvenes compran una bicicleta, pero solo
lo hacen 2 de 10 clientes de edad mayor,
El algoritmo infiere que la edad es un buen elemento de prediccin en la
compra de bicicletas.
El rbol de decisin realiza predicciones basndose en la tendencia hacia un
resultado concreto.

Arboles de decisin

Mtodos estocsticos
Es una expresin simblica en forma de igualdad o ecuacin
que se emplea en todos los diseos experimentales y en la
regresin para indicar los diferentes factores que modifican la
variable de respuesta.

Agrupamiento o Clustering
Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo ms
cercano posible a otro, y grupos diferentes estn lo ms lejos posible
uno del otro, donde la distancia est medida con respecto a todas las
variables disponibles.

Agrupamiento o Clustering
El objetivo de ste metodo es obtener grupos o conjuntos entre los
elementos, de tal manera que los elementos asignados al mismo sean
similares.
Lo importante del agrupamiento respecto a la clasificacin es que son
precisamente los grupos y la pertenencia a los grupos lo que se quiere
determinar y a priori, no se sabe ni como son los grupos ni cuantos hay.
El agrupamiento se conoce muy frecuentemente tambin como:
segmentacin y aglomeracin.
Ejemplos:
Algoritmo K-medias

K-medias
Tambin conocido como k-means o Iterative Distance-based Clustering. Necesita que se le
proporcione a priori el numero de grupos k. El algoritmo es el siguiente:
1.Agrupamiento:
2.Seleccionar al azar k ejemplos como centros iniciales de cada grupo;
3.repetir
asignar cada ejemplo al grupo con menor distancia a su centro;
recalcular los nuevos centros de cada grupo;
4.hasta (los grupos sean estables)
5.Los centros de cada grupo, tambin denominados centroides pueden corresponderse con ejemplos
o no, en ese caso se les denomina prototipos.
6.Los grupos se consideran estables cuando los ejemplos no cambian de grupo respecto la iteracin
anterior.
7.Se pueden obtener agrupaciones jerarquizadas tomando k = 2 y aplicando el mismo algoritmo de
manera recursiva sobre los ejemplos de cada grupo.

Algoritmo K-medias

Mtodo
de
agrupacin
de
casos que se basa
en las distancias
existentes
entre
ellos en un conjunto
de variables.

Algoritmo K-medias

Algoritmo K-medias

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se


clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos) Predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento) Se
descubren patrones y tendencias en los datos.

Data Warehouse es una base de datos corporativa que se caracteriza por integrar,
procesar y depurar informacin de una o ms fuentes distintas.

Es un conjunto discreto de elementos objetivos acerca de distintos eventos, que


pueden derivar de hechos, informacin, estadsticas o similares, tanto histricos
como derivados del clculo o de la experimentacin.
Los datos en s mismos, carecen de sentido, ya que solo describen lo que sucede
de manera parcial y no proporcionan juicio o interpretacin, ni favorecen la toma de
decisiones.

Son el conjunto de datos dotados de relevancia y de propsito. Consiste en


conocimiento comunicado o recibido concerniente a hechos o circunstancias
particulares, es cualquier conocimiento adquirido mediante comunicacin,
aprendizaje o instruccin. La informacin se construyen a travs de datos a los que
en cierto sentido, se le ha aplicado un control de calidad previo, se los ha
contextual izado.
Los datos se convierten en informacin cuando se les aade un sentido
mediante la contextualizacin de los mismos, es decir, conocer para qu
propsito han sido recolectados

Fusin de valores , informacin y experiencia


Aprensin de hechos, verdades o principios como resultado
del estudio, investigacin o de la erudicin en general.

Links consultados:
1.http://msdn.microsoft.com/
2.file:///C:/Users/optimus/Pictures/Mineria_Datos_Vallejos.pdf

Libros:
1. Base de datos de enrique Jos Reinosa, ed. alfaomega