Está en la página 1de 33

4.

1 Introduccin a la minera de datos


4.2 Tcnicas para el pre-procesamiento de datos: limpiado, reduccin y normalizacin.
4.3 Tcnicas para identificacin de conceptos, reglas y relaciones.
4.4 Herramienta para anlisis del conocimiento, seleccin de datos, extraccin de reglas.
Aplicable: del 20 de Abril al 6 de mayo
Examen: 7 de Mayo

Unidad: 4 Cuatro

Tema: Adquisicin del conocimiento

Competencia especfica de la unidad


Aplicar tcnicas para extraer conocimiento a partir de grandes cantidades de
datos, mediante herramientas de minera de datos.

Actividades de aprendizaje

Conocimiento: Evaluacin escrita 30%


Producto: Informe de avance del proyecto Data WareHouse:30,
Revisin de ejercicios prcticos 40%

Actividades de enseanza

Desarrollo de competencias genricas

1.

3.1 Exposicin del tema asignado.


2.
Resolver ejercicios prcticos con 3.
WEKA acerca de las tcnicas del
preprocesamiento de datos.
4.
2. Resolver ejercicios prcticos con 5.
WEKA/ Visual studio 2010 o 2012
para extraccin del conocimiento 6.
por medio de la minera de datos
7.
Presentar Informe de avance del proyecto
final data warehouse
8.
1.

Criterios de evaluacin de la Unidad

Realizar introduccin a la unidad 4 y presentar la forma de


evaluacin y acreditacin de la misma.
Exponer una Introduccin a la minera de datos
Asignar temas de exposicin acerca de las tcnicas para el
pre-procesamiento de datos: limpiado, reduccin y
normalizacin.
Uso de software WEKA para el pre procesamiento de datos
Exponer las tcnicas para identificacin de conceptos, reglas y
relaciones.
Exponer las Herramienta para anlisis del conocimiento,
seleccin de datos, extraccin de reglas.
Exposicin del software WEKA/Visual Studio 2010 o 2012
para extraccin del conocimiento por medio de la minera de
datos.
Aplicacin de Evaluacin Escrita

Capacidad
sntesis.

de

abstraccin

Horas terico-prcticas

anlisis

y
P=2
T= 2

Habilidad para buscar


informacin proveniente
diversas.

Habilidad para
autnoma.

Trabajo en equipo.

trabajar

y
de

en

analizar
fuentes

forma

Empresa, Organismo, Institucin, Dependencia

Datos

Informacin

Conocimiento

Procesos

Conocimiento

Datos

Informacin

Se apoyan de
herramientas
como
Bases de datos

Trabajan con
Grandes
cantidades de
datos

Mtodos
matemticos

hardware y
software
informtico

INFORMACION

Conjunto de
Procesos

conocimiento

Conjunto de tcnicas que se utilizan para la obtencin de informacin implcita de las grandes bases de datos.. En
otras palabras es una tecnologa poderosa y de gran potencial que permite a las organizaciones la recoleccin de
informacin desconocida para sus propias bases (almacn de datos).

. Los modelos de minera de datos se pueden aplicar en escenarios como los siguientes:
Pronstico: clculo de las ventas

Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de correo directo,
determinacin del punto de equilibrio probable para los escenarios de riesgo, y asignacin de
probabilidades a diagnsticos y otros resultados.
Recomendaciones: determinacin de los productos que se pueden vender juntos y generacin
de recomendaciones.
Bsqueda de secuencias: anlisis de los artculos que los clientes han introducido en el carrito
de la compra y prediccin de posibles eventos.

Agrupacin: distribucin de clientes o eventos en grupos de elementos relacionados, y anlisis y


prediccin de afinidades.

Descubrimiento del conocimiento en base de datos

Es un proceso en el cual se identifican patrones tiles en los datos para obtener


posteriormente conocimiento til, valido y relevante.

El conocimiento resultante debe ser presentado de manera clara y comprensible ya


que de esta manera de puede decir que el trabajo de generar cocimiento fue un
xito.

escubrimiento del conocimiento en BD


Interpretacin/evaluacin

Transformacin

Minera de
datos

Proceso
Seleccin

Conocimiento
Patrones

Data
Warehouse

Datos
procesados

Datos
transformados

escubrimiento del conocimiento en BD


SELECCIN

Se seleccionan de los datos fuentes aquellos que son los


adecuados a nuestro problema

PRE PROCESAMIENTO

Consiste en la preparacin previa de los datos con los


que se va a trabajar , para eliminar errores, anomalas,
inconsistencias, ruidos, etc.

SELECCIN DE VARIABLES

Consiste en elegir los mejores atributos del problema y,


Buscar variables independientes mediante diversas pruebas de
sensibilidad, por lo tanto esta seleccin de variables permite
generar patrones que son los usados para crear modelos que son
tiles para la extraccin del conocimiento

EXTRACCION DEL
CONOCIMIENTO

A partir de los patrones generados por el uso de las variables


independientes se crea un modelo, el cual va a representar el
comportamiento de los valores del problema.

INTERPRETACION

El modelo representativo del problema se utiliza para poder sacar


conclusiones validas, para que de esta forma se pueda obtener el
conocimiento, lo cual es lo medular en la minera de datos

1. Limpieza de datos(Crear rutinas para llenar valores nulos, duplicados, errneos e inconsistentes)
2. Integracin de los datos.(Consiste principalmente en modificaciones sintcticas llevadas a cabo sobre los
datos, sin que supongan un cambio en el significado de los mismos.)

3. Transformacin de los datos..(Conversin de datos a formas mas apropiadas para trabajar la minera de datos)
4. Reduccin de los datos....(Consiste en decidir qu datos deben ser utilizados para el anlisis)

Redes neuronales
rboles de decisin
Modelos estadsticos
Agrupamiento o Clustering

Algoritmos supervisados (o predictivos)


Algoritmos no supervisados (o del descubrimiento del conocimiento)

Redes Neuronales
Son un paradigma de aprendizaje y procesamiento automtico inspirado en la
forma en que funciona el sistema nervioso de los animales. Se trata de un
sistema de interconexin de neuronas en una red que colabora para producir un
estmulo de salida.

Arboles de decisin
Tcnica que utiliza la toma de decisiones secuenciales basada en el uso de
resultados y probabilidades.
VENTAJAS

Facilita la interpretacin
Explica el comportamiento
Reduce las variables
Gestiona

DESVENTAJAS

Puede convertirse en una maraa


Probabilstico
Subjetivo

Arboles de decisin

Arboles de decisin

Arboles de decisin

Arboles de decisin
Por ejemplo:
En un escenario para predecir qu clientes van a adquirir probablemente una
bicicleta,

Si 9 de 10 clientes jvenes compran una bicicleta, pero solo


lo hacen 2 de 10 clientes de edad mayor,

El algoritmo infiere que la edad es un buen elemento de prediccin en la


compra de bicicletas.
El rbol de decisin realiza predicciones basndose en la tendencia hacia un
resultado concreto.

Arboles de decisin

Mtodos estocsticos
Es una expresin simblica en forma de igualdad o ecuacin
que se emplea en todos los diseos experimentales y en la
regresin para indicar los diferentes factores que modifican la
variable de respuesta.

Agrupamiento o Clustering
Es un procedimiento de agrupacin de una serie de vectores segn
criterios habitualmente de distancia; se tratar de disponer los vectores
de entrada de forma que estn ms cercanos aquellos que tengan
caractersticas comunes.
Ejemplos:
Algoritmo K-means.
Algoritmo K-medoids.

Algoritmo K-medias

Algoritmo K-medias

Algoritmo K-medias

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se


clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos) Predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento) Se
descubren patrones y tendencias en los datos.

Data Warehouse es una base de datos corporativa que se caracteriza por integrar,
procesar y depurar informacin de una o ms fuentes distintas.

Es un conjunto discreto de elementos objetivos acerca de distintos eventos, que


pueden derivar de hechos, informacin, estadsticas o similares, tanto histricos
como derivados del clculo o de la experimentacin.

Los datos en s mismos, carecen de sentido, ya que solo describen lo que sucede
de manera parcial y no proporcionan juicio o interpretacin, ni favorecen la toma de
decisiones.

Son el conjunto de datos dotados de relevancia y de propsito. Consiste en


conocimiento comunicado o recibido concerniente a hechos o circunstancias
particulares, es cualquier conocimiento adquirido mediante comunicacin,
aprendizaje o instruccin. La informacin se construyen a travs de datos a los que
en cierto sentido, se le ha aplicado un control de calidad previo, se los ha
contextual izado.
Los datos se convierten en informacin cuando se les aade un sentido mediante la
contextualizacin de los mismos, es decir, conocer para qu propsito han sido
recolectados

Fusin de valores , informacin y experiencia

Aprensin de hechos, verdades o principios como resultado


del estudio, investigacin o de la erudicin en general.

Links consultados:
1. http://msdn.microsoft.com/
2. file:///C:/Users/optimus/Pictures/Mineria_Datos_Vallejos.pdf

Libros:
1. Base de datos de enrique Jos Reinosa, ed. alfaomega

También podría gustarte