Presentacion Datamining

DATA MINING
MINERIA DE DATOS
Gersom Costas
INTRODUCCIÓN
• Recolección masiva de datos:
aumento dimensionalidad y nº observaciones

históricos
imperfectos
• Análisis de datos es crucial para el negocio
• Toma decisiones rápidas
• Dificultad para aplicar técnicas tradicionales
• Solamente un 5 % de la información es analizada
•Potentes computadoras con multiprocesadores

DEFINICIONES
KDD: Descubrimiento de conocimiento en las bases

de datos (Knowledge Discovery in Databases),
“proceso no trivial de identificar patrones válidos,

novedosos, potencialmente útiles y en última instancia
comprensibles a partir de los datos”. Fayyad et al. 1996
Data mining: Minería de

datos
“proceso de extraer conocimiento útil y comprensible,
previamente desconocido, desde grandes cantidades de
datos almacenados en distintos formatos” (Witten y Frank,
2000)
KDD Knowledge Discovery from Databases
Proceso de KDD
Datos Almacén de Datos

iniciales Patrone Conocimient
Datos seleccionado s
s o
(Data
Warehouse)
Selección,
Integración y Evaluación e
limpieza y DATA MINING
recopilación interpretación
transformación
Data Mining : confluencia de múltiples
disciplinas
Estadístic Visualización
a
Aprendizaj
e
Data Mining automátic
o
Sistemas de Otras
información disciplinas
Distribución de las
materias (Cajal et al.,
2001).
Áreas de aplicación más

frecuentes (Cajal et al.,
2001).
Objetivos KDD
VERIFICACIÓN DESCUBRIMIENTO
DESCRIPCIÓN PREDICCIÓN
SQL
OLAP
Análisis estadístico
CLASIFICACIÓN TENDENCIA/
REGRESIÓN
Visualización
Agrupamiento
Reglas de
asociación Árboles de decisión Árboles de regresión
Reglas asociación Redes neuronales
Redes neuronales Series temporales
Métodos bayesianos
CLASIFICACION ALGORITMOS
1. SUPERVISADOS: predicen el valor de un atributo de un
conjunto de datos conocidos otros atributos.
• Clasificación: se asignan los registros de datos en categorías

predefinidas
• Algoritmos genéticos. Técnicas de optimización que usan
procesos como combinaciones genéticas, mutación y selección
natural,
• Redes neuronales: modelos predecibles no lineales, aprenden
a través del entrenamiento.
• Árboles de decisión: estructura en forma de árbol que
representan
Regresión conjuntoinducir
o estimación: de decisiones.
a un modelo de predecir un valor
de la clase. Usa árboles de regresión, regresión lineal, redes
neuronales.
2. NO SUPERVISADOS: descubren patrones y tendencias en los
datos sin tener ningún tipo de conocimiento previo acerca de cuales
son los patrones buscados
• Clustering: agrupa los datos basándose en sus similitudes.
• Análisis de enlace: determina asociaciones entre registros de datos.
• Análisis de frecuencia: análisis de registros ordenados en el tiempo.
Detecta secuencias
Algunas de las técnicas más comúnmente usadas en Data
Mining son:
Redes neuronales artificiales: modelos predecibles no-

lineales que aprenden a través del entrenamiento y semejan la
estructura de una red neuronal biológica.
Árboles de decisión: estructuras de forma de árbol que

representan conjuntos de decisiones. Incluyen :
- Árboles de Clasificación
- Árboles de Regresión
Algoritmos genéticos: técnicas de optimización que usan

procesos tales como combinaciones genéticas, mutaciones y
selección natural en un diseño basado en los conceptos de
evolución.
SVM (Support Vector Machine): técnica que clasificación

que se aplica a problemas con dos clases.
Regla de inducción: extracción de reglas if-then de datos

basados en significado estadístico.
ÁRBOLES DE DECISION
Árboles de decisión son particiones secuénciales de un conjunto de

datos que maximizan las diferencias de la variable independiente
Objetivo: Segmentar la población para encontrar grupos

homogéneos según una cierta variable de respuesta. Esta técnica
permite representar de forma gráfica una serie de reglas sobre la
decisión que se debe tomar en la asignación de un determinado
elemento a una clase o valor de salida.
Los árboles difieren según:
-Tipo de la variable de respuesta

-Tipos de variables de segmentación
-Árboles binarios o n-arios
-Criterio de partición
-Criterio de parada
ÁRBOLES DE DECISION
Los árboles de decisión suelen ser empleados en tareas de clasificación
sobre variables de respuesta categóricas (árboles de clasificación), y
también, aunque en menor medida, en tareas de predicción sobre
variables de respuesta cuantitativas (árboles de regresión).
Ej. Acontecimientos relativos al hundimiento del Titanic

REGLAS DE ASOCIACION
Nos permite predecir patrones de comportamientos futuros sobre

ocurrencias simultaneas de valores de variables. Técnica no
supervisada
Una asociación entre dos atributos ocurre cuando la frecuencia con

la que se dan dos o más valores determinados de cada uno
conjuntamente es relativamente alta.
Las reglas de asociación intentan descubrir asociaciones o

conexiones entre objetos.
Consecuencia⇐Antecedente 1 Antecedente 2 … Antecedente m.
· Ejemplo, en un supermercado se analiza si los pañales y los potitos de

bebé se compran conjuntamente.
REDES NEURONALES
Sistemas de procesamiento de la información cuya estructura y
funcionamiento están inspirados en las redes neuronales biológicas.
Consisten en un conjunto de elementos simples de procesamiento
llamados nodos o neuronas conectadas entre sí por conexiones que tienen
un valor numérico modificable llamado peso.
Consiste en sumar los valores de las entradas (inputs) que recibe de

otras unidades conectadas a ella, neurona aplica una función de
activación (usualmente no lineal), enviar activación o salida (output) a
las unidades a las que esté conectada.
REDES NEURONALES
Pueden ser utilizadas en problemas de clasificación (la variable de
salida es cualitativa) o en predicción (la variable de salida es
cuantitativa).
Supervisada : ej. Perceptrón multicapa

No supervisada: ej. Mapas autoorganizativos de
Kohonen
PERCEPTRÓN MULTICAPA : Aprende la asociación que

existe entre un conjunto de patrones de entrada y sus salidas
correspondientes.
REDES NEURONALES
MAPAS AUTOORGANIZATIVOS DE KOHONEN
Aprendizaje competitivo.
Descubrir por si misma rasgos, peculiaridades, correlaciones o categorías
que se encuentren en los datos. El objetivo es descubrir “características o
patrones característicos” de entre un conjunto de datos de entrada, pero
de forma NO SUPERVISADA.
Reflejadas en la estructura topológica de la red

CLUSTERING
Divide un conjunto de datos en grupos de tal forma que los elementos

en un grupo sean similares y los elementos en grupos diferentes
tengan la menor similitud posible
Proceso de aprendizaje no-supervisado
•Medida de similitud/disimilitud
•Función de distancia d (i,j)

CLUSTERING
Algoritmo particional:
K-Means
Método
jerárquico
Step 0 Step 1 Step 2 Step 3 Step 4
agglomerative
(AGNES)
a ab
b abcde
c
cde
d
de
e
divisive
Step 4 Step 3 Step 2 Step 1 Step 0 (DIANA)
SVM (Support Vector Machine)
Máquinas de Vectores de soporte
• Se define sobre un espacio de vectores donde el problema es

encontrar el hiperplano separador óptimo que mejor discrimine los
datos en dos clases
• Una vez detectado el hiperplano, los ejemplos se pueden

clasificar chequeando en qué lado del hiperplano se encuentra

Presentacion Datamining

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentacion Datamining

Cargado por

Copyright:

Formatos disponibles

DATA MINING

• Recolección masiva de datos:

aumento dimensionalidad y nº observaciones

• Análisis de datos es crucial para el negocio

• Toma decisiones rápidas

• Dificultad para aplicar técnicas tradicionales

• Solamente un 5 % de la información es analizada

•Potentes computadoras con multiprocesadores

KDD: Descubrimiento de conocimiento en las bases

“proceso no trivial de identificar patrones válidos,

Data mining: Minería de

Datos Almacén de Datos

Áreas de aplicación más

• Clasificación: se asignan los registros de datos en categorías

Redes neuronales artificiales: modelos predecibles no-

Árboles de decisión: estructuras de forma de árbol que

Algoritmos genéticos: técnicas de optimización que usan

SVM (Support Vector Machine): técnica que clasificación

Regla de inducción: extracción de reglas if-then de datos

Árboles de decisión son particiones secuénciales de un conjunto de

Objetivo: Segmentar la población para encontrar grupos

Los árboles difieren según:

-Tipo de la variable de respuesta

Ej. Acontecimientos relativos al hundimiento del Titanic

Nos permite predecir patrones de comportamientos futuros sobre

Una asociación entre dos atributos ocurre cuando la frecuencia con

Las reglas de asociación intentan descubrir asociaciones o

Consecuencia⇐Antecedente 1 Antecedente 2 … Antecedente m.

· Ejemplo, en un supermercado se analiza si los pañales y los potitos de

Consiste en sumar los valores de las entradas (inputs) que recibe de

Supervisada : ej. Perceptrón multicapa

PERCEPTRÓN MULTICAPA : Aprende la asociación que

Reflejadas en la estructura topológica de la red

Divide un conjunto de datos en grupos de tal forma que los elementos

Proceso de aprendizaje no-supervisado

•Función de distancia d (i,j)

• Se define sobre un espacio de vectores donde el problema es

• Una vez detectado el hiperplano, los ejemplos se pueden

También podría gustarte