Está en la página 1de 51

Facultad de Ingeniera

Escuela de Ingeniera de Sistemas y Computacin


Preprocesamiento
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 2
Preprocesado de Datos

Por qu es necesario?

Limpieza

Integracin y Transformacin

Reduccin

Discretizacin y Generalizacin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 3
Por qu es necesario?

Los datos reales estn sucios

Incompletos: Se han perdido valores


de atributos, atributos de inters o los
datos estn resumidos

Ruido: errores y outliers

Inconsistentes: hay discrepancias en


los nombres y/o en los valores
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +
Por qu es necesario?

calidad de los datos calidad en los


resultados de Data Mining.

Las decisiones de calidad se basan en


datos con calidad.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 5
Principales tareas
de preprocesado
Limpieza de los datos
Completar valores nulos, identificar y/o
eliminar los outliers, resolver
inconsistencias, tratar valores con
ruido
Integracin de datos
Integracin de distintas bases de
datos, archivos,
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 6
Principales tareas
de preprocesado
Transformacin de los datos
Normalizacin y agregacin
Reduccin de los datos
Se obtiene representacin reducida
produce los mismos ( o similares)
resultados despus de su anlisis
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 7
Principales tareas de
preprocesado
Discretizacin de los datos
Es un caso especial de la reduccin
con especial importancia cuando se
tratan atributos numricos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 8
Limpieza de los datos
Tareas de la limpieza
Completar valores nulos
Identificar outliers y suavizar el ruido
Corregir los datos inconsistentes
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 9
Valores nulos
Los datos no siempre estn disponibles
Ej. muchas tuplas no tienen el valor del
ingreso del cliente en la base de datos
de ventas
Es posible que se tenga que inferir un
valor
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 10
Valores nulos
Los valores nulos se pueden deber a:
Mal funcionamiento del equipo
Inconsistencias con otros datos
almacenados
No se insertan por no enteder el
significado
No se consideraron importantes en el
momento de la captura
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 11
Como tratar los nulos?
Ignorar la tupla no es muy efectivo si
el porcentaje de valores nulos por
atributo varia considerablemente
Completar valor manualmente: tedioso y
de dudosa fiabilidad
Usar una constante para completar el
valor e.g., desconocido
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 12
Como tratar los nulos?
Utilizar la media para completar todos
los valores
Utilizar la media dentro de la clase: mas
eficaz??
Utilizar el valor ms probable: mediante
un rbol de decisin, Bayes,
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 13
Datos con ruido
Ruido: error aleatorio en una variable
Los valores incorrectos se pueden deber
Error en la captura
Problemas en la transformacin
Limitacin de la tecnologa
Inconsistencia en el nombrado de los
valores
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 1+
Datos con ruido
Otros problemas que requieren limpieza
Registros duplicados
Datos inconsistentes
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 15
Como tratar el ruido?
Mtodo de los cubos (binning):
Ordenar los datos y dividirlos en cubos
de igul longitud
Despus se suaviza cada cubo por la
media, la mediana, la varianza, los
lmites del cubo, etc.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 16
Como tratar el ruido?
Clustering: detecta y elimina los outliers
Combinar tratamiento automtico con
mtodos manuales
Regresin: suaviza el ruido mediante la
funcin obtenida
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 17
Mtodo de los cubos (I)
Particionamiento de igual ancho (distancia)
Divide el rango en N intervalos de igual
tamao
Si A y B son los valores mnimo y
mximo del atributo, el ancho de los
intervalos es
W = (B-A)/N
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 18
Mtodo de los cubos (I)
Es el mtodo ms directo
Hace que los outliers dominen
No es aconsejable con distribuciones
muy heterogneas
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 19
Mtodo de los cubos (II)
Particionamiento de igual profundidad
(frecuencia) :
Divide el rango en N intervalos, cada
uno conteniendo aproximadamente el
mismo nmero de ejemplos
El tratamiento de los datos categricos
es complejo con este mtodo
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 20
Ejemplo del mtodo
de los intervalos
Datos ordenados de precio:
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Intervalos de igual nmero de elementos:
Bin 1: 4, 8, 9, 15
Bin 2: 21, 21, 24, 25
Bin 3: 26, 28, 29, 34
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 21
Ejemplo del mtodo
de los intervalos
Particin por la media:
Bin 1: 9, 9, 9, 9
Bin 2: 23, 23, 23, 23
Bin 3: 29, 29, 29, 29
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 22
Ejemplo de
discretizacin (II)
Datos:
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Intervalos basados en los lmites
Bin 1: 4, 4, 4, 15
Bin 2: 21, 21, 25, 25
Bin 3: 26, 26, 26, 34
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 23
Anlisis mediante cluster
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 2+
Regresin
x
y
y = x + 1
X1
Y1
Y1
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 25
Integracin de Datos
Integracin de datos:
Combina datos de fuentes diversas
Integracin de esquemas
Integra metadatos de distintas fuentes
Problema de identificacin de
entidades: A. cdigocli B. cliente#
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 26
Integracin de Datos
Deteccin y resolucin de los conflictos
Para la misma entidad los valores de
diferentes fuentes son diferentes
Razones: distintas representaciones,
mtricas, escalas, .
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 27
Datos redundantes
La redundancia se da cuando se integran
mltiples bases de datos
El mismo atributo tiene distintos
nombres
Un atributo es un atributo derivado en
otra tabla e.g., beneficio anual
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 28
Datos redundantes
Se pueden detectar por medio de
anlisis de correlacin
La integracin cuidadosa puede ayudar
a prevenir/reducir las redundancias e
inconsistencias mejorando los
resultados.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 29
Transformacin
Eliminar el ruido
Agregados: construccin de cubos de
datos
Generalizacin
Construccin de nuevos atributos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 30
Transformacin
Normalizacin: escalar los valores para
que caigan en un rango especfico
min-max
z-score
Normalizacin basada en
escalamiento decimal
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 31
Transformacin de datos:
Normalizacin
min-max
z-score
Normalizacin decimal
A A A
A A
A
min new min new max new
min max
min v
v _ ) _ _ ( ' +

=
A
A
dev stand
mean v
v
_
'

=
j
v
v
10
' =
Where j is the smallest integer such that Max(| |)<1
' v
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 32
Reduccin de datos
Reduccin de datos
Obtiene una representacin reducida
del conjunto de datos que es mucho
ms pequea en volumen pero
produce los mismos (o casi los
mismo ) resultados
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 33
Reduccin de datos
Estrategias de reduccin de datos
Agregados
Reduccin de dimensiones
Discretizacin y generacin de
jerarquias de conceptos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 3+
Reduccin de atributos
Seleccin de caracterticas:
Mtodos heursticos
Seleccin hacia delante
Seleccin hacia atrs
Combinacin de estrategias
rboles de decisin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 35
Compresin de datos
Compresin de cadenas
Existen numerosos algoritmos
Generalmente sin prdidas
Compresin de Audio/video
Generalmente se pierde informacin
Se puede reconstruir parte de la seal
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 36
Compresin de datos
Datos originales
Datos
Comprimidos
Sin prdida
Original Data
Approximated
C
o
n

p

r
d
i
d
a
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 37
Anlisis de las
componentes principales
Dados N vectores de k-dimensiones, encontrar
c K vectores ortogonales que se pueden
utilizar para representar los datos
El conjunto original de datos se reduce a
uno de N vectores sobre c componentes
principales
Cada vector es una combinacin lineal de
los c vectores de componentes principales
(dimensiones resucidas)
Solo se puede usar con datos numricos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 38
X1
X2
Y1
Y2
Anlisis de componentes principales
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 39
Histogramas
Tcnica
popular de
reduccin
Divide los
datos en
cubos y
almacena la
media (suma)
de cada cubo
0
5
10
15
20
25
30
35
40
10000 30000 50000 70000 90000
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +0
Muestreo
Elegir un subconjunto representativo de
los datos
El muestreo aleatorio puede ser
peligroso dependiendo de la
distribucin de los datos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +1
Muestreo
Desarrollar un mtodos de muestreo
adaptativos
Muestreo estratificado
Que exista el mismo (o aproximado)
porcentaje de cada cada clase (o
subpoblacin de inters) que en la
base de datos total
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +2
m
u
e
s
t
r
e
o

s
i
n

r
e
e
m
p
l
a
z
a
m
i
e
n
t
o
C
o
n

r
e
e
m
p
l
a
z
a
m
i
e
n
t
o
Datos
Muestreo
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +3
Muestreo
Datos originales
Muestra estratificada
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin ++
Discretizacin
Tres tipos de atributos
Nominal valores en un conjunto no
ordenado
Ordinal valores en un conjunto
ordenado
Continuo nmeros reales
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +5
Discretizacin
Discretizacin
Divide el rango en de un atributo en
intervalos
Algunos algoritmos de clasificacin
slo aceptan atributos categricos
Se reduce el tamao del conjunto de
datos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +6
Discretizacin y jerarquias
de conceptos
Discretizacin
Reduce el nmero de valores de un
atributo continuo dividiendo el rango
del atributo en intervalos. Las etiquetas
de los intervalos se pueden usar para
reemplazar los valores reales
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +7
Discretizacin y jerarquias
de conceptos
Jerarquas de Conceptos
Reduce los datos mediante la
sustitucin de los valores particulares
por conceptos mas generales.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +8
Discretizacin para datos
numricos
Intervalos (cubos)
Anlisis de histogramas
Anlisis de cluster
Discretizacin basada en la entropa
Segmentacin por particionamiento
natural
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +9
Discretizacin basada en la
entropia
Dado un conjunto de ejemplos S, si S se
divide en dos intervalos S1 y S2 de
manera que se minimize la entropa
El proceso se aplica de manera recursiva
hasta que se encuentre un criterio de
finalizacin
E S T
S
Ent
S
Ent
S
S
S
S
( , )
| |
| |
( )
| |
| |
( ) = +
1
1
2
2
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 50
Jerarquas para datos
categricos
Se pueden generar automticamente
basndose en el nmero de valores distintos
de cada atributo. El atributo con ms valores
se sita como hoja del rbol
pais
ciudad
calle
15 valores
3500 valores
674.339 valores
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 51
Resumen
La preparacin de los datos en
importantsima en cualquier proceso de
anlisis de datos
Incluye
Limpieza e integracin
Reduccin
Discretizacin

También podría gustarte