Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Por qu es necesario?
Limpieza
Integracin y Transformacin
Reduccin
Discretizacin y Generalizacin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 3
Por qu es necesario?
=
A
A
dev stand
mean v
v
_
'
=
j
v
v
10
' =
Where j is the smallest integer such that Max(| |)<1
' v
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 32
Reduccin de datos
Reduccin de datos
Obtiene una representacin reducida
del conjunto de datos que es mucho
ms pequea en volumen pero
produce los mismos (o casi los
mismo ) resultados
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 33
Reduccin de datos
Estrategias de reduccin de datos
Agregados
Reduccin de dimensiones
Discretizacin y generacin de
jerarquias de conceptos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 3+
Reduccin de atributos
Seleccin de caracterticas:
Mtodos heursticos
Seleccin hacia delante
Seleccin hacia atrs
Combinacin de estrategias
rboles de decisin
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 35
Compresin de datos
Compresin de cadenas
Existen numerosos algoritmos
Generalmente sin prdidas
Compresin de Audio/video
Generalmente se pierde informacin
Se puede reconstruir parte de la seal
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 36
Compresin de datos
Datos originales
Datos
Comprimidos
Sin prdida
Original Data
Approximated
C
o
n
p
r
d
i
d
a
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 37
Anlisis de las
componentes principales
Dados N vectores de k-dimensiones, encontrar
c K vectores ortogonales que se pueden
utilizar para representar los datos
El conjunto original de datos se reduce a
uno de N vectores sobre c componentes
principales
Cada vector es una combinacin lineal de
los c vectores de componentes principales
(dimensiones resucidas)
Solo se puede usar con datos numricos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 38
X1
X2
Y1
Y2
Anlisis de componentes principales
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 39
Histogramas
Tcnica
popular de
reduccin
Divide los
datos en
cubos y
almacena la
media (suma)
de cada cubo
0
5
10
15
20
25
30
35
40
10000 30000 50000 70000 90000
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +0
Muestreo
Elegir un subconjunto representativo de
los datos
El muestreo aleatorio puede ser
peligroso dependiendo de la
distribucin de los datos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +1
Muestreo
Desarrollar un mtodos de muestreo
adaptativos
Muestreo estratificado
Que exista el mismo (o aproximado)
porcentaje de cada cada clase (o
subpoblacin de inters) que en la
base de datos total
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +2
m
u
e
s
t
r
e
o
s
i
n
r
e
e
m
p
l
a
z
a
m
i
e
n
t
o
C
o
n
r
e
e
m
p
l
a
z
a
m
i
e
n
t
o
Datos
Muestreo
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +3
Muestreo
Datos originales
Muestra estratificada
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin ++
Discretizacin
Tres tipos de atributos
Nominal valores en un conjunto no
ordenado
Ordinal valores en un conjunto
ordenado
Continuo nmeros reales
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +5
Discretizacin
Discretizacin
Divide el rango en de un atributo en
intervalos
Algunos algoritmos de clasificacin
slo aceptan atributos categricos
Se reduce el tamao del conjunto de
datos
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +6
Discretizacin y jerarquias
de conceptos
Discretizacin
Reduce el nmero de valores de un
atributo continuo dividiendo el rango
del atributo en intervalos. Las etiquetas
de los intervalos se pueden usar para
reemplazar los valores reales
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +7
Discretizacin y jerarquias
de conceptos
Jerarquas de Conceptos
Reduce los datos mediante la
sustitucin de los valores particulares
por conceptos mas generales.
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +8
Discretizacin para datos
numricos
Intervalos (cubos)
Anlisis de histogramas
Anlisis de cluster
Discretizacin basada en la entropa
Segmentacin por particionamiento
natural
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin +9
Discretizacin basada en la
entropia
Dado un conjunto de ejemplos S, si S se
divide en dos intervalos S1 y S2 de
manera que se minimize la entropa
El proceso se aplica de manera recursiva
hasta que se encuentre un criterio de
finalizacin
E S T
S
Ent
S
Ent
S
S
S
S
( , )
| |
| |
( )
| |
| |
( ) = +
1
1
2
2
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 50
Jerarquas para datos
categricos
Se pueden generar automticamente
basndose en el nmero de valores distintos
de cada atributo. El atributo con ms valores
se sita como hoja del rbol
pais
ciudad
calle
15 valores
3500 valores
674.339 valores
Facultad de Ingeniera
Escuela de Ingeniera de Sistemas y Computacin 51
Resumen
La preparacin de los datos en
importantsima en cualquier proceso de
anlisis de datos
Incluye
Limpieza e integracin
Reduccin
Discretizacin