3 GeneraciónVistaMinableComp PDF

ti c s
Creación de la Vista Ana ly

ta
Minable ta y D a
D a
Bi g
n e
ió n
Alexandra cPomares Quimbaya
p i a
Departamento
p o
r de Ingeniería de Sistemas
y A
c ia Facultad de Ingeniería
le n
xc e Pontificia Universidad Javeriana
e E 2018
o d
e ntr
A:C
OB
C A
Crear Vista Minable i c s
ly t
Ana
1.
D ata
Recopilar
y
los datos
D ata
Big
e n
ió n
i a c
4. Crear op
rPreparación 2.
p
y A de Datos
la vista Explorar y
minable
c ia visualizar
los datos
le n
xc e
e E
o d
e ntr
A:C 3. Limpiar
OB los datos
C A
Vista Minable
ti c s
ly
Ana
• Es una vista de datos materializada que recoge a ta toda la
y D
información necesaria para realizar unaatatarea de minería.
g D
Bi
e n
ió n
i a c
r o p
Ap
y
c ia
l e n
x ce
e E
o d
n tr
e
CPrepare los datos lo mejor posible para reducir y facilitar el
A:
OB trabajo que debe hacer el algoritmo de minería
CA
3
Procesos para la creación de la Vista Minable
ti c s
ly
Ana
1. Normalización D ata
y
2. Discretización a ta
g D
Bi
3. Numerización e n
ió n
a c
i derivadas
4. Generación de variables r o p
Ap
5. Aplicar OverSampling y
c ia
l e n
6. Anonimización
x ce
E e
o d
e ntr
A:C
OB
C A
4
Normalización s
ti c
ly
Ana
a ta
• Objetivo: Tomar valores de un atributo quey Dabarcan un
rango de valores y representarlos en otro a ta rango de valores
g D
B i
Generalmente llevarlos a rangos de 0 a 1noede -1 a 1
n
c ió posible al normalizar los datos
Es necesario introducir la menor distorsión
p i a
p r o
y A
La normalización es dependiente ia de los mínimos y máximos encontrados
c
nde los datos
durante la preparación l e
x ce
e E
o d
n tr
e
Cbasadas
A:
Técnicas en distancia en espacios n-dimensionales le dan mayor importancia
OB a los campos cuyo valores pueden llegar a tener grandes distancias
CA
5
Normalización – Min-Max s
ti c
ly
Ana
• v(n) = (v(i) – min(v(i))) / (max(v(i))-min(v(i))) y D ata
a ta
• El mínimo y máximo se toman del conjunto g D de datos o los
Bi
define un experto. e n
i ó n
• Ej: Valor parte i a c
p ro
• Menor 500 p
yA
• Mayor 10.000.000 c ia
l e n
• Para el valor x ce500.000 el valor normalizado
e E
o d
• v(500.000) = (500.000 – 500) / (10.000.000-500)
tr
nv(500.000)=
C•e 499.500/9.999.500 = 0.049
A:
OB
C A
6
Normalización – Min-Max
ti c s
ly
Ana
• Hay una relación uno a uno entre el valor de la a ta
instancia
y D
original y el valor normalizado a ta
g D
i
B al ser normalizados se
• Si el primero era el doble del segundo e n
mantendrá esta relación ió n
i a c
o p
r únicamente si se conocen los
• Escalamiento lineal es viable Ap
máximos y mínimoscia y
l e n
x ce
e E
o d
n tr
: Ce
B A
A O
C
Variante de la normalización Min-Max
ti c s
ly
Ana
• Cuando es posible la existencia de atípicosy D ata
a ta
• El min y el max se toman considerando D
ig (Q3 - Q1) B
e n
i ó n
ia c
ro p
Ap
y
c ia
le n
xc e
e E
o d
e ntr
A:C
OB
C A
Normalización Estadística o Estandarización
ti c s
ly
Ana
D ata
• Busca normalizar la distribución y
a ta
• V(n) = (v(i)-media(v))/ds(v) g D
Bi
e n
• Ej: ió n
i a c
V={1,2,3} r o p
Ap
y
media=2 ncia
e le
ds(v)=1 Exc
d e
tro
nV(n)={-1,0,1}
e
A:C
OB
C A
9
Ejercicio 1
ti c s
ly
Ana
• Normalice el atributo HHIncomeMid usandoy D ata
las opciones
a ta
de normalización: Z-Score, Range, Interquartile D
Bi g
• Posteriormente, grafique los valores e n normalizados vs. el
ió n
valor original y analice la gráfica
i a c
r o p
Ap
y
c ia
le n
xc e
e E
o d
e ntr
A:C
OB
C A
Diferencias en la normalización
ti c s
ly
Ana
D ata
y
D ata
Big
e n
ió n
i a c
ro p
p
yA
c ia
le n
xc e
e E
o d
e ntr
A:C
OB
C A
Discretización
ti c s
• Convertir de continuo a nominal. ly
Ana
• Cuándo hacerlo: a ta
y D
• Cuando el algoritmo sólo acepta datos discretos ta
D a
• Cuando se quiere reducir el tamaño de los i g datos
• Cuando el error en la medida puede ser n Bgrande.
n e
• Cuando existen umbrales significativos c ió que representan conceptos lógicos
importantes. p i a
r o
p nota
Ej: Umbral de 2.99 a 3 en y Ala
c i a
• Cuando la interpretación
en de la medida no sea lineal
l
ce luz.
• Ej: Medidasxde
E
e de 0 a 1000 lúmenes
• Original
d
•tro
Discretizado
n
: Ce • oscuro(0,170)
B A • penumbra(171,200)
A O
C • luminoso(200,1000)
Hay métodos de discretización supervisados y no supervisados
12
Tipos de discretización
ti c s
ly
Ana
ata
yD
1. Discretización por intervalos de igualarango
a t
• Creará k intervalos de igual rango ig D
n B
n e
2. Discretización de igual frecuencia c ió
p i a
r
• Creará k intervalos deApigualo frecuencia de elementos
a y
3. Discretizaciónlende i
c frecuencia fija
x ce
e E
• Creará intervalos que contengan k elementos
d
n tro
: Ce
B A
C AO
Tipos de discretización
ti c s
ly
Ana
D ata
y
D ata
Big
e n
ió n
i a c
ro p
p
yA
c ia
le n
xc e
e E
o d
e ntr
A:C
OB Grupos tamaño K (4) K (4) Grupos con K (4) Grupos con
C A misma frecuencia de mismo rango de valores

elementos (rangos de 12)
Generación de Jerarquías para atributos originalmente discretos
ti c s
a ly
An
a ta
• Los datos originales ya son discretos, pero y D útil reducir el
es
a ta
número de valores posibles usandoBjerarquías D
ig
e n
• Barrio < Ciudad < Departamentoió< n Pais
i a c
• Se especifica la jerarquía para r o p conjunto de valores
el
Ap
a y
• Se debe especificar la i
cjerarquía
l e n
c e
x Funza} < Cundinamarca
• {Silvania, Chía, E
d e
n tro
: Ce
B A
A O
C
Ejercicio 2
ti c s
ly
Ana
D ata
• Realizar la discretización del atributo HHIncomeMid(sin
ta y haber
D a
normalizado) Big
e n
• Analice los resultados usando n
ió el gráfico de barras de cada
i a c
r o p
atributo yA
p
c ia
le n
xc e
e E
o d
e ntr
A:C
OB
C A
Numerización
ti c s
ly
Ana
• Convertir de discreto a continuo. D ata
y
• Cuándo hacerlo: D ata
Big
e n
ón
• La técnica de minería nociacepta campos nominales
p ia
p ro
Ej: redes neuronales
y A
c ia
n
ele minería trabaja mejor con datos numéricos
• La técnica cde
x
e E
o dEj: clustering
e ntr
A:C
OB
C A
17
Numerización
ti c s
ly
Ana
D ata
• ¿Cómo convertirían a número? y
D ata
Big
- Numerizar Education e n
ió n
c
- Numerizar Gender ropia
Ap
a y
- Numerizar Marital
nc
i Status
e le
Exc
d e
o
e ntr
A:C
OB
C A
Numerización
ti c s
ly
Ana
Parte ata
D
Proveedor
• Numerización 1 a n y
a ta
• Se crean n pseudovariables 1 ig D A
binarias, donde n es el número en B
de posibles valores que puedeción 2 B
tomar el campo nominal. ropia 3 C
p
• Cada registro tendráa la yA
pseudovariable lcon n ci valor 1 Parte A B C
e e
cuando coincida Exc con el valor
original. d e 1 1 0 0
n tro
Ce 2 0 1 0
A:
OB 3 0 0 1
C A
19
Numerización
ti c s
ly
• Numerización m a n Ana
a
• Agrupar y adicionar variables de interés. Dat
a y
a t
D
Parte Proveedor Proveedor Big Proveedor
e n
Cumplido Partes i ó n Local
a c
iescasas
r o p
Ap
1 1 cia y 0 1
l e n
x ce
e E
2 od 0 1 0
n tr
: Ce
B A 3 1 1 1
O
CA
20
Numerización
ti c s
ly
Ana
• Numerización 1 a 1 D ata
• La variable es ordinal. y
a ta
• Ejemplo: g D
i
Estado original {nuevo, usado, einservible} nB
i ó n
Estado numerizado {1,2,3} i a c
r o p
Ap
a y
c i
l e n
x c e
e E
d
n tro
: Ce
B A
C AO
21
Ejercicio 3
ti c s
ly
Ana
• Numerizar Gender 1 a 1 ata
• (Nominal to Numerical – Unique Integers)ta y D
D a
Big
• Numerizar Marital Status 1 a n e n
• (Nominal to Numerical – Dummy i ó n Coding)
i a c
r o p
• Numerizar Education 1y aAp1 manualmente
• (Map – ParseNumber c ia Tarea)
l e n
x ce
e E
o d
n tr
: Ce
B A
O
CA
Agregar variables derivadas
ti c s
ly
Ana
• Una variable derivada es una variable generada a ta a partir del
D
valor de otras variables. ta
y
D a
1. Variables derivadas a partir de la combinación Bi g del valor de
dos o más variables del mismo e n
registro
i ó n
• Ej: Ingresos netosi = Ingresospbrutos iac i - Impuestosi
p ro
y A
2. Variables derivadas ia partir del valor de una variable y su
a
n c
relación con el e l e
valor de la misma variable en todos los
c
registros e Ex
o d
tr relativoi = Ingresos Netos i– media (Ingresos Netos1-n), n es el
• Ingreso
n
e
Cnúmero total de registros
A:
OB
CA
Ejercicio 4
ti c s
ly
Ana
a ta
• Identifique posibles variables derivadas en el conjunto y D de datos y
créelas a ta
g D
Mínimo una tipo 1 Bi
e n
ió n
i a c
r o p
Ap
y
c ia
l e n
x ce
e E
o d
n tr
: Ce
B A
A O
C
Aplicar OverSampling
ti c s
ly
Ana
a ta
• Garantizar una frecuencia estadísticamente significativa y D para
todos los valores de la variable objetivo. Dat a
Entre 15% y 20% es lo ideal Big
e n
i ó n
• Estrategias i a c
Reducir el tamaño del conjunto de r o p para los casos frecuentes.
datos
A p
Hacer múltiples copias de los
a y registros con casos no comunes.
ci
Darle mayor peso a losnregistros con el valor poco común.
l e
x ce
e E
o d
n tr
: Ce
B A
C AO
25
Ejercicio 5 s
ti c
ly
Ana
• Considerando que Diabetes es la clase (label) realizar a ta
y D
sobremuestreo del valor menos menos frecuente. ta
• Sample/Relative/BalanceData D a
• Yes 1.0 Bi g
• No 0.2 e n
ió n
i a c
r o p
Ap
y
c ia
l e n
x ce
e E
o d
n tr
: Ce
B A
A O
C
Anonimización
ti c s
ly
Ana
• La anonimización de datos se refiere a esconder a ta la
y D
identidad y/o los datos sensibles de los a ta
dueños de los
g D
registros, asumiendo que los datos i
Bdeben ser retenidos
e n
para su análisis c ió n
p i a
• Cómo garantizar la anonimización: p r o
y A
• Eliminando atributos c iaidentificadores
l e n
ce
• Revisando elxriesgo de los cuasi-identificadores y cambiando lo
requeridodeparaE evitar re-identificación
n
• Ofuscar: tro Impedir que alguien vea bien de forma momentánea o
: Ce
Bpasajera.
A
A O
C
Ejercicio 6
ti c s
ly
Ana
• Eliminación de atributos identificadores D ata
a y
• Ofuscación de atributos nominales Da t
Big
e n
ió n
i a c
ro p
p
yA
c ia
le n
xc e
e E
o d
e ntr
A:C
OB
C A
¿Preguntas?
ti c s
ly
Ana
D ata
y
D ata
Big
e n
ió n
i a c
ro p
p
yA
c ia
le n
xc e
e E
o d
e ntr Gracias
A:C
OB
C A
pomares@javeriana.edu.co
29
Referencias
ti c s
ly
Ana
• Oden Maimon, Lior Rokach. 2010. Data Mining and Knowledge ata D Discovery
y
Handbook. Springer. a ta
g D (1st ed.). Morgan
• Dorian Pyle. 1999. Data Preparation for Data Mining Bi
Kaufmann Publishers Inc., San Francisco,nCA, n
e USA.
• Kantardzic M. 2011. Data Mining: concepts, c ió methods and algorithms. 2ª
p i a
edición. Willey. p r o
• Jiawei Han. 2012. Data Mining: y A Concepts and Techniques 3ra Edición. Morgan
c i a
Kaufmann Publishersle n San Francisco, CA, USA.
Inc.,
x ce
• http://www.statmethods.net/graphs/scatterplot.html
e E
d
• https://cran.r-project.org/web/packages/stargazer/vignettes/stargazer.pdf
n tro
e
A:C
OB
C A
Discretización basada en entropía
ti c s
• Se calcula la entropía basada en la distribución de los registros a ly en la
A n
clase. a ta
y D
ta
• Encuentra la mejor partición de cada atributoDade tal forma que las
Big
divisiones sean las más puras posibles e ncon respecto a la clase
i ó n
• Encuentra la partición con la máxima gananciaade
i c información con respecto a la clase
r o p
| S1 y| Ap |S |
I ( S , T ) = ia Entropy ( S1) + 2 Entropy ( S 2)
n c| S | |S|
e l e
x c
• I(S,T) es la gananciaEde información al realizar la discretización usando dos intervalos S1 y S2
d e
• Se realiza una n trodiscretización buscando los límites que minimizan la función de entropía
: Ce
A que minimiza la entropía es seleccionado para hacer una discretización binaria
• El límite
B
A O
C
• El proceso se ejecuta de forma recursiva hasta un punto de parada.
31
http://kevinmeurer.com/a-simple-guide-to-entropy-based-discretization/

3 GeneraciónVistaMinableComp PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

3 GeneraciónVistaMinableComp PDF

Cargado por

Copyright:

Formatos disponibles

ti c s

Creación de la Vista Ana ly

C A misma frecuencia de mismo rango de valores

También podría gustarte