Está en la página 1de 28

ti cs

a ly
An
ata
y D
Limpieza de datos
gD
ata
Bi
e n
ió n
ia c
p
Alexandra Pomares
ro
Quimbaya
Departamento p
A de Ingeniería de Sistemas
y
c iaFacultad de Ingeniería
l e n
x ce Pontificia Universidad Javeriana
d eE 2018
tr o
e n
: C
BA
O
CA
ti cs
a ly
Limpieza de Datos An
ata
1. y D
Recopilar
los datos
ata D
B i g
e n
• Remover ió n o completar valores
ia c
r o p
faltantes, identificar o remover datos
4. Crear la 2.
A p atípicos o inconsistentes.
vista Preparación Explorar y y
minable de Datos visualizar cia
en
los datos
e l
x c
e E
o d
n tr
C e
A :
3. Limpiar
O
losBdatos
CA

2
ti cs
Actividades limpieza de datos a ly
An
ata
y D
a ta
1. Detección y tratamiento atributos con valoresDúnicos
Big
2. Detección y tratamiento atributos discretos n con valores diferentes
n e
para cada registro i ó
i a c
3. Detección de atributos sinónimos r o p con variable objetivo
Ap
4. Detección y tratamiento datos a y perdidos
c i
5. Detección y tratamiento n
le de registros atípicos
c e
Ex
6. Datos redundantes d e
tr o
e n
: C
BA
O
CA
ti cs
Detección y tratamiento atributos con valores únicos aly
An
a ta
y D
• Eliminarlos a ta
g D
• Ejemplo: Bi
e n
• Nacionalidad ió n
ia c
• Todos Nulos ro p
Ap
y
c ia
l e n
x ce
e E
o d
n tr
C e
A :
OB
CA

4
Detección y tratamiento atributos discretos con valores lytics
diferentes n a
a A
a t
y D
a ta
• Datos con valores diferentes para cada i g Dregistro
• Ej: Dirección proveedor n B
n e
• Solución ció
p ia
• Jerarquizarlos. p ro
y A
• Ciudad ia
n c
• Localidad
e l e
• Barrio xc
E
•deDirección
tr o
e n
C
• Eliminarlos.
:
BA
AO
C
ti cs
Detección y tratamiento de atributos sinónimos con variable a ly
An
objetivo ta
D a
• Datos sinónimos con la variable objetivo a(técnicas y
ta
supervisadas) o atributos no observables g D al momento de
Bi
la predicción e n
ió n
• Ej: ia c
p
rodesea predecir si requiere reparación.
• Fecha de reparación cuando p se
y A
• Promedio para predecir deserción.
c ia
• Número de asesinatos
l e n para predecir si habrá fallecidos
x ce en la que contrajo Diabetes
• TieneDiabetes, Edad
e E
• Solución tro d
e n
• Eliminarlas.
: C
BA
AO
C

6
ti cs
Ejercicio 1 a ly
An
ata
y D
• Remover: ata D
i g
B únicos por
• Atributos con valores únicos o casi n
n e
registro y Atributos que tienen i ó el mismo valor o casi
i a c
el mismo valor p
p r o
• Filtro Remove Useless A Attributes
y
c ia
• Numericalmindeviation: 0.4
le n
c e
• NominalUselessAbove: 0.95 (Cercano a un
x
E valor)
único
d e
o
tr• NominalUselessBelow: 0.1 (cercano a
e n
: C valores únicos por registro)
B A
AO
C
ti cs
Detección y tratamiento datos perdidos a ly
An
ata
y D
• Datos perdidos
ata D
• Soluciones i g
• Borrar los registros con campos perdidos. n B
n e
• Examinar uno a uno y asignar un valor
ció razonable con el experto del
negocio. p ia
• Reemplazar por una constante p roglobal.
y A
• Reemplazar por la media
c ia del campo (simétrico), mediana (No simétrico).
• Reemplazar por la moda. l e n
c e
• Reemplazar por Exla media o mediana del campo por clase (únicamente si
los registrosdeestán clasificados).
tr o
e n
• Imputación: Predecir el valor de campo a través de un modelo de minería
C
predictiva.
:
BA
AO
C

8
Ejercicio 2 ti cs
a ly
An
ata
y D
• Aplicar al menos tres técnicas para tratar datos ta perdidos
D a
Big
1. ReplaceMissingValues para HomeOwn e n por la Moda (Avg)
i ó n
i a c
r o p
2. ReplaceMissingValues Todos p los polinomiales por NA
y A
c i a
le n
c e
Ex
d e
tr o
e n
: C
BA
O
CA
Ejercicio 2 ti cs
ly a
An
a ta
y D
3. Reemplazar para HHIncomeMid por la mediana ta considerando
la educación (es necesario calcularla primero). D a
Big
e n
i ó n
i a c
r o p
Ap
a y
c i
le n
c e
Ex
d e
tr o
e n
: C
BA
O
CA
Ejercicio 2 ti cs
a ly
An
ata
y D
a ta
4. ImputeMissingValues usando K-nn con k=3 g D para el resto
i
B el ejercicio haremos
Dado el tiempo de procesamiento, para e n
una muestra de 2000 registros ció n
p ia
p ro
y A
c ia
l e n
x ce
e E
o d
n tr
C e
A :
OB
CA
ti cs
Detección y tratamiento atributos con valores inconsistentes a ly
An
a ta
y D
a ta
• Datos inconsistentes g D
Bi
• Errores en la recolección de datos ene los sistemas de n
i ó n
información. a c
Peso = -1 p i
p r o
No. de hijos= 23 A
a y
• Detección de inconsistentes c i
A través de herramientas
n
levisuales.
c e
Técnicas específicas. Ex
d e
tr o
e n
: C
B A
O
CA

12
ti cs
Detección y tratamiento atributos con valores inconsistentes a ly
An
a ta
y D
a ta
• Datos inconsistentes – detección D
• Aproximación estadística Bi g
e
V={ 3, 56, 23, 39, 156, 52, 41,22,9,28,139,31,55,20,-67,n 37,11,55,45,37}
i ó n
Media=39.9 i a c
Desviación Estándar= 45.65
r o p
Umbral de la distribución normal Ap
y
Umbral = Media +- 2* DesviaciónEstándar
a
i
nc
Umbral = 39.9 + 2*45.65= 131.2
Umbral = 39.9 - 2*45.65=le-54.1
ceconsistentes.
Entre (-54.1, 131.2) son
x
e E
• Sólo sirve rparao d detectar valores inconsistentes por campo,
no detecta n t registros inconsistentes.
C e
• Útil en
A : atributos con distibución simétrica.
O B
CA

13
Detección y tratamiento registros inconsistentes ti cs
a ly
An
ata
y D
D ata
• Datos inconsistentes – detección ig
• Aproximación basada en distancia n B
Cálculo de la función de distancia de todos los n eregistros de un conjunto de
datos. ció
p ia una fracción P de registros se
Un registro ri es inconsistente si al menos
p r o
encuentra a una distancia D. A
P y D por experiencia o por prueba a y y error.
c i
le n
c e
Ex
d e
tr o
e n
: C
B A
O
CA

14
ti cs
Detección y tratamiento registros inconsistentes a ly
An
a ta
y D
• Datos inconsistentes – detección a ta
g D
• Aproximación basada en distancia Bi
e n
• S={s1, s2, s3 s4, s5, s6, s7} n
c ió
• S={(2,4), (3,2), (1,1), (4,3), (1,6), p ia (5.3), (4,2)}
p ro
• Usando la distancia euclidiana y A
2 2 c
½ i a
• d=[(x1-x2) +(y1-y2) en]
e l
• P >=4 x c
e E
• D >=3 o d
n tr
C e
A :
O B
CA

15
ti cs
Detección y tratamiento registros inconsistentes na ly
a A
a t
y D
s1 s2 s3 s4 s5 Das6 ta s7
Big
s1 2.236 3.162 2.236 2.236 e n 3.162 2.828
i ó n
s2 2.236 1.414 i a c 4.472 2.236 1.000
r o p
Ap
s3 a y 3.605 5.000 4.472 3.162
c i
l e n
s4 ce 4.242 1.000 1.000
Ex
d e
s5 r o 5.000 5.000
n t
C e
s6 A : 1.414
OB
C A No Registros P >=4
Distancia D >=3

16
ti cs
Detección y tratamiento registros inconsistentesna ly
a A
a t
y D
Registro P a ta
g D
s1 2 Bi
e n
n
s2 1iació
r o p
Ap
s3 y 5
c ia
s4 l e n 2
c e
Ex
s5 o de 5
n tr
C e
s6
: 3
BA
AO s7 2
C

17
ti cs
Ejercicio a ly
An
ata
y D
• Detección de inconsistencia aplicando a ta algoritmos
D
basados en distancia Bi g
e n
– Detect Outlier LOF ió n
ia c
ro p
Ap Densidad local: distancia típica en la cual
a y un punto puede ser ”alcanzado” por sus
c i
l e n vecinos.
x ce
e E
o d
n tr
C e
A :
OB
CA
ti cs
Ejercicio a ly
An
ata
y D
D ata
Big
e n
ió n
ia c
r o p
Ap
y
c ia
le n
c e
Ex
d e
tr o
e n
: C
BA
O
CA
Ejercicio 3 ti cs
a ly
An
ata
y D
4. Identificación de posibles atípicos con LOF D ata
Bi g
e n
ió n
ia c
ro p
Ap
y
c ia
l e n
x ce
e E
o d
n tr
C e
A :
OB
CA
ti cs
Detección y tratamiento de atributos redundantes aly
An
a ta
y D
a ta
1. Coeficiente de correlación ig D
n B
n e
ció
p ia
p ro
y A
c ia
l e n
x ce
e E
o d
n tr
C e
A :
O B
CA
For this 2 ⇥ 2 table, the degrees of freedom are (2 1)(2 1) = 1. For 1 degree of free- ti cs
dom, the 2 value needed to reject the Coeficiente de0.001
correlación a ly
hypothesis at the significance level is 10.828
An
ta
(taken from the table of upper percentage points of the 2 distribution, typically avail-
able from any textbook on statistics). Since our computed value is above this, we cany D
a
• El coeficiente
reject the hypothesis that gender de
andcorrelación dearePearson
preferred reading independentes and
unaconclude ta
medida
a de la relación
lineal entre
that the two attributes dos variables
are (strongly) aleatorias
correlated for of people. ig Dindependiente de la
cuantitativas
the given group
escala de medida de las variables. n B
e n
i ó
Correlation Coefficient
• Valores entre [-1,1] for Numeric Data piac
• 1 positiva perfecta p ro
For numeric attributes, we can evaluate the correlation between
y A two attributes, A and B,
• -1 negativacoefficient
perfecta (also knowna as Pearson’s product moment
by computing the correlation c i
coefficient, named after its inventer, Karl Pearson). l e nThis is
c e
X n Ex X n
(ai Ā)(b d e B̄) (ai bi ) nĀB̄
n número de registros
tr o i ai y bi valores de A y B en el registro I
rA,B =
i=1
e n =
i=1
, A y B son(3.3)
la media y σA a y σB la
C
: n A B n A B desviación estándar
B A
where n is the number A O
Es independiente C of tuples, ai and bi are the respective values of A and B in tuple i,
de la escala
Ā and B̄ are the respective mean values of A and B, A and B are the respective standard
deviations of A and B (as defined in Section 2.2.2), and 6(ai bi ) is the sum of the AB
cross-product (i.e., for each tuple, the value for A is multiplied by the value for B in that
tuple). Note that 1  rA,B  +1. If rA,B is greater than 0, then A and B are positively
ti cs
Correlación no es causalidad a ly
An
ata
y D
D ata
Big
e n
ió n
ia c
r o p
Ap
y
c ia
le n
c e
Ex
d e
tr o
e n
: C
BA
O
CA
http://kendocrinologia.blogspot.com.co/2011/07/piratas-y-calentamiento-global.html
ti cs
Correlación no es causalidad a ly
An
ata
y D
D ata
Big
e n
ió n
ia c
r o p
Ap
y
c ia
le n
c e
Ex
d e
tr o
e n
: C
BA Número de usuarios de Facebook con la prima de
O
CA riesgo en Grecia
http://www.academiadeinversion.com/6-ejemplos-de-que-la-correlacion-no-implica-causalidad/
ti cs
Correlación no es causalidad a ly
An
ata
y D
D ata
Big
e n
ió n
ia c
r o p
Ap
y
c ia
le n
c e
Ex
d e
tr o
e n
: C
BA
O
CA http://www.tylervigen.com/spurious-correlations
Ejercicio 4 ti cs
a ly
An
ata
y D
Calcular matriz de correlaciones de AdventureWorks a ta y
g D
remover atributos que tengan alta correlación. Bi
e n
ió n
ia c
ro p
Ap
y
c ia
l e n
x ce
e E
o d
n tr
C e
A :
OB
CA
cs
¿Preguntas? An a ly ti

ata
y D
D ata
Big
e n
ió n
ia c
r o p
Ap
y
c ia
le n
c e
Ex

n tr o d e
Gracias
C e
A :
OB
CA
pomares@javeriana.edu.co
27
ti cs
Referencias a ly
An
ata
y D
• Dorian Pyle. 1999. Data Preparation for Data Mining (1st ed.).aMorgan ta Kaufmann
Publishers Inc., San Francisco, CA, USA. g D
• Kantardzic M. 2011. Data Mining: concepts, methods and
i
B algorithms. 2ª edición.
e n
Willey. n
• Jiawei Han. 2012. Data Mining: Concepts andaTechniques ció 3ra Edición. Morgan
Kaufmann Publishers Inc., San Francisco,roCA,
i
p USA.
• A
http://www.statmethods.net/graphs/scatterplot.htmlp
a y
• i
https://cran.r-project.org/web/packages/stargazer/vignettes/stargazer.pdf
c
le n
c e
Ex
d e
tr o
e n
: C
B A
O
CA

También podría gustarte