Está en la página 1de 28

Mdulo

Minera de Datos
Diplomado
Por
Elizabeth Len Guzmn, Ph.D.
Profesora
Ingeniera de Sistemas
Grupo de Investigacin MIDAS

Este documento se desarroll a partir de otras fuentes que se


encuentran
citadas tanto dentro del contenido como en los espacios
reservados para
la bibliografa.
Si usted es autor de los documentos que se tomaron como
bibliografa y
considera que las referencias a su trabajo no estn adecuadamente
descritas, por favor comunquese con la profesora Elizabeth Len
Perdomo a travs del correo electrnico: eleonguz@unal.edu.co.

Agenda
1.Datos
2.Preprocesamiento
3.Anlisis Exploratorio

Datos

Atributos

Atributo es una propiedad o


caracterstica de un objeto
Ejemplos: color de ojos de
una persona, temperatura,
etc
Atributo es tambin conocido
como variable, campo, tpico,
o caracterstica
Objetos
Una coleccin de atributos
describen un objeto
Objeto tambin se conoce
como registro, punto, caso
de la muestra, entidad o
instancia

Atributos
Tid

Refund

Marital
Status

Taxable
Income

Cheat

Yes

Single

125K

No

No

Married

100K

No

No

Single

70K

No

Yes

Married

120K

No

No

Divorced

95K

Yes

No

Married

60K

No

Yes

Divorced

220K

No

No

Single

85K

Yes

No

Married

75K

No

10

No

Single

90K

Yes

10

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Atributos
Valores son nmeros o smbolos asignados a un
atributo
Mismo atributo puede asignarsele diferentes medidas
Ejemplo: altura se puede medir en pies o metros

Los diferentes atributos se pueden asignar a un mismo


conjunto de valores (dominio)

Ejemplo: valores de los atributos de identidad y la edad


son nmeros enteros, pero las propiedades de los
valores de los atributos pueden ser diferentes:
ID
no tiene lmite
edad tiene un valor mximo y mnimo
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Tipos de Atributos

Nominal
Ejemplos: nmeros de identificacin, color de ojos, cdigos
postales
Ordinal
Ejemplos: las clasificaciones (por ejemplo, el sabor de las
patatas fritas en una escala de 1-10), los grados, la altura en
{alto, bajo a medio,}
Intervalo
Ejemplos: las fechas del calendario, las temperaturas en
grados Celsius o Fahrenheit.
Radio (Proporcin)
Ejemplos: temperatura en grados Kelvin, la duracin, hora,
recuentos
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Propiedades de los valores de los


atributos
El tipo de un atributo depende de las siguientes
propiedades:
Distincin: = !=
Orden: <>
Suma: + Multiplicacin: * /
Nominal: distincin
Ordinal: claridad y orden
Intervalo: distincin, orden y adicin
Radio: las 4 propiedades
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Atributo
Tipo

descripcin

Ejemplos

Operacin

Nominal

Los valores de un atributo nominal


son slo nombres diferentes. Los
atributos nominales proporcionan
informacin slo lo suficiente para
distinguir un objeto de otro. (=, !=)

cdigos postales,
nmeros de
identificacin de
empleados, color de
ojos, el sexo:
{hombre, mujer}

moda, la
correlacin de la
entropa, la
contingencia

Ordinal

Los valores de un atributo


ordinal proporcionan
informacin para ordenar
objetos. (<,>)

Edades (nio,
adoslecente,
adulto, mayor)
notas, nmeros de
la calle

Mediana,
percentiles,
rango de
correlacin

Interval

Para los atributos de intervalo,


las diferencias entre los
valores son significativos.
Uuna unidad de medida existe.
{+, -}

las fechas del


calendario, la
temperatura en
grados Celsius o
Fahrenheit

media, desviacin
estndar, la
correlacin de
Pearson, prueba
de t y F

Ratio

Para las variables de relacin,


tanto las diferencias y las
relaciones son significativas.
(*, /)

temperatura en
grados Kelvin, las
cantidades
monetarias, cuenta,
edad, masa,
longitud, la corriente
elctrica

media
geomtrica,
media armnica,
la variacin
porcentual
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Atributos discretos y continuos

Discreto
Tiene slo un conjunto finito o infinito numerable de valores
Ejemplos: cdigos postales, cuentas, o el conjunto de las
palabras en una coleccin de documentos
A menudo representado como variables enteras.
Nota: Los atributos binarios son un caso especial de los
atributos discretos

Continuo
Tiene los nmeros reales como valores de atributos
Ejemplos: temperatura, altura o peso.
Prcticamente, los valores reales slo se puede medir y
representar mediante un nmero finito de dgitos.
Los atributos continuos se suelen representar como variables
de punto flotante.
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Los tipos de conjuntos de datos

Registro
Matriz de datos
Datos del documentos (Espacio vectorial)
Datos transacionales

Grfico
World Wide Web
Estructuras moleculares

Ordenado
Datos espaciales
Datos temporales
Datos secuenciales
Datos de secuencia gentica
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Caractersticas importantes de datos


estructurados
Dimensionalidad
La maldicin de la dimensionalidad
Escasez
Slo cuenta con la presencia
Resolucin
Patrones dependen de la escala

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Conjunto de Datos: Registro


Coleccin de registros, cada uno de los cuales
consta de un conjunto fijo de atributos
Tid Refund Marital
Status

Taxable
Income Cheat

Yes

Single

125K

No

No

Married

100K

No

No

Single

70K

No

Yes

Married

120K

No

No

Divorced 95K

Yes

No

Married

No

Yes

Divorced 220K

No

No

Single

85K

Yes

No

Married

75K

No

10

No

Single

90K

Yes

60K

10

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Conjunto de Datos: Matrix

Si los objetos de datos tienen el mismo conjunto fijo de atributos


numricos, y despus los objetos de datos se puede considerar
como puntos en un espacio multidimensional, donde cada
dimensin representa un atributo distinto
Tal conjunto de datos puede ser representado por una matriz m por
n, donde hay m filas, una para cada objeto, y n columnas, una para
cada atributo

Deshacer cambios

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Conjunto de Datos: Documentos


Cada documento se convierte en un Vector de trminos,
cada trmino es un componente (atributo) del vector,
el valor de cada componente es el nmero de veces que el
trmino correspondiente se produce en el documento.

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Conjunto de Datos: Transaccin


Un tipo especial de datos de registro, donde
cada registro (transaccin) consiste en un conjunto de
elementos.

TID

Items

Bread, Coke, Milk

2
3
4
5

Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Conjunto de Datos: Grafos

Ejemplos: grfico genrico y enlaces HTML

2
1

5
2
5

<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Conjunto de Datos: Moleculas

Molcula de benceno: C6H6

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Conjunto de Datos: secuencia

Las secuencias de las operaciones


Items/Events

An element of
the sequence
Tan,Steinbach, Kumar

Introduction to Data Mining

Minera
de Datos
- 19
Datos
Ing.
Elizabeth
Len
4/18/2004
Guzmn PH.D

Conjunto de Datos: secuencias

Los datos de la secuencia genmica


GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG

Tan,Steinbach, Kumar

Introduction to Data Mining

Minera
de Datos
- 20
Datos
Ing.
Elizabeth
Len
4/18/2004
Guzmn PH.D

Conjunto de Datos:

Espacio-temporales de datos

Temperatura
media mensual
de la tierra y el
mar

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Calidad de los datos

Qu tipos de problemas de calidad de


datos?
Cmo podemos detectar problemas con los
datos?
Qu podemos hacer acerca de estos
problemas?
Ejemplos de problemas de calidad de datos:
El ruido y los valores atpicos
los valores perdidos
duplicar los datos
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Ruido

El ruido se refiere a la modificacin de los valores


originales
Ejemplos: la distorsin de la voz de una persona cuando
se habla por un telfono pobres y "nieve" en la pantalla de
la televisin

Two Sine Waves

Two Sine Waves + Noise


Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Valores atipicos Outliers

Los valores extremos son objetos con caractersticas que


son considerablemente diferentes que la mayora de los
otros objetos en el conjunto de datos

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Valores perdidos

La informacin no se recoge
(Ejemplo, las personas se pueden negar a dar su edad y
peso)
Los atributos no pueden ser aplicables a todos los casos
(Ejemplo, el ingreso anual no es aplicable a los nios)
Manejo de los valores perdidos
Eliminar los objeto
Estimar los valores perdidos
Ignorar el valor perdido durante el anlisis
Remplazar con posibles valores (ponderados por sus
probabilidades)

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Datos Duplicados

Conjunto de datos pueden incluir objetos de


datos que son duplicados,
procedentes de fuentes heterogeneas
Ejemplos:
La misma persona con mltiples
direcciones de email
Limpieza
Proceso de lidiar con los problemas de
datos duplicados
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Datos Duplicados

Conjunto de datos pueden incluir objetos de


datos que son duplicados,
procedentes de fuentes heterogeneas
Ejemplos:
La misma persona con mltiples
direcciones de email
Limpieza
Proceso de lidiar con los problemas de
datos duplicados
Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

Bibliografia
Introduction to Data Mining. Tan, Steinbach, Kumar. 2006

Minera Ing.
de Datos
- Datos
Elizabeth
Len
Guzmn PH.D

También podría gustarte