Está en la página 1de 33

Riqueza de los datos

Aspectos a tener en cuenta

• El tipo de dato

• La calidad de los datos

• Relaciones en los datos (similitud o distancia)


Conceptos relacionados
• Atributo: característica básica de un objeto
(variable, característica, campo, dimensión)

• Objeto de datos: se describe por varios atributos


(record, point, vector, pattern, event, case,
sample, observation, entity)

• Dataset: colección de objetos de datos


Atributos
• Una propiedad o característica de un objeto que puede variar en el tiempo
o de un objeto a otro
• Para describir el objeto se asignan valores a los atributos
• Los valores son números o símbolos
• Un atributo se puede mapear con distintos valores ej. Su altura en pies o
la altura en metros
• Escala de medida: regla (función) que asocia un valor numérico o
simbólico como atributo de un objeto
• Los atributos tienen propiedades.
– Ej. La edad de una persona tiene un mínimo y un máximo; y se puede obtener el
promedio de las edades de un grupo de personas. No es así para los
números de identificación.
Tipos de Atributo
• Cualitativos.
– Conjunto de valores finito o contable
– Categóricos, discretos (número de valores finito o
contable)
– Clasificados en:
• Nominales.
• Ordinales.
Tipos de Atributo
• Cuantitativos.
– Los valores del atributo son números reales
– Números continuos (números reales)
– Clasificados en:
• Intervalo
• Razón (Ratio) – Define un punto cero
Propiedades de los atributos
Tipos de Atributo

Ejemplo: Determinar a qué tipo de atributo los


siguientes casos:
• Número de la camiseta de un futbolista.
• Peso de una persona.
• Número de puesto ocupado por un estudiante según su promedio.
• Valoración del riesgo en un proceso.
• Calificación del nivel de satisfacción de un cliente.
• Ingresos mensuales de los habitantes de una población.
• Preferencias musicales de un grupo de estudiantes.
• Registro de ventas de una cadena de supermercados en un período de tiempo.
• Valoración de las prioridades de un equipo empresarial.
Tipos de Data Set
• Orientados a registros
– Cada objeto se representa con un registro que tiene una
cantidad de atributos fija.
– Archivos planos, bases de datos relacionales
• Orientados a grafos
– Ej. Modelo de relaciones y gustos de personas
• Ordenados
– Atributos con relaciones de orden en tiempo o espacio
– Ej. Nivel de dioxido de carbono en la atmosfera durante los
últimos años
Orientados a registros
• Matriz de datos
– Todos los atributos son numéricos
– Se puede transformar/manipular con operaciones
de matrices
Orientados a registros
Orientados a grafos

• Relaciones entre objetos.


Ordenados

• Datos en secuencia
– Ejemplo: información genética de un organismo
Ordenados

• Datos temporales
Ordenados

• Datos espaciales y espacio-temporales


Características de un Dataset
• Dimensionalidad: Número de atributos de los
objetos del dataset.

• Dispersión: Atributos asimétricos

• Resolución: Los patrones pueden perderse (baja


resolución) o no ser identificables (alta
resolución)
Calidad en los datos
• Generalmente DM se aplica sobre datos
recopilados con otros propósitos.

• Problemas de calidad:
– Ruido
– Datos atípicos (outliers)
– Valores faltantes
– Valores inconsistentes
– Datos duplicados
Calidad en los datos
• La calidad en el proceso de toma de datos se
puede estimar con las siguientes medidas:
– Precisión (presicion)
• Desviación estándar del conjunto de valores.
– Sesgo (bias)
• Diferencia entre la media y el valor real
Aspectos a tener en cuenta
• Oportunidad
– Datos que se desactualizan rápidamente
– Ej. comportamiento de compras de los clientes
• Relevancia
– Tener la información necesaria para la aplicación
– Sesgo de muestreo: la muestra no contiene diferentes tipos de objetos
en la proporción en que ellos ocurren en la población
• Conocer los datos
– Documentación
– Tipos de característica, precisión del dato, escala de medida, origen
del dato, atributos fuertemente relacionados
Medidas de similitud y disimilitud
• Usadas por varias técnicas de minería de
datos (clustering,nearest neighbor, anomaly
detection)

• Algunas técnicas realizan el análisis sobre un


espacio de similitudes (no usan los datos
originales)
• Proximidad: se refiere a similitud o disimilitud
Medidas de similitud y disimilitud
• Similitud
– Medida numérica del grado en que dos objetos se parecen
– Valor alto = mayor parecido
– Usualmente: valor no negativo, 0 sin similitud, 1 similitud completa

• Disimilitud
– Medida numérica del grado en que dos objetos son diferentes
– Valor bajo = mayor parecido
– Intervalo [0,1], [0,∞] (distancia)
Medidas de similitud y disimilitud

p y q son los valores de los atributos de los dos objetos


Distancia entre objetos

• Valoración de la disimilitud en términos


espaciales
• Cada objeto se representa como un punto en
el espacio y la disimilitud, como la distancia
entre ellos
• Distancia Euclidiana:
Distancia Euclidiana
Distancia de Minkowski

• Es una generalización de la distancia Euclidiana:

• Donde r es un parámetro, n es el numero de


dimensiones (atributos) y pk , qk son los k-ésimos
atributos de los objetos p y q.
Distancia de Minkowski

• Si r =2, entonces es Euclidiana – L2 norm

• Si r=∞, se calcula la máxima diferencia entre


los vectores – L∞ norm
Propiedades de las distancias

• No negatividad
– d(x,y) ≥ 0 para todo x e y
– d(x,y) = 0 si y sólo si x = y
• Simetría
– d(x,y) = d(y,x)
• Desigualdad triangular
– d(x,z) ≤ d(y,x) + d(y,z) para todo x, y, z
Medidas de Similitud
• Simple matching coefficient (SMC)
– SMC = número de coincidencias / número de atributos
SCM = (M11 + M00) / (M01 + M10 + M11 + M00)
M01 = el número de atributos donde p es 0 y q es 1
M10 = el número de atributos donde p es 1 y q es 0
M00 = el número de atributos donde p es 0 y q es 0
M11 = el número de atributos donde p es 1 y q es 1

• Ej. Estudiantes que dieron respuestas muy similares en


una prueba con preguntas Falso / Verdadero
Medidas de Similitud

• Coeficiente de Jaccard (J)


J = M11 / (M01 + M10 + M11)
M01 = el número de atributos donde p es 0 y q es 1
M10 = el número de atributos donde p es 1 y q es 0
M11 = el número de atributos donde p es 1 y q es 1

– Descarta M00
– Ej. Análisis de canasta de mercado usando matriz
de transacciones
Medidas de Similitud

• Ejemplo: Para el siguiente par de objetos,


comparar la similitud obtenida por SCM versus
la obtenida por Jaccard:
p=10000010000100
q=00000010010010
Similitud Coseno

• Si d1 y d2 son dos vectores que representan


dos objetos, entonces:
cos(d1,d2) = (d1 . d2) / ||d1|| ||d2||
Donde:
– . es el producto punto
– ||d1|| ||d2|| es la magnitud del vector
– ||d|| =
Preguntas
Referencias

• Gloria Inés Álvarez y María Constanza Pabón.


Curso de Minería de Datos Pontificia
Universidad Javeriana Cali. 2017

• M. Pérez. Minería de datos a través de


ejemplos. Alfaomega 2017.

También podría gustarte