Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• El tipo de dato
• Datos en secuencia
– Ejemplo: información genética de un organismo
Ordenados
• Datos temporales
Ordenados
• Problemas de calidad:
– Ruido
– Datos atípicos (outliers)
– Valores faltantes
– Valores inconsistentes
– Datos duplicados
Calidad en los datos
• La calidad en el proceso de toma de datos se
puede estimar con las siguientes medidas:
– Precisión (presicion)
• Desviación estándar del conjunto de valores.
– Sesgo (bias)
• Diferencia entre la media y el valor real
Aspectos a tener en cuenta
• Oportunidad
– Datos que se desactualizan rápidamente
– Ej. comportamiento de compras de los clientes
• Relevancia
– Tener la información necesaria para la aplicación
– Sesgo de muestreo: la muestra no contiene diferentes tipos de objetos
en la proporción en que ellos ocurren en la población
• Conocer los datos
– Documentación
– Tipos de característica, precisión del dato, escala de medida, origen
del dato, atributos fuertemente relacionados
Medidas de similitud y disimilitud
• Usadas por varias técnicas de minería de
datos (clustering,nearest neighbor, anomaly
detection)
• Disimilitud
– Medida numérica del grado en que dos objetos son diferentes
– Valor bajo = mayor parecido
– Intervalo [0,1], [0,∞] (distancia)
Medidas de similitud y disimilitud
• No negatividad
– d(x,y) ≥ 0 para todo x e y
– d(x,y) = 0 si y sólo si x = y
• Simetría
– d(x,y) = d(y,x)
• Desigualdad triangular
– d(x,z) ≤ d(y,x) + d(y,z) para todo x, y, z
Medidas de Similitud
• Simple matching coefficient (SMC)
– SMC = número de coincidencias / número de atributos
SCM = (M11 + M00) / (M01 + M10 + M11 + M00)
M01 = el número de atributos donde p es 0 y q es 1
M10 = el número de atributos donde p es 1 y q es 0
M00 = el número de atributos donde p es 0 y q es 0
M11 = el número de atributos donde p es 1 y q es 1
– Descarta M00
– Ej. Análisis de canasta de mercado usando matriz
de transacciones
Medidas de Similitud