Métodos de captura 2
Agenda
► Formatos
► Fuentes de datos
► Limpieza de datos
► Reflexiones finales
Métodos de captura 3
Datos, información, conocimiento
Métodos de captura
Datos, información, conocimiento
Comparación, Repercusión,
Conexión, Conversación
Contextualización, Categorización,
Cálculo, Corrección, Agregación
Métodos de captura 5
Datos, información, conocimiento
Procesado semántico
Minería de datos
Métodos de captura 6
Formatos
Métodos de captura
Ficheros CSV
Subject , Start Date , Start Time , End Date , End Time , All Day Event , Description , Location , Private
Final Exam , 05/12/2015 , 07:10:00 PM , 05/12/2015 , 10:00:00 PM , False , Two essay questions that will cover topics
covered throughout the semester , "Columbia , Schermerhorn 614" , True
Partial Exam , 05/11/2015 , 08:30:00 AM , 05/12/2015 , 09:00:00 AM , False ,, "Columbia , Schermerhorn 614" , True
► Ventajas ► Inconienientes
– Simple para el desarrollador – Datos con comas , saltos de
– Legible por humanos línea
– Compatible con todo – Limitado en expresividad, muy
– Flexible en cuanto a tipado plano
http://programmers.stackexchange.com/questions/47838/why-do-we-keep-using-csv
Métodos de captura 8
Ficheros JSON
► Ventajas
– Muy empotrable con
Javascript
– Permite referencias
– Formato limpio
► Inconienientes
– Dificultad con las comillas
http://www.secretgeek.net/json_3mins
Métodos de captura 9
Fuentes de datos
Métodos de captura
► Captura manual
– Observaciones de un caso de estudio, por ejemplo
Métodos de captura 11
Fuentes de datos (I)
Captura manual
Métodos de captura 12
Fuentes de datos (II)
Métodos de captura 13
Fuentes de datos (III)
Sensores
Métodos de captura 14
Fuentes de datos (IV)
Logs de aplicación
Métodos de captura 15
Fuentes de datos (V)
Scrapping
Métodos de captura 16
Fuentes de datos (VI)
OpenData
Métodos de captura 17
Métricas de calidad de datos
Métodos de captura
Métricas de calidad
Catálogo de
datos en crudo
Limpieza de datos
– Completitud
– Credibilidad
– Precisión
– Consistencia
– Interpretabilidad
Catálogo de
datos
procesable
Métodos de captura 19
Limpieza de datos
Métodos de captura
La necesidad de limpiar los datos
Métodos de captura 21
La necesidad de limpiar los datos
Métodos de captura 22
La necesidad de limpiar los datos
http://www.chi2innovations.com/blog/discover-data-blog-series/how-clean-your-data-quickly-5-steps/
Métodos de captura 23
Problemas comunes
Errores ortográficos
Metodología
Metodologia
metodología
metodologia
Metodolgoia
Métodos de captura 24
Problemas comunes
Categorías duplicadas
► N/A vs NS/NC
► IT vs Information_Technology
Métodos de captura 25
Problemas comunes
Caracteres invisibles
Métodos de captura 26
Problemas comunes
Métodos de captura 27
Problemas comunes
Registros duplicados
Métodos de captura 28
Problemas comunes
Decimales inconsistentes
Métodos de captura 29
Problemas comunes
Métodos de captura 30
Problemas comunes
Métodos de captura 31
Problemas comunes
Formatos de fecha
Métodos de captura 32
Problemas comunes
Tipos de datos
Métodos de captura 33
Algunos trucos
Métodos de captura 34
Algunos trucos
Métodos de captura 35
Algunos trucos
Métodos de captura 36
Algunos trucos
Métodos de captura 37
Algunos trucos
Métodos de captura 38
Algunos trucos
Métodos de captura 39
Algunos trucos
db.ClockTime.find().forEach(function(doc) {
doc.ClockInTime=new Date(doc.ClockInTime);
db.ClockTime.save(doc);
})
Métodos de captura 40
Algunos trucos
db.comments.find().forEach(function(doc) {
doc.value=trim(doc.value);
db.comments.save(doc);
})
Métodos de captura 41
Algunos trucos
Métodos de captura 42
Reflexiones finales
Métodos de captura
Reflexiones finales
Métodos de captura 44
www.unir.net