Está en la página 1de 45

Métodos de captura de información

Universidad Internacional de La Rioja


Encuesta previa

► ¿Has limpiado alguna vez un data-set?

► ¿Conoces qué es web-scrapping?

► ¿Conoces alguna iniciativa OpenData?

Métodos de captura 2
Agenda

► Datos, información, conocimiento

► Formatos

► Fuentes de datos

► Métricas de calidad de datos

► Limpieza de datos

► Reflexiones finales

Métodos de captura 3
Datos, información, conocimiento

Universidad Internacional de La Rioja

Métodos de captura
Datos, información, conocimiento

Comparación, Repercusión,
Conexión, Conversación

Contextualización, Categorización,
Cálculo, Corrección, Agregación

Métodos de captura 5
Datos, información, conocimiento

Procesado semántico

Minería de datos

Métodos de captura 6
Formatos

Universidad Internacional de La Rioja

Métodos de captura
Ficheros CSV

Comma Separated Values

Subject , Start Date , Start Time , End Date , End Time , All Day Event , Description , Location , Private
Final Exam , 05/12/2015 , 07:10:00 PM , 05/12/2015 , 10:00:00 PM , False , Two essay questions that will cover topics
covered throughout the semester , "Columbia , Schermerhorn 614" , True

Partial Exam , 05/11/2015 , 08:30:00 AM , 05/12/2015 , 09:00:00 AM , False ,, "Columbia , Schermerhorn 614" , True

► Ventajas ► Inconienientes
– Simple para el desarrollador – Datos con comas , saltos de
– Legible por humanos línea
– Compatible con todo – Limitado en expresividad, muy
– Flexible en cuanto a tipado plano

http://programmers.stackexchange.com/questions/47838/why-do-we-keep-using-csv

Métodos de captura 8
Ficheros JSON

Javascript Object Notation

► Ventajas
– Muy empotrable con
Javascript
– Permite referencias
– Formato limpio

► Inconienientes
– Dificultad con las comillas

http://www.secretgeek.net/json_3mins

Métodos de captura 9
Fuentes de datos

Universidad Internacional de La Rioja

Métodos de captura
► Captura manual
– Observaciones de un caso de estudio, por ejemplo

– Se suelen usar métodos que agilizan:


• Encuestas
• Contadores
• Formularios

– Normalmente no generan big data, y además suelen ser datos no


homogéneos a nos ser que el método sea estricto

Métodos de captura 11
Fuentes de datos (I)

Captura manual

► Observaciones de un caso de estudio, por ejemplo

► Se suelen usar métodos que agilizan:


– Encuestas
– Contadores
– Formularios

► Normalmente no generan big data, y además suelen ser datos no


homogéneos a nos ser que el método sea estricto

Métodos de captura 12
Fuentes de datos (II)

Integración de bases de datos

► Integración de fuentes de datos en un entorno de empresa

► Generan datos heterogéneos, que vienen de diferentes


departamentos

► Suelen generar un entorno de datos para decisiones de Business


Intelligence

Métodos de captura 13
Fuentes de datos (III)

Sensores

► Capturan datos simples del mundo físico


– (son una automatización de la captura manual)
► Datos ajenos
– Sensor de movimiento, de luz, de posición
– Lectores de huellas
– Micrófonos
► Datos propios
– Pulseras, relojes, móviles
– Quantified Self (http://quantifiedself.com/ ,
http://www.ted.com/talks/gary_wolf_the_quantified_self?languag
e=en )

Métodos de captura 14
Fuentes de datos (IV)

Logs de aplicación

► Ejemplo: servidor web


[Fri Dec 16 01:46:23 2005] [error] [client 1.2.3.4] Directory index forbidden by rule: /home/test/
[Fri Dec 16 01:54:34 2005] [error] [client 1.2.3.4] Directory index forbidden by rule: /apache/web-data/test2
[Fri Dec 16 02:25:55 2005] [error] [client 1.2.3.4] Client sent malformed Host header
[Mon Dec 19 23:02:01 2005] [error] [client 1.2.3.4] user test: authentication failure for "/~dcid/test1": Password Mismatch

► La característica principal es que se trata de eventos capturados en


forma de filas

► Los sensores son un caso concreto de logs de aplicación

Métodos de captura 15
Fuentes de datos (V)

Scrapping

► Lectura ordenada (y automatizada de un documento) extrayendo


partes relevantes, seleccionados por su ubicación en el texto.

► En web (caso más común) se denomina web scrapping


– Extensiones del navegador
• https://www.hongkiat.com/blog/web-scraping-tools/

– Librerías de programación (p.ej. Pyscrap, Casper.js)

► En texto plano, requiere un parseado completo y es costoso.

Métodos de captura 16
Fuentes de datos (VI)

OpenData

► Grandes volúmenes de datos

► No siempre en formato adecuado, normalmente requiere


transformaciones

► Iniciativas gubernamentales de transparencia


– http://datos.gob.es
– http://data.gov.uk
– http://data.gov

► Iniciativas científicas de avance del conocimiento


– www.kaggle.com
– http://www.datakind.org

Métodos de captura 17
Métricas de calidad de datos

Universidad Internacional de La Rioja

Métodos de captura
Métricas de calidad

Catálogo de
datos en crudo

Limpieza de datos
– Completitud
– Credibilidad
– Precisión
– Consistencia
– Interpretabilidad

Catálogo de
datos
procesable

Métodos de captura 19
Limpieza de datos

Universidad Internacional de La Rioja

Métodos de captura
La necesidad de limpiar los datos

► Es muy difícil conseguir un catálogo que esté limpio de origen


– Por errores en la integración de bases de datos
– Por errores humanos
– Por errores de medición

► Si los datos no son fiables, las conclusiones tampoco lo serán

Métodos de captura 21
La necesidad de limpiar los datos

► Es mejor gastar mucho tiempo en limpiar los datos,

– porque de lo contrario se gasta demasiado tiempo en un análisis


sin errores

– para poder confiar en los resultados

Métodos de captura 22
La necesidad de limpiar los datos

Did you know that Data Scientists spend 80% of their


time cleaning data and the other 20% complaining
about it?

http://www.chi2innovations.com/blog/discover-data-blog-series/how-clean-your-data-quickly-5-steps/

Métodos de captura 23
Problemas comunes

Errores ortográficos

Metodología
Metodologia
metodología
metodologia
Metodolgoia

Métodos de captura 24
Problemas comunes

Categorías duplicadas

► N/A vs NS/NC

► IT vs Information_Technology

Métodos de captura 25
Problemas comunes

Caracteres invisibles

Nombre edad Género ciudad departamento


Juan 34 M Madrid IT
Pedro 33 M Madrid Admisiones
Luis M Bogotá Formación
Jose 38 M Bogotá RRHH
Elena 37 F Bogotá RRHH
Salvador 34 M Formación

Métodos de captura 26
Problemas comunes

Datos que faltan

Nombre edad Género ciudad departamento


Juan 34 M Madrid IT
Pedro 33 M Madrid Admisiones
Luis M Bogotá Formación
Jose 38 M Bogotá RRHH
Elena 37 F Bogotá RRHH
Salvador 34 M Formación

Métodos de captura 27
Problemas comunes

Registros duplicados

Nombre edad Género ciudad departamento


Juan 34 M Madrid IT
Pedro 33 M Madrid Admisiones
Jose 38 M Bogotá RRHH
Jose 38 M Bogotá RRHH
Elena 37 F Bogotá RRHH
Salvador 34 M Formación

Métodos de captura 28
Problemas comunes

Decimales inconsistentes

Nombre edad altura


Juan 34 1,80
Pedro 33 1,76
Luis 1,76
Jose 38.0 1.90
Elena 37 1,60
Salvador 34 1.88

Métodos de captura 29
Problemas comunes

Unidades de medida inconsistentes

Nombre edad altura


Juan 34 180
Pedro 33 1,76
Luis 176
Jose 38.0 190
Elena 37 1,60
Salvador 34 188

Métodos de captura 30
Problemas comunes

Datos incoherentes o raros

Nombre edad altura


Juan 34 180
Pedro 33 1760
Luis 176
Jose 38.0 190
Elena 37 160
Salvador 9 190

Métodos de captura 31
Problemas comunes

Formatos de fecha

Nombre Fecha Nacimiento Género ciudad


Juan 21-10-1980 M Madrid
Pedro 21/10/1980 M Madrid
Luis 1980/10/21 M Bogotá
Jose 1979/05/21 M Bogotá
Elena 1987/5/01 F Bogotá
Salvador 1984/7/1 M

Métodos de captura 32
Problemas comunes

Tipos de datos

Nombre Fecha Nacimiento Altura ciudad


Juan 21-10-1980 180 Madrid
Pedro 21/10/1980 “176” Madrid
Luis 1980/10/21 176 Bogotá
Jose “1979/05/21” “190” Bogotá
Elena 1987/5/01 160 Bogotá
Salvador 1984/7/1 190

Métodos de captura 33
Algunos trucos

Haz SIEMPRE copia de seguridad de los datos antes de


comenzar la limpieza

(y comprueba que eres capaz de restaurarla)

¡No comiences sin estar seguro de que tu copia de


seguridad es correcta!

Métodos de captura 34
Algunos trucos

Por donde empezar

► Las 20 primeras filas (o un % razonable)

► Las 20 últimas filas (o un % razonable)

► 60 filas seleccionadas aleatoriamente

Métodos de captura 35
Algunos trucos

Preguntas para empezar

► ¿Hay nombres en los campos “nombre”, fechas en los campos


“fecha”, números en los campos “edad”?

► ¿Los números de teléfono tienen el prefijo bien?, ¿tienen la


cantidad de dígitos adecuada?

Métodos de captura 36
Algunos trucos

Preguntas para empezar

► Obtén los máximos y mínimos del catálogo, también en fechas,


¿son razonables?

► Ordena por orden alfabético y busca rarezas al principio y al final

► Para categorías, quédate con los valores únicos: ¿hay duplicados?,


¿son razonables?

Métodos de captura 37
Algunos trucos

Usa las herramientas adecuadas

Métodos de captura 38
Algunos trucos

Usa las herramientas adecuadas

► MUCHO CUIDADO con buscar y reemplazar

Quiero detectar, las comas mal puestas,

Quiero detectar. las comas mal puestas.

Métodos de captura 39
Algunos trucos

Convierte los tipos de datos

db.ClockTime.find().forEach(function(doc) {

doc.ClockInTime=new Date(doc.ClockInTime);

db.ClockTime.save(doc);

})

Métodos de captura 40
Algunos trucos

Usa trim() o similares

db.comments.find().forEach(function(doc) {

doc.value=trim(doc.value);

db.comments.save(doc);

})

Métodos de captura 41
Algunos trucos

Evita campos redundantes

Nombre Edad Fecha de


nacimiento

Métodos de captura 42
Reflexiones finales

Universidad Internacional de La Rioja

Métodos de captura
Reflexiones finales

► Técnicas diferentes para datos e información

► Nos debemos adaptar a los formatos que nos ofrecen

► Debemos conocer los orígenes de los datos, para una buena


integración

► Sin datos limpios, no podemos hacer un buen análisis

Métodos de captura 44
www.unir.net

También podría gustarte