Está en la página 1de 42

Datos / Formatos

Impresos y manuscritos
Datos / Formatos

Texto (txt, doc, odt, etc.)


Datos / Formatos

HTML, XML
Datos / Formatos

CSV, TSV, ods, xls, xlsx, etc.


Datos / Formatos

pdf
txt, odf, doc,
CSV, TSV, *SV
xls, xlsx, ods
Html, xml
Jpeg, png, tiff
gis
db
Json
geojson, osm, kml
Datos
Obtencin

Recoleccin directa (encuestas, drones,


sensores, GPS, etc.)
Copia de un dispositivo a otro
Escaneo/OCR de documentos impresos
Descarga de internet
Consulta de API
Filtraciones empresariales/institucionales
Extraccin automtizada (scraping)
Solicitud via ley de libertad de informacin
Programas
Programas / Criterios de seleccin
Programas para
trabajo con datos
Propietarios Libres / Cdigo abierto

Herramientas web
no instalables Instalables /Desktop

Dependen de conexin
a internet para funcionar No dependen de
conexin a internet
Programas
Tabula
Calc
Open Refine
Neo4j
SQLite Manager
IPython/Jupyter
RStudio
Overview
Osmtogeojson
Geojason.io
Mapbox
Orge
Turf.js
Qgis
Tabula

Tabula es una herramienta para liberar tablas


de datos atrapadas dentro de archivos PDF

Siempre ser libre y de cdigo abierto

Tomado de Acerca de Tabula (en instalacin del progama)


Tabula

CSV
TSV
JSON
ZIP (de CSV)
SCRIPT (Markup)
Tabula

PDF basado en texto


(no funciona con archivos
basados en imgenes)

CSV
TSV
JSON
ZIP (de CSV)
SCRIPT (Markup)
Tabula

SO: Mac, Windows y Linux

Ej. medios de prensa que la usan


ProPublica
The Times of London
Foreign Policy
La Nacin (Argentina)
St. Paul (MN) Pioneer Press
Tabula
SO: Mac, Windows y Linux
Proyecto en Github:
https://github.com/tabulapdf/tabula

Creada por:
Manuel Aristarn, Mike Tigas, Jeremy B. Merrill

Con apoyo de:


ProPublica,
La Nacin DATA,
Knight-Mozilla OpenNews,
The New York Times
Knight Foundation
Tabula

(Demostracin)
Calc
Calc
Bifurcado de OpenOffice en 2010

Sistemas: Linux, OS X, Windows, FreeBSD

Licencia: MPL
Calc

Capacidad: 1M x 1024 celdas

(vs Excel 1M (1.048.576 x 16384)


Calc

(Demostracin)
Open Refine

Usos:

- Limpieza de conjuntos de datos


- Conversin de un formato a otro
- Obtencin de datos de sitios web
- Enriquecimiento de conjuntos de datos
con ms datos obtenidos de Freebase
Open Refine

Originalmente desarrollado por Metaweb


Technologies, Inc. como "Freebase
Gridworks" libre desde enero 2010

Google Refine en julio 2010

OpenRefine en octubre de 2012


Open Refine
Open Refine
Formatos de entrada:
TSV, CSV, *SV,
Excel (.xls, .xlsx),
JSON,
XML,
RDF as XML,
Google Data documents
Otros formatos
disponibles mediante
extensiones
Open Refine
Formatos de salida:
Open Refine

(Demostracin)
Neo4j

Sistema de gestin de bases de datos grficas

Neo Technology, Inc. (EE.UU.-Suecia)

v 1.0 lanzada en febrero de 2010

V 2.0 lanzada en diciembre de 2013


Neo4j
Neo4j

Licencias:

Versin de comunidad - GNU General


Public License (GPL) v3.

Mdulos adicionales backup online


Affero General Public License (AGPL) v3.

Comercial
Neo4j

Tomado de Graph Databases: New opportunities for connected data,


de Ian Robinson, Jim Webber, y Emil Eifrem. OReilly Media, Inc. 2015
Neo4j

Tomado de Graph Databases: New opportunities for connected data,


de Ian Robinson, Jim Webber, y Emil Eifrem. OReilly Media, Inc. 2015
Neo4j
Neo4j

(emil:Person {name:'Emil'})
<-[:KNOWS]-(jim:Person {name:'Jim'})
-[:KNOWS]->(ian:Person {name:'Ian'})
-[:KNOWS]->(emil)

Tomado de Graph Databases: New opportunities for connected data,


de Ian Robinson, Jim Webber, y Emil Eifrem. OReilly Media, Inc. 2015
Neo4j

(Demostracin)
Overview

Herramienta para minera de textos

Desarrollada con apoyo de AP dirigida a


periodistas
Overview
Overview
RStudio

Entorno de desarrollo integrado (IDE) para R

R es un lenguaje de programacin para clculo estadstico y


creacin de grficos

Disponible para Windows, Mac, Linux


RStudio
RStudio

(Demostracin)
Jupyter Notebooks

Herramienta que permite utilizar cdigo, texto,


expresiones matemticas, grficos, e imgenes

Interaccin va navegador
Jupyter Notebooks

(Demostracin)

También podría gustarte