Está en la página 1de 5

Ejercicios Taller Periodismo de Datos

Datos abiertos, cerrados y extracción: modelos básicos usando Excel


Fellowship Sandra Crucianelli

scrucianelli@icfj.org

Ejemplo Datos Cerrados

http://www.mosp.gba.gov.ar/informacion/tvr/157_%20tablas%20Febrero%202012.
pdf

Precios de contratos de obra pública: es el PDF de una imagen: al descargar el


documento en la PC y abrirlo con Adobe Profesional, la extracción de datos no
funciona. Las tablas son imágenes incrustadas en el texto.

Se requiere programa profesional OCR para la extracción de los datos o asistencia


de un programador.

Para solo texto

http://www.cnc.gov.ar/NORMATIVA/SC0117_11.pdf

Descargar PDF en la PC, extraer el texto usando herramienta gratuita:

http://www.free-ocr.com/ (no recupera tablas, solo texto)

Ejemplo datos semi abiertos vía exportación Adobe Profesional

www.vivienda.gov.ar

Construcción de Viviendas: Copiar dirección del enlace con el botón derecho del
mouse del primer documento (PDFREACT I yII)

1
Descarga en formato ZIP (comprimido), se abre en PDF y se exporta desplegando
“more formats” en formato HTML 3.2.

De allí se copia y pega en Excel.

Cita de la fuente: ¿Cuál es la dirección del enlace? = botón derecho, copiar


dirección del enlace para insertar en hipertexto:
http://www.vivienda.gov.ar/reactivacion/avance/PFREACT2_300412.zip

Usando Zamzar: conversor de formatos

www.zamzar.com

Datos: www.vivienda.gov.ar

Construcción de Viviendas:

Descargar último documento CARITAS 300-412 en formato ZIP (comprimido) a


PDF en la PC

Subir el archivo seleccionado (no se ve en el cuadro de texto, pero lo tomó),


seleccionar formato xls y enviar a email. Notificación positiva indica: File upload
complete Your file has succesfully finished uploading !

Revisar email y descargar el link.

Cita de la fuente: ¿Cuál es la dirección del enlace? = botón derecho, copiar


dirección del enlace para insertar en hipertexto:
http://www.vivienda.gov.ar/caritas/avance/CARITAS_300412.zip

Ejemplo documento semi abierto

http://www.dnrpa.gov.ar/valuacion/informacion/03-01-2012.pdf

Abrir Excel

Copiar + Pegar

La información aparece sin estructura

Ir a la pestaña DATOS + TEXTO EN COLUMNAS

2
DELIMITADOS = siguiente

TABULACION + COMA + ESPACIO = siguiente

La información desestructurada, vuelve a tomar estructura

GENERAL

Finalizar

Copiar y pegar: pero borrando formato

http://www.anses.gov.ar/trabajadores-actividad/asignaciones-
familiares/montos.php

Copiar y pegar en Excel copia formato.

A la derecha, borrar formatos

Un caso de tabla con variables al revés

http://www.garrahan.gov.ar/index.php/hospital/indicadores-de-produccion

Copiar + pegar + invertir orden = sumar totales

Promedio fila

Minimo número

Máximo número

Cálculo de variaciones Porcentuales

Beneficiarios del seguro de desempleo por provincia. Total del país. A diciembre
de 2006-2010 y junio de 2011

Premisa: ¿Cuál fue la provincia que mayor aumento porcentual registró?

De esto:

http://www.indec.gov.ar/nuevaweb/cuadros/4/c030406.xls

3
a esto:

https://docs.google.com/open?id=0BwX1zNUFm5hcQUM4TFdVZnBBb1U

¿Cómo se hace?

Descargar documento + centrar información

Premisa: Analizar variación 2010 con relación al 2006

Limpiar el documento: eliminar columnas 2007 al 2009 y parcial 2011

Fórmula: =Valor final/Valor inicial – 1 %

Se copia el resultado de la primera celda

Luego seleccionar el resto y pegar.

Extracción de datos usando Junar

http://www.junar.com/

Extracción desde una URL a Excel

URL con datos a extraer:

http://www.anses.gov.ar/trabajadores-actividad/asignaciones-familiares/montos.php

Pruebe Junar Gratis

Login

A la izquierda, en verde: clic en Collect Dataset

Solapa: a Website Page

Completar formulario

Save as Draft (guardar como borrador)

Tildar el archivo subido

Create Data View

Click sobre la tabla que quiero extraer, hasta que se pinte de color naranja

4
Next

Save Draft (guardar borrador)

También podría gustarte