Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Esta Di Stica
Esta Di Stica
Abstracto
Introducción
Se espera que la llegada de grandes volúmenes de datos a tener un gran impacto en las
organizaciones para las que la producción y el análisis de datos e información es negocio
principal. Institutos Nacionales de Estadística (INE) son tales organizaciones. Son los
responsables de las estadísticas oficiales, los cuales son muy usadas por los políticos y
otros actores importantes de la sociedad. Podría decirse que el camino INE ocupan
grandes volúmenes de datos al final tendrá consecuencias para toda la sociedad.
Las estadísticas oficiales desempeñan un papel clave en la sociedad moderna. INE tienen
por objeto proporcionar información sobre todos los aspectos importantes de la sociedad
de una manera imparcial, y de acuerdo con los más altos estándares científicos. La
información que satisface estas exigencias se utiliza en la discusión pública, constituye la
base de las decisiones de política, es necesario para el uso del negocio, alimenta la
investigación científica, se utiliza en la educación y así sucesivamente. Las estadísticas
oficiales sólo pueden satisfacer esta demanda si se puede confiar en ellos. En las
sociedades avanzadas, las estadísticas oficiales a menudo se da por sentado, pero cuando
no existe confianza, la sociedad no alcanza un pilar importante para el debate informado y
toma de decisiones basadas en la evidencia.
Los estándares profesionales desempeñan un papel vital en la obtención de la confianza
en las estadísticas oficiales. Los estadísticos tienen su propio código de ética ( Naciones
Unidas, 2013 ), que incluye un respeto absoluto a la confidencialidad de los datos
proporcionados por los encuestados. Los datos recogidos con fines estadísticos no pueden
ser revelados y nunca podrán utilizarse para otros fines. A nivel de la Unión Europea (UE),
las normas de calidad han sido codificados en el llamado Código de Prácticas de
Estadística ( Eurostat, 2014 ). La confianza ganada mediante el respeto de las normas
profesionales es también la base de una posición privilegiada de los INE en materia de
adquisición de datos. Muchos institutos nacionales de estadística tienen acceso por la ley
a las fuentes de datos del gobierno y tienen el poder para recopilar datos de otros
partidos, a menudo sin tener que pagar al proveedor. Por otra parte, con fines
estadísticos, muchos INE se les permite vincular los datos de diferentes fuentes.
Teniendo en cuenta este papel durante INE, ¿qué significa la aparición de grandes
volúmenes de datos para las estadísticas oficiales? Esta cuestión se aborda en esta
contribución, pero, como veremos, hay muchas razones por las que el papel de los
institutos nacionales de estadística en la era de los grandes datos no está "dado". Con el
fin de mantener una base sólida y confiable de información para la sociedad en quien
confiar, que argumentan que los INE puede tener que adaptarse a la evolución del
contexto en el que operan.
En relación con la información, la sociedad está cambiando rápidamente. Por ejemplo, hay
un enorme crecimiento de los datos que se recojan y se registran en miles de formas: a
partir de datos sensoriales satélite y, a la red social y los datos transaccionales y así
sucesivamente. La disponibilidad de datos también se está expandiendo y convirtiéndose
en la base de modelos de negocio. Información es cada vez más visual e interactivo.
tecnología de la comunicación y la información se está convirtiendo cada vez más
avanzada, el procesamiento de la capacidad de almacenamiento de energía y datos está
aumentando de forma continua, soluciones en la nube están surgiendo y las aplicaciones
son cada vez más inteligentes. Estos desarrollos han sido descritos en mayor profundidad
y detalle por muchos observadores, como Mayer-Schönberger y Cukier (2013) .
Estos cambios tienen muchos impactos en las sociedades. Por un lado, el aumento de la
recogida de datos y las posibilidades comerciales y sociales de influenciar la opinión
pública el uso de datos sobre la privacidad. A algunos les preocupa si se vuelven a utilizar
sus datos sin su consentimiento, por razones comerciales o de otro tipo. Otros no les
importa tanto, si esto significa que los servicios se proporcionan de forma gratuita.
Muchas personas comparten voluntariamente información en las redes sociales sin
preocuparse por la privacidad. La gente tiene menos paciencia para rellenar los
cuestionarios, sobre todo si los datos solicitados se han registrado ya en otro lugar. Se
espera que las agencias del gobierno a ser más dispuestos a proporcionar datos. Los
gobiernos han reaccionado a los cambios mediante la formulación de políticas sobre, por
ejemplo, los datos abiertos y la disponibilidad de la información del sector público,
también a nivel de la UE ( Unión Europea, 2013 ).
¿Cómo han respondido los INE? Hasta alrededor de la década de 1980, los datos fueron
esencialmente un bien escaso con un precio muy alto. Antes de la era de los grandes
volúmenes de datos, la información no estaba disponible, pero tuvo que ser recogidos
para un propósito particular. información estadística oficial sobre la base de datos de la
encuesta tenía un valor único: simplemente no había ninguna alternativa. Por ejemplo, los
datos del censo de población, recoge puerta a puerta, fue inmensamente valioso para los
responsables políticos, investigadores y otros usuarios. En las últimas décadas, los datos
recogidos por las administraciones públicas se han vuelto cada vez más accesible para
fines estadísticos, estimulados en parte por la evolución de TI. recopilación de datos
estadísticos por medio de cuestionarios se complementó y cada vez más reemplazado por
fuentes de datos administrativos. Hoy en día, algunos países no llevan a cabo extensos
estudios de población más pero compilar las estadísticas del censo mediante la
combinación y el análisis de datos de varias fuentes administrativas. INE se hizo más
integrada en la arquitectura de la información del gobierno. De esta manera, la carga
sobre las personas y las empresas para responder a los cuestionarios se redujo
considerablemente.
Sin embargo, los grandes datos está cambiando el entorno del INE una vez más como la
escasez de datos se está convirtiendo en un problema menor. Por INE, hay beneficios
potenciales como nuevas fuentes de datos y las oportunidades surgen. Pero también hace
que los productos de los INE potencialmente menos único, ya que otros jugadores en el
mercado de la información pueden empezar - y en realidad han comenzado -. Elaboración
de estadísticas, por ejemplo, sobre la inflación, tales como el Proyecto Billion precios del
MIT 2
Veamos primero a las oportunidades de los INE ofrecidos por grandes volúmenes de
datos. Hay un enorme potencial para nuevas estadísticas ( Daas et al., 2013 ). Los datos de
localización para teléfonos móviles podrían ser utilizados para las estadísticas de
población durante el día y el turismo casi instantáneas ( De Jonge et al., 2012 ). mensajes
de los medios sociales podrían ser utilizados para varios tipos de indicadores, como un
indicador temprano de la confianza del consumidor. Las cifras de inflación podrían
derivarse de información sobre los precios en la web, y así sucesivamente. Además, las
fuentes de datos grandes se pueden utilizar para sustituir o complementar las fuentes de
datos más tradicionales, como los datos administrativos cuestionario y. Por ejemplo, la
recopilación de datos mediante un cuestionario sobre el uso del camino puede no ser
necesario si los datos más detallados de bucle de tráfico, es decir, los datos de los
sensores en las carreteras, se disponga ( Struijs y Daas, 2013 ).
Sin embargo, a fin de realizar estas oportunidades, una serie de desafíos se han de
superar, que son generalmente aplicables a todos los usos de grandes volúmenes de datos
como una fuente de información y como tales no son exclusivos de los INE.
Retos y problemas
Por INE, una cuestión clave se refiere a la forma en la calidad de las estadísticas oficiales se
puede garantizar si se basan en grandes volúmenes de datos. Para hacer frente a esto,
nuevas metodologías y formas de interpretación deben ser desarrollados. Tomemos por
ejemplo los teléfonos móviles. Si se utilizan datos de proveedores de telefonía móvil para
las estadísticas sobre, por ejemplo, la movilidad de la población, el estadístico tiene que
interpretar los registros detallados de llamadas desde teléfonos anónimos individuales y
obtener información sobre el comportamiento de las personas que los utilizan. Eso
significa tratar con el hecho de que la actividad medible teléfono puede variar durante el
día, algunas personas pueden tener varios teléfonos móviles o ninguno, los niños llevar a
los teléfonos móviles que se registran a sus padres, los teléfonos pueden ser desactivadas,
etc. Para los medios de comunicación social, aun más preguntas surgen como quién es el
autor de un mensaje. Mientras que algunos remedios metodológicas ya se han
desarrollado hasta cierto punto, como se deriva del género y la edad de un usuario de las
redes sociales por la correlación conocida entre el sexo, la edad y la elección de las
palabras, éstas siguen planteando un desafío, como se explicó anteriormente.
Otra cuestión es la posible volatilidad de las fuentes de datos grandes, dado el hecho de
que las estadísticas oficiales a menudo toman la forma de análisis de series de tiempo.
Para muchos usuarios, la continuidad de estas series es de la mayor importancia. Todavía
otro problema es las habilidades requeridas para hacer frente a grandes volúmenes de
datos. los científicos modernos de datos pueden estar mejor equipados que los
estadísticos de formación tradicional. Probablemente más importante es la necesidad de
un modo de pensar que el uso de grandes volúmenes de datos puede implicar un cambio
de paradigma, que incluye un aumento de la utilización y modificación de diferentes
técnicas de modelado ( Daas y pone, 2014A ; Struijs y Daas, 2013 ).
Colaboración
Frente a estos desafíos, INE han reconocido la necesidad de no trabajar de manera aislada
sino colaborar entre sí y con otras personas fuera de la comunidad de las estadísticas
oficiales. Esta colaboración es a menudo exploratoria y puede ser el fin de compartir
conocimientos y experiencias, pero ya hay ejemplos de colaboración que vayan más allá.
Desde la perspectiva de los INE, varios tipos de socios son de interés. En primer lugar, los
proveedores potenciales de grandes volúmenes de datos son socios esenciales: si no se
conceden acceso a sus datos, la historia ha terminado antes de que comience. Los
propietarios de datos tienen sus propias preocupaciones y, al igual que los INE, que están
sujetos a las reglas de privacidad. Esto puede complicar la colaboración, incluso si tienen
una actitud positiva y enfoque. Pero puesto que las fuentes de datos grandes no están
diseñados para su uso estadístico, tal colaboración es también esencial con el fin de
obtener un buen conocimiento de la procedencia de tales fuentes. Además, para la
producción estadística, puede ser más eficiente tener datos procesados en el sitio de
recogida y almacenamiento. En tales casos, el supuesto de que los datos se pueden
proporcionar para libre puede ya no tienen. Por otra parte, los estadísticos también tienen
mucho que ofrecer, como proporcionar información analítica que pueden ayudar a los
propietarios de datos a entender sus datos mejor. Hacer análisis estadísticos complejos es
el negocio central de institutos nacionales de estadística, pero no para, por ejemplo, una
empresa de telefonía móvil. En estas y otras maneras, la relación con los proveedores de
datos podría convertirse en verdaderas asociaciones. Por ejemplo, un papel específico que
los INE podría desempeñar es el de un tercero de confianza. En un mercado competitivo,
los competidores serán reacios a compartir datos confidenciales entre sí. Pero podrían
estar dispuestos a compartirlo con un ISN que recopila información estadística que es
beneficioso para todos.
Por otra parte, hay muchos socios comerciales con los que podrían colaborar INE. Google
y Facebook son dos ejemplos para los que grandes volúmenes de datos constituye el
núcleo de su modelo de negocio. Sus conocimientos y los datos a los que tengan acceso
pueden ser muy relevantes para los INE. Las empresas de TI también poseen
conocimientos relevantes en el procesamiento de grandes volúmenes de datos y el
almacenamiento, la seguridad, el procesamiento de nubes, etc. Además de la prestación
de servicios de pago, la colaboración puede ser de su interés, con el fin de obtener
conocimientos estadísticos y para la evaluación comparativa o la validación de sus
productos de información .
Desde hace ya algún tiempo, grandes volúmenes de datos ha sido un tema importante
para la UNECE, la Comisión Económica de las Naciones Unidas para Europa. La
colaboración a ese nivel resultó en un documento general sobre las implicaciones de
grandes volúmenes de datos para las estadísticas oficiales ( UNECE, 2013A ). Se han
celebrado seminarios, facilitando el intercambio de conocimientos, por ejemplo, en la
recogida de datos estadísticos. 6 En 2014, la CEPE dio un paso más para facilitar el trabajo
transnacional a través de un proyecto con los siguientes objetivos declarados:
Visto desde el punto de vista de los INE, también existen riesgos potenciales. Las
estadísticas oficiales se enfrentan a una mayor competencia. En un momento de creciente
abundancia de datos, generación de información estadística que es potencialmente
relevante para la sociedad ya no es una actividad intrínsecamente restringida a los INE. E
incluso la ventaja tradicional del INE, siendo legalmente autorizado para recoger datos y
combinar las fuentes de datos, está erosionando. Puede que no sea posible combinar los
datos de la encuesta y los datos administrativos con las fuentes de datos grandes en el
nivel micro, lo que reduce la desventaja relativa tradicionalmente enfrenta la
competencia.
Para algunas estadísticas, fuentes de grandes volúmenes de datos no sea posible proceder
fácilmente como alternativas a las fuentes de datos más tradicionales. Es ciertamente el
de las cifras oficiales sobre las finanzas públicas y el crecimiento económico, que son muy
usadas para la toma de decisiones, tanto a nivel nacional como internacional. Pero, dado
el aumento de la competencia que los datos generados por otras fuentes está
presentando al papel de los INE como portadores de las estadísticas oficiales, es necesaria
una nueva evaluación estratégica. Esto podría incluir preguntas fundamentales tales como
si las estadísticas basadas en las fuentes de datos grandes deben ser una actividad central
del INE, o si algunos datos e información debe ser proporcionada por otros agentes del
mercado, o si SNI puede o debe proporcionar nuevos servicios en este contexto.
Como consecuencia de ello, en el contexto de los retos de las fuentes de datos grandes,
INE seguirán siendo importantes proveedores de estadísticas oficiales. Y donde otras
organizaciones son capaces de proporcionar información estadística al público, en lugar
de competir, INE podría aprovechar su posición como un tercero imparcial, confiable y su
experiencia para asesorar sobre la calidad y validez de la información de estas diversas
fuentes. Posiblemente, a continuación, los proveedores de grandes volúmenes de datos
pueden incluso buscar la validación de sus datos de INE, lo que abre una nueva posibilidad
de nuevas asociaciones.
Fondos
Expresiones de gratitud
Las opiniones expresadas en este trabajo son las de los autores y no reflejan
necesariamente la posición de Estadísticas Países Bajos. Los autores desean agradecer a
los editores por sus valiosas sugerencias para mejoras.
Artículo Notas
↵ 1 http://epp.eurostat.ec.europa.eu/portal/page/portal/pgp_ess/ess/ess_news
↵ 2 http://bpp.mit.edu/
↵ 3 El actual programa marco de la UE para la investigación y la innovación,
Horizonte 2020, es un ejemplo ( Comisión Europea, 2013 ), que menciona
específicamente Big Data.
↵ 4 http://www.cros-portal.eu/content/ntts-2013
↵ 5 http://www.cros-portal.eu/content/big-data-event-2014
↵ 6 http://www.unece.org/stats/documents/2013.09.coll.html
referencias
1. ↵
1. Daas PJH,
2. pone MJH
OpenUrl
2. ↵
Daas PJH y pone MJH (2014b) Social sentimiento de los medios y la confianza del
consumidor. Papel para el taller sobre el uso de grandes volúmenes de datos para
la previsión y estadísticas, Frankfurt, Alemania, 7-8 de abril. Disponible at:
http://www.ecb.europa.eu/events/pdf/conferences/140407/Daas_Puts_Sociale_m
edia_cons_conf_Stat_Neth.pdf?409d61b733fc259971ee5beec7cedc61 (accessed
22 de de mayo de 2014).
3. ↵
Daas PJH, pone MJ, Buelens B, et al. (2013) Big Data y estadísticas oficiales. Papel
de la conferencia NTTS 2013, Bruselas, Bélgica, 5-7 marzo. Disponible en:
http://www.cros-portal.eu/sites/default/files/NTTS2013fullPaper_76.pdf
(consultado el 22 de de mayo de 2014).
4. ↵
5. ↵
DGINS (2013) Scheveningen memorándum sobre grandes volúmenes de datos y las
estadísticas oficiales. Disponible at:
http://epp.eurostat.ec.europa.eu/portal/page/portal/pgp_ess/0_DOCS/estat/SCHE
VENINGEN_MEMORANDUM%20Final%20version.pdf (accessed 22 de de mayo de
2014).
6. ↵
7. ↵
8. ↵
9. ↵
1. Mayer-Schönberger V,
2. Cukier K
(2013) Big Data: una revolución que transformarán la forma en que vivimos,
trabajamos, y pensar, Londres: John Murray Publishers.
10. ↵
? Struijs P y Daas PJH (2013) Big Data, gran impacto documento presentado en el
seminario sobre la recopilación de datos estadísticos, Ginebra, Suiza, 25-27 de
septiembre de 2013. Disponible en: http://www.unece.org/fileadmin/DAM
/stats/documents/ece/ces/ge.44/2013/mgt1/WP31.pdf (consultado el 22 de de
mayo de 2014).
11. ↵
UNECE (2013A) ¿Qué significa "Big Data" significa para las estadísticas oficiales?
Documento preparado en nombre del grupo de alto nivel para la modernización de
la producción y los servicios de estadística, 10 de marzo. Disponible en:
http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170614
(consultado el 22 de de mayo de 2014).
12. ↵
13. ↵