Está en la página 1de 9

BIG DATA EN LA ESTADÍSTICA

PÚBLICA: RETOS ANTE LOS


PRIMEROS PASOS

DAVID SALGADO
Instituto Nacional de Estadística

La digitalización de la economía y de la actividad humana en general ha traído en los últi-


mos años, entre otras consecuencias, la generación y el almacenamiento de cantidades
ingentes de datos en sistemas digitales (véase p. ej. The Economist (2010)). Sin duda, este
fenómeno abre una ventana a nuevas fuentes de información con múltiples aplicaciones.

Es fácil argumentar el potencial de estos datos en el esta generación y acumulación de información. De


sector privado, no ya en los propios departamentos hecho, el principio 5 de los Principios Fundamentales
de Business Intelligence para una optimización de las de las Estadísticas Oficiales de Naciones Unidas (ONU,
operaciones de las compañías, sino como una opor- 2014) claramente indica que «los datos para fines es-
tunidad de nuevas líneas de negocio donde el dato tadísticos pueden obtenerse de todo tipo de fuentes»,
generado por el servicio ofertado al cliente por la em- indicando que «los organismos de estadística han de
presa, debidamente anonimizado y protegido, puede seleccionar la fuente con respecto a la calidad, la
reusarse para análisis socioeconómicos de diversos as- oportunidad, el coste y la carga que impondrá a los
pectos de la sociedad con un creciente valor. encuestados». Aunque recientemente adoptados por
la Asamblea General de las Naciones Unidas (ONU,
De hecho, así está explícitamente reconocido por la 2014), estos principios no consideran explícitamente la
reciente Comunicación de la Comisión Europea titu- situación presente que los Big Data han traído. Por ello,
lada «Building a European Data Economy» (European recientemente el Global Working Group on Big Data
Commission, 2017), donde se reconoce el creciente de Naciones Unidas ha redactado sus Recommenda-
valor de los datos digitales en la economía europea tions for Access to Data from Private Organizations for
y se apunta en el medio plazo a preparar iniciativas Official Statistics (United Nations Global Working Group
legales para propiciar un marco de cooperación ba- on Big Data, 2016), reconociendo que para el propó-
sado en el libre flujo de datos en la Unión Europea, así sito de producir estadísticas oficiales de calidad y re-
como su acceso y re-uso bajo las garantías normativas levantes, es preciso recabar datos de organizaciones
de la protección de la información. privadas como inputs para su producción.
Por tanto, la reutilización de estos datos por el sector A priori es natural esperar que tales cantidades ingen-
público y, en particular, para la elaboración de esta- tes de información sean de utilidad en algún grado
dísticas oficiales aparece como una etapa natural en para la elaboración de las estadísticas oficiales, ya sea

405 >Ei 121


D. SALGADO

como fuente primaria o secundaria de datos o como 3. Los datos poseen al menos una de las tres Vs de
información auxiliar en el proceso de producción esta- la definición clásica de Big Data (volumen, veloci-
dística. Sin embargo, el reto no es sencillo. El proceso dad, variedad).
de producción estadística oficial es un sistema com-
plejo y los Big Data traen consigo cambios notables Estos rasgos permiten caracterizar actualmente las tres
con un previsible impacto significativo desde diversos fuentes de datos de las Estadísticas Oficiales, a saber,
puntos de vista. las encuestas, los registros administrativos y los Big Data.
Con breves ejemplos se aprecia mejor la relevancia
Desde nuestra experiencia (Salgado et al., 2016, 2017), de estas características. En las encuestas coyunturales
la definición misma de Big Data para la producción tradicionales, por ejemplo, al sector servicios, se soli-
de estadísticas oficiales debe ser adecuadamente cita a las empresas informar mensualmente sobre su
perfilada para no perder matices importantes para personal contratado. Complementariamente, en al-
la Estadística Pública. La mayor parte de estas nue- gunas otras operaciones estadísticas, se trabaja con
vas fuentes de información precisan resolver diversas las cuentas de cotización a la Seguridad Social de las
cuestiones, en muchos casos fuertemente entrelaza- empresas, que provienen del correspondiente registro
das entre sí, que van desde el acceso institucional a administrativo generado y gestionado por el Ministerio
los datos, pasando por la metodología estadística que de Empleo y Seguridad Social. Por último, es posible
sustenta la inferencia de los datos recogidos respecto rastrear y descargar datos de empleo de portales es-
de la población de análisis (ya sea de personas, em- pecíficos y webs de empresas en Internet.
presas, establecimientos,…) y por la tecnología nece-
saria hasta la calidad de las estadísticas producidas, Adviértase cómo, en el caso de las encuestas, los da-
aspectos todos ellos que van a ser desarrollados en tos no cumplen ninguna de las características anterio-
los distintos epígrafes de este artículo. Algunos de estos res: las empresas proporcionan sus propios datos de
retos se enmarcan en el proceso de modernización empleo contratado, no de otras empresas; estas cifras
e industrialización de la producción estadística oficial, no desempeñan un papel esencial en su proceso de
un proceso puesto en marcha en la última década producción y, en general, se trata de un volumen muy
aproximadamente que va más allá del uso de estas bajo de datos que se genera (con esfuerzo) a petición
nuevas fuentes de datos. expresa de la oficina pública de estadística (nunca por
debajo del mes) y tienen una estructura muy concreta
derivada del cuestionario diseñado y administrado por
DEFINICIÓN REVISADA DE BIG DATA PARA LA ESTADÍSTICA la oficina estadística.
PÚBLICA
En el caso del registro administrativo se cumplen las
Es sobradamente conocida la caracterización del características 1 y 2, pero no la característica 3. Evi-
concepto de Big Data mediante la confluencia de las dentemente los datos contenidos en el registro admi-
3Vs (Laney, 2001): volumen, velocidad y variedad; si nistrativo se refieren a terceras personas, no al propio
bien posteriormente más Vs han sido añadidas (Nor- Ministerio de Empleo y Seguridad Social (característica
mandeau, 2013). Muchas nuevas fuentes de datos 1). Además, la generación y mantenimiento de este
digitales de interés para la Estadística Pública no satis- registro constituyen una de las funciones del Ministerio
facen estos criterios, como pueden ser los datos prove- (característica 2). Por último, no se observa ninguna
nientes de la actividad de los terminales de telefonía de las tres Vs clásicas que definen una fuente Big
móvil en las redes celulares de telecomunicaciones. Data. Es posible que en el futuro ciertos registros ad-
Ciertamente, el volumen y la velocidad de generación ministrativos sí aumenten en volumen y velocidad de
son notablemente altos, pero son datos claramente alimentación y, por tanto, sea aconsejable introducir
estructurados sin mucha variedad. una nueva característica sobre la titularidad pública
o privada de los datos. En la actualidad, no conoce-
En conexión con la producción estadística oficial, sin
mos ningún registro administrativo con uso en la Esta-
embargo, nosotros defendemos que existen carac-
dística Pública que pueda considerarse un ejemplo
terísticas más relevantes para su uso en la Estadística
de Big Data.
Pública, en particular, en comparación con los datos
de encuestas y de registros administrativos. En el caso de portales específicos de ofertas de em-
pleo, es evidente que las características 1 y 2 se cum-
Por ello, en el ecosistema de datos de la Estadística
plen: estos datos sobre terceros agentes (las empresas
Oficial proponemos parametrizar las fuentes de datos
ofertantes) son el elemento central del negocio de
en términos de las siguientes características (Salgado
los portales. Ambas características son la consecuen-
et al., 2017):
cia directa de la digitalización de la economía por la
1. Los datos no contienen información sobre el pro- que progresivamente los datos desempeñan un pa-
veedor de datos (informante), sino sobre terceras pel cada vez más central en los procesos de negocio,
personas, ya sean físicas o jurídicas. siendo, por tanto, claves en la estrategia de negocio
de los agentes económicos. Además, dependiendo
2. Los datos desempeñan un papel central en el de las características propias de cada portal, bien el
proceso de negocio del proveedor de datos (in- volumen, la velocidad o la variedad de los datos ca-
formante). racterizan la información. Compartir estos datos em-

122 405 >Ei


BIG DATA EN LA ESTADÍSTICA PÚBLICA: RETOS ANTE LOS PRIMEROS PASOS

pieza a ser equivalente a compartir buena parte de En la producción estadística oficial tradicional, esta ley
la materia prima de muchas actividades económicas. ampara al Instituto Nacional de Estadística y a otros ser-
vicios estadísticos del Estado para requerir datos incluso
En general, las nuevas fuentes de Big Data cumplen las bajo riesgo de sanción administrativa en caso de omi-
tres características anteriores. Y todas ellas tienen con- sión. Las características 1 y 2 de los Big Data a veces
secuencias directas sobre el uso de estas fuentes para son aducidas para hacer una interpretación restrictiva
la elaboración de estadísticas oficiales, como mostra- de la norma. Organizaciones internacionales como la
remos en las secciones siguientes. División Estadística de Naciones Unidas (United Nations
Global Working Group on Big Data, 2016) o Eurostat (Eu-
ACCESO INSTITUCIONAL rostat, 2015) incluyen en sus estrategias para Big Data
una revisión de los principios y recomendaciones para
El primer reto para la incorporación de los Big Data al el acceso a estas nuevas fuentes de datos. Informes
proceso de producción estadística oficial es acceder internos del Steering Group de la Task Force on Big
a los datos. Este acceso debe producirse, no ya en Data del Sistema Estadístico Europeo (ESS Task Force
condiciones provisionales para investigar el uso de esta on Big Data, 2017) concluyen que las legislaciones
fuente en la producción de estadísticas oficiales, sino estadísticas nacionales y europea confieren suficiente
especialmente en las condiciones estándares de pro- potestad legal a las oficinas productoras para requerir
ducción que permitan el aseguramiento de la provi- el acceso a estos datos. Como veremos, otra cuestión
sión de datos a medio y largo plazo. diferente es la complejidad asociada.

Dada la naturaleza diversa de las fuentes Big Data es En segundo lugar, puesto que la mayoría de estos da-
imposible ofrecer una descripción detallada de las cir- tos son de titularidad privada y dentro de un sector de
cunstancias que dificultan el acceso a cada una de actividad económica concreto (salud, telecomunica-
ellas, pero con carácter algo más genérico sí pueden ciones, …), en muchas ocasiones existe una legisla-
describirse distintos factores. ción específica del sector en cuestión (sobre todo diri-
gida a salvaguardar los derechos del ciudadano) que
impide el acceso a estos registros de datos (piénsese,
Aspectos legales por ejemplo, en los datos de telefonía móvil o en los
La provisión de datos en la Estadística Pública está ase- historiales clínicos en hospitales). En el caso de los servi-
gurada mediante un marco legal tanto nacional como cios estadísticos, el aparente conflicto suele resolverse
internacional. En el ámbito nacional, el artículo 10.1 de mediante la intervención de la correspondiente Agen-
la Ley 12/89 de la Función Estadística Pública reconoce cia de Protección de Datos.
el derecho de las autoridades estadísticas a solicitar tal
En tercer lugar, no solo en España, sino en cualquier
provisión de datos. Además, el artículo 10.2 de este mis-
país del ámbito del Sistema Estadístico Europeo, exis-
ma Ley establece la obligación de toda persona legal,
te una norma estricta relativa a la protección de da-
física o jurídica, pública o privada, de proporcionar la
tos de carácter personal, norma supervisada por una
información solicitada. En el ámbito europeo el artículo
Agencia de Protección de Datos nacional. En el caso
285 del texto consolidado del Tratado Constitutivo de la
español, esta norma está dada por la Ley 15/99 Or-
Comunidad Europea (Comunidad Europea, 2002) otor-
gánica de Protección de Datos de Carácter Personal,
ga a los servicios estadísticos este mismo papel.
supervisada por la Agencia Española de Protección
Sin embargo, al intentar acceder a alguna fuente Big de Datos (AEPD, 2017). Por la experiencia acumulada
Data, surgen cuestiones de carácter legal. ¿Respaldan en los proyectos de investigación en marcha, parece
las leyes el acceso institucional por parte de una oficina claro que esta Agencia es, y será, fundamental en el
de estadística a este tipo de fuentes de información, en acceso institucional a los datos velando y garantizando
especial, tras la consideración de las características 1 y la privacidad de los datos de las personas. En países
2 propuestas en su definición revisada? En lo que sigue, de nuestro entorno con acceso a algunas fuentes Big
nos centraremos en el ámbito nacional del Sistema Es- Data de carácter personal (no obstante, en fase de
tadístico Nacional español, si bien la situación es similar investigación, aún no en producción), el papel de esta
en el resto del Sistema Estadístico Europeo con las debi- agencia ha sido determinante para resolver puntual-
das transposiciones en las regulaciones legales nacio- mente cuestiones legales de acceso garantizando la
nales. No haremos consideraciones sobre la legislación privacidad. Es pertinente, no obstante, recordar que la
autonómica al respecto. propia Ley 12/89 establece la obligación de los servi-
cios estadísticos del Estado de guardar el secreto esta-
Básicamente, en cualquier fuente Big Data, la cuestión dístico, no revelando ni compartiendo en ningún caso
legal se caracteriza por la confluencia de tres ámbitos le- la identidad de las personas legales, ya sean físicas o
gales. En primer lugar, la Ley 12/89 de la Función Estadís- jurídicas, que proporcionan los datos.
tica Pública confiere a la Administración Estadística del
Estado amplia potestad para «solicitar datos de todas las
personas físicas y jurídicas, nacionales y extranjeras, resi-
Características de los datos
dentes en España», así como de «todas las instituciones En el sistema de producción estadística oficial tradi-
y entidades públicas de la Administración del Estado, las cional, primero se deciden los agregados o índices
Comunidades Autónomas y las Corporaciones Locales». que desean conocerse (índice de precios al consu-

405 >Ei 123


D. SALGADO

mo, total de personas paradas, etc.), a continuación ción corporativos puede requerir procesos más o menos
se diseña la operación estadística (desde la recogida complejos que, además de la potencial interferencia
hasta la difusión de resultados pasando por el proce- con las operaciones de negocio de la compañía, im-
samiento de los datos) y se ejecuta, recabando datos plican costes de diversa naturaleza (hardware, software,
sobre una muestra de unidades estadísticas seleccio- personal técnico altamente cualificado, …). La Estadís-
nada mediante algún método estadístico apropiado. tica Oficial tiene como principio universal no pagar por
De hecho, el productor de estadísticas oficiales debe los datos para fines estadísticos oficiales (United Nations
informar a la persona o empresa requerida que ha sido Global Working Group on Big Data, 2016) (aunque los
seleccionada en una muestra, que tiene la obligación procedimientos de recogida suponen una buena parte
de responder, que los servicios estadísticos del Estado del presupuesto de las oficinas de estadística). La cues-
tienen la obligación de guardar el secreto estadístico y tión de estos costes aún no está resuelta y, de hecho,
que sus datos recabados en esta ocasión se emplea- está explícitamente mencionada en las Recommen-
rán con fines estadísticos exclusivamente para la ope- dations for Access to Data from Private Organizations
ración estadística en cuestión. for Official Statistics de Naciones Unidas (United Nations
Global Working Group on Big Data, 2016).
La situación con los Big Data es diferente. Los datos ya
han sido generados antes de saber incluso qué tipo
de información estadística puede extraerse de ellos. Estrategia: principales líneas
De hecho, han sido generados para otros propósitos
Aunque el reto del acceso institucional a las fuentes Big
diferentes a la producción estadística oficial. La obliga-
Data se mantiene como uno de los escollos principa-
ción de cederlos queda a las consideraciones legales
les para su uso en la producción estadística oficial, las
anteriores. Finalmente, estos datos, por razones eviden-
principales organizaciones estadísticas, ya sean pro-
tes, pueden ser empleados para más de una estadís-
ductoras o usuarias, como Naciones Unidades, OCDE,
tica oficial (por ejemplo, los datos de telefonía móvil
Eurostat, así como el resto de socios del Sistema Es-
podrían emplearse para estadísticas de turismo, pero
tadístico Europeo, reconocen en las colaboraciones
también para estadísticas de movilidad humana).
público-privadas (public-private partnerships) la mejor
Además, al haber sido generados para otros fines, no opción para conseguir este acceso institucional (Klein y
están preparados para su procesamiento estadístico Verhulst, 2017; Salgado et al., 2017).
(carecen de metadatos asociados relativos al propó-
Aparte de los potenciales cambios legales necesarios
sito estadístico). Por ello, la identificación de qué datos
en algunos países (no en el caso de España), estas
en concreto del sistema de información digital del pro-
colaboraciones tienen por objeto, no ya garantizar la
veedor son de interés para la producción estadística
provisión de datos sostenida en el tiempo y proteger
oficial no es una cuestión elemental (de hecho, una
jurídicamente a las compañías propietarias que los
buena parte de los proyectos de investigación en mar-
ceden para un uso no originalmente planificado (es-
cha tienen como objetivo parcial identificar qué datos
tadísticas oficiales), sino también buscar una relación
permitirían la elaboración de estadísticas oficiales).
simbiótica mutuamente beneficiosa basada en la
elaboración conjunta de productos estadísticos con
Condiciones de acceso altos estándares de calidad. Todo parece apuntar a
la integración parcial en una fase muy temprana del
Como se ha comentado, los Big Data presentan dos proceso de producción de las compañías generado-
características muy relevantes: (i) no dan información ras y acumuladoras de datos. Esto, sin duda, supondrá
sobre el proveedor de los datos, sino sobre terceros un cambio de cultura y de filosofía de trabajo en las
(clientes, subscriptores, usuarios,…) y (ii) son el medio oficinas de estadística.
(o una parte importante de él) por el que las empresas
propietarias realizan su actividad económica y obtie-
nen su beneficio. Esto conlleva evidentes dificultades METODOLOGÍA ESTADÍSTICA: CONCEPTOS IMPORTANTES
más allá de las cuestiones legales. Y ERRORES COMUNES
Por un lado, la protección de su negocio corre paralela El siguiente reto que los Big Data presentan para su uso
a la protección de sus datos, que, en muchos casos, en la producción estadística oficial es el conjunto de
son datos privados de sus clientes. La cesión de esta in- métodos estadísticos necesarios para su procesamien-
formación, incluso a las oficinas públicas de estadísticas to y, en especial, para realizar las inferencias respecto
acostumbradas a recoger y procesar datos confiden- de las poblaciones de interés (humanas, de empresas,
ciales, es percibida como un riesgo muy alto para su de establecimientos, ...).
propio negocio no solo por la potencial pérdida de con-
En todo ejercicio de estimación estadística existen cier-
trol sobre los datos sino por la imagen corporativa y la
tos conceptos esenciales que deben ser entendidos
percepción social de desprotección de la información.
correctamente para poder evaluar la calidad de las
Por otro lado, el volumen de datos es considerable- estimaciones. Comentamos muy brevemente algunos
mente mayor que la información recogida a través de de estos conceptos, así como errores comunes que
los cuestionarios (físicos o electrónicos) tradicionales. La suelen aparecer cuando se emplean los Big Data para
extracción de estos datos de los sistemas de informa- inferir valores de una población de análisis.

124 405 >Ei


evidente que para cada muestra posiblemente seleccionada el valor de la estimación será diferente. Un estimador bien
trabajo
trabajoen enlas oficinas
trabajo
las oficinas ende lasestadística.
de oficinastrabajo
estadística. de estadística.
en las oficinas
trabajo ende lasestadística.
oficinas de estadística. Es evidente que para cada muestra posiblemente seleccionada el valor de la estimació
nstruido y con calidad es aquel que arroja todas estas estimaciones Aunque el reto del acceso
iguales en promedio institucional al valor a lasdefuentes la población Big Data que queremoscomo
se mantiene estimar uno(matemáticamente
de los escollos princ𝔼𝔼
construido y con calidad es aquel que arroja todas estas estimaciones iguales en pro
eremos estimar
NCEPTOS IMPORTANTES(matemáticamente Y ERRORES 𝔼𝔼𝑌𝑌 METODOLOGÍA
! = 𝑌𝑌). Además, las
COMUNES ESTADÍSTICA:
en variaciones
la producción CONCEPTOS
entre estadística IMPORTANTES
estas potenciales oficial, las Y ERRORES
principales deben
estimaciones COMUNES
organizaciones ser muy estadísticas, ya sean alproductoras
pequeñas en torno valor prome o
queremos estimar (matemáticamente 𝔼𝔼𝑌𝑌! = cumplir 𝑌𝑌). Además, estas las
dos variaciones
propiedades. entre estas
uy pequeñas en torno al valor promedio Y. Gran parte del trabajo en una oficina de estadística está encaminado a Naciones Unidades, OCDE, Eurostat, así como el resto de socios del Sistema Estadístico Europeo, r
El siguiente reto que es losel YBig Data muy
presentan pequeñas para suenuso tornoYen al producción
la valorCOMUNES promedio Y. Granoficial
estadística parteesdel trabajo endeuna
elpara
conjunto oficin
amplir METODOLOGÍA
METODOLOGÍA
presentan
estas para
dos su ESTADÍSTICA:
METODOLOGÍA
uso
propiedades. ESTADÍSTICA:
en la producción CONCEPTOS
ESTADÍSTICA:
CONCEPTOS
METODOLOGÍA
estadística IMPORTANTES
CONCEPTOS
IMPORTANTESESTADÍSTICA:
oficial
METODOLOGÍA
BIG DATA ENcolaboraciones
YERRORES
IMPORTANTES ERRORES
CONCEPTOS
conjunto
ESTADÍSTICA:
LA ESTADÍSTICApúblico-privadas
COMUNES
YCOMUNES
de
PÚBLICA:
ERRORESIMPORTANTES
métodos
CONCEPTOS
RETOS
COMUNES IMPORTANTES
(public-private
ANTE
ERRORES
LOS PRIMEROS
YPASOS
partnerships)ERRORES laCOMUNES
mejor opción conseguirmétodos este ac
rocesamiento y, en especial, para realizar las inferencias (Klein estadísticos necesarios respecto para su
de las poblaciones cumplir
procesamiento estas y, dos
en
de et al., 2017).propiedades.
especial, para realizar las inferencias respecto de las poblaciones de
y Verhulst, 2017; Salgado
El
El siguiente
siguiente
e establecimientos, ...). reto
Elreto que
siguiente
que los
los Big
reto Big Data
Data
que Ellos Big
presentan
presentan
siguiente
interés Data
(humanas, para
reto
El presentan
para que
siguiente su
su
de uso
uso
los Big
en
para
reto
empresas, en Data
la
lasu
que producción
uso
producción
de los en
Big
presentan la
Data
establecimientos,estadística
producción
estadística
para
presentansu oficial
uso
...).estadística
oficial
en
para eses
la suelel conjunto
oficial
uso conjunto
producción en es
la de
elde métodos
conjunto
métodos
estadística
producción de
oficial métodos
estadística
Representatividad es el conjunto
oficial
de laes de
el
muestra métodos
conjunto d
estadísticos
estadísticos
presentatividad de la muestranecesarios
estadísticos
necesarios para
necesarios
para su
su procesamiento
para
procesamiento
estadísticos su y,
procesamiento
y,
necesariosen
estadísticos en especial,
Aparteespecial,
para y,
necesarios
de supara
enpara
los realizar
especial,
realizar
procesamiento
para
potenciales su las
para las inferencias
realizar
inferencias
y,
procesamiento
cambios en las
especial,
legales respecto
inferencias
respecto
y, enpara
necesarios dede las
respecto
realizar
especial, las en poblaciones
poblaciones
las
para de las
inferencias
algunosrealizar de
poblaciones
de
paíseslas respecto
inferencias
(no en de
el de las
respecto
caso poblaciones
de de las
España), de
pob
esta
interés
interés (humanas,
interésde
(humanas, de empresas,
(humanas,
empresas, dede deEnestablecimientos,
todo(humanas,
empresas, ejercicio
de de estimación
...).
establecimientos, ...). Representatividad
estadística existen ciertos de conceptos
la muestra esenciales que A menudo
deben se entendidos
ser plantea la calidad de las e
correctamente
stadística existen ciertos
Población, conceptos muestra esenciales
para
eestablecimientos,
interés que
inferencia
poder
deben
interés
evaluar
deser ...).
empresas,
(humanas,
tienen
la
entendidos
por objeto,
calidad
dede
de
establecimientos,
correctamente
empresas,
las
no ya garantizar
estimaciones.
de tado
...).
establecimientos,
la provisión
completo
Comentamos
de...). de datos
todas
muy
las sostenida
unidades
brevemente
en
deellatiempo
población
algunos
población,
de
de estos
y proteger
análisis. No
conceptos,
jurídicament
obstante, así debe
como
menudo se planteaComentamos
las estimaciones. la calidad demuy las estimaciones
brevemente algunos como una de cuestión
estos conceptos,
propietarias de representatividad
que los así como
ceden para de uso
un la muestranocalidad respecto a planificado
originalmente la (estadísticas oficiales), sino tam
En
En todo
todo ejercicio
En
ejercicio todode
de estimación
ejercicio
estimación de estadística
estimación
estadística
En todo existen
estadística
existen
ejercicio de ciertos
ciertos conceptos
existen
estimación conceptos ciertos
estadística A menudo
esenciales
conceptos
esenciales ya
existen se
que seaplantea
deben
esenciales
que de personas,
deben
ciertos la
ser
que
ser
conceptosentendidos
deben
entendidos empresas,
de ser las
esenciales correctamente
entendidos establecimientos,
estimaciones
correctamente
que como
correctamente
deben ser una etc.
entendidos cuestión de represent
correctamente
blación
ecer cuyo deseanálisis.
emplean No
Delos obstante,
Big Data
modo debemos
genérico,
para inferirerrores
unaclarar comunes
ejercicio
valores En
quede todo
elde que ejercicio
concepto
una suelen
estimación
población de de
aparecerestimación
representatividad
enanálisis.
de cuyo
la mutuamente estadística
se emplean
de la existen
los
muestra Big ciertos
Data
esgenerados para conceptos
peligrosamente inferir esenciales
escurridizo
valores de una que deben
(Kruskal
población ser
y de entendidos
Mosteller,
análisis. corr
1979a
relación simbiótica población Estos beneficiosa
listados son basada en yla elaboración
mantenidos conjunta
por las ofi- de productos estad
curridizo para
para poder
poder evaluar
(Kruskal para
evaluar poder
yEstadística lala calidad
Mosteller, evaluar
calidad
Pública
1979a, dede las
lapara estimaciones.
calidad
las
consiste
1979b, poder deen
estimaciones.
1979c,evaluar
para poderComentamos
lasproporcionar
estimaciones.
1980).Comentamos
la calidadevaluar
Una un de muy
Comentamos
lamuy
las
calidad
valor
definición brevementedemuy
brevemente
estimaciones.
inequívoca lasdeestimaciones.
análisis.
algunos
brevemente
algunos
Comentamos
(que no
No
de obstante,
dehaceestos
algunos
estosmuy
Comentamos de debemos
conceptos,
conceptos, estos
brevemente
referencia muyalasí
asíaclarar
comoquede
como
conceptos,
algunos
brevemente
mecanismo asíelestos
concepto
como
algunos
de dedeestos
conceptos,
respuesta)
representativi
es así como
concepto
la que afi
estándares de calidad. Todocinas
escurridizo parece de
(Kruskal estadística
apuntar y Mosteller, pública.
a la integración 1979a, Laparcial
selección
1979b, en1979c,se realiza
una fase1980).muy deUnatemprana del proce
definición ineq
ecanismo errores
errores comuneserrores
comunes
de respuesta) que
numérico que
es suelen
comunes
suelen
la yque suaparecer
que
aparecer suelen
errores
precisión
afirma quecuyo
cuyo se
aparecer
comunes
para
una emplean
seerrores
emplean
una
muestra cuyo
quepropiedad los
se
loses
suelen
comuness Big
Big
emplean Data
Data
aparecer
que
de
representativa para
lospara
suelen
una Big
cuyo Data
inferir
inferir valores
para
valores
se emplean
aparecer
de una cuyo de
inferirde
población seuna
los Bigpoblación
valores
una
emplean UData
poblaciónde
respecto una
para
los de
Big de deanálisis.
población
Data
análisis.
inferir una valores de
paravariable análisis.
de una
inferir valores
Y sipoblación
las de unadepoblación
distribuciones análisis. de de aná
valore
de las compañías generadoras mecanismo modo de probabilístico
y acumuladoras
respuesta) esde de acuerdo
la datos.
que Esto,con
afirma sin
que unaunametodología
duda, supondrás un es cambio de cultura
riable Y si las distribuciones población dede análisis
valores de aesta partir de los en
variable datos la recogidos
muestra ende 2009). Si muestra
bien esta representativa
definición matemátic de
Población, muestra en las yoficinas
e inferencia
trabajo la población
de
variable estadística.
Y si
son muy similares
internacional
las distribucionesestablecida (Bethlehem,
de desde
valores delos años
esta 1930-40,
variable en ase-
la muestra y en la pobla
09). Si bien esta definición una muestra matemática de tal población.
es rigurosa, Por sin ejemplo,
embargo, al es estudiar
de poca utilidad gurando
para losque efectos cada unidad de
habituales en la poblaciónEstadística tiene Pública, unaal menos por dos m
el número de personas paradas de la población activa 2009). Si bien esta definición matemática es rigurosa, sin embargo, es de poca utilid
tadística Pública,
Población,
Población,
e estimación al
en muestra menos
Población,
muestra
la Estadística por
eeinferencia dos
muestra motivos:
PúblicaePoblación,
inferencia De modo
inferencia
consiste (i) la genérico,
distribución
enmuestra
proporcionar
Población, un ejercicio
de
e inferencia
muestra los
un valor valoresde estimación
numérico
e inferencia en la en
probabilidad
población
y su la Estadística
de las no nula
variablesPúblicade de consiste
ser interés en
aleatoriamente nunca es
proporcionar conocida
escogida. un yvalor
(ii) aun teniendo
numérico y su un
se estima, en la población precisión de parapersonas
una mayoresdede
propiedad una 15Estadística
población Esto
Pública, al menos por dos motivos: (i) la distribución de los valores en la p
de asegura
análisis a que
partir las dedos los propiedades
datos nueva
recogidos de construcción
variable
de una puede
muestra suceder
de tal que
población. la m
nca es conocida y (ii) aun teniendo una
una población de análisis a partir de los datos recogidos de una muestra de tal muestra representativa para un conjunto de
población. variables 𝑌𝑌 , … , 𝑌𝑌 , al estudiar una
De
De modo
modo De años
genérico,
genérico, modo (población
unun ejercicio
genérico,
ejercicio dede
unde
De análisis),
estimación
ejercicio
estimación
modo el
de número
genérico,
De en
enmodo laMETODOLOGÍA
estimación
la un total
Estadística
Estadística en
ejercicio
genérico, de la perso-
Pública
Estadística
Pública
de
un nunca
ESTADÍSTICA:consiste
consiste
estimación
ejercicio esdedeconocida
Pública en CONCEPTOS
en
enestimadores
la
estimación y!(ii)
proporcionar
consiste
proporcionar
Estadística en aun
en
! teniendo una muestra representativa para un conjunto d
IMPORTANTES
la un
mencionadas
un
Pública valor
proporcionarvalor
Estadística Yun
numéricoERRORES
numérico
consiste Pública valor y
anteriormente
en y susu COMUNES
numérico
proporcionar
consiste en y
puedan su
un valor
proporcionar numérico
un valor y su
num
eva variable
ro de personas paradaspuede suceder que
de la población la Por
muestra ejemplo,
activa deje se de al estudiar
ser
estima, en la el
representativa, número
población al de personas
menos,
de personas para paradas
esta nuevade población
variable. activa
Existen variantes
se estima, del
en concepto
la población de derepresenta
personas
precisión para nas
una paradas (propiedad dede laprecisión
población) aaapartir de los nueva variable
ser puede
satisfechas. suceder que latal muestra dejetaldede sermuestra
representativa, al meno
eriantes precisión
análisis), delel concepto
número precisión
para unadepropiedad
total
datos de para
propiedad una
representatividad
personas
recogidos
dede
de
una
propiedad
una
precisión
mayores
paradas
una
población
población
que para 15de
una de
una
deinvolucran
(propiedad
muestra de
añosanálisis
población
análisis
propiedad
El de
esta
para
(población partir
de
una
elpoblación)
siguiente
análisis
partir
de
mecanismo
lapoblación. retodede
unade
propiedad alos
los
análisis),
que
datos
apartir
partir
dedatos
poblacióndede recogidos
de
eluna
los respuesta,
Big loslos
recogidos
de datos
análisis
población
número
Dataconcepto
de
total
pero
presentan
auna
derecogidos
una
departir
de
esto muestra
muestra
análisisde
personas
parasólo de auna
los dede
datos
partir muestra
paradas
suilustra
uso
tal población.
de población.
recogidos
los
enlala(propiedad
de
datos
complejidad
producción
población.
una
recogidos del
deestadística de una
concepto
la población) de tal población.
muestra
(véase
a partir
oficial
de los
p.ej.
es elde conj
tal
Sc
Por
Por ejemplo,
ejemplo, Por alal estudiar
ejemplo,
estudiar el al
el número
estudiar
número Por deel
de personas
número
personas
ejemplo, al deparadas
personas
paradas
estudiar
Por yejemplo, de
elde la
paradas
la
número
al estudiar población
población variantes
de de la activa
activa
personas
el número del
población se
se estima,
activa
estima,
paradas de ense
en de
la la
la representatividad
población
estima,
población
población en la de
activa personas
población
de
de personas paradas de la población activa se estima, en la población personas
se que
estima, deinvolucran
personas
en la el
población mecanismo
de de
personas re
d
mplejidad
e esta población. del concepto (véase p.ej. Schouten, datos recogidos
Cobben, de una
Bethlehem muestra
estadísticos necesarios (2009)). de esta población.
paraPor su todo
procesamiento y, enp.ej. especial, para realizar las inferencias respectonodeobla
complejidad del ello, desaconsejamos
concepto (véase Schouten,considerar
El Cobben,
concepto el concepto
y deBethlehem (2009)).
representatividad,
mayores
mayoresde de15mayores
15 años
años (población
de 15
(población años
En abstracto, con suficiente mayores dede análisis),
(población
análisis),
mayores de el
de
el
15número
análisis),
número
años
generalidad total
el
total
(población de
número
de
de 15práctica, personas
personas
de
años (población total
análisis),
si paradas
de personas
paradas el (propiedad
paradas
(propiedad
número total de
de la
(propiedad
la población)
población)
personas de la
paradasaa partir
población)
partir
de análisis), el número total de personas paradas (propiedad de la población) a p de
de
(propiedad losa
los partir
de de
la los
población) a partir de los
Enesta abstracto, con interés
suficiente (humanas, de empresas, de representatividad
de establecimientos, de...). la muestra, de sino perseguirque
la muestra, las se la realiza
variablesobre Y de un
concepto
ralidad datos
datos derecogidossidatos
recogidos
práctica, 𝑌𝑌 = de
representatividad, una !∈!muestra
derecogidos
una 𝑦𝑦!nodenota
muestra de
denota de
obstante,
una de
datos muestra
esta
lala población.
recoge de
población.
recogidos
propiedad
propiedad cualitativamente
datosestade población.
una
recogidos
expresada
expresada muestra degeneralidad
por cierta
una
ladevariable
por esta medida
muestra
laEl práctica,
Y de
población. dedeesta
propiedades
sipoblación.
lacalidad 𝑌𝑌 = !∈! 𝑦𝑦! denota
del proceso de selección
anteriores necesarias
la propiedad expresada por la
concepto de representatividad, no obstante,de los estimadores
recoge cualitativamente cierta medida
la muestra,
ión se proporciona que seavariable realizade
través Ysobre
los
de valoresla población
un población
listado
𝑦𝑦! decompletolasUUunidades
a aestudiar, de
estudiar, todas
k la
de estimación
lalalasmuestraunidades
estima- se
s proporciona
de
mediante la población,a través ya de sea losde valores
personas, 𝑦𝑦! de las empresas, k de la muestra setc.
unidadesestablecimientos, Estos
mediante
En todo ejercicio dedeestimación la para estadística
obtener existensobre
seestimaciones ciertos de conceptos
calidad. esencialesdeque deben las ser entendid
En
En abstracto,
abstracto, con
Ención suficiente
abstracto,
con suficiente congeneralidad
suficiente
generalidad
En
un abstracto,
aestimador práctica,
generalidad
práctica,
En con sisi
= 𝑌𝑌 ==y 𝜔𝜔
práctica,
suficiente
𝑌𝑌abstracto, 𝑌𝑌!∈! con ! denota
sisuficiente
,𝑦𝑦𝑦𝑦
𝑌𝑌
𝑦𝑦generalidad
donde=denota 𝑦𝑦muestra,
lala !propiedad
práctica,
generalidad
los denota
propiedad
coeficientes si 𝑌𝑌que expresada
lade
= propiedad
expresada
práctica,
𝜔𝜔 se
realiza
! por
si𝑦𝑦𝑌𝑌
denominan por
denota
= lala!∈!
expresada un
variable
variable
la listado
por
𝑦𝑦!propiedad
pesos denota
de ladede completo
YYselección
variable seYyrealiza
lalaexpresada
muestreo propiedad de latodas
por delamodo
expresada
dependen
unidades
variable
de de porYlade
cómo lade
sevaria
probabilísti ha
mpresas,
onde los establecimientos,
coeficientes 𝜔𝜔! seseetc.proporciona
denominanEstos listados
pesos través
son de
de muestreo !los
generados paravalores
y poder mantenidos
!∈!
!!∈!
dependen de
!
!evaluar delascómo por
la!∈! las
calidad
empresas, se oficinas
ha de las !estadística
!∈!
estimaciones.
establecimientos, etc.
pública.
Comentamos
Estos
La
listados muy son brevemente
generados algunos
y mantenidos estos
por conla
población
población UU
ección se realiza deunidades a a estudiar,
población
estudiar, U
modo probabilístico laa
la estimación
estudiar,
estimación
k de la seleccionado la
población
muestra seestimación
se
de acuerdo U
proporciona
proporciona
a se
estudiar,
población
la muestra
s mediante
con una a través
proporciona
a Utravés
la
a
un dede
estimación
estudiar,
s.comunes
metodología estimador los
a
los valores
través
valores
la se de 𝑦𝑦 los
proporciona
estimación
internacional 𝑦𝑦 dede las
valores
las
se
!! establecida unidades
𝑦𝑦
unidades
a través
proporciona de k
las
de
desdek de
de
los
a la
unidades
la muestra
través muestra
valores
los años k
de de
𝑦𝑦 losss
demediante
la muestra
mediante
las
valores unidades
𝑦𝑦
40, asegurando sde lask
mediante de la
unidades muestra k de
que cada unidad de las mediante
la muestra
errores que suelen
selección aparecer
se realiza
!
cuyo
de modo se emplean
probabilístico los1930- !
Big Data
de acuerdopara! inferir
con una valores de una población
metodología internacio
un
un estimador
estimador
, asegurando que cada un 𝑌𝑌𝑌𝑌 =
estimador
=
!! unidad !∈! de
!∈! 𝜔𝜔
𝜔𝜔 𝑌𝑌 𝑦𝑦
𝑦𝑦= , , donde
donde
!!! !!la donde un 𝜔𝜔 los𝑦𝑦
los
estimador
!∈! !los
población coeficientes
, donde
coeficientes
𝑌𝑌
coeficientes
! tiene =
un !estimadorlos 𝜔𝜔
𝜔𝜔
!∈!!! 𝑌𝑌
una probabilidad 𝜔𝜔se
coeficientes
se 𝑦𝑦
!! sedenominan
denominan
,
= deno-
! donde𝜔𝜔
no!𝜔𝜔nula
!∈! se
lospesos
denominan
pesos Tamaño
coeficientes
! 𝑦𝑦! , de donde de
de muestreo de
pesos
muestreo𝜔𝜔
los coeficientes
ser aleatoriamente ! la de
se muestra
yy dependen
muestreo
dependen
denominan y
𝜔𝜔! se denominan
escogida. de
pesos cómo
dependen
de cómo de
Esto asegura sese ha
deha
muestreo cómo
pesosque y
de las se ha
dependen
muestreo de cómo
y dependen
dos propiedades se ha
de c
de cons
egura seleccionado
seleccionado
que lalamuestra
seleccionado
minan
las dos propiedades muestra 4 s.de
pesos s.la demuestramuestreo
construcción s. de
seleccionado y dependen la muestra
seleccionado
estimadores de s.la
cómo muestra
mencionadas se ha s.40, asegurando que cada
anteriormente puedan 4 unidad
ser satisfechas.
de la población tiene una probabilidad no nula de
asegura que Conlas losdos Bigpropiedades
Data es tremendamente de construcción Porcomún
de
todo escuchar
estimadores
ello, mencionadasconsider
desaconsejamos anterio
seleccionado la muestra s.
44muestra el argumento del tamaño muestral: teniendo tal canti-
r todo ello, desaconsejamos considerar el concepto de representatividad Población, de ela4inferencia
muestra, sino perseguir 4 las propiedades 4 anteriores necesarias de los estimadores
Es evidente que para cada muestra posiblemente se-Por tododad ello, de desaconsejamos
datos, las estimaciones considerar elson concepto de representatividad de la mue
(casi automática-
teriores necesarias de los estimadores para obtener estimaciones de calidad. mente) más precisas. A veces, el argumento va más
leccionada el valor de la estimaciónDeserá modo diferente.
genérico, anteriores necesarias de los
Un un ejercicio de estimación en la Estadística Pública consiste estimadores para obtener estimaciones de calidad. un val
en proporcionar
estimador bien construido y con calidad es aquel que allá descalificando
precisión para una propiedad de una población de análisis a partir de los datos recogidos de una muestra la Estadística como Tamaño herramienta
de la muestrade
vidente que para cada muestra posiblemente seleccionada el ejemplo,
valor de laalestimación
estudiar elserá análisis diferente.
pregonando Un estimador elparadas bien
uso exclusivo de técnicas dese in-estima, en la pobla
maño de la muestraarroja todas estas estimaciones iguales Por en promedio número de personas de la población activa
truido y con calidadales aquel
valor deque arroja todas
la población que estas estimaciones
queremos estimar iguales
(mate- Tamaño
en promedio de laalmuestra
teligencia valor artificial
de la y aprendizaje
población que Con los Big Data es tremendamente com
automático.
mayores de 15 años (población de análisis), el número total de personas paradas (propiedad de la poblaci
emos estimar máticamente 𝔼𝔼𝑌𝑌
Data (matemáticamente ). Además,
Además, el las lasdatos variaciones
variaciones del entre entre las estimaciones son (casi automáticame
n los Big es tremendamente común! = 𝑌𝑌). escuchar argumento recogidos tamaño de estasuna
Con
potenciales
muestral:
muestra
los Ya en
Big
teniendo
de1949,
Data
estimaciones
esta tal cantidad
población.
Yates (1949) advertía
es tremendamente
deben de datos, ser
comúnque una encuesta
escuchar el argumento por del tamaño mues
pequeñas
estimaciones en son
torno estas
(casi potenciales
valor promedio Y. más
al automáticamente) estimaciones
Granprecisas. deben
parte del ser muy
trabajoelen
A veces, peque-
una oficina
argumento va más de estadística
allá descalificando está encaminado la Estadística a como herramienta de análisis pregonand
las estimacionesmuestreo son probabilístico
(casi automáticamente) es más precisa más que un Acenso
precisas. veces, el argumento va
plir
mo estas
herramienta de ñas
dos propiedades. análisis en torno
pregonando al valorelpromedio uso exclusivo Y. Gran de parte del
Entécnicas
abstracto, de traba-con suficiente
inteligencia generalidad
artificial
(1). Layjustificación
aprendizaje práctica, siesta
automático.
de 𝑌𝑌 =afirmación !∈! 𝑦𝑦! denota proviene la propiedad
de los(1949) expresada por l
jo en una oficina de estadística está encaminado acomo herramienta de análisis pregonando el uso
Ya exclusivo
en 1949, de
Yatestécnicas deadvertía
inteligencia quea
población U a estudiar, la estimación
llamados se proporciona
errores de medida. a través Alde los valoreslos
determinar de las unidades k de la mu
𝑦𝑦!valores
en 1949, Yates (1949) cumplir estas que
advertía dos una propiedades.
encuesta por un muestreo probabilístico es 𝑦𝑦más precisa justificación de esta afirmación proviene
estimador 𝑌𝑌! = Ya!∈! en𝜔𝜔1949, ! ! , de donde
Yates losque
la variable
(1949)
un censo𝜔𝜔(1).seLadenominan pesos de muestreo y depende
coeficientes
de interés
advertía que !eluna proceso encuesta de determina-
por muestreo probabilístico e
esentatividad
stificación de estade la muestra proviene de los llamados errores
afirmación de medida.
seleccionado la muestra Al determinar
s. cióndeesesta los valores 𝑦𝑦 de la variable de interés el proceso de determinación es
justificación necesariamente
afirmación ! imperfecto
proviene de los y,llamados
por tanto, apare-
errores de medida. Al determ
(!) (!)
erés el proceso de Representatividad
determinación es necesariamente de la muestra imperfecto y, por tanto, aparecen cen errores 𝑦𝑦 ! = 𝑦𝑦 + 𝜖𝜖 ! , donde
donde 𝑦𝑦 denota
denota el el valor
valor verdadero que quie
enudo se plantea la calidad de las estimaciones como una cuestión de representatividad de la muestra respecto
interés el proceso de determinación es necesariamente imperfecto y, por tanto, apar
! a la !
!)
denota el valorNo verdadero que quiere aclarar determinarse. Si estos errores no se corrigen, verdadero que quiere determinarse. 4 Si estos
realidad sería de la forma 𝑌𝑌! = !∈! 𝜔𝜔! 𝑦𝑦!(!) + !∈! 𝜔𝜔! 𝜖𝜖! errores no
ación de análisis. Aobstante,
menudo debemos que el concepto de representatividad (!)
𝑦𝑦! denota deella estimador es
el muestra
valor verdadero
enpeligrosamente
que en quiere determinarse. Si estos errores no se corrige
de la estimación será diferente.se
(!) Unplantea
estimador la bien
calidad de las estimaciones se corrigen, el estimador realidad sería de la
investigada. Por forma
tanto, no se cumpliría la
rridizo
forma 𝑌𝑌(Kruskal
! = !∈!y𝜔𝜔Mosteller, 𝑦𝑦! +una
!como 1979a,
!∈! 𝜔𝜔! 𝜖𝜖! ,1979b,
cuestión quede 1979c, 1980).
implicaría
representatividad que, enUna definición
promedio,
de la muestra las inequívoca
estimaciones(que no son no hace (!) referencia
iguales a la cantidad al
iguales en promedio al valor de la población que la forma 𝑌𝑌! = !∈! 𝜔𝜔! 𝑦𝑦! + !∈! 𝜔𝜔! 𝜖𝜖! , que que implicaría
implicaríaque, que,enenpromedio, las estima
s esobstante, el error de medida no es completament
anismo dePor
vestigada.
es entre
respuesta)
estas potenciales
noesselacumpliría
tanto,respecto quea laafirma
estimaciones
la primera
población que una
deben
de
ser
muestra
propiedad
análisis.requerida No representativa
más arriba de- para de una
investigada.
población
alcanzar
promedio,
Por tanto, lasUno
estimaciones respecto
estimaciones de unason
de calidad.
se cumpliríano
Si iguales
la primera a la cantidad
propiedad requerida más arriba para
errorY de
able si las distribuciones
medida nobemos deaclarar
es completamente valoresque dealeatorio,
esta variable
el concepto cuanto en dela muestra
representatividad
mayor sea el y en tamañola población son muymayor
de la investigada.
muestra, similares será(Bethlehem,
elno error en la estimación.
en una oficina de estadística está encaminado a el error de medida noPor es tanto,
completamente se cumpliría aleatorio, la primera
cuantopropie- mayor sea el tamaño de l
9). Si bien esta definición
timación. de la muestra
matemática es peligrosamente
es rigurosa, sin escurridizo embargo, es (Kruskal
de poca andutilidad dad para los efectos habituales en la
estimación. requerida más arriba para alcanzar estimaciones
En las oficinas de estadística se desarrol
dística Pública, al menos Mosteller, por dos 1979a, motivos: 1979b, (i) la1979c,
distribución 1980).deUna los definición
valores en la población de calidad. de las Sivariablesel error de demedidainterés no es completamente
las oficinas de estadística se desarrolla toda una fase del proceso de producción encaminada a detectar estos errores y corregirlos. Es evidente que, dados los co
ca es conocida y (ii) inequívoca aun teniendo (que unano hace referencia
muestra representativa al mecanismo
para un conjunto deEn las deoficinas
variables
aleatorio, … , 𝑌𝑌! , almayor
de𝑌𝑌estadística
! ,cuanto estudiar
se seauna
desarrolla el tamaño
toda unade fase ladel muestra,
proceso de producción en
rregirlos. Es evidente respuesta)
que, dados es la
los que
costes afirma
de que
producción, una muestra
es mejor s es
corregirrepre- los errores en una muestra (p. ej. de 10.000 empresas) que de un censo (p. ej. de 1.0
va variable puede suceder que la muestra deje de ser representativa, al menos, corregirlos. mayor
para Esesta será
evidente nueva el error en
variable.
que, dados la estimación.
Existen
los costes de
mpresas) sentativa dedeuna población U respecto de unasevariable (la producción,
V de veracidad), es mejor pero,corregir
si bienlos estoerro d
antes delque de un censo
concepto (p. ej.
de representatividad 1.000.000 empresas).
que involucran A menudo el mecanismo aduce de querespuesta,
los datos digitales pero
empresas) que de un censo (p. ej. de 1.000.000
no contienen
esto sólo ilustra errores la empresas). A menudo se aduce que los
V de veracidad), Y
pero, si las
si distribuciones
bien esto debe de valores
comprobarse de esta
(2), en variable
la práctica en la
la adecuación En lasdeoficinas las de estadística
variables digitales sea las definiciones
desarrolla toda una de fasevariables estadísticas c
nplejidad
de representatividad
del concepto (véase de la p.ej. muestra Schouten, respecto Cobben,a la y Bethlehem (2009)). (la V de veracidad), pero, si bien esto debe comprobarse (2), en la práctica la adecu
finiciones de variables muestra y en la población
estadísticas como consecuencia son muy similares de su generación(Bethlehem,sin un sistema del proceso de producción
de metadatos estadísticos encaminada subyacente a detectar surge es- como una nueva fuent
representatividad de la muestra es peligrosamente
ncepto
byacente de surge como 2009).
representatividad, una Si bien
nueva no esta definición
obstante,
fuente de recoge
errores matemática
cualitativamente
de medida. es rigurosa,
Por cierta
tanto, sindefiniciones
medida
nuevamente de tos
calidad
cuanto
de variables
errores del
mayory proceso
corregirlos.
sea
estadísticas
el de Es evidente
selección
tamaño
como que,
de la
consecuencia
muestra, dados losdecos-
en realidad,
su generación sin un
mayor riesgo de co
definición inequívoca (que no hace referencia al subyacente surge como una nueva fuente de errores de medida. Por tanto, nuevamen
a muestra, que se embargo,
realiza sobre es de
un poca
listado utilidad
completo para de los efectos
todas las habitua-
unidades de la tes de
población, producción,ya sea dees mejor
personas, corregir los errores en una
uestra, en realidad,
presentativa de unalespoblación mayor riesgo de cometer
U respecto este
de una error de estimación surge.
en la Estadística Pública, al menos por dos motivos:muestra,muestra en realidad, (p. ej. mayor de 10.000riesgo de cometerSin
empresas) este
que error
embargo,
de un deefectivamente
estimación surge.
censo cuanto may
resas,
a y en establecimientos,
la población (i)son etc. similares
muy Estos listados (Bethlehem, son generados y mantenidos por las oficinas de estadística pública. La
ncción
embargo, efectivamente la distribución
cuanto mayor de los es valores
el tamaño enmuestral,
la población menor de es las
la variabilidad (p. ej. de de
las 1.000.000
estimaciones, empresas).
pero si el A error
menudo anteriorse aduce existe, entonces estaríam
se realiza de modo probabilístico de acuerdo con una metodología internacional Sin embargo, establecida
efectivamente desde los años 1930-
cuanto mayor es elerrores tamaño
de poca
ror anterior que
utilidad
existe,
para
entonces
los
variables efectos
de habituales
interés
estaríamos nunca eneslaconocida
proporcionando y (ii) aun tenien-
estimaciones connula un de notable queerror los datos
de medida digitales (por noelcontienenefecto aditivo) pero (la muestral,
V con
de ve- menor es la variab
poca variabilidad entr
asegurando
valores en la población cada unidad
de muestra de
las variables la población tiene una
de interés para un conjunto de va- probabilidad no error ser
anterior aleatoriamente
existe,
racidad), pero, entonces escogida.
si bien estaríamos Esto proporcionando
esto debe comprobarse (2), en estimaciones con un not
itivo)
ura queperolas con
dos pocadovariabilidad
propiedades
una
de entre
construcción
representativa
todasdelasestimadores posibles estimaciones, mencionadas esto es, una estimación
anteriormente puedan errónea
ser satisfechas.con casi toda seguridad.
un conjunto de variables riables 𝑌𝑌! , … , 𝑌𝑌! , al al estudiar
estudiaruna una nueva variable puede aditivo) pero con poca variabilidad
la práctica la adecuación de las variables digitales a entre todas las posibles estimaciones, esto es, un
guridad.
ativa, al menos, para suceder
esta nueva que la muestraExisten
variable. deje de ser representativa, al seguridad. las definiciones de variables estadísticas como conse-
todo ello, desaconsejamos considerar el concepto de representatividad de la muestra, sino perseguir las propiedades
canismo de respuesta, menos, pero para esto esta sólo nuevailustra variable.
la Existen variantes del cuencia de su generación sin un sistema de metadatos
riores necesarias deconcepto los estimadores de para obtener estimaciones
representatividad que involucran de calidad. el me- estadísticos subyacente surge como Muestreo
una nueva probabilístico,
fuente modelos estad
2009)).
uestreo probabilístico, canismomodelos de estadísticos
respuesta, pero esto sólo automático
y aprendizaje ilustra la comple- de errores de medida. Por tanto, nuevamente cuanto
Muestreo probabilístico, modelos estadísticos y aprendizaje automático
eaño cierta medida jidad del
de calidad del concepto
proceso de(véase selección p.ej. Schouten, Cobben, y mayor sea el tamaño de la muestra, en realidad, mayor
de la muestra
Bethlehem
as unidades de la población, ya sea de personas, (2009)). riesgo de cometer este error de estimación surge.
tenidos
los Big Datapor las oficinas de estadística
es tremendamente pública.
escucharLael argumento
El concepto común de representatividad, no obstante, del tamaño recogemuestral:Sin teniendo
embargo, tal cantidad
efectivamente de datos,cuanto mayor es el ta-
ogía internacional
stimaciones son (casi establecida
automáticamente) desde los años
más 1930-
precisas. A 5
veces, el argumento va más allá descalificando la Estadística 5
cualitativamente cierta medida de calidad del proceso maño muestral, menor es la variabilidad de las estima-
dad no nula dedeser
o herramienta dealeatoriamente
análisis pregonando
selección deescogida.
el muestra,
la uso exclusivo Esto quede setécnicas
realiza sobre de inteligenciaun lis- artificial ciones, y aprendizaje
pero si elautomático. error anterior existe, entonces esta-
onadas anteriormente puedan ser satisfechas.
n 1949, Yates (1949) advertía que una encuesta por muestreo probabilístico es más precisa que un censo (1). La
idad de de
ficación la muestra,
esta afirmación sino perseguirproviene
405 >Ei
las depropiedades
los llamados errores de medida. Al determinar los valores 𝑦𝑦! de la variable de 125
calidad.
és el proceso de determinación es necesariamente imperfecto y, por tanto, aparecen errores 𝑦𝑦 = 𝑦𝑦 + 𝜖𝜖 , donde
(!)
! ! !
denota el valor verdadero que quiere determinarse. Si estos errores no se corrigen, el estimador en realidad sería de
(!)
rma 𝑌𝑌! = !∈! 𝜔𝜔! 𝑦𝑦! + !∈! 𝜔𝜔! 𝜖𝜖! , que implicaría que, en promedio, las estimaciones no son iguales a la cantidad
D. SALGADO

ríamos proporcionando estimaciones con un notable Las técnicas analíticas asociadas a los Big Data, sin
error de medida (por el efecto aditivo) pero con poca embargo, incluso parecen proporcionar cierta solución
variabilidad entre todas las posibles estimaciones, esto para este problema. Las técnicas de aprendizaje au-
es, una estimación errónea con casi toda seguridad. tomático permiten construir modelos estadísticos y ac-
tualizarlos conforme a los valores de las variables que se
vayan procesando. Aquí la cuestión se torna muy sutil,
Muestreo probabilístico, modelos estadísticos y recordando el debate entre racionalismo y empiricismo
aprendizaje automático (Starmans, 2016).
¿Quiere decir esto que deban mantenerse a toda costa
Ilustrémoslo con un ejemplo muy conocido en la filoso-
los métodos tradicionales de inferencia en la Estadística
fía de la ciencia (Kuhn, 1957): el cambio de paradigma
Oficial con las nuevas fuentes de datos? Esto es sencilla-
científico entre la cosmología de Ptolomeo y la de Co-
mente imposible.
pérnico. En la Antigüedad, el sistema ptolemaico permi-
En primer lugar, obsérvese que los datos digitales pro- tía calcular el movimiento de cualquier objeto celeste a
porcionados por estas fuentes no provienen de una través de la introducción de más elementos de cómpu-
selección de una muestra probabilística diseñada por tos (más epiciclos, deferentes, ...). Se disponía de todo
el estadístico oficial, sino que son generados por me- un sistema de computación que tan sólo necesita un
canismos aleatorios desconocidos. Por tanto, todo el input adecuado para producir los resultados precisos.
esquema de inferencia anterior basado en muestras La llegada del nuevo sistema copernicano introducía un
probabilísticas es inútil. elemento explicativo (la ley de la gravitación de Newton)
que permitía reproducir estos resultados, aunque com-
En segundo lugar, en la actualidad el acceso a estos prendiendo la naturaleza de los fenómenos.
datos digitales se plantea de modo completamen-
te anonimizado, siendo la identificabilidad una de las Salvando ciertas distancias, las técnicas de aprendizaje
características fundamentales de tales métodos tradi- automático son similares al sistema ptolemaico, pues
cionales (Cassel et al., 1977). Por tanto, nuevamente la proporcionan un método de cómputo que se ade-
inferencia al uso no puede aplicarse. cúa a los datos de entrada produciendo bien uno u
otro resultado, sin mayor explicación de los fenómenos
No obstante, en algunas circunstancias (p. ej. en la es- subyacentes que relacionan las variables involucradas.
timación en pequeños dominios), la Estadística Pública Los modelos estadísticos, sin embargo, al igual que el
dispone de métodos alternativos basados en la mode- sistema copernicano, arrojan cierta luz sobre la natura-
lización de los valores de las variables de la población, leza de los fenómenos y de las variables involucradas,
permitiendo superar las circunstancias anteriores. Estos produciendo asimismo los resultados adecuados siem-
métodos sólo se emplean por algunas oficinas de es- pre y cuando las hipótesis de partida (la explicación del
tadística y en determinadas circunstancias. ¿Por qué no fenómeno) sean válidas.
aplicarlos a las nuevas fuentes Big Data?
En los ejercicios de análisis que utilizan Big Data, en es-
El uso de modelos estadísticos será, sin duda, necesario, pecial en la investigación sociológica y económica,
aunque aún está por llegar una investigación exhausti- parece natural afirmar que las técnicas de aprendizaje
va al respecto para cada fuente Big Data. Pero ya son automático no son completamente satisfactorias. Sin
conocidas las implicaciones que tiene este cambio de embargo, la Estadística Pública persigue medir ciertas
paradigma (Smith, 1976, 1994). El muestreo probabilísti- cantidades independientemente de su explicación o
co fue escogido como la solución estándar al proble- de su naturaleza. Por tanto, ¿cabe el uso del aprendizaje
ma de la inferencia en la Estadística Pública porque libe- automático siempre y cuando las estimaciones sean de
ra al estadístico oficial de realizar hipótesis a priori sobre calidad? Esto forma parte de la necesidad de analizar
los valores de las variables. En los modelos estadísticos, el uso de Big Data para la producción estadística oficial.
esto, sin embargo, no es así, corriendo el grave riesgo
de producir malas estimaciones si las hipótesis no son
válidas. Un ejemplo muy conocido con una fuente Big
TECNOLOGÍA: EL ENTORNO DE COMPUTACIÓN
Data se encuentra en la estimación de la prevalencia Sin duda, el aspecto más visible de los Big Data es el
de la gripe en EE.UU. realizada por Google a partir exclu- aspecto tecnológico. Las oficinas productoras de es-
sivamente de las búsquedas de términos relacionados tadística poseen unidades especializadas en el tra-
en su buscador de Internet (Butler, 2013). Son las llama- tamiento y procesamiento informático de los datos,
das Google Flu Trends. Las estimaciones se realizaron pero los Big Data requieren una actualización de esta
mediante técnicas de modelización estadística y, pos- infraestructura. Básicamente el origen de estas nuevas
teriormente, se compararon con las cifras oficiales reco- necesidades del marco tecnológico proviene del he-
gidas de los hospitales (Olson et al., 2013). Cuando las cho que los Big Data no caben en la memoria de una
hipótesis a priori dejaron de ser válidas, las estimaciones única computadora. El almacenamiento y procesa-
resultantes perdieron su calidad. La Estadística Pública miento debe realizarse necesariamente en un cluster.
ha primado siempre el principio de independencia de
su trabajo (de hecho, es el primer principio del Código La nueva infraestructura informática estará fuertemente
de Buenas Prácticas europeo (European Statistical Sys- condicionada por dos factores. Por un lado, depende-
tem, 2011)). rá de las necesidades concretas de almacenamiento

126 405 >Ei


BIG DATA EN LA ESTADÍSTICA PÚBLICA: RETOS ANTE LOS PRIMEROS PASOS

y procesamiento de datos, lo que, en última instancia, LA CALIDAD DE LA PRODUCCIÓN ESTADÍSTICA OFICIAL


dependerá del modelo de negocio acordado con
los proveedores de datos. Por ejemplo, si en la cola- La calidad de las estadísticas oficiales ha sido siempre
boración con las corporaciones privadas generado- un elemento central de la producción estadística ofi-
ras y poseedoras de los datos se acuerda realizar un cial. Ya llevó más de 30 años (desde finales del siglo
pre-procesamiento y agregación in-situ dentro de los XIX hasta finales de la década de los 30) convencerse
sistemas de información de las compañías para dis- de que las técnicas de muestreo probabilístico permi-
minuir la exposición de los datos al exterior, es posible ten formalmente obtener resultados más precisos que
que el volumen de información dentro de las oficinas un censo (3). El control de la acuracidad, esto es, tan-
de estadísticas no sea crítico. De igual modo, la perio- to del sesgo como de la varianza, fueron el objetivo
dicidad con la que se acuerde acceder a estos datos central del diseño de todas las operaciones estadísti-
condicionará el tipo de herramientas ya sean para pro- cas. La prioridad era controlar el llamado total survey
cesar en tiempo real o en diferido. Del mismo modo, error, esto es, el conjunto de errores tanto de muestreo
si los datos se estructuran antes de llegar a los sistemas como ajenos al muestreo, dando lugar al total survey
informáticos de las oficinas de estadística, las necesi- error paradigm (Biemer, 2010).
dades serán obviamente diferentes. Todo ello además
Posteriormente, en la década de los 80, al igual que
deberá ser analizado fuente a fuente y proveedor a
en muchas otras industrias, el concepto de calidad
proveedor.
sufrió una revolución. En la Estadística Oficial surgieron
Por otro lado, la infraestructura informática dependerá las dimensiones de la calidad. Ya no sólo debe ga-
también de la estrategia de modernización e indus- rantizarse la acuracidad, sino también la relevancia, la
trialización del proceso de producción estadística que puntualidad (4) y oportunidad, la coherencia y com-
lleva en marcha varios años en la comunidad interna- parabilidad y otros factores. El paradigma total survey
cional (UNECE, 2017). Tanto la arquitectura del hard- error quedó así integrado en el total survey quality fra-
ware como las herramientas de software deberán ser mework (Biemer, 2010).
revisadas dentro de esta estrategia de industrialización.
Finalmente, en el ámbito del Sistema Estadístico Eu-
Es prácticamente imposible concretar qué tipo de ar- ropeo desde hace unos años el llamado Código de
quitectura y qué herramientas son idóneas sin conocer Buenas Prácticas (CBP) de las Estadística Europeas (Eu-
los detalles de las necesidades de almacenamiento y ropean Statistical System, 2011) constituye la base para
procesamiento. En cualquier caso, sí existen ya opcio- la garantía de la calidad en el proceso de producción.
nes que permiten una industrialización a gran escala El CBP está formado por 15 principios divididos en 3
del entorno de computación de una oficina estadís- bloques, que son (i) entorno institucional (principios 1 a
tica. El empleo de clusters para la computación en 6), (ii) procesos estadísticos (principios 7 a 10) y (iii) pro-
paralelo independientemente del uso de fuentes Big ducción estadística (principios 11 a 15). Cada uno de
Data constituye una modernización importante de los estos principios da origen a una serie de indicadores
procesos de cómputo (piénsese por ejemplo en el que calibran diversos aspectos relacionados con cada
procesamiento de datos censales). Esto conlleva re- principio.
tos, no solo desde el punto de vista de la arquitectura
Así, por ejemplo, el principio 8 establece que «las es-
del hardware, sino de la programación de algoritmos
tadísticas de calidad se apoyan en procedimientos
paralelizados. Por supuesto, no cabe otra opción que
estadísticos adecuados, aplicados desde la recogida
estas infraestructuras sean centralizadas, dando servi-
de los datos hasta la validación de los mismos». Este
cio a todas las operaciones estadísticas producidas en
principio posee nueve indicadores asociados, los tres
una oficina, de tal modo que el almacenamiento y
últimos son:
procesamiento se realicen siempre de modo centra-
lizado. Herramientas como la virtualización (Wikipedia, 8.7: Las autoridades estadísticas participan en el
2017a) pueden permitir dar soluciones adecuadas a diseño de los datos administrativos para adecuar-
cada circunstancia (por ejemplo, habrá operaciones los en mayor medida a los fines estadísticos.
que por su volumen de datos no requieran el uso de
un cluster ni de paralelismo alguno). Todo ello condu- 8.8: Se establecen acuerdos con los propietarios
ce de algún modo al concepto de cloud computing de los datos administrativos, en los que se estable-
(Wikipedia, 2017b), nube que, en el caso de la produc- ce el compromiso común para el uso de dichos
ción estadística oficial, debe ser de acceso restringido datos con fines estadísticos.
y con las mismas salvaguardas de seguridad informáti-
ca que en los sistemas tradicionales. 8.9: Las autoridades estadísticas colaboran con
los propietarios de los datos administrativos para
Si la producción de estadísticas se asemeja a la escritura garantizar la calidad de los datos.
de una novela, el cambio necesario en la infraestructu-
ra equivale a pasar de la caligrafía manual al procesa- Estos indicadores hacen referencia explícita a una de
miento de textos con un ordenador. Esta modernización las fuentes de datos cada vez más importante: los re-
debe ser además acometida manteniendo la produc- gistros administrativos. Se observa cómo los principios
ción estadística cotidiana comprometida en los calen- persiguen calibrar los diversos detalles relacionados
darios de difusión de las operaciones estadísticas. con cada aspecto de la producción.

405 >Ei 127


D. SALGADO

En esta misma línea, la implementación sistemática de una estrategia de acceso y reaprovechamiento de


del CBP tiene su principal desarrollo en el Marco de estos datos por partes de las Administraciones Públicas.
Garantía de la Calidad del Sistema Estadístico Europeo
(European Statistical System, 2012). Se trata de un do-
cumento que identifica diversas actividades, métodos
NOTAS
y herramientas para esta implementación. La primera
[1] Esta afirmación debe ser matizada en relación con
versión, de agosto de 2011, cubría los principios 4 y 7
funciones de coste.
a 15. Tras la actualización del CBP en septiembre de
[2] En la investigación con datos de identificación auto-
2011, se revisó y adoptó consiguientemente el marco
mática de navíos (datos AIS), nuestros colegas han
de calidad vigente, que fue aprobado por el Grupo
podido comprobar cómo varios cientos de navíos en
de Trabajo de Calidad de las Estadísticas en noviem-
el Mar Mediterráneo son detectados por el sistema en
bre de 2012. Esta versión no contiene consideraciones
el Desierto del Sáhara (Consten, 2017).
respecto al uso de Big Data en la producción de esta-
[3] Como hemos apuntado, esta afirmación se encuen-
dísticas oficiales.
tra ya en el libro de 1949 de uno de los padres del
El reto es evidente. ¿Cómo deberán cambiar tanto el muestreo probabilístico, F. Yates, Sampling methods
CBP como el marco de garantía para asegurar la ca- for censuses and surveys, y se justifica por las dificul-
lidad en la producción con Big Data? Previsiblemente tades que surgen de los llamados errores ajenos al
muchos de los principios se verán afectados por el uso muestreo (Lessler y Kalsbeek, 1992), esto es, errores no
de Big Data debido a los retos expuestos anteriormen- relacionados con el procedimiento de selección de
te, esto es, al acceso institucional, al uso de nueva me- la muestra. Véase la sección 4.3.
todología estadística y a la necesidad de nuevas tec- [4] Timeliness.
nologías informáticas. Como ejemplo, los indicadores
8.7, 8.8 y 8.9 expuestos anteriormente necesitarán cla- BIBLIOGRAFÍA
ramente ser completados con sus equivalentes para
las fuentes Big Data -- si así finalmente se concluye que
AEPD (2017). Agencia Española de Protección de Datos.
es posible y conveniente o necesario.
https://www.agpd.es.
Obsérvese cómo paralelamente a la adaptación y BETHLEHEM, J. (2009). Applied Survey Methods - A Statistical
revisión del CBP y del marco de calidad es preciso re- Perspective. Amsterdam: Wiley.
solver los tres retos expuestos anteriormente y analizar BIEMER, P. (2010). «Total survey error: design, implementa-
detalladamente la interrelación existente entre ellos. tion, and evaluation». Public Opinion Quaterly, 74, 817-848.
BUTLER, D. (2013). «When Google got flu wrong». Nature,
494, 155-156.
CONCLUSIONES CASSEL, C.-M., SÄRNDAL, C., and WRETMAN, J. (1977). Foun-
dation of inference in survey sampling. New York: Wiley.
La Estadística Pública se encuentra en un proceso de
COMUNIDAD EUROPEA (2002). Versión consolidada del Tra-
modernización e industrialización en el que la incorpo-
tado Constitutivo de la Comunidad Europea. Diario Oficial de
ración de los Big Data al proceso de producción apa-
las Comunidades Europeas C325/33-184.
rece como uno de los elementos más visibles.
CONSTEN, A. (2017). ESSnet Pilot on AIS Data. Dissemination
Antes de su uso generalizado para la producción de Workshop of the ESSnet on Big Data. Sofia, 23-24 February, 2017.
estadísticas oficiales, existen retos notables que de- https://webgate.ec.europa.eu/fpfis/mwikis/essnetbigdata/ima-
ben superarse para garantizar la calidad de las es- ges/7/77/Presentation_ WP4_20170223-24_Sofia_AIS_data.pdf.
tadísticas que se nutren de estas fuentes de datos. ESS TASK FORCE ON BIG DATA (2017). Results from the
Los retos principales son el acceso institucional a los analysis project on legal issues related to the use of Big
datos, la nueva metodología estadística para el tra- Data. Doc.DDG.TF.BD 2017 04 27-28-4-legal issues. Internal
tamiento de estos datos y los cambios en la infraes- document.
tructura tecnológica. Todo ello conlleva la necesaria EUROPEAN COMMISSION (2017). Communication from the
renovación del perfil profesional del estadístico oficial Commission to the European Parliament, the Council, the Eu-
que va desde la formación académica universitaria ropean Economic and Social Committee and the Committee
integrando disciplinas como la Estadística y la Infor- of the Regions on the Mid-Term Review on the implementation
mática hasta planes de formación continua en las of the Digital Market Strategy. A connected Digital Single Mar-
oficinas de estadística. ket for All. COM(2017) 228 final.
EUROPEAN STATISTICAL SYSTEM (2011). European Statistics
Si la modernización y la industrialización son ya una ne- Code of Practice. http://ec.europa.eu/eurostat/documents/
cesidad ante el agotamiento del modelo de produc- 3859598/5921861/KS-32-11-955-EN.PDF/5fa1ebc6-90bb-
ción tradicional, la inclusión de los Big Data en el pro- 43fa-888f-dde032471e15.
ceso de producción es una necesidad ante el riesgo EUROPEAN STATISTICAL SYSTEM (2012). ESS Quality Assu-
de que las oficinas de estadística pierdan relevancia rance Framework v1.2. http://ec.europa.eu/eurostat/ docu-
en la producción de estadísticas. Esto supone un cam- ments/64157/4392716/qaf_2012-en.pdf/8bcff303-68da-
bio de cultura en la Estadística Pública que requiere un 43d9-aa7d-325a5bf7fb42.
refuerzo de su colaboración con los sectores privado EUROSTAT (2015). Big Data. https://ec.europa.eu/eurostat/
y académico y, seguramente, el diseño coordinado cros/content/big-data_en.

128 405 >Ei


BIG DATA EN LA ESTADÍSTICA PÚBLICA: RETOS ANTE LOS PRIMEROS PASOS

KLEIN, T. and VERHULST, S. (2017). «Access to new data sour- SALGADO, D., ALEXYRU, C., DEBUSSCHERE, M., DUPONT, F., PIE-
ces for statistics: business models and incentives for the cor- LA, P., and RADINI, R. (2016). Current status of access to mobile
porate sector». OECD Statistics Working Papers (Working Paper phone data in the ESS. ESSnet on Big Data WP5 Deliverable 1.1.
No. 82), 1-38. https://webgate.ec.europa.eu/fpfis/ mwikis/essnetbigdata/ima-
KRUSKAL, W. and MOSTELLER, F. (1979a). Representative sam- ges/6/65/WP5_Deliverable_1.1.pdf.
pling, I: Non-scientific literature. International Statistical Review, SALGADO, D., ALEXYRU, C., OANCEA, B., DEBUSSCHERE, M.,
47, 13-24. DUPONT, F., PIELA, P., WILLIAMS, S. (2017). Guidelines for the ac-
KRUSKAL, W. and MOSTELLER, F. (1979b). «Representative cess to mobile phone data within the ESS. ESSnet on Big Data
sampling, II: scientific literature, excluding statistics». Internatio- WP5 Deliverable 1.2. https://webgate.ec.europa.eu/fpfis/mwikis/
nal Statistical Review, 47, 111-127. essnetbigdata/images/ 6/65/WP5.Deliverable_1.2.pdf
KRUSKAL, W. and MOSTELLER, F. (1979c). «Representative SCHOUTEN, B., COBBEN, F., and BETHLEHEM, J. (2009). «In-
sampling, III: the current statistical literature». International Statis- dicators for the representativeness of survey response». Survey
tical Review, 47, 245-265. methodology, 35(1), 101-113.
KRUSKAL, W. and MOSTELLER, F. (1980). Representative sam- SMITH, T. (1976). «The foundations of survey sampling: a re-
pling, IV: the history of the concept in Statistics, 1895-1939». In- view». Journal of the Royal Statistical Society A, 139, 183-204.
ternational Statistical Review, 48, 169-195. SMITH, T. (1994). «Sample surveys 1975-1990: An age of re-
KUHN, T. (1957). The Copernican revolution. Boston: Harvard conciliation?» International Statistical Review, 62, 5-19.
University Press. STARMANS, R. (2016). «The advent of data science: some
LANEY, D. (2001). 3D Data management: controlling data vo- considerations on the unreasonable effectiveness of data». En
lume, velocity y variety. META Group. http://blogs.gartner.com/ P. Bühlmann, P. Drineas, M. Kane, y M. van der Laan, Hybook of
doug-laney/files/2012/01/ad949-3D-Data-Management-Con- Big Data (págs. 3-20). Amsterdam: Chapman y Hall/CRC Press.
trolling-Data-Volume-Velocity-y-Variety.pdf THE ECONOMIST. (2010). The data deluge. http://www.econo-
LESSLER, J. and KALSBEEK, W. (1992). Nonsampling error in sur- mist.com/node/15579717.
veys. New York: Wiley. UNECE (2011). Modernization of official statistics. https://www.
NORMANDEAU, K. (2013). Beyond Volume, Variety and Velo- unece.org/stats/mos.html.
city is the Issue of Big Data Veracity. insideBigData, 12 Septem- UNITED NATIONS GLOBAL WORKING GROUP ON BIG DATA
ber, 2013. http://insidebigdata.com/2013/09/12/beyond-volu- (2016). Recommendations for access to data from private or-
me-variety-velocity-issue-big-data-veracity/. ganizations for Official Statistics. Dublin: United Nations.
OLSON, D., KONTY, K., PALADINI, M., VIBOUD, C., and SIMON- WIKIPEDIA (2017A). Virtualization. https://en.wikipedia.org/wiki/
SEN, L. (2013). «Reassessing Google flu trends data for detection Virtualization.
of seasonal and pandemic influenza: a comparative epide- WIKIPEDIA (2017B). Cloud Computing. https://en.wikipedia.
miological study at three geographic scales». PLOS Computa- org/wiki/Cloud_computing.
tional Biology, 9, 156-170. YATES, F. (1949). Sampling methods for censuses and surveys.
ONU (2014). Principios Fundamentales de las Estadísticas Ofi- London: Charles Griffins.
ciales de Naciones Unidas. New York: Naciones Unidas. https://
unstats.un.org/unsd/dnss/gp/FP-New-S.pdf.

405 >Ei 129

También podría gustarte