ProQuestDocuments 2022 07 15

Tipos de big data y análisis sociológico: usos,
críticas y problemas éticos

Aragona, Biagio 1 1 Universidad de Nápoles Federico II . Empiria ; Madrid N.º 53, (Jan-Apr 2022): 15-30.
Enlace de documentos de ProQuest
TEXTO COMPLETO
Headnote
Recibido: 14.07. 2020
Aceptado: 03.12.2021
RESUMEN
Solo con un conocimiento más consciente de los diferentes tipos de big data y sus posibles usos, límites y
ventajas la sociología se beneficiará realmente de estas bases empíricas. En este artículo, a partir de una
clasificación de los diversos tipos de big data, se describen algunas áreas de uso en la investigación social
destacando cuestiones críticas y problemas éticos. Los límites se vinculados a cuestiones fundamentales
relativas a la calidad de los big data. Otra cuestión clave se refiere al acceso. Otro aspecto metodológico a tener
en cuenta es que los datos digitales en la web deben considerarse no intrusivos. Los métodos de investigación
encubiertos han desafiado la práctica de evaluación ética establecidas adoptadas en la mayoría de las
instituciones de investigación: el consentimiento informado. Las pautas éticas digitales no pueden ser universales
y estar establecidas de una vez por todas.
PALABRAS CLAVE
Big data, Cualidad de los datos, Postdemografia, Consentimiento informado, Search as research.
ABSTRACT
Only through expert knowledge of the different types of big data and their possible uses, limits and advantages will
sociology benefit from these empirical bases. In this article, based on a classification of the various types of big
data, some areas of use in social research are described, highlighting critical questions and ethical problems. The
limits are related to fundamental questions regarding the quality of big data. Another paramount issue concerns
access. A further methodological aspect is that digital data on the web should be considered nonintrusive. Covert
research methods have challenged the established ethical evaluation practice adopted in most research
institutions: informed consent. Digital ethical guidelines cannot be universal and established once and for all.
KEY WORDS
Big Data, Data Quality, Postdemography, Informed consent, Search as research.
1.INTRODUCCIÓN
Actualmente el término big data se considera una palabra de moda, que se usa ampliamente, pero con poca
precisión. En realidad, big data se refiere a un conjunto de datos muy diferentes en relación con actores sociales
específicos y áreas de aplicación potenciales. Sólo con un conocimiento más consciente de los diferentes tipos de
big data y sus posibles usos, límites y ventajas la sociología se beneficiará realmente de estas nuevas bases
empíricas. Rechazar el uso de grandes datos porque no es familiar, o porque no se producen de acuerdo con los
estándares de calidad a los que estamos acostumbrados, o aceptarlos sin crítica, sin reflexionar sobre qué actores
sociales los están produciendo, sin embargo, no permitirá que la sociología se beneficie de los aportes del
conocimiento que podrían derivarse de las "revolución de los datos" (Kitchin, 2014). En cambio, es necesario
adoptar una postura creativa y al mismo tiempo crítica con respecto a su uso en los diseños de investigación
social. Esta postura debe tener como objetivo probar las características de los diferentes tipos de big data,
PDF GENERADO POR PROQUEST.COM Page 1 of 110

identificando lo que pueden ofrecer a la investigación social y lo que no pueden ofrecerles. En este artículo, a partir
de una clasificación de los diversos tipos de big data, se describen algunas áreas de uso en la investigación social
destacando cuestiones críticas y problemas éticos.
Pero, aunque el término big data se utiliza cada vez más, sigue identificando un conjunto muy amplio de datos
digitales almacenados con fines administrativos, comerciales o científicos, que en realidad tienen características
muy diferentes. La principal fuente de big data es definitivamente Internet. El ejemplo más emblemático e
inmediato está representado por los medios de comunicación y todos los contenidos generados por el usuario
(Boccia Artieri, 2015) pueden ser de diferentes formas: textos, imágenes, vídeos, url, etc.. Se trata de datos
producidos voluntariamente y que se insertan en un sistema o en una plataforma digital. Entre ellos figuran los
contenidos de blogs y sitios web que, a partir de datos en forma no estructurada, generalmente en formato HTML,
se transforman mediante técnicas de web scraping (Turland, 2010) H que permiten extraer datos de un sitio web
mediante programas informáticos que simulan la navegación humana en la World Wide Web - en metadatos que
pueden almacenarse y analizarse localmente en una base de datos.
Otro efecto de la extensión de la web son los datos producidos por la internet de las cosas. La internet de las
cosas (o, más propiamente, la internet de los objectos) es un neologismo que se refiere a la extensión de la red al
mundo de los objetos y los lugares concretos. Las cosas comunican datos sobre sí mismas y acceden a datos de
otros dispositivos. Los objetos pueden adquirir un papel activo gracias a su conexión a la red. Por ejemplo, los que
tienen etiquetas (identificación por radiofrecuencia (Rfid) o códigos QR) comunican los datos a través de la red o a
los dispositivos móviles. Entre los ejemplos se incluyen los datos de los sensores, tanto fijos - como los sistemas
de automatización del hogar (contadores de calorías, presencia, fuego, gas), sensores médicos (frecuencia
cardíaca, presión sanguínea, glucosa en sangre, etc.) o los de vigilancia de fenómenos externos (clima,
contaminación, tráfico)-como móviles-como los sistemas de localización montados en los teléfonos inteligentes, o
los sensores (de aparcamiento, de frenado, etc.) instalados en los coches que intervienen para ayudar al
conductor.
Una última categoría de datos producidos en la web son los rastros que se dejan en Internet cada vez que se
navega en un sitio o una página web en particular. Un ejemplo son los registros (logs), es decir los archivos que
registran los eventos o mensajes que ocurren en un sistema operativo, software o aplicación H como los que se
crean cuando se realiza una búsqueda en un motor de búsqueda por ejemplo en Google. El procesamiento de
estos datos con técnicas estadísticas permite analizarlos en tiempo real, produciendo informes específicos sobre
un determinado grupo de eventos, que se registran por separado y se presentan directamente en el sistema. Por
ejemplo, en el entorno de los mO°C (Massive Open On-line Courses), los datos de registro se utilizan para producir
informes específicos sobre la inscripción en los cursos de los estudiantes, de modo que el sistema genera
informes automáticos sobre los flujos de inscripción en tiempo real y alerta cuando el número de participantes en
un curso alcanza un determinado umbral.Este tipo de datos son rastros, un subproducto de otras acciones,
enfocadas y orientadas de manera diferente, que quedan impresas empíricamente en la realidad. La diferencia
entre la información que se comunica (da) intencionalmente, como la de los usuarios de las redes sociales, y la
información que se deja (emite) accidentalmente dentro de los ecosistemas digitales, parece ser profunda, y esto
también desde el punto de vista del análisis sociológico.
La información que está en las pistas, es decir, la información que no tenía la intención de ser informativa, es muy
buscada. La oportunidad de interpretar esas huellas que las personas dejan es el verdadero gran desafío de la
sociología digital. Históricamente, el origen del interés de los investigadores sociales por las trazas (Webb et al,
1966) empezó de la necesidad de contrastar las grandes encuestas muestrales con una forma de hacer
investigación más abierta al uso integrado de diferentes dispositivos, con el fin de compensar las inevitables
distorsiones introducidas con la solicitud directa de información a los sujetos involucrados en las investigaciones.
El uso de este material empírico en particular requiere reflexionar sobre al menos dos aspectos del método
relevantes para cada diseño de investigación. En primer lugar, reactividad. Molestar o no el tema de nuestro
análisis es una elección importante que debe hacerse pensando en las posibles consecuencias que nuestra

intrusión puede tener sobre el comportamiento de las personas que vamos a estudiar. En un escenario en el que la
captación de sujetos para la administración de cuestionarios será cada vez más difícil -como lo demuestra el
aumento de no respuestas incluso en las grandes encuestas internacionales de oficinas internacionales de
estadística (Eurostat, 2020) - las huellas dejadas en la red parecen ser fundamentales para seguir estudiando los
comportamientos de los individuos. Otro aspecto a considerar es la profundidad. ¿Qué se puede entender del
comportamiento social a partir de las huellas presentes en la red? ¿Qué tan profundo es el análisis que se puede
hacer al respecto? A menudo, es posible rastrear una serie inconmensurable de comportamientos, pero que
muchas veces no es posible vincular a información de contexto fundamental que serviría para aumentar su
profundidad informativa.
Otro conjunto de datos se produce por las innumerables transacciones que tienen lugar entre los dispositivos
digitales conectados. Un ejemplo son los datos que se crean cada vez que realizamos cualquier comunicación
(llamada, mensaje de texto, mensaje de vídeo) en nuestro teléfono móvil o smartphone. Para cada evento de
comunicación se genera un conjunto de datos que indica, por ejemplo, la fecha, la hora, el número de teléfono del
destinatario, la duración de la llamada o el número de caracteres utilizados en el mensaje. Este tipo de datos son
también los datos de los movimientos realizados con tarjetas de crédito y débito, o los datos generados por los
lectores ópticos de códigos de barras utilizados en los supermercados. Las oficinas de estadística de diversos
países han llevado a cabo interesantes experimentos sobre estos últimos para utilizarlos en la elaboración de
estadísticas oficiales. Por ejemplo, el Instituto Italiano de Estadística (ISTAT) utiliza los datos de los escáneres de
las principales cadenas de supermercados para equilibrar los resultados de la encuesta de precios al consumidor.
La actualización de los datos de los escáneres permite la vigilancia de los precios en tiempo real y también hace
que el estudio de los precios sea más preciso que los datos de la investigación tradicional. De hecho, los datos de
los lectores ópticos permiten detectar con precisión el número de ventas. Sin embargo, a pesar de la mejora de la
precisión, los datos del escáner no son adecuados para responder a preguntas específicas; por ejemplo, no
ayudan a explicar por qué los consumidores prefieren determinados productos. En resumen, pueden carecer de
validez. El mismo riesgo se aplica también a los datos de los teléfonos móviles. Siguen existiendo algunas
limitaciones importantes al tratar de utilizar esos datos para explicar los movimientos de la población. Aunque
permiten el análisis en tiempo real, estos datos no ofrecen la posibilidad de obtener más información sobre las
características de los individuos vigilados, y sobre las motivaciones que impulsan sus movimientos (turismo,
trabajo, familia, etc.), los medios de transporte utilizados y muchas otras informaciones que serían pertinentes
para estudiar la movilidad de los individuos.
Una última categoría de datos es la generada por las denominadas infraestructuras de datos: catálogos, archivos,
sistemas de información y portales que, a través de diversos procedimientos de agregación, fusión y unión, forman
bases de datos mucho más voluminosas que antes. Ejemplos de ello son los datos de los sistemas de información
que fusionan los datos administrativos con los de las encuestas o los censos, o los datos gestionados por
archivos de datos de ciencias sociales como el CESSDA (Central European Social Science Data Archives). Este
tipo de grandes datos es tradicional en muchos sentidos. Se trata de datos numéricos estructurados que son el
resultado de definiciones operacionales establecidas previamente por los fabricantes. También se construyen los
metadatos necesarios para las fusiones e integraciones entre las diferentes bases de datos. Debido a sus
características tradicionales, con excepción del volumen, también se han definido los data that are getting bigger
(Aragona, 2016) o small big data (Gray et al. ,2015).
2.DILUVIO DE DATOS Y ANÁLISIS SOCIOLÓGICO
La primera consecuencia del «diluvio de datos» (The Economist, 2010) sobre la sociología es lo que se ha definido
como la crisis del análisis sociológico empírico (Savage y Burrows, 2007). En primer lugar, a medida que
aumentaba la cantidad de datos, las tradicionales bases empíricas cuantitativas de las ciencias sociales
(encuestas y experimentos) fueron sustituidas por grandes análisis de datos. Por ejemplo, la investigación de
mercado se lleva a cabo ahora en comunidades en línea, en lugar de mediante encuestas por muestreo, y network
analysis y sentiment analysis están sustituyendo a las tradicionales encuestas electorales; por no mencionar lo

mucho que ha cambiado el análisis documental con la llegada de los big corpora (Amaturo y Aragona, 2017).
Además, nuestra disciplina ha perdido la propiedad de la recopilación y análisis de datos sociales. Nuevos
estudiosos, principalmente informáticos con poco o ningún conocimiento sociológico, han comenzado a trabajar
en el análisis social y a sacar conclusiones de estas enormes bases de datos.
Una primera reacción a esta crisis fue un notable cambio de perspectiva en comparación con el método que se
utilizaba generalmente en la investigación social cuantitativa, basado en el modelo hipotético-deductivo (Hempel,
1942). Extraer conocimientos de un «diluvio» de datos no es simplemente un problema técnico (Floridi, 2012), sino
que cambia la forma en que se formulan las preguntas de la investigación, y cómo se buscan las respuestas a
estas preguntas. Por lo tanto, ha surgido una visión de las ciencias sociales basada en los datos, disminuyendo el
valor y el papel de las hipótesis en el proceso de investigación. Concretamente, Lazer, en el artículo Life in the
network, the coming age of computational social science (La vida en la red, la nueva era de las ciencias sociales
computacionales) apareció en Science in 2009 H un artículo que tuvo mucho éxito en la comunidad científica (más
de 3403 citas) H identificó los grandes datos en Internet como el núcleo de las Ciencias Sociales
Computacionales, una disciplina que a través las técnicas de data mining y machine learning aplicadas a enormes
bases de datos produceanálisis sociales a gran escala, y casi en tiempo real.
Aunque no se puede dejar de observar cierto reduccionismo en la perspectiva de las ciencias sociales
computacionales, no deja de ser cierto que una propuesta científica más basada en los datos puede abrir nuevas
oportunidades para la sociología, porque hay menos limitaciones debido a las estructuras de referencia teórica de
las distintas disciplinas, y favorece la interdisciplinariedad. La forma de la ciencia social computacional que se ha
establecido es a menudo criticada por no ser capaz de explicar la complejidad social, sino sólo de describirla.
Chris Anderson, de manera provocativa, escribió en 2008: «Los petabytes nos permiten decir: 'La correlación es
suficiente'... La correlación reemplaza a la causalidad, y la ciencia puede avanzar incluso sin modelos coherentes y
teorías unificadas». Pero una cosa es identificar las regularidades dentro de los datos, y otra es descubrir los
mecanismos que las generan. Esta última operación no puede hacerse sin una teoría y un conocimiento profundo
y contextualizado de su objeto de investigación. Es a partir de esta convicción que se están desarrollando nuevas
propuestas de ciencias sociales intensivas en datos, como la ciencia de datos sociales (Lauro et al., 2017) que
vinculan las habilidades informáticas y estadísticas con el dominio del conocimiento (sociológico) en el que se
emplean, lo que trae consigo sus teorías y visiones de la realidad. De esta manera, los conocimientos típicos de
una determinada ciencia se integrarían y combinarían con las disciplinas técnicas formales necesarias para
atravesar la era de los grandes datos.
La razón por la que se pensó que el big data ponía en crisis las encuestas es doble. Primero, la encuesta estaba
obteniendo tasas de no respuesta cada vez más altas. Los porcentajes de no respuesta han aumentado
enormemente (en el caso de las encuestas telefónicas comerciales incluso hasta el 90%). El principal problema es
la carga estadística (Struijs, Braaksma, Daas, 2014), la exasperada solicitud de información de la población para
encuestas estadísticas. En los países estadísticamente más avanzados, el cuestionario y la encuesta por
muestreo se han convertido en métodos de investigación generalizados utilizados por empresas privadas y
organismos públicos, lo que ha generado molestias en la población así como desconfianza ante la posibilidad de
un uso indebido de la información (Amaturo, Aragona , 2012). La carga estadística ha sido un problema importante
para las oficinas de estadística nacionales e internacionales porque puede afectar la calidad de los datos
recopilados a través de cuestionarios y entrevistas (Machin, 1998).
La segunda razón por la que se pensó que los macrodatos reemplazaban a las encuestas es que se creía
ingenuamente que las redes sociales y las plataformas digitales involucran mundos sociales enteros, que podrían
estudiarse rápidamente y a bajo costo. Esta concepción epistemológicamente algo ingenua de Big Data, sin
embargo, no logró problematizar algunas cuestiones metodológicas cruciales. La idea de que Big Data permite
observar el desarrollo «natural» de las actividades humanas desde arriba es consecuencia de un positivismo
ingenuo que olvida la mediación socio-técnica de los datos digitales Los datos digitales se generan en el curso de
actividades (por ejemplo, comprar un producto en Amazon) o interacciones comunicativas (por ejemplo, chatear

en WhatsApp), en situaciones sociales públicas, semipúblicas o aparentemente privadas, mediadas por
arquitecturas específicas y los algoritmos del plataformas que los albergan. El hecho de que la generación socio-
técnica de datos digitales no sea controlable por el investigador puede provocar errores estadísticos y su
descontrol.
Obviamente, los límites de la ciencia social computacional son muchos y algunos de ellos están vinculados a
cuestiones fundamentales relativas a la calidad de los big data. Por ejemplo, la cuestión de la representatividad
estadística y el muestreo en general es una de las primeras cuestiones que se plantean. Entre esos datos hay
problemas generalizados de insuficiencia de cobertura, que se producen cuando algunas unidades de la población
son excluidas sistemáticamente de las investigaciones. Los investigadores sociales, al utilizar datos de la Internet,
deben recordar que parte de la población sigue siendo inalcanzable por definición; porque tal vez no tengan
acceso a la Internet, o porque muchos son simplemente consumidores pasivos de la informacióncontenida en la
Internet, en lugar de usuarios que participan activamente en la Web 2.0. Además, el acceso a la red puede
segmentarse en relación con variables sociodemográficas como la nacionalidad, la edad, el sexo, el nivel de
educación y los ingresos, lo que lleva a una subestimación sistemática de estratos enteros de la población.
Otra cuestión clave se refiere al acceso. El acceso a los big data puede concederse a unos y no a otros; en relación
con la influencia, el presupuesto y los objetivos que tenga el investigador. Boyd y Crawford (2012) observaron que
en el sector privado algunas empresas limitan el acceso a todos; otras venden derechos por una cuota y otras
ofrecen pequeños conjuntos de datos creados específicamente para la investigación académica: «esto produce
una considerable desigualdad en el sistema: los que tienen dinero -o los que trabajan en ciertas empresas- pueden
acceder a una base empírica diferente de los que tienen poco dinero o están fuera de la empresa». (Boyd y
Crawford, 2012: 674). Pero lo más importante de todo es que cuando se usan datos que no son producidos
personalmente por el investigador, las posibilidades de redirigirlas a los objetivos de la investigación son
limitadas. Estos datos son construidos por actores sociales específicos con objetivos muy diferentes de la
investigación, por lo tanto, puede haber grandes diferencias entre lo que le gustaría al investigador y lo que tiene
en su lugar. Es precisamente la estimación de estas diferencias, y cómo pueden impactar en la consecución de los
objetivos del investigador social lo que le permite ganar conciencia en el uso de estas bases empíricas, superando
los límites de validez intrínsecos a estos datos que se producen para objetivos distintos de 'actividad de
investigación. Sociólogos deberían desarrollar más investigaciones sobre l análisis de los ensambles de datos
(Aragona y Felaco, 2019), abriendo las cajas negras (black box) (Pasquale, 2015) en las que se producen los big
data.
Otro aspecto a tener en cuenta es la postdemografía. El hecho de que los conjuntos de datos digitales usualmente
consistan en conjuntos de «eventos» determina un cambio de perspectiva: del individualismo metodológico,
dominante en la investigación social clásica, a un enfoque holístico y postdemográfico, orientado al análisis de
datos en forma agregada. Incluso cuando los individuos usuarios son los casos estudiados a gran escala, la
dificultad (práctica como la ética) de rastrear sus rasgos sociodemográficos hace que la respuesta a las
preguntas de investigación canónica en las ciencias sociales sea problemática, por ejemplo, en relación con la
movilidad y los flujos electorales.
Sin embargo, uno no puede pensar en los grandes datos solo como datos malos, de hecho. Existen estrategias de
investigación en las que estos datos pueden ser realmente útiles para la investigación social (Salganik, 2018), y
estas estrategias, incluso si no son mutuamente excluyentes o integrales, se refieren a diferentes tipos de big
data. El primero es el conteo de algunos fenómenos sociales. Si el conteo puede parecer una simple pregunta de
investigación, en realidad la posibilidad de contar con precisión ciertos fenómenos puede ser extremadamente
interesante para la sociología. Botta, et al. (2015) han utilizado con éxito los datos transaccionales de las
actividades de los teléfonos móviles para predecir los espectadores de un partido de fútbol en el estadio de San
Siro. Los resultados coincidieron perfectamente con el número de espectadores que fue calculado por el personal
después de contar todos los accesos al estadio. Además, el análisis de estos datos es mucho más rápido que el
de los datos oficiales. Los mismos objetivos se pueden perseguir con los datos de internet de las cosas. Los

sensores conectados a la red pueden detectar entradas y salidas de lugares públicos y privados, presencias en
museos y otros lugares de interés.
Otra pregunta de investigación que se puede cumplir con big data es la predicción del comportamiento a través de
las pistas en Internet. Un ejemplo es la search as research (la búsqueda como investigación), es decir, el uso de
motores de búsqueda para hacer investigación. Un modelo es el análisis que ha desarrollado Google para
investigar a través de búsquedas realizadas en su motor de búsqueda. Mediante el uso de estos análisis, como
Google Trends, Google llevó a cabo un famoso estudio sobre la capacidad de predecir la propagación de la
influenza ante los Centros para el Control de Enfermedades (CdC) de EE. UU., que recopila de forma regular y
sistemática datos de médicos cuidadosamente muestreados en los EE. UU. Ese trabajo (Ginsberg et al. 2009), a
pesar de ser complicado en algunos contextos y eventos específicos (Goel et al., 2010), se utilizó para afirmar que
las técnicas nativas digitales permitieron formas de análisis que antes no se podían realizar (Mayer-Schonberger y
Cuckier, 2013, Rogers, 2013).
En realidad, más que ofrecer una nueva forma de hacer análisis sociológico, el big data ofrece una nueva forma de
integrar encuestas con otras técnicas de investigación social, que se pueden adoptar sucesivamente o al mismo
tiempo crear diseños mixtos. La mezcla puede ser con respecto a los métodos de recolección de datos o para la
inclusión de un estudio piloto preliminar, o incluso para realizar encuestas multinivel que mantengan juntas
unidades de análisis individuales, contextúales y relaciónales. Tomando por ejemplo las formas de integración
entre métodos cuantitativos y cualitativos propuestas por Creswell y Plano Clark (2007), adoptando un enfoque
pragmático para la integración entre la investigación por encuestas y el Big Data. Existen sobre todo tres formas
de las posibles combinaciones de las dos:
a) Lo que se denomina integración exploratoria, es decir, en la que la investigación de big data tiene como objetivo
afinar la encuesta;
b) Integración complementaria, en la que los dos enfoques se integran en la fase de recopilación conjunta de
datos;
c) Integración interpretativa, que ve el uso de big data para profundizar y validar los resultados de la encuesta.
En las formas de integración exploratoria, el enfoque de big data precede al enfoque de encuesta; en la integración
complementaria los dos están al mismo nivel, mientras que en la interpretativa, el Big Data soporta la
interpretación y validación de los resultados de una encuesta.
Finalmente, los grandes datos se pueden usar para llevar a cabo experimentos, o más bien cuasi-experimentos. El
control de las hipótesis causales siempre ha sido la base de importantes investigaciones sociales y cuestiones de
política, pero la construcción de grupos experimentales es complicada y a menudo es difícil identificar grupos
grandes. Las plataformas web, por otro lado, ofrecen la posibilidad de llevar a cabo cuasi-experimentos en los que
el grupo experimental y el grupo de control se crean espontáneamente, accediendo a un número muy grande de
usuarios. Por ejemplo, dos perfiles profesionales idénticos en todos los aspectos, excepto la variable experimental
(por ejemplo, etnia o género) se pueden cargar en la misma red social profesional para detectar formas de
discriminación en la solicitud de empleo.
Con el objetivo de evitar posiciones ideológicas sobre el papel de los grandes datos en la investigación social,
deberíamos promover una participación activa de los sociólogos en la prueba de las diferentes capacidades de los
grandes datos. Para hacerlo, no debemos centrarnos en la teoría social abstracta ni en la ciencia social
computacional cuantitativa. La mejor manera de hacerlo es mediante la construcción de diseños de investigación
que hagan un uso efectivo de las diferentes fuentes de big data.
3.LÍMITES Y PROBLEMAS ÉTICOS
A diferencia de los datos de transacciones y los datos de Internet de las cosas, en el uso de datos en la web hay
dos problemas típicos de la metodología de investigación social que deben tenerse en cuenta: el efecto
Hawthorne y el efecto de deseabilidad social. El efecto Hawthorne (Mayo, 1949) se refiere al hecho de que los
individuos cambian su comportamiento cuando saben que están siendo observados. Si en el pasado los usuarios
consideraban que sus actividades en línea estaban privadas o al menos compartidas por otros usuarios, han

surgido numerosos casos de análisis ilegal del comportamiento en línea. Ya existen ejemplos en este sentido,
como las actividades de vigilancia masiva que realiza la Agencia de Seguridad Nacional de los Estados Unidos
(NSA) con los servicios de inteligencia de otros países, tanto hacia los ciudadanos e instituciones
estadounidenses como hacia los extranjeros. La NSA ha recopilado metadatos sobre las llamadas telefónicas
realizadas a través de todos los operadores de los Estados Unidos y una división especial de la agencia Follow the
Money recopila datos sobre las transacciones financieras de las principales instituciones internacionales como
Visa, Mastercard y SWIFT. A través del programa de vigilancia PRISM, la NSA tiene acceso directo a los servidores
de muchas de las principales empresas de TI de EE.UU. como Microsoft, Google, Yahoo!, Facebook, Apple,
YouTube y Skype. El organismo supervisa entonces las actividades de los usuarios, incluidos los intercambios de
mensajes, fotografías y vídeos, y en particular maneja listas de direcciones de usuarios utilizadas en los servicios
de correo electrónico y de mensajería instantánea. El tratamiento de esta enorme cantidad de datos está
justificado por razones de seguridad y relacionado con la lucha contra el terrorismo y la protección del Estado.
Incluso los escándalos más recientes como Cambridge Analytica relacionados con las redes sociales y la
privacidad han aumentado la conciencia de las personas de que su comportamiento en línea es observado y
registrado. El caso de Cambridge Analytica llamó la atención del público gracias al trabajo de investigación de la
periodista de The Guardian, Carole Cadwalldr. La encuesta de Cadwalldr reveló que «las capacidades aparentes de
análisis de datos y orientación psicográfica de los votantes de Cambridge Analytica, basadas en particular en los
datos de redes sociales obtenidos por Facebook con la ayuda de una aplicación de» prueba de personalidad «que
recopila información de hasta 87 millones de usuarios» (Bruns , 2019: 1547).
Estrechamente vinculado a aumentar la conciencia de los usuarios de la red de ser observados está la
deseabilidad social de sus comportamientos. La deseabilidad social es la tendencia de algunos individuos a dar
una respuesta de la manera que encuentran socialmente más aceptable. Lo hacen para dar una imagen positiva
de sí mismos y para evitar recibir valoraciones negativas de los demás. Las redes sociales están particularmente
influenciadas por el prejuicio de la deseabilidad social porque las personas administran su presencia en línea para
proyectar una imagen positiva de sí mismas. Esto lleva a lo que los expertos denominan sesgo de positividad en el
contenido de las redes sociales (Veltri, 2021).
Otro aspecto metodológico a tener en cuenta es que los datos digitales en la web deben considerarse no
intrusivos, en el sentido de que los sujetos a los que pertenecen los datos no saben que serán utilizados con fines
de investigación o al menos no lo saben. saber quién los utilizará y con qué objetivos. Las técnicas de recopilación
de datos no intrusivas han aumentado en comparación con el pasado predigital. Los investigadores a menudo
pueden recopilar información de páginas web sin que sus propietarios realicen ninguna acción, especialmente
cuando interactúan con plataformas de redes sociales para acceder a sus datos, las denominadas API (interfaces
de programas de aplicación), que establecen protocolos para consultar una plataforma y sus datos. Un importante
paso adelante en la investigación de API se produjo a principios de la década de 2010, con el uso generalizado de
plataformas de redes sociales (como Facebook, Twitter e Instagram). Los verdaderos cambios en el juego aquí
fueron las API públicas lanzadas por las principales plataformas de redes sociales en el mercado, que dieron a los
investigadores acceso a un rico conjunto de datos digitales, tanto cuantitativa como cualitativamente (Russell,
2013). Un ejemplo simple de esto es la API de Instagram, que antes de 2015 permitía a los desarrolladores obtener
datos de hashtags y / o perfiles de usuario sin límites en términos de cantidad y tiempo, junto con un rico conjunto
de metadatos, como: ID de publicaciones, comentario. recuento, como recuento, posición, enlace de publicación,
hashtag, título de menciones, tipo, imagen de URL, autor de ID de usuario, autor de nombre de usuario, fecha de
publicación). El acceso a las API de redes sociales ha iniciado una pequeña revolución en el campo de los
métodos digitales, ya que las plataformas de redes sociales han permitido a los investigadores explorar no solo
las estructuras socio-técnicas que dan forma a la comunicación en línea (por ejemplo, la lógica de Google
PageRank), sino también la cultura procesos que surgen de las prácticas digitales diarias de los usuarios. No es
una coincidencia que en la última década los estudiosos de los métodos digitales hayan producido una notable
línea de investigación que ha arrojado luz sobre los fenómenos socioculturales más cruciales y convincentes que

caracterizan la era digital contemporánea, como las cámaras de eco (Colleoni, Rozza, Arvidsson, 2014), bots
políticos (Bessi, Ferrara, 2016), cultura algorítmica (Airoldi, Beraldo, Gandini, 2016), fake news (Gray, Bounegru,
Venturini, 2020).
El acceso a los datos de las redes sociales a través de API se ha reducido progresivamente. Las cosas han
comenzado a cambiar desde 2018, cuando se produjo el infame escándalo de Cambridge Analytica. En respuesta
al escándalo y con el fin de proteger mejor la privacidad de sus usuarios, Facebook (junto con otras plataformas)
ha iniciado una política de cierre y restricción de sus API previamente abiertas. Axel Bruns (2019) sostiene que el
escándalo de Cambridge Analytica ha sido un pretexto conveniente para que empresas de redes sociales como
Facebook y Twitter hagan que sus datos sean progresivamente inaccesibles. Un movimiento que solo aumenta el
valor comercial de esos datos (dado que el modelo de negocio de las plataformas de redes sociales consiste
precisamente en vender los datos de los usuarios a terceros (Srnicek, 2017), en lugar de aumentar la privacidad del
usuario. Las API siguen siendo accesibles, por una tarifa, para las empresas privadas, que las utilizan con fines
comerciales y de marketing. Por lo tanto, no es una coincidencia que los académicos hayan estado entre los más
afectados por la reducción de las API de redes sociales donde el acceso a las plataformas y sus datos se está
volviendo cada vez más difícil. Especialmente después de la reducción de las redes sociales provocada por el
escándalo de Cambridge Analytica, se ha vuelto cada vez más difícil investigar las redes sociales. Esta condición
trae nuevos desafíos metodológicos y éticos que requieren repensar los métodos digitales para un entorno de
investigación post-API (Caliandro, 2021).
Un tema estrechamente relacionado con el problema de las API es que el uso indiscriminado de técnicas en línea
no intrusivas ha generado preocupaciones sobre la búsqueda encubierta, ya que la búsqueda en línea puede
representar un riesgo para la privacidad y la confidencialidad de las personas porque a menudo los métodos
impiden que los sujetos sepan que su los comportamientos y las comunicaciones se observan y registran. La
difusión de métodos de investigación encubiertos ha desafiado las prácticas de evaluación ética establecidas
adoptadas en la mayoría de las instituciones de investigación. La parte principal de la ética de la investigación ha
sido el consentimiento informado durante años, o el procedimiento mediante el cual el investigador informa a los
participantes sobre la naturaleza y el procesamiento de los datos, asegurándose de que serán entendidos y
aceptados antes de comenzar con la recolección de datos. El punto clave del consentimiento informado
obviamente no tiene posibilidad de aplicarse a los datos digitales recopilados con métodos no intrusivos. Un
punto clave es establecer si las fuentes digitales que se utilizan están diseñadas específicamente para producir y
compartir contenidos como sitios web, blogs, grupos de noticias, etc., y redes sociales que, por el contrario,
pueden recoger contenido que quiera ser compartido con diferentes grados de publicidad. Por lo tanto, se adoptó
como práctica considerar el primer tipo de fuentes como públicas, con el supuesto de que, dado que la
investigación académica es sin fines de lucro, era un uso justo de este material. Obviamente, este sistema no se
puede aplicar a los datos de las redes sociales. El Reglamento General de Protección de datos (RGPD) europeo
exige que el consentimiento informado se extienda también a este tipo de datos, considerando que se debe buscar
el consentimiento cada vez que se utilicen algunos datos para fines distintos a aquellos para los que fueron
recopilados, una condición muy extendida para los datos de las redes sociales. Aún más complicado pedir el
consentimiento informado para bases de datos muy grandes, a menudo longitudinales, aquí la posibilidad de
obtener el consentimiento de cada participante es casi imposible. El debate sobre la propiedad y la privacidad de
los datos digitales no terminará pronto. Si bien algunos piensan que los usuarios se han vuelto menos
conscientes de la privacidad a cambio de servicios gratuitos, existe una cierta paradoja de que existe una brecha
entre la idea que tienen los usuarios de las redes sociales sobre cuánto se divulgarán sus datos y cuánto
efectivamente se divulgarán.
La no intrusividad de los big data no solo concierne a aspectos puramente metodológicos, sino a una discusión
muy amplia sobre las implicaciones éticas de la investigación y, a nivel social, sobre las normas sociales y legales
de privacidad y propiedad de los datos. Desde el punto de vista metodológico, cuando se trata de investigación
social digital, no es posible establecer pautas unívocas. Las pautas éticas digitales no pueden ser universales y

estar establecidas de una vez por todas. En cambio, deben estar orientados a ser contextuales, es decir,
elaborados y adaptados de acuerdo con las plataformas digitales específicas que se están estudiando, el tipo de
datos recopilados, los tipos de dispositivos utilizadas para recopilar los datos, los objetivos de la investigación, la
pregunta de investigación. En un momento en el que el acceso a los datos a través de las API se vuelve cada vez
más difícil, los investigadores deben encontrar un equilibrio (muy complicado) entre ser un activista de datos y
una preocupación por proteger a los participantes de daños, asegurarse de que tengan un equilibrio entre el
beneficio y la carga derivados de su participación en la investigación. En este sentido, probablemente, en el caso
de big data, el punto no es simplemente salvaguardar la privacidad de las personas de quienes se extraen los
datos, sino también tratar de redistribuir a los participantes el valor extraído de sus datos, al menos en parte. En el
caso de la investigación social, esto puede traducirse en compartir los resultados de la investigación tanto como
sea posible con los participantes.
4.CONCLUSIONES
Los big data han afectado a nuestras sociedades y a nuestra disciplina. Después de una década en la que los
grandes datos fueron vistos alternativamente como el nuevo oro de las ciencias sociales (Lazer, 2009; Mayer-
Schonberger y Cuckier, 2013) o como una nueva y peligrosa forma de cuanfrenia (Boyd y Crawford, 2012), un
grupo ahora numeroso de estudiosos (Ruppert, 2015; O'Sullivan, 2017) han identificado la posibilidad de construir
un terreno intermedio en el que sea posible tanto asumirlos retos como aprovechar las oportunidades que estos
datos presentan.
Los big data han contribuido a reiterar de una vez por todas, si aún existía una necesidad, el pluralismo que
distingue el método de nuestra disciplina. Muchas técnicas que se han desarrollado en otros contextos
disciplinarios han llevado al desarrollo de nuestra disciplina y su método (por ejemplo, solo por nombrar algunas,
las técnicas de escala en psicología, la comparación en ciencias políticas, el método biográfico en la historia), Lo
mismo pasa con los big data. Es a partir de esta convicción que se están desarrollando nuevas propuestas de
ciencias sociales intensivas en datos, como la social data science (Lauro et al., 2017) e la symphonic social
science (Halford y Savage, 2017) que vinculan las habilidades informáticas y estadísticas con el dominio del
conocimiento (sociológico) en el que se emplean, lo que trae consigo sus teorías y visiones de la realidad. De esta
manera, los conocimientos típicos de una determinada ciencia se integrarían y combinarían con las disciplinas
técnicas formales necesarias para atravesar la era de los grandes datos. Aunque con perspectivas diferentes,
todos estos autores están de acuerdo en que los grandes datos son una gran fuente de innovación para las
ciencias sociales, y la sociología en particular. No sólo porque amplían el panorama de las bases empíricas que
nuestra disciplina puede utilizar, sino también porque pueden promover la interdisciplinariedad entre los diferentes
campos científicos, aumentando las posibilidades de integración de datos y técnicas. Sólo mezclando la teoría
sociológica y la computación, los enfoques explicativos y descriptivos, los aspectos técnicos y sociales, los datos
tradicionales y los nuevos datos de manera innovadora, los científicos sociales podrán contribuir a la integración
de los grandes datos y sus técnicas de recopilación y análisis con los enfoques tradicionalmente practicados en la
investigación social. El éxito dependerá de cómo los científicos sociales puedan abordar los límites de calidad y
los problemas éticos de los big data.
References
5.BIBLIOGRAFÍA
AIROLDI M., BERALDO D., GANDINI A. (2016): "Follow the algorithm: An exploratory investigation of music on
YouTube", Poetics, 57, pp.1-13.
AMATURO, E., ARAGONA, B. (2012): "La costruzione della documentazione empirica" en Metodologia della ricerca
sociale, Torino, Utet, pp.52-77.
AMATURO, E, ARAGONA, B., (2017): "Introduction" en Data Science and Social Research: Epistemology, Methods,
Technology and Applications, Heidelberg, Springer, pp.1-8.
ANDERSON. C. (2008): "The End of Theory: The Data Deluge makes the Scientific Method Obsolete", Wired, June
23, disponible en http://www.wired.com/science/ discoveries/magazine/16-07/pb theory [consulta: 9/1/2016].

ARAGONA, B. (2016): "Big Data or data that are getting bigger?", Sociologia e ricerca sociale, 109(3), pp.42-53.
ARAGONA, B., FELACO, C. (2019): "Big data from below: researching data assemblages" Tecnoscienza, 10, pp.51-
70.
BESSI A., FERRARA E. (2016): "Social bots distort the 2016 US Presidential election online discussion", First
Monday, 21, 11/7, disponible en https://firstmonday.org/ article/view/7090/5653 [consulta: 4/8/2018].
BOCCIA ARTIERI, G. (2015): Gli effetti sociali del web. Forme della comunicazione e metodologie della ricerca on-
line, Milano, Franco Angeli.
BOTTA, F., MOAT, H. S., PREIS, T. (2015): "Quantifying crowd size with mobile phone and Twitter data", Royal
Society open science, 2(5), pp.150-162.
BOYd, D., CRAWFORD, K. (2012): "Critical Questions for Big Data", Information, Communication and Society, XV(5),
pp.662-79.
BRUNS A. (2019): "After the 'APIcalypse': social media platforms and their fight against critical scholarly research",
Information, Communication and Society, 22(11), pp.1544-1566.
CALIANDRO, A. (2021): "Repurposing Digital Methods in a Post-API Research Environment: Methodological and
Ethical Implications", Italian Sociological Review, 11(4S), pp. 225-237.
COLLEONI E, ROZZA A, ARVIDSSON A. (2014): "Echo chamber or public sphere? Predicting political orientation and
measuring political homophily in Twitter using big data", Journal of communication, 64(2), pp.317-332.
CRESWELL, J. W., HANSON, W. E., CLARK PLANO, V. L., MORALES, A. (2007): "Qualitative research designs:
Selection and implementation", The counseling psychologist, 35(2), pp.236-264.
EUROSTAT (2020): Annual Quality Report, Luxemburg, Eurostat:
FLORIDI L. (2012): "Big data and their Epistemological challenges", Philosophy and technology, 25(4), pp.435-7;
GINSBERG J., MOHEBBI M. H., PATEL R. S., BRAMMER L., SMOLISKI M. S., BRILLIANT L. (2009): "Detecting
influenza epidemics using search engine query data", Nature, CDLVII, 7232, p.1012.
GOEL S., HOFMAN J. M., LAHAIE S., PENNOCK D. M., WATTS D. J. (2010): "Predicting consumer behavior with Web
search", Proceedings of the National academy of sciences, 107(41), pp. 17486-17490.
GRAY, E., JENNINGS, W., FARRALL, S., AND HAY, C. (2015): "Small Big Data: Using multiple data-sets to explore
unfolding social and economic change", Big Data &Society, 2(1).
GRAY J., BOUNEGRU L., VENTURINI T. (2020): Take news' as infrastructural uncanny", New Media &Society, 22(2),
pp. 317-341.
HALFORD S., SAVAGE, M. (2017): "Speaking Sociologically with Big Data: symphonic social science and the future
of big data analytics", Sociology, 51(6), pp.11321148.
HEMPEL, C. G. (1942): "The function of general laws in history", The Journal of Philosophy, 39(2), pp. 35-48.
KEIM, D., KOHLHAMMER, J., ELLIS, G., MANSMANN, F. (2010): Mastering the information age solving problems
with visual analytics, Brussels, Eurographics Association.
KITCHIN, R (2014): The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences.
London, Sage.
LAURO, C. (2017): Preface, in Lauro et al (eds) Data Science and Social Research: Epistemology, Methods,
Technology and Applications, Heidelberg: Springer-Verlag.
LAzEr, D. (2009): Life in the Network: the Coming Age of Computational Social Science, Science, CCCXXIII, 5915,
721-3.
MACHIN, A. (1998): Reducing statistical burdens on business, vol. 9, London, Office for National Statistics.
MAYER-SCHÖNBERGER V., CUKIER K. (2013), Big Data: A Revolution That Will Transform How We Live, Work, and
Think, New York, Houghton Mifflin Harcourt.
MAYO, E. (1949): "Hawthorne and the western electric company", en The social problems of an industrial
civilisation, Chicago, UCPress, pp.1-7.
O'SULLIVAN D. (2017): "Big Data: why (oh why?) this computational social science?", disponible en
https://escholarship.org/uc/item/0rn5n832. [consulta: 1/2/2018].

PASQUALE, F. (2015): The Black Box Society: The Secret Algorithms that Control Money and Information.
Cambridge(MA), Harvard University.
ROGERS R. (2013): Digital methods, Cambridge (MA), MIT press.
RUPPERT, E. (2015), "Socialising Big Data: From concept to practice". CRESC Working Paper Series, 138.
RUSSELL M. (2013): "Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More",
Sebastopol, O'Reilly Media.
SALGANIK M.J., (2018): Bit By Bit: Social Research in the Digital Age, London, Princeton.
SAVAGE M, BURROWS R (2007), "The coming crisis of empirical sociology", Sociology, 41(5), pp. 885-899.
SRNICEK N. (2017): "Platform capitalism", Cambridge, Polity Press.
STRUIJS, P., BRAAKSMA, B., DAAS, P.J., (2014): "Official statistics and Big Data", Big Data &Society, 1(1), pp.46-61.
THE ECONOMIST (2010): "The data deluge: Businesses, governments and society are only starting to tap its vast
potential", Feb 25th, print edition.
TURLAND, M. (2010): php, Milan, Marco Tabini &Associates.
VELTRI G., (2021), La ricerca sociale digitale, Milano, Mondadori.
WEBB, E. J., CAMPBELL, D. T., SCHWARTZ, R. D., SECHREST, L. (1966): Unobtrusive measures: Nonreactive
research in the social sciences, Chicago, Rand McNally.
DETALLES
Materia: Big Data; Research methodology; Internet; Ethics
Término de indexación de Asunto: Big Data

negocios:
Título: Tipos de big data y análisis sociológico: usos, críticas y problemas éticos
Título alternativo: Types of big data and Sociological Analysis: Uses, Criticisms and ethics
Autor: Aragona, Biagio11 Universidad de Nápoles Federico II
Título de publicación: Empiria; Madrid
Número: 53
Páginas: 15-30
Año de publicación: 2022
Fecha de publicación: Jan-Apr 2022
Editorial: Universidad Nacional de Educacion a Distancia (UNED)
Lugar de publicación: Madrid
País de publicación: Spain, Madrid
Materia de publicación: Sociology
ISSN: 11395737

e-ISSN: 21740682
Tipo de fuente: Revista científica
Idioma de la publicación: Spanish
Tipo de documento: General Information
DOI: 10.empiria.53.2022.32610
ID del documento de 2639732013

ProQuest:
URL del documento: https://www.proquest.com/scholarly-journals/tipos-de-big-data-y-análisis-

sociológico-usos/docview/2639732013/se-2
Copyright: © 2022. This work is published under https://creativecommons.org/licenses/by-nc-

sa/4.0/ (the “License”). Notwithstanding the ProQuest Terms and Conditions, you
may use this content in accordance with the terms of the License.
Última actualización: 2022-03-16
Base de datos: ProQuest One Academic; Publicly Available Content Database; Social Science
Premium Collection
Análisis de la dinámica, la estructura y el

contenido de los mensajes de Twitter: violencia
sexual en #Cuéntalo
Mercado, Modesto Escobar 1 ; Gil, Elena 1 ; López, Cristina Calvo 1 1 Universidad de Salamanca .
Empiria ; Madrid N.º 53, (Jan-Apr 2022): 89-119.
TEXTO COMPLETO
Headnote
Recibido: 15.12. 2020
RESUMEN
Las redes sociales online se han ido convirtiendo en uno de los principales vehículos de comunicación y una de las
mayores fuentes de información de actualidad. Esta creciente popularidad deja en evidencia la importancia de que
los científicos sociales seamos capaces de analizar, interpretar y comprender en profundidad este nuevo tipo de
herramientas. Este artículo tiene como objetivo mostrar los diversos métodos de análisis de la información pública
obtenida a partir de una de estas redes, Twitter. Para ello tomamos como ejemplificación explicativa el caso

#Cuéntalo, un episodio de narrativa compartida iniciado en esta red entre los días 26 y 28 de abril de 2018 tras la
conocida sentencia de "La Manada". A través de este caso se presentan aquí distintas metodologías para el
estudio de los contenidos transmitidos, que van desde los análisis descriptivos más elementales hasta los análisis
de contenido, pasando por la clasificación de actores relevantes y el descubrimiento de la estructura de las
relaciones entre los protagonistas y sus mensajes. Los resultados muestran cómo esta polémica sentencia derivó
en una conversación digital viral donde distintas usuarias (en especial periodistas, escritoras y activistas
feministas) comenzaron a compartir sus relatos de situaciones de violencia sexual vividas por las participantes o
sus conocidas usando esta etiqueta, siendo capaces de identificar a las principales protagonistas, las distintas
relaciones que establecieron entre ellas y sus mensajes y los principales temas que se conformaron en torno a
ellos.
PALABRAS CLAVE
Redes sociales; Twitter; #Cuéntalo; análisis estructural; análisis dinámico, análisis de contenido.
ABSTRACT
Online social networks have become one of the main communication vehicles and one of the greatest sources of
current information. This growing popularity shows the importance of social scientists being able to analyze,
interpret and understand in depth this new type of tools. This article aims to show the diverse methods of analysis
of public information obtained from one of these networks, Twitter. To do this, we take as an explanatory example
the case of #Cuéntalo, an episode of shared narrative that began on this network between April 26 and 28, 2018
after the well-known sentence of "La Manada". Through this case, we present different methodologies for the study
of broadcasted content, ranging from the most elementary descriptive tools to content analysis, passing through
the classification of relevant actors and the discovery of the structure of the relationships amongst their
protagonists and their messages. The results show how this controversial sentence led to a viral digital
conversation where different users (especially journalists, writers, feminists and influencers) began to share their
stories of situations of sexual violence experienced by the participants or their acquaintances using this label.
Through this analysis, it was possible to identify the main protagonists, the different relationships that they
established between them and their messages and the main themes that were formed around them.
KEYWORDS
Social media, Twitter, #Cuéntalo, structural analysis, dynamic analysis, content analysis.
1.INTRODUCCIÓN
Es difícil imaginar en las sociedades modernas de hoy día un escenario en el que no medien las nuevas
tecnologías. La comunicación se ha trasladado en muchos sentidos a un espacio virtual en el que la ciudadanía es
continuamente emisora y receptora de mensajes multidireccionales, que además aparecen en contextos de
continua mediación. Twitter es una plataforma que atrae la atención de millones de usuarios, incluidos los medios
de comunicación que amplifican sus mensajes. Esta condición le otorga un papel relevante en muchas luchas
sociales, configurándose como un nuevo espacio de información y socialización, cuyo análisis requiere la
incorporación de nuevos métodos de análisis de datos masivos (big data). En este contexto, tiene más sentido que
nunca incorporar a los estudios sociológicos los análisis de Internet, no solo para entender la movilización
colectiva, sino para comprender más profundamente las dinámicas relacionales de la sociedad actual.
Mediante este artículo se pretende mostrar diversos modos de obtención y estudio de la información obtenida a
través de Twitter, que van desde los análisis descriptivos más elementales hasta los análisis de contenido,
pasando por la clasificación de actores relevantes y el descubrimiento de la estructura de las redes personales y
temáticas. Para ello y a modo de ejemplificación explicativa, a lo largo de este artículo nos centraremos en el
mecanismo clave para difundir la información: los hashtags, que permiten agrupar el contenido de las
publicaciones que se comparten en la red social en torno a un tema concreto. Así, los mensajes son más visibles
para los demás, de modo que estas etiquetas son muy útiles para la organización y promoción del activismo
online. Adicionalmente, desde un punto de vista analítico, la selección de mensajes empleando una o varias
etiquetas, le confiere un valor añadido por circunscribir la inmensidad de mensajes al estudio de uno o múltiples

casos de interés. En concreto, este artículo se centra en el hashtag #Cuéntalo entre los días 26 y 28 de abril de
2018.
En esas fechas se generó una narrativa compartida en Twitter a raíz de la publicación de la polémica sentencia del
caso "La Manada", pues las redes se inundaron de mensajes de mujeres compartiendo sus experiencias como
víctimas de violencia sexual. Mediante el análisis de estos mensajes se inducirá que muchas de las protagonistas
denunciantes del acoso fueron mujeres feministas denunciando muchos de los síntomas de la sociedad patriarcal
vividos directa o indirectamente en carnes propias. Nadie puede negar que Internet refuerza y transmite los
mensajes que circulan en los movimientos sociales, ofreciendo a los investigadores una nueva fuente de datos en
las que construir evidencias empíricas para su conocimiento y análisis. Al hilo de este caso de estudio, constituido
por la reacción a la sentencia de "La Manada" en la plataforma de Twitter, este artículo descrito para una revista de
metodología^ contiene modos y técnicas de abordar la estructura y dinámica de los millones de mensajes que se
difunden en la red a fin de potenciar que analistas de los fenómenos sociales empleen cada vez más este tipo de
datos en sus investigaciones.
Resulta imposible negar que la popularización de Internet a amplias capas de la población posee una doble
repercusión: por un lado, supone la decadencia de un modelo de construcción y divulgación de la opinión pública
jerarquizado y controlado por unos centralizados medios de comunicación; por el otro, proporciona a los
estudiosos de la sociedad de una nueva fuente para el estudio de la emisión y divulgación de las opiniones. Entre
todas las plataformas y aplicaciones disponibles en la red de redes, la que más potencial contiene es Twitter tanto
por los mensajes -de contenidos más públicos que privados- trasmitidos por este medio, como por su estructura
abierta que permite el acceso a su contenido incluso a aquellas personas que aún no se han registrado.
Además de la importancia para el estudio de la opinión pública, otro campo de estudio en el que Twitter presenta
un gran potencial es en el de los movimientos sociales en la medida en que muchos de sus activistas y seguidores
encuentran en sus tuits un poderoso medio tanto para difundir, recibir y criticar ideas como para movilizar a sus
simpatizantes y divulgar sus logros.
El propósito de este artículo es doble en la medida en que trata describir cómo emerge pública y masivamente la
indignación ante una sentencia judicial considerada a todas luces injusta mediante la denuncia pública de
vejaciones que las mujeres han sufrido en su vida cotidiana, al mismo tiempo que pretende presentar sin
pretensión de exhaustividad un elenco de posibles análisis que pueden llevarse a cabo con una extensiva muestra
de mensajes con el fin de estimular la investigación sociológica sobre los mensajes que circulan en los nuevos
medios sociales.
2.ANTECEDENTES
Ya son miles las publicaciones que se han realizado empleando Twitter como fuente de datos. Entre ellas
prevalecen los estudios de opinión pública y comunicación, donde destacan los análisis sobre distintos procesos
electorales y el modo de uso y difusión de los mensajes de candidatos y partidos (Larsson y Moe 2014, Casero-
Ripollés 2020).
En esta línea predominan los análisis de contenido de los mensajes. No sucede lo mismo con los estudios sobre
noticias falsas (Shao et al. 2018, Bovet y Makse 2019, Pérez-Dasilva et al. 2020), donde lo que suele interesar a los
investigadores es localizar la procedencia y autoría de este tipo de informaciones para analizar su trayectoria viral,
priorizando por ello la búsqueda de estructuras. También cabe destacar un tercer tipo de estudios, enfocados en
los movimientos sociales (Freelon et al., 2016, Jackson et al. 2018, Jost et al. 2018), donde se analizan tanto los
vínculos entre los participantes como los contenidos de determinados fenómenos de protesta, como en el caso de
Occupy Wall Street (Jensen y Bang 2013, Teocharis et al. 2015, Gleason 2013; Wang y Wang 2013). Asimismo, se
encuentran investigaciones sobre las actitudes hacia sectores minoritarios como emigrantes y refugiados (Arcila
et al. 2020, Gualda y Rebollo 2020)
Si bien son bastantes los estudios publicados sobre el #MeToo, precursor del #Cuéntalo, la gran mayoría de estas
aproximaciones están realizadas desde enfoques tradicionales de la metodología de investigación social, como
son las entrevistas en profundidad o las encuestas (Gill y Orgad 2018, Rodino-Colocino 2018, Kunst et al. 2019).

Así, solo una pequeña parte de los análisis del #MeToo utilizan como base de datos este hashtag (Xiong et al
2019, Deal et al. 2020, Jackson et al. 2020).
Ejemplos más similares al contenido de este artículo son el de Navarro y Coromina (2020) que estudian la reacción
a la sentencia de la Manada con una perspectiva basada en el framing y la de Larrondo et al. (2019), quienes
recogieron unos 291.000 tuits con la etiqueta #Cuéntalo y otras conectadas, con los que realizaron un análisis
descriptivo seguido de un análisis hipotético-deductivo para determinar la relación entre el "hashtivismo", el grado
de politización y el comportamiento dialógico del feminismo en Twitter. Por su parte, Gutiérrez et al. (2020)
estudiaron la reacción antifeminista a #Cuéntalo a través de un análisis estructural y un análisis de contenido,
caracterizando los distintos contenidos que vertieron los hombres como respuesta a los mensajes de las
experiencias relatadas por mujeres. También cabe mencionar otros estudios (Bucalo et al. 2020, Ruiz y Valles
2020), que también usaron #Cuéntalo como base.
Este artículo tiene la particularidad de centrarse en una serie de propuestas técnicas y analíticas dirigidas a
trabajar con grandes cantidades de datos desde una perspectiva analítica. Se examinan los métodos de
extracción de tuits y se describe la información de Twitter disponible para su captura. Seguidamente, se aportan
distintos análisis que pueden aplicarse a los tuits, clasificados en cuatro grandes tipos: descriptivo, dinámico,
estructural y de contenido, usando la información extraída a partir de #Cuéntalo como ejemplo de cada uno.
3.LA EXTRACCIÓN DE LOS DATOS.
Para la extracción de datos de Twitter existen diversas opciones. La API de esta plataforma
(https://developer.twitter.com) permite tanto recoger mensajes ya publicados como prepararse para descargarlos
en directo (streaming). Del primer modo se hace una petición (query) según un criterio específico para descargar
los tuits escritos hasta la fecha que tengan una palabra o etiqueta (hashtag) acompañada o no de criterios
complementarios. En el modo en directo se pueden obtener todos aquellos tuits que se escriban a partir del
momento del inicio de la recolección siguiendo los criterios deseados. Dado que se generan muchos tuits a lo
largo del día, los criterios que se utilicen para efectuar una extracción de un tuit grabado o en directo dependerá de
los objetivos perseguidos. Sea por las limitaciones de la API pública, sea por los emisores o por los temas, siempre
habrá límites temporales: el comienzo de la recolección y el final de ella.
Un criterio útil es el relacionado con los usuarios: puede ser interesante ver cuál es el comportamiento
comunicativo de instituciones o personas. También puede ser un criterio la temática. Para ello se puede recurrir a
frases o palabras (con sus sinónimos), y especialmente a las etiquetas. Este último sistema es probablemente el
más empleado en la investigación académica para circunscribir las muestras. Es posible unir dos criterios, el
tiempo y el tema, como conviene al objetivo de este artículo: analizar el uso de la etiqueta #Cuéntalo durante sus
días de apogeo, entre el 26 y 28 de abril de 2018.
Existen numerosos programas para realizar estas descargas. Destacan las herramientas complementarias
contenidas en los CAQDAS (NVivo, Atlas-ti, QDA), el paquete rtweet en R (Kearney 2019), el T-Hoarder de Congosto
et al. (2017) en Linux y la herramienta web DiscoverText (Shulman 2011). Para esta investigación hemos utilizado
las dos últimas herramientas. Buscando el hashtag #Cuéntalo en las fechas indicadas, obtuvimos dos bases de
datos semejantes de 50.000 tuits y unos 450.000 retuits cada una. Para tratarlos se ha elaborado un paquete
propio en R al que se ha denominado tweetCoin, que está basado en el más extendido rtweet (Kearney 2019).
Antes de proseguir cabe señalar que la selección de tweets no es un proceso aleatorio. Está circunscrito a los
usuarios, las etiquetas, los textos o los hashtags. Conviene, pues, precisar que las investigaciones de este tipo
están acotadas en un tiempo, tema, lengua y/o emisores.
4.LA INFORMACIÓN DE LOS TUITS.
Aunque los nombres pueden variar dependiendo de la aplicación que se emplee, la información que contiene cada
tuit puede clasificarse en los siguientes tipos: a) información de los mensajes, b) atributos del autor y c) variables
derivadas de los registros de tuits.
Entre la información derivada de los tuits (tabla 1) cabe destacar text, source y date. En ocasiones también puede
ser interesante emplear información sobre la geolocalización, desde qué dispositivo se ha enviado, el idioma en el

que está escrito o el tipo de medio que lo acompaña (foto, vídeo, enlace, ...).
De la información del autor de cada tuit (tabla 2) destacan el user_name que es el usuario, por ejemplo
@Lafallaras, y que coincide con lo que en mensajes (tabla 1) se denominó author. El screen_name, por otro lado,
hace referencia al nombre público del usuario, como Cristina Fallarás. También es interesante description, un texto
en el que el usuario describe su identidad (real o no). De los perfiles se extraen también otros componentes, como
el número de followers (seguidores) y de following (seguidos). El interés del resto de componentes dependerá del
objeto de la investigación.
Finalmente, entre la información derivada del registro de la información de los tuits, destacan cuatro tipos de
datos: los relacionados con usuarios, los vinculados con la temática, los que contienen los mensajes y los
asociados a la popularidad del emisor (tabla 3).
5.ANÁLISIS DESCRIPTIVO: QUIÉN ESCRIBE Y QUÉ TEMAS RESALTA.
Una vez descargados un conjunto de tweets con una determinada etiqueta (o cualquier otra condición), habría que
separar aquellos que son originales de los que son reenvíos. En el caso que nos ocupa, se obtuvieron 52.411
mensajes originales con la etiqueta #Cuéntalo. Pero al mismo tiempo es importante añadir los 424.949 reenvíos,
las 2.792 citas y las 11.106 respuestas, es decir, un total de 491.258 intervenciones procedentes de un total de
162.172 perfiles distintos en un periodo limitado a tres días, es decir, estamos ante un fenómeno digital de
relevancia.
En función de la información disponible en los mensajes de Twitter, es conveniente comenzar con unos
descriptivos preliminares de sus elementos centrales, distintos del texto, es decir, autor del mensaje original, el
perfil que realiza la reemisión del mensaje los hashtags y las menciones contenidos ambos en el texto con los
prefijos respectivos de # y @, para lo que han de emplearse funciones que los aíslen.
Observando la frecuencia de los mensajes originales emitidos pueden descubrirse los perfiles más activos, entre
los que se encuentra la periodista del Diario Público Cristina Fallarás (@LaFallaras), iniciadora de los mensajes. Le
siguen dos cuentas: @MujeresUC3M, perteneciente a la Asociación de Mujeres de la Universidad Carlos III de
Madrid y el denominado @SoldadoDescono3, cuenta actualmente suspendida, que actuó como reacción machista
contraria a #Cuéntalo.
También es importante indagar qué perfiles se mencionan por quienes escriben los mensajes. Aunque la gran
mayoría de los mensajes no mencionan a nadie, queda claro de nuevo que la clara protagonista fue @LaFallaras,
no solo por ser la iniciadora de la etiqueta y quien más mensajes originales emitió, sino también por ser con
diferencia la usuaria más invocada por otros perfiles. Otros perfiles mencionados fueron los de Barbijaputa
(@barbijaputa), La Vecina Rubia (@lavecinarubia), Beatriz Talegón (@BeatrizTalegon), Irene Montero
(@irene_montero_) y Virginia P. Alonso (@Virginiapalonso), todos correspondientes a periodistas, activistas y
políticas de gran popularidad en la red, que ayudaron a promover la expansión de los mensajes. Asimismo, con 44
y 39 menciones respectivamente aparecen los dos periódicos más implicados en la denuncia: @ eldiarioes y
@publico_es, en los que escribían @barbijaputa en el primero y @ LaFallaras y @Virginiapaolonso en el segundo.
En otro orden de elementos analizables, el uso de hashtags refleja el interés por parte de los usuarios de que sus
mensajes se relacionen con la etiqueta en cuestión (Pérez-Martínez y Rodríguez-González, 2017). Además, como
en un mismo mensaje se puede expresar más de uno, su análisis permite ver cómo los temas de interés están
interconectados. De esta forma, el interés de las etiquetas radica en conocer las co-apariciones, averiguar cómo se
relacionan entre sí los distintos hashtags y detectar conjuntos de temas. Esto es de especial importancia cuando
se trabaja con una base de datos compuesta por diversos hashtags no sinónimos, de manera que pudiéramos
entender los denominadores comunes de cada tema.
En este conjunto seleccionado por su etiqueta, el hashtag más frecuente es, como cabe esperar, #Cuéntalo. En la
tabla 5 aparecen ordenados por frecuencia otros hashtags asociados, entre los que destacan #noesno,
#yositecreo, #lamanada y #noesabusoesviolacion, etiquetas relacionadas con la indignación por la sentencia de
La Manada (Larrondo et al. 2019, Gutiérrez et al. 2020). Todo indica que hay otras que no pertenecen al tema:
#graciasiniesta y #wwegrr proceden de robots de tendencias como @ttesbot (línea 5 de la tabla 4) que recopilan

las etiquetas más usadas en cada momento.
Volviendo a los perfiles, los más destacados hasta el momento podrían clasificarse en cinco clases: personales,
grupales, mediáticos, robots y suspendidos. Ahora bien, más interesante resulta clasificarlos en función de dos
dimensiones: actividad y popularidad, que pueden ser medidas tanto en el contexto analizado, como en el
conjunto general de la participación en Twitter. Indicadores de actividad son las emisiones (suma de tuits y
retuits) en un determinado contexto y, en general, el estatus (número de mensajes retrasmitidos desde el inicio de
una cuenta) y el número de perfiles que se siguen (following). Indicadores de popularidad son el número de retuits
recibidos en el contexto y el número de personas que siguen a un determinado perfil (followers). En la tabla 6
aparecen todos estos indicadores ordenados por el número de emisiones. Sobresale de nuevo @ LaFallaras,
seguida de @dramalesbian_ con un equilibrio de mensajes originales y compartidos de otras cuentas (retuits
enviados).
Popularidad y actividad pueden combinarse para generar una tipología de usuarios (González-Bailón et al. 2013).
En el gráfico 1 puede observarse cómo la primera se distribuye horizontalmente en función del número de
seguidores frente a los seguidos, y la segunda verticalmente según los mensajes emitidos frente a los mensajes
divulgados, generando cuatro tipos.
De estos, dos son activos: los emisores, que emiten más mensajes de los que les divulgan, y los influyentes, en los
que confluyen actividad y popularidad. Otros dos son pasivos: los influyentes ocultos, populares e inactivos, frente
a los usuarios comunes, que no son ni activos ni populares. Cabe destacar que todos los perfiles listados en la
tabla 6 pertenecen a los dos primeros tipos, puesto que solo recogen aquellos que han sido muy activos en el
contexto de #Cuéntalo.
Revisando otros perfiles no citados hasta este momento, caben destacar los grandes periódicos nacionales, ya
que, con la excepción de ABC, todos participaron con la emisión de tuits. También debe mencionarse los perfiles
de Rosa María Palacios (@rmpalacios), periodista peruana que interviene animando a visitar el hashtag; el de Íñigo
Errejón (@ierrejon) expresando "espanto" y "rabia" al entrar en #Cuéntalo, y el de Juan Carlos Monedero
(@monederoJC) reflexionando sobre el poco respeto de los hombres hacia las mujeres e invitando a leer los
mensajes de @LaFallaras. Además de estos, aparecerán otros distintos en el análisis estructural por haber sido
objetos de numerosos reenvíos de sus mensajes originales.
6.ANÁLISIS DINÁMICO.
Twitter ofrece un diseño idóneo para el estudio regular y continuado de la evolución de un segmento importante
de la opinión pública. Contar con todas y cada una de las unidades emitidas a través de este canal confiere una
gran ventaja para estudiar la difusión de las opiniones tanto a corto, como se hace en el ejemplo de este artículo,
como a largo plazo. En este sentido, el análisis dinámico implica los mismos procedimientos que el análisis
estático, pero añadiendo el componente temporal.
6.1.Frecuencia temporal de los mensajes.
Los tuits recogidos contienen la fecha de emisión expresada en día y hora. Por ello, para ver cómo se distribuyen
los mensajes a lo largo del tiempo hay que recodificar esta variable en una unidad de tiempo mayor que el
segundo. Dependiendo del alcance temporal del estudio, esta unidad puede ser la hora, el día, la semana o, para
estudios más extensos, varios meses o el año. En el gráfico 2 se representan las frecuencias simples y
acumuladas de tuits y retuits en una escala logarítmica, donde cada línea vertical representa 6 horas de tiempo.
Aunque los primeros tuits con el hashtag #Cuéntalo comenzaran el día 26, llegándose a contabilizar un centenar
de retuits, el gráfico muestra de modo claro que el fenómeno comienza a adquirir el carácter viral a partir de las
seis de la mañana del día 27, alcanzando su pico diario en torno a las 10 de la noche. Vuelve a repuntar en torno a
las cuatro de la mañana del día 28, y en la madrugada del 29 se nota un descenso menor que en la noche anterior,
lo que es posible señal de la incorporación de perfiles del mundo hispanoamericano, donde también el tema se
hizo viral algo más tarde.
Es de interés conectar esta evolución con las manifestaciones masivas que tuvieron lugar en la tarde del día 26 en
contra de la sentencia. Aunque el inicio de los mensajes con esta etiqueta fue anterior, la masificación de los

mensajes solo tuvo lugar a partir del día siguiente, por lo que se podría conjeturar que la manifestación fue
catalizadora de la eclosión de los mensajes en Twitter más que en el sentido contrario.
6.2.EVOLUCION TEMPORAL DE LOS AUTORES
Resultaría complejo representar en un solo gráfico la evolución temporal de todos y cada uno de los usuarios que
emiten el conjunto de los mensajes involucrados en un contexto. Por ello, solo se representan en el gráfico 3 los
tres perfiles que emitieron más de un centenar de tuits originales. Estos son @LaFallaras, @MujeresUC3M y @
SoldadoDescono3.
1) La líder con diferencia en envío de mensajes originales es @LaFallaras, con un total de 242. En menos de una
hora en la tarde del jueves 26 lanza tres mensajes, donde comparte los testimonios de experiencias de acoso y
agresiones sexuales de otras tres mujeres acompañándolas del hashtag.
2) Otra cuenta prolífica en el envío de mensajes fue @MujeresUC3M. Se trataba de una cuenta de una asociación
de mujeres universitarias, actualmente @AUCattana, que sirvió de altavoz para que aquellas mujeres que por una
razón u otra no quisieran compartir públicamente sus vivencias, tuvieran un medio para hacerlo.
3) El tercer perfil, con más de cien mensajes originales, fue @SoldadoDescono3. Es una cuenta actualmente
suspendida de claro contenido misógino y antifeminista cuyo primer mensaje remite a una página antifeminista
llamada "A Voice for Men" (https://avoiceformen.com) que dice convocar a un "Movimiento a favor de los
Derechos de los Hombres". El resto de sus mensajes usando #Cuéntalo son una retahíla de comentarios satíricos
con la intención de ridiculizar el movimiento y a sus participantes a través de mensajes narrando situaciones
absurdas, queriendo mostrar irónicamente el contenido de los mensajes de las mujeres.
Lo curioso de este perfil es que aparece un par de horas después de los mensajes de las mujeres de la Carlos III, e
iguala el número de tuits de esta, aunque se queda lejos en el número de retuits recibidos. En ambos casos, su
actividad se concreta el sábado y en las primeras horas del domingo prácticamente desaparecen, como muestra el
gráfico 3.
6.3.Evolución temporal de los retuits recibidos
Al analizar la evolución del número de retuits recibidos aparece por primera vez uno los perfiles más relevantes de
#Cuéntalo: @martolius, una usuaria con un número no muy alto de seguidores. La diferencia entre el número de
retuiteos que recibe @martolius respecto a las cinco cuentas con más mensajes compartidos es más que
recalcable, como puede comprobarse en el gráfico 5 acumulado.
Lo interesante de este análisis dinámico consiste en observar cuándo empiezan a hacerse populares los mensajes
y hasta qué punto esta relevancia se mantiene. Como era de esperar, la trayectoria más continuada es de
@LaFallaras. Aunque hasta la mañana del viernes sus mensajes no suben popularidad, recobra viralidad de modo
progresivo hasta lograr estabilizarla. @Irene_Montero_ y @ MariuJaen aparecen el viernes por la tarde,
consiguiendo mantenerse hasta el final de la serie. Por su parte, @martolius aparece el sábado antes del mediodía,
y @Rockmantica y @anisbaron llegan las últimas, a pesar de que sus mensajes llegan a superar la popularidad de
@Irene_Montero_ y @MariuJaen.
Como se ha podido comprobar, el análisis temporal puede hacer algo muy potente: detectar cuándo y a través de
quiénes se viraliza un hashtag. En este caso, fue lanzado por una periodista y potenciado tanto por feministas
influyentes en tres vertientes: periodística, política y tuitera en general, como también por perfiles de la esfera
política (Podemos) y de los medios de comunicación (Público y elDiario.es, sobre todo). Finalmente, fue replicado
y fomentado por usuarias comunes.
7.ANÁLISIS ESTRUCTURAL
Un análisis estructural es aquel que estudia los sistemas de relaciones entre elementos. A la hora de enfrentarse a
los elementos de los mensajes de Twitter -sin prejuicio de otros-, resaltan por su importancia tres tipos de análisis
estructurales, a los que podría añadirse el constituido con las palabras contenidas en los mensajes. El primero de
ellos son las menciones, el segundo los retuits y el tercero los hashtags.
En general, los elementos de una estructura pueden ser representados mediante un grafo. En este, los nodos
representan cada uno de los componentes de esa estructura y los enlaces las relaciones (menciones, retuits,

coocurrencias). La disposición de los primeros se realiza conforme a un algoritmo, entre los que son más
frecuentes el Fruchterman-Reingold para redes pequeñas, y el ForceAtlas-2 eficiente en el caso de redes con un
elevado número de elementos. Estos procedimientos son de tal naturaleza que ubican los nodos más
relacionados en el centro, aglutinándose entre ellos de modo que conformen grupos de relaciones mutuamente
exclusivas, llamadas comunidades, que se obtienen mediante complejos procedimientos matemáticos.
7.1. Estructura de las menciones.
En el gráfico 6 se muestra el conjunto de menciones en tuits originales. En él destaca la figura central de
@LaFallaras. Apenas destacan también otros perfiles mencionados debido a las limitaciones de visualización del
papel. Para ello, la red ha de simplificarse: un procedimiento posible es eliminar aquellos perfiles que no se
conectan con las seis grandes cuentas mencionadas como puede verse en el gráfico 7. Todas ellas están
intermediadas por otras usuarias, especialmente @Virginiapalonso y @LaFallaras. Al haber sido elaborados con
las menciones, los gráficos 6 y 7 dan cuenta del liderazgo de los emisores: mientras mayor número de menciones
reciban, mayor centralidad adquirirán en la representación.
7.2. Estructura de los retuits.
Otra perspectiva distinta de las menciones la proporcionan los retuits. Mientras que en una mención el perfil
activo escribe un mensaje original e incluye en el texto el perfil de aquellas personas que considera implicadas en
su contenido, en un retuit el perfil activo hace uso del mensaje de otra persona y lo incluye en su propio perfil con
el objeto de difundirlo. De esta forma, realizando una red de retuits se puede observar la importancia que se ha
otorgado a cada mensaje.
Si nos fijamos en las frecuencias de perfiles retuiteados (centralidad de grado de entrada en la terminología de
grafos), se observa en la tabla 7 la gran atracción del mensaje de @martolius. En menos de una hora, el sábado
por la mañana, escribió dos mensajes usando #Cuéntalo, siendo el segundo retuiteado en 24 horas por casi
40.000 perfiles distintos. Su texto era el siguiente:
También destacan, con más de 7.000 retuits recibidos, los mensajes de @ anisbaron y los de @MariuJaen En la
tabla 7 también se encuentra @LaFallaras, quien redactó 242 mensajes distintos y emitió 304 retuits (grado de
salida). Consecuencia de ello, se convirtió con diferencia en la gran intermediadora popular de la red. Su bajo
autovalor revela que fueron otros perfiles (@martolius y @ anisbaron) los que estuvieron más relacionados con los
nodos centrales.
Independientemente del número de tuits disponibles, resulta interesante realizar una representación de la
estructura de las relaciones principales seleccionando solo aquellas con un grado de entrada mayor que un
determinado valor1. Además de ello, al conjunto del grafo se le aplica previamente el cálculo de sus comunidades
mediante la modularidad de sus nodos (Jacomy et al. 2014). Así, puede obtenerse un mapa de los distintos
sectores participantes en un contexto (gráfico 8).
7.3.Estructura de los hashtags.
Adentrándose en el próximo apartado sobre el contenido de los mensajes, el tercer elemento sobre el que se
pueden construir estructuras son los hashtags. El interés aquí radica en conocer cuáles son las etiquetas que
acompañan a las publicaciones en el conjunto de la muestra. Como explicamos antes, todo el conjunto que se
está analizando contiene la etiqueta #Cuéntalo, pero es habitual que los mensajes incluyan más de una. En la ya
analizada tabla 5 aparecía la etiqueta #Cuéntalo en la totalidad del conjunto, junto con el resto de las etiquetas
con menor frecuencia. Pero aquella tabla carecía de elementos relacionales, para lo cual habría que cruzar la
ocurrencia de las etiquetas. En la tabla 8 aparecen las frecuencias cruzadas de #Cuéntalo con las otras diez
etiquetas más frecuentes.
Ahora bien, si se desea una visión conjunta de toda la estructura, más que una tabla repleta de categorías resulta
más conveniente representar toda esta información en un grafo. En este caso, los nodos serían cada una de las
etiquetas que estarían unidas, siempre y cuando el residuo normalizado fuera positivo y significativo -por encima
de 1.64 en una distribución normal si se adopta el criterio de una hipótesis unidireccional con un nivel de
significación del 5%- (Escobar y Martínez-Uribe 2020). Partiendo de la tabla 8 extendida a las 278 etiquetas que

han aparecido más de una vez en los mensajes originales recopilados, se obtuvo la red expuesta en el gráfico 9.
En ese grafo se pueden distinguir distintos grupos de nodos o etiquetas formado por uno de los múltiples
procedimientos existentes para conformar comunidades en las redes. En este caso, fue elegido el denominado
Lovaine (Blondel 2008). En él podemos distinguir cinco comunidades claras: un grupo temático principal
representado por los hashtags #noesno, #lamanada y #yositecreo, uno secundario donde destacan #metoo y
#usa, dos grupos formados a partir de los trending topics y un último en el que queda representada la comunidad
tuitera catalana a través de etiquetas como #cup o #llibertatpresospolitics.
Un elemento común de las dos últimas redes presentadas es el uso de comunidades, que poseen la funcionalidad
de distinguir grupos en un conjunto de relaciones. Existen múltiples procedimientos para su descubrimiento, pero
exponerlos en este artículo queda fuera del alcance de su extensión. Una buena introducción es el trabajo de
Porter et al. (2009). La investigadora que desee (re) construir y mostrar análisis estructurales puede recurrir a muy
diversos programas para llevarlos a cabo. Aunque sean de pago, los más empleados son Ucinet y NodeXL,
también se puede recurrir a alternativas gratuitas como son el caso de Pajek, Gephi y los paquetes de R o Python
como son igraph y network (Net- workX). Para esta investigación se han empleado paquetes propios como el ya
disponible netCoin y otro en desarrollo que se denomina tweetCoin.
8ANÁLISIS DE CONTENIDO
Desde que Thomas y Znaniecki emprendieron en 1918 el análisis de la integración de los emigrantes polacos en
Estados Unidos mediante el examen documental de cartas, diarios íntimos, artículos de periódicos e informes
oficiales, en muchas investigaciones se ha intentado desvelar con cierta sistematicidad y reproductibilidad qué
contienen y qué implican no solo los productos orales y escritos de los seres humanos, sino también toda obra
humana dotada de significado.
En este sentido, ¿qué es lo que puede hacerse con los textos contenidos en los mensajes de Twitter? Aquí
presentamos diversas propuestas de muy distintos signos. En primer lugar, adoptando la postura berelsoniana
(Berelson y Lazarsfeld 1947), el análisis puede limitarse a cifrar las menciones o etiquetas, como ya se hizo en el
apartado anterior.
En segundo lugar, también puede hacerse un recuento más cauto de las palabras que aparecen y sus
coapariciones. Este procedimiento de análisis de contenido de texto no se limita a ser una elaboración estadística
de una extracción de palabras, sino que atraviesa por una serie de fases para tratar semánticamente los textos:
1. La construcción del corpus o conjunto de textos que se van a analizar
2. El procesamiento previo, que incluye entre otras operaciones, la radicalización, la lematización, la exclusión de
palabras sin contenido (artículos, adjetivos determinantes, preposiciones y conjunciones) y la categorización.
3. El procesamiento posterior, que consiste en la eliminación de categorías en función de su alta o baja frecuencia.
De este tenor, una representación muy frecuente del recuento de vocablos es la denominada "nube de palabras".
Hay dos formas de realizarla: una a partir de las palabras y otra a partir de los lemas. En el gráfico 10 podemos
observar una nube de palabras tradicional a partir de los mensajes originales en el contexto de #Cuéntalo. En
contraste, el siguiente gráfico no contiene las palabras, sino los lemas: una representación de palabras que agrupa
todas las formas verbales, o el género y número de los nombres y adjetivos.
Como las modalidades de las primeras formas gramaticales son mucho más numerosas que las restantes, el
resultado suele ser que en la segunda modalidad predominan los verbos, mientras que en las nubes de palabras
tradicionales destacan nombres y adjetivos. Obviamente, no se encuentran artículos, adjetivos determinativos,
preposiciones ni conjunciones, porque se ha incluido una lista de palabras ocultas (stop-words) que son
descartadas de la lista por no tener un significado relevante.
En el primer gráfico destaca, además de la aparición de palabras vinculadas con el género (hombre, tío, mujer,
amigo, amiga), una relacionada con la edad de las personas citadas en el mensaje (años) -tan frecuente porque
son muchos los relatos de agresiones sexuales a menores- y diversas relacionadas con lugares (casa, coche, calle,
fiesta). En el gráfico ll, el de lemas, destacan los verbos (haber, tener, decir, ir, pasar, salir, correr). Finalmente,
ocupando el centro de ambos gráficos, destaca la palabra miedo, al estar contenida en muchos mensajes de este

contexto.
La tercera propuesta de análisis de contenido pasa por la categorización, que añade una intencionalidad teórica a
lo que se va buscando en el texto. La categorización puede hacerse de diversos modos, que van desde la
construcción de un diccionario que automáticamente vaya clasificando todas las palabras en categorías, hasta la
codificación manual, de acuerdo con una serie de reglas cuya correcta aplicación (intersubjetividad) se verifica
mediante el empleo de medidas que evalúan el grado de concordancia de los codificadores en la aplicación de los
códigos.
En el primer extremo se encuentra el llamado análisis de sentimiento (Blasco-Duatis y Coenders 2020). Este
consiste en asignar a cada palabra de un texto una valencia positiva o negativa, sumándolas de modo que el
conjunto arroje un valor positivo, negativo o neutro. Sin embargo, el análisis de sentimientos, aunque muy
utilizado, no está exento de problemas. Esto es más notable cuando se analizan textos en castellano, ya que los
diccionarios existentes suelen ser meras traducciones de otros en inglés. Esto se observa especialmente en los
tuits: son textos muy cortos donde la ironía, el doble sentido, los iconos, los vídeos y las imágenes que los
acompañan no son contemplados adecuadamente con esta técnica. No obstante, podría servir para detectar
algunos de los textos más agresivos o benignos.
Aplicando el diccionario ncr del paquete syuzhet de R (Jockers 2015) y recogiendo solo los dos mensajes con
sentimientos más negativos y positivos del contexto de #Cuéntalo, se pueden comprender las inexactitudes de
este procedimiento:
Este mensaje se valora como negativo al ser largo y contener muchas palabras con carga determinada como
negativa (daño, culpa, dolor, romper, molestar, triste, mal). Por otro lado, el mensaje valorado con sentimiento más
positivo es el siguiente:
Este otro mensaje no es tan largo como el anterior, y aunque su contenido sea más bien negativo, la aparición de
palabras como salir, fiesta, amigo, acompañar, seguir e incluso seguro hace que el algoritmo lo considere positivo.
Lo más erróneo en esta circunstancia es que la palabra seguro está precedida por "sin ser" y es valorada como
positiva, cuando en realidad da la vuelta a todo el mensaje por muchas palabras positivas que contenga. De los
millares de mensajes originales recogidos, el 31% se han evaluado como neutros (con una puntuación de 0), el
34% se han calificado como positivos y solo un 35% como negativos. Hay, pues, un equilibrio que no se
corresponde con lo esperable del contexto en estudio, que por su propia finalidad debería ser negativo.
En el otro extremo de la tercera propuesta, se encuentra lo que se denomina teoría fundamentada, que consiste en
la construcción iterativa y consensuada del sistema de categorías con el que se pretende descubrir tanto
significado de un texto junto como su contexto. Entre estos dos últimos sistemas de categorizar los textos, se
puede ubicar una práctica consistente en realizar al texto una serie de preguntas con sus posibles categorías de
respuestas elaboradas de un modo flexible de modo que las poco frecuentes en el análisis puedan ser
combinadas, al tiempo que se puedan generar otras a medida que se va practicando la categorización.
Un ejemplo de este proceso puede hacerse con los datos con la etiqueta de #Cuéntalo. Para ello se realiza en
primer lugar una división entre aquellos mensajes que contienen relatos de violencia sexual y aquellos que no.
Obviamente, dado el contexto de este conjunto de mensajes, solo los primeros son de interés. Una vez
seleccionados, nos podríamos hacer las siguientes preguntas: ¿quién o quiénes fueron los agresores?, ¿qué edad
tenía la víctima o víctimas?, ¿de qué tipo de agresiones se trataba? y ¿dónde se produjo este tipo de conducta?
Este proceso de codificación ha de hacerse en buena parte manualmente, pero ya existan herramientas que
pueden simplificar el proceso a través de la construcción de un diccionario en el que para cada categoría se
especifica una serie de palabras que dan pistas de que al texto en cuestión se le aplica el código correspondiente.
Aplicado al contexto en estudio, esas cuatro preguntas dieron lugar a 49 categorías distintas: 11 tipos de
agresores, 19 modalidades de acoso, 3 edades y 16 lugares distintos. Las categorías o respuestas más frecuentes
a los cuatro interrogantes fueron respectivamente agresores desconocidos (53%), tocamientos y acoso verbal
(ambas con 32%), menores de 16 años (29%) y en la calle (35%). Como se muestra en los mapas de colores de las
categorías "Otros desconocidos" y "Menores de 16 años" (última columna a la derecha de ambas matrices), las

asociaciones más fuertes (situadas en las primeras líneas de las matrices) en los episodios compartidos en la red
relacionados con "Otros desconocidos" son haber transcurrido en la calle o en el transporte púbico, consistente en
persecuciones a pie o coche, exhibicionismos o acosos verbales. En el caso de los episodios que ocurrieron
cuando la víctima tenía "Menos de 16 años", lo más común es que el agresor tuviera una gran diferencia de edad,
que la acción tuviera lugar en un centro educativo o en la propia casa y que los agresores fueran un familiar
consanguíneo o político, un profesor o un vecino. En este caso las agresiones denunciadas más comunes fueron
los tocamientos y los exhibicionismos.
Finalmente, en la cuarta propuesta, hay que referirse a los modelos de clasificación automáticos. Estos proceden
de lo que ha venido llamándose el aprendizaje automático (Molina y Garip 2019), al que se le ha sumado el
denominado procesamiento de lenguaje natural y ha dado lugar al aprendizaje profundo. Sin ir demasiado lejos en
lo que estas técnicas pueden contribuir a un análisis de los textos, es preciso mencionar que existen dos grandes
tipos de procedimientos: los análisis supervisados y los análisis no supervisados.
En los primeros es preciso dividir el universo de textos que se desea analizar en una muestra de ejecución y otra
de aplicación. Sobre la primera se realiza una clasificación manual en la que se aplica un algoritmo para la
detección de palabras que pueden haber sido relevantes para los que hayan realizado la clasificación. Una vez que
se logra un modelo que prediga bien lo que los codificadores ya han hecho, se aplica el modelo a la segunda
muestra para realizar la clasificación oportuna.
En el contexto de #Cuéntalo, de los más de 32.000 mensajes originales que se recabaron con la herramienta de
Discovertext, se hizo una muestra aproximada de 10.000. Sobre ellos un par de codificadores los clasificaron
según tuvieran o no un contenido de acoso sexual. Con esta información se obtuvo un modelo basado en la
frecuencia de aparición de las palabras, que se aplicó al corpus de más de 50.000 mensajes originales, a partir del
cual se clasificó el conjunto total en estas dos categorías con un determinado grado de certidumbre. El algoritmo
utilizado fue el de WordStat para clasificación supervisada. El resultado fue un 56% de mensajes sin agresiones,
12% de indefinidos y 32% de mensajes con agresiones. Este resultado indica que la muestra de 10.000 mensajes
fue realizada aleatoriamente y que la clasificación supervisada da muy buenos resultados.
En el segundo tipo de análisis se encuentran los métodos no supervisados, entre los que destaca el algoritmo LDA
para análisis de texto (Blei et al. 2003). De modo similar a lo que realiza el conocido método clasificatorio K-
means, el investigador ha de proporcionar un número de temas en los que se quiere clasificar un conjunto de
textos. De hecho, todos los mensajes disponibles se clasificaron en 20 áreas temáticas de las que en la tabla 9 se
exponen solo las cuatro en las que se clasificaron más de 1000 mensajes.
La temática más numerosa (7% de los mensajes) corresponde, dadas las palabras y los ngramas característicos
de ella (tabla 9), a aquellas menciones sobre los peligros de volver a casa sola (casa, llaves, sola, volver a casa). El
segundo (que incluye casi un 5% de mensajes) corresponde a escenas del colegio cuando era pequeña (años,
tenía, colegio). El tercer tema, compuesto por un 2,5% de mensajes, comprende una parte de los mensajes en
catalán que se escribieron con la etiqueta de #Cuéntalo, pues todas las palabras características son catalanas
(anys, vaig, em vaig). Ello refleja que la cuestión traspasó la frontera lingüística en una comunidad con una gran
experiencia en la participación colectiva en las redes, como se puso de manifiesto el año anterior a la sentencia
durante el Procés. Finalmente, el cuarto (2%), podría reconocerse como el identitario al tener en su contenido la
palabra mujeres, la locución "todas las mujeres" y muchos verbos en primera persona del plural.
Con este elenco de posibles análisis de contenido no se agotan los modos de aproximarse a los mensajes
emitidos en Twitter. A este respecto, si se desea un examen de corte más ideológico o político, sería conveniente
aproximarse a una literatura más especializada como es el caso de Alonso et al. (2012) o Grimer y Stewart (2013).
9CONCLUSIONES.
A lo largo de este artículo se han presentado diversos procedimientos para obtener y analizar la información
disponible en Twitter. Se han dividido estos análisis en cuatro tipos: dos primeros muy relacionados, el análisis
descriptivo y el dinámico, un tercer tipo muy propio del análisis de redes sociales, que sería el análisis estructural,
y un cuarto, más próximo a metodologías cualitativas, que es el análisis de contenido.

Aplicando estos cuatro análisis a los mensajes escritos con el hashtag #Cuéntalo durante los días 26 y 28 de abril
de 2018, se ha mostrado la utilidad de las técnicas empleadas. De esta forma, se ha destacado que este episodio
de narrativa virtual tuvo un alto grado de viralidad, llegando en tres días a circular decenas de miles de mensajes
distintos. Mediante el análisis de los perfiles participantes se ha revelado que @LaFallaras fue la usuaria de la red
más activa desde el inicio y que progresivamente se fueron uniendo a la denuncia más y más cuentas
compartiendo y publicando nuevos contenidos. Así, gracias a la participación de escritoras, periodistas y tuiteras
populares, y a la promoción llevada a cabo por asociaciones, periódicos y políticos, se desarrolló un gran
movimiento en contra de la sentencia de La Manada como se ha podido comprobar a través de los hashtags
asociados. El mensaje más difundido, firmado por @martolius, es un claro ejemplo del tipo de contenido de la
reivindicación: son mensajes de denuncia, contando situaciones de violencia sexual y machismo padecidas por
las mujeres. A través del análisis de contenido, sabemos que los principales temas versaron el acoso callejero, el
miedo a volver a casa sola y agresiones ocurridas cuando eran menores de 16 años, que es la edad de
consentimiento sexual en España.
Con un evidente prisma metodológico este artículo ha presentado un esquema de explotación de la información
presente en las redes sociales para lo que ha explorado los modos de selección, los objetos de análisis posibles y
las herramientas analíticas más centrales. Aunque por falta de espacio no se hayan tratado con mayor detalle, ni
se hayan cubierto todas sus posibilidades y limitaciones, las propuestas, aquí enfocadas en Twitter, son
fructíferas y pueden ser aplicadas a otras plataformas como Facebook, YouTube, Instagram o TikTok, para lo que
sería conveniente también adentrarse en el análisis de imágenes y vídeos. El constante aumento del uso y
popularidad de las redes sociales y su consecuente efecto en nuestra vida deja en evidencia la importancia de
analizar más y mejor la interacción humana con y en la red. El papel de los científicos sociales aquí es crucial, por
lo que deberíamos ser capaces de captar, tratar e interpretar en profundidad estas nuevas formas masivas de
comunicación.
Footnote
1 El gráfico completo de retuits puede verse en Congosto (2018).
References
10BIBLIOGRAFÍA
ALONSO, S., VOLKENS, A. y GÓMEZ, B. (2012). Análisis de contenido de textos políticos. Un enfoque cuantitativo,
Madrid, CIS.
ARCILA, C., BLANCO, D. y VALDEZ, M. B. (2020). "Rechazo y discurso de odio en Twitter: análisis de contenido de
los tuits sobre migrantes y refugiados en español". Revista Española de Investigaciones Sociológicas (172), 21-40.
BERELSON, B. y LASZARFELD, P. (1947): The Analysis in Communications Content. Nueva York, University of
Chicago y Columbia University.
BLASCO-DUATIS, M. y CoENDERS, G. (2020). "Análisis de sentimiento de la agenda de los partidos políticos
españoles en Twitter durante la Moción de Censura de 2018: Un enfoque de datos composicionales". Revista
Mediterránea de Comunicación, 11(2), 185-198.
BLEI, D.M., NG, A.Y., y JORDAN, M.I. (2003). Latent Dirichlet Allocation. The Journal of Machine Learning Research,
3, 993-1022.
BLONDEL, V. D., GUILLAUME, J. L., LAMBIOTTE, R., &LEFEBVRE, E. (2008). "Fast Unfolding of Communities in Large
Networks", Journal of. Statistical Mechanics, P10008.
BOVET, A. y MAKSE, H. (2019). "Influence of Fake News in Twitter during the 2016 US presidential election". Nature
Communications, 10(1), 1-14.
BUCALO, M. S., CALVO, L., CUCCHIETTI, F., GARCIA POVEDANO, D., GARCÍA-SÁEZ, A., FELIPE GÓMEZ, J.
&FERNANDA VÉLEZ, D. (2019). "A Constellation of Horrors: Analysis and Visualization of the #Cuéntalo
Movement". Companion Proceedings of The 2019 World Wide Web Conference, 751-754.
CaSeRO-RIPOLLÉS, A. (2020). "Influence of Media on the Political Conversation on Twitter: Activity, Popularity, and
Authority in the Digital Debate in Spain". Icono14, 18(1), 33-57.

CONGOSTO, M.L. (2018). Contando cómo se difundió el #cuéntalo, disponible en http://
www.barriblog.com/2018/05/contando-se-difundio-cuentalo/ [consulta: 9/12/2020].
CONGOSTO, M.L., BASANTA-VAL, P. y SÁNCHEZ-FERNÁNDEZ, L. (2017). "THoarder: A Framework to Process
Twitter Data Streams". Journal of Network and Computer Applications, 83, 28-39.
DEAL, B. E., MARTINEZ, L. S., SPITZBERG, B. H., &TSOU, M. H. (2020). "«I Definitely Did Not Report It When I Was
Raped... #WeBelieveChristine #MeToo»: A Content Analysis of Disclosures of Sexual Assault on Twitter". Social
Media+ Society, 6(4), 2056305120974610.
ESCOBAR M. y MARTÍNEZ-URIBE L (2020). "Network Coincidence Analysis: The netCoin R Package". Journal of
Statistical Software, 93(11), 1-32.
FREELON, D., McIIWAIN, C. y CLARK, M (2016). "Quantifying the Power and Consequences of Social Media Protest",
New Media &Society, 20(3), 990-1011.
GILL, R. y ORGAD, S. (2018). "The Shifting Terrain of Sex and Power: From the 'Sexualization of Culture' to
#MeToo". Sexualities, 21(8), 1313-1324.
GLEASON, B. (2013). "#Occupy Wall Street: Exploring Informal Learning About a Social Movement on Twitter".
American Behavioral Scientist, 57(7), 966-982.
GONZÁLEZ-BAILÓN, S., BORGE-HOLTHOEFER, J. y MORENO, Y. (2013). "Broadcasters and Hidden Influentials in
Online Protest Diffusion". American Behavioral Scientist, 57(7), 943-965.
GUALDA, E. y REBOLLO, C. (2020). "Big data y Twitter para el estudio de procesos migratorios: Métodos, técnicas
de investigación y software". Empiria: Revista de Metodología de Ciencias Sociales (46), 147-177.
GUTIÉRREZ, M., PANDO, M.J. y CONGOSTO, M. (2020). "New Approaches to the Propagation of the Antifeminist
backlash on Twitter". Investigaciones Feministas, 11(2), 221-237.
GRIMMER, J., &STEWART, B. M. (2013). "Text as data: The promise and pitfalls of automatic content analysis
methods for political texts". Political analysis, 21(3), 267-297.
JACKSON, S. J., BAILEY, M., &WELLES, B.F. (2018). "#GirlsLikeUs: Trans advocacy and community building online".
New Media &Society, 20(5), 1868-188
JACKSON, S. J., BAILEY M. y WELLES, B. F. (2020). "#HashtagActivism: Networks of Race and Gender Justice".
Cambridge: The MIT Press.
JACOMY, M., VENTURINI, T., HEYMANN, S., &BASTIAN, M. (2014). "ForceAtlas2, a Continuous Graph Layout
Algorithm for Handy Network Visualization Designed for the Gephi Software". PLoS ONE 9(6): e98679.
JENSEN, M. y BANG, H. (2013). "Occupy Wall Street: A New Political Form of Movement and Community?", Journal
of Information, Technology and Politics, 10(4), 444-461.
JOCKERS, M.L. (2015). "Syuzhet: Extract Sentiment and Plot Arcs from Text", disponible en
https://github.com/mjockers/syuzhet, accedido el 10/12/2020.
JOST, J. et al. (2018): "How Social Media Facilitates Political Protest: Information, Motivation, and Social
Networks". Political Psychology, 39(1), 85-118.
KEARNEY, M.W. (2019). "rtweet: Collecting and Analyzing Twitter Data." Journal of Open Source Software, 4(42),
1829. DOI: 10.21105/joss.01829, R package version 0.7.0.
KUNST, J. R., BAILEY, A., PRENDERGAST, C., &GUNDERSEN, A. (2019). "Sexism, rape myths and feminist
identification explain gender differences in attitudes toward the# metoo social media campaign in two countries".
Media Psychology, 22(5), 818-843.
LARRONDO, A., MORALES-I-GRAS, J., &ORBEGOZO-TERRADILLOS, J. (2019). "Feminist hashtag activism in Spain:
Measuring the degree of politicisation of online discourse on #YoSíTeCreo, #HermanaYoSíTeCreo, #Cuéntalo y
#NoEstásSola". Communication &Society, 207-221.
LARSSON, A. y MOE, H. (2014). "Triumph of the Underdogs? Comparing Twitter Use by Political Actors during two
Norwegian Election Campaigns". Sage Open, 4(4), 1-13.
MOLINA, M. y GARIP, F. (2019). "Machine Learning for Sociology". Annual Review of Sociology, 45, 27-45.
NAVARRO, C. y COROMINA, O. (2020). "Discussion and Mediation of Social Outrage on Twitter: The Reaction to the

Judicial Sentence of «La Manada»". Comunicación y Sociedad, 33(1), 93-106.
PÉREZ-DASILVA, J., MESO, K. y MENDIGUREN, T. (2020). "Fake news y coronavirus: detección de los principales
actores y tendencias a través del análisis de las conversaciones en Twitter". El Profesional de la Información,
29(3), e290308.
PÉREZ-MARTÍNEZ, V.M. y RODRÍGUEZ-GONZÁLEZ, MD (2017). "Movilización y participación en Twitter. Estudio de
caso del hashtag #SuperTuesday en las primarias presidenciales de EEUU 2016". Revista Latina de Comunicación
Social, 72, 679 a 703.
PORTER, M.A.; ONNELA, J.P. Y MUCHA, PJ. (2009). "Communities in Networks". Notices of the American
Mathematical Society. 56: 1082-1097.
RODINO-COLOCINO, M. (2018). "Metoo, #MeToo: Countering Cruelty with Empathy", Communication and
Critical/Cultural Studies, 15(1), 96-100.
RUIZ, V. y VALLES, M.A. (2020). "#Cuéntalo: the Path Between Archival Activism and the Social Archive (s)".
Archives and Manuscripts, 1-20.
SHAO, C. et al. (2018). "The Spread of Low-Credibility Content by Social Bots". Nature Communications, 9(1), 1-41.
SHULMAN, S. (2011). "DiscoverText: Software Training to Unlock the Power of Text", Conference: Proceedings of
the 12th Annual International Conference on Digital Government Research, DGO. College Park, MD, USA.
THEOCHARIS, Y., LOWE, W., VAN DETH, J. W., &GARCÍA-ALBACETE, G. (2015). "Using Twitter to mobilize protest
action: online mobilization patterns and action repertoires in the Occupy Wall Street, Indignados, and
Aganaktismenoi movements". Information, Communication &Society, 18(2), 202-220.
THOMAS, W. y ZNANIECKI, F. (2004: 1918). El campesino polaco en Europa y en América, Madrid, Centro de
Investigaciones Sociológicas (CIS).
WANG, C. y WANG, P. (2013). "Discussing Occupy Wall Street on Twitter: Longitudinal Network Analysis of Equality,
Emotion, and Stability of Public Discusión". Cyberpsychology, Behavior and Social Networking, 16(9), 679-685.
XIONG, Y., CHO, M., &BOATWRIGHT, B. (2019). "Hashtag activism and message frames among social movement
organizations: Semantic network analysis and thematic analysis of Twitter during the# MeToo movement". Public
relations review, 45(1), 10-23.
DETALLES
Materia: Content analysis; Internet; Sexual assault; Social networks
Término de indexación de Asunto: Social networks

negocios:
Título: Análisis de la dinámica, la estructura y el contenido de los mensajes de Twitter:

violencia sexual en #Cuéntalo
Título alternativo: Dynamic, structural and content analysis of Twitter: sexual violence in #Cuéntalo
Autor: Mercado, Modesto Escobar1; Gil, Elena1; López, Cristina Calvo11 Universidad de
Salamanca
Número: 53
Páginas: 89-119

ISSN: 11395737
e-ISSN: 21740682
DOI: 10.empiria.53.2022.32614

ProQuest:
URL del documento: https://www.proquest.com/scholarly-journals/análisis-de-la-dinámica-estructura-y-

el-contenido/docview/2639731901/se-2

Premium Collection
Survey Research in Times of Big Data *

Cabrera-Álvarez, Pablo 1 1 Institute for Social and Economic Research de la Universidad de Essex
Universidad de Salamanca . Empiria ; Madrid N.º 53, (Jan-Apr 2022): 31-51.

TEXTO COMPLETO
Headnote
Recibido: 14.09.2020
ABSTRACT
Although surveys still dominate the research landscape in social sciences, alternative data sources such as social
media posts or GPS data open a whole range of opportunities for researchers. In this scenario, some voices
advocate for a progressive substitution of survey data. They anticipate that big data, which is cheaper and faster
than surveys, will be enough to answer relevant research questions. However, this optimism contrasts with all the
quality and accessibility issues associated with big data such as the lack of coverage or data ownership and
restricted accessibility. The aim of this paper is to explore how, nowadays, the combination of big data and
surveys results in significant improvements in data quality and survey costs.
KEY WORDS
Survey methodology, big data, administrative data, social media data, data linkage.
RESUMEN
La encuesta es la técnica de investigación predominante en la investigación en Ciencias Sociales. Sin embargo, la
aparición de otras fuentes de datos como las publicaciones en redes sociales o los datos generados por GPS
suponen nuevas oportunidades para la investigación. En este escenario, algunas voces han defendido la idea de
que, debido a su menor coste y la velocidad a la que se generan, los big data irán sustituyendo progresivamente a
los datos de encuesta. Sin embargo, este optimismo contrasta con los problemas de calidad y accesibilidad que
presentan los big data como la fata de cobertura de algunos grupos de la población o el acceso restringido a
alguna de estas fuentes. Este artículo, a partir de una revisión profunda de la literatura de los últimos años, explora
como la cooperación entre los big data y las encuestas resulta en mejoras significativas de la calidad de los datos
y una reducción de los costes.
PALABRAS CLAVE
Metodología de encuestas, big data, datos administrativos, datos de redes sociales, combinación de datos.
1.INTRODUCTION
We are in the era of big data. Every minute Twitter users post 511,000 tweets, people send more than 188 million of
emails, and Google processes more than four million searches (DOMO 2019). All these actions leave a digital trace
behind; it may be a log of metadata, the content of the publication itself or the reactions to it. These traces are
stored and constitute a potential data source for research. This flood of granular and cheap data is possible
thanks to the technological developments that allow the storage and processing of the data. The rise of big data
contrasts with the complex and costly process of survey data collection, the dominant paradigm in the social
sciences since Neyman (1934) published his work about inference from probability samples. Parallel to the rise of
big data, it is the appearance of substantial challenges in the field of survey research. Two of these challenges are
the general drop of response rates in the last decades and the expansion of internet data collection
methodologies.
Nowadays, while surveys still dominate the research landscape in social sciences, alternative data sources such
as social media posts or GPS data open a whole range of opportunities for researchers. In this scenario, some
voices advocate for a progressive substitution of survey data. They anticipate that big data, which is cheaper and
faster than surveys, will be enough to answer relevant research questions. However, this optimism contrasts with
all the quality and accessibility issues associated with big data such as the lack of coverage or data ownership
and restricted accessibility.
The aim of this paper is not to discuss the future of survey research or the potential of big data. Instead, it explores
how, nowadays, the combination of big data and surveys results in significant improvements in data quality and
survey costs. In other words, the central postulate of this paper is that surveys and big data together can attain
what neither of them could get on their own. This paper, which does not pretend to be exhaustive, presents a

selection of the latest advancements in the field of survey research that involves the use of big data to highlight
the benefits of combining both data sources.
The first section of the paper presents a definition and a typology of big data focused on survey research. The
second section discusses whether big data can substitute surveys and the benefits of combining both types of
data, while the third explores the caveats of linking surveys and big data. The next section outlines some of the
cutting-edge advancements in the field of survey research that involve surveys and big data. Finally, the paper
concludes with some reflections about the present and future of survey research.
2.THE CONCEPT OF BIG DATA
Big data is an ample term used in different contexts such as academia, business, or media. Although the notion of
a large volume of data is common to most definitions, the scholars have not reached a consensus about the
ground characteristics of big data (Ward and Barker 2013). One of the first and most extended definitions focuses
on three features: velocity, volume, and variety (Laney 2001). Velocity because big data production occurs at a
high rate; volume refers to the necessary large size of the data that generally cannot be processed by a single
machine; and variety is related to the unstructured format of the data that is raw and typically requires a
substantial effort to clean and format. Another early, however less known, definition of big data covers all
interactions among individuals, institutions, and things that are recorded and stored digitally (Negroponte et al.
1997). This definition highlights two main characteristics, the origin of big data, interactions, and the critical role of
technology development and digital capacity.
A typology of big data focused on survey research helps to establish the scope of this review (Callegaro and Yang
2018; Japec et al. 2015). This typology aligns with the one presented by Baker (2017) that splits big datasets into
three groups based on the source of the data. These groups are transaction data, data derived from the internet of
things, and social media data.
Transaction data refers to the records produced in the context of an interaction. These interactions can involve
individuals and organisations, including the public administration. For instance, a person who applies for a
benefits scheme generates a record that is stored in a governmental database. Also, these records contain an ID,
like the social insurance number or the passport number, that enables to link it with other data sources. This
system of linking several transaction datasets allows building high dimensional data that is of maximum interest
for social research. In the context of survey research, there are three subcategories of transaction data that are
especially valuable: administrative data, commercial data, and paradata.
Every interaction between a governmental agency and an individual leaves a trace that is recorded and stored, and
can be used for research (Playford et al. 2016). However, answering research questions is not the primary
objective of this information, that generally pursues to smooth the management and evaluation of the programs
(Baker 2017; Woollard 2014). This second life of administrative data can benefit social research by supplementing
surveys with direct measurements.
Using administrative records has several advantages in contrast to survey. First, the use of administrative records
prevents the impact of measurement error (Connelly et al. 2016; Künn 2015). Administrative data tend to be more
accurate than surveys, especially if the questions inquire about the respondents past or socially desirable
behaviours. Second, the fact that administrative records are produced and stored over time enables the use of a
longitudinal perspective in research (Connelly et al. 2016). A unique identifier allows gathering the records for the
same individual over time, which contrasts with data collected using cross-sectional surveys, that frequently suffer
from recall errors.
Furthermore, administrative records reduce the level of respondents burden by shortening the questionnaire. The
interviewer can skip a substantial number of questions if the interviewee agrees to match, for instance, their
school or tax records (Connelly et al. 2016). Concerning the coverage of the population, administrative records are
exhaustive since all citizens need to be in the registers (Hand 2018). This advantage is especially relevant when
the study aims to cover small subgroups of the population, such as the patients affected by a rare disease.
Commercial datasets combine records from different sources such as administrative registers, survey data, and

transaction databases owned by companies. This information is employed in the context of marketing analysis to
perform market segmentation and drive campaigns (Peytchev and Raghunathan 2013). An example of this is the
Experian database in the United States, which is made up of more than 3,500 public and proprietary sources
(Pasek et al. 2014).
Finally, paradata are by-products generated during the survey interaction (Kreuter 2013). These by-products
include calling records, interviewers observations, questionnaire timestamps, or navigation logs of web surveys.
This type of data, which is specific to the field of survey research, is useful to monitor and refine the survey
process.
Internet of Things (IoT) covers the digital traces captured by sensors and other interconnected devices
(Gerschenfeld, Krikorian and Cohen 2004). Ten years ago, some scholars suggested that the appearance of
smartphones would have a decisive impact on data collection (Lazer et al. 2009; Raento, Oulasvirta and Eagle
2009). Technology has developed and spread in the population. In Europe (UE-27), Eurostat (2016) estimates that
77% of the residents are smartphone users, while in some countries such as Sweden, this percentage reaches 92%.
This transformation has enabled the collection of passive data (Stier et al. 2019), an opportunity to collect granular
and rich information while reducing respondent burden.
Social media is another source of data that has gained prominence in the last few years. Social media are a set of
digital platforms that allow interacting by storing and delivering information (Murphy, Hill and Dean 2013). Every
day, the majority of the population log on their social media accounts, share information, and interact with other
users. Eurostat data shows that 56% of the EU-27 aged 16-74 participated in social media in 2018. Also, the
emergence of social media in the last 20 years has democratised content production by giving people the ability to
publish and generated the concept of online community (Scott and Jacka 2012). In the field of social research, this
data allows observing social interaction in an unintrusive manner.
3.CAN BIG DATA REPLACE SURVEYS?
Some scholars have depicted a dark future for surveys anticipating that other data sources will substitute them
(Savage and Burrows 2007). The deficits of surveys reinforce this idea. Surveys are facing a changing environment
where the expansion of the internet has opened the door to new methods of data collection, while the response
rates are declining (De Leeuw, Hox and Luiten 2018). Certainly, the emergence of the internet is the opportunity to
use web surveys to speed up and lower the costs of data collection. Yet a substantive part of the population,
normally older people and form disadvantaged households, does not have internet access, which complicates the
selection of probability samples and the inference process for general population surveys (Elliott and Valliant
2017).
The challenges faced by surveys run in parallel to the optimism generated by the rise of big data. Big data might be
adequate to answer some questions in the area of social research, but this is not the case on most of the
occasions. Even when the use of big data shows results comparable to surveys, there is a counterpart. For
instance, Tusmajan and his colleagues (2011) made an accurate prediction of the 2009 general election in
Germany based on the frequencies of party mentions on Twitter. Nonetheless, those who tried to replicate this
method in a different context obtained inaccurate results (Gayo-Avello 2012).
One of the main issues affecting social media and other sources of digital trace data is selection bias (Hsieh and
Murphy 2017; Schober et al. 2016). Selection bias occurs when a part of the target population is not present in the
data. This lack of coverage is not an issue if the target population is restricted to those using a social media
platform or owning smartphones. However, most of the studies in social research do not focus on these groups,
and, on many occasions, aim to cover the general population. The case of Twitter users in Great Britain serves to
illustrate this. In Great Britain, the people with a Twitter account are younger and had higher qualifications than the
average (Sloan 2017). Similar deviations are found when comparing the general population to smartphone users.
The use of smartphones correlates with some sociodemographic characteristics such as age and education
(Keusch et al. 2020; Jäckle et al. 2019; Wenz, Jäckle and Couper 2019). In contrast, selection bias is less of an
issue for administrative records, which tend to cover most of the population.

Big data also present measurement issues. Sometimes, the definition of the concepts in social research exceeds
the formulations used in big data sources (Hsieh and Murphy 2017). Hand (2018) uses a simple example to
illustrate this issue. For some time, the trends from the British Crime Survey and the police records evolved in
opposite directions due to the use of different definitions. Furthermore, apart from using other concepts, big data
is not exempt from measurement error. In a recent publication, Bähr and his colleagues (2020) show that
geolocation sensor data suffer from different sources of error such as the manufacturer and operating system
settings, research design, third-party apps, and the participants' behaviour.
Big datasets tend to have a high number of cases, but few covariates (Couper 2013). This scarcity of covariates is
not an issue if the objective is to estimate a single figure. However, most of the time, social research is about
exploring relationships between variables, and relevant covariates are required. Linked to this issue is the lack of
attitudinal or sociodemographic measures in most big data sources (Salganik 2017). However, an essential part of
social research focuses on attitudinal data. Certainly, social media data can be used to derive attitudinal
measures, or administrative records tend to capture demographics. Still, sometimes, the fact that the research
team cannot control big data production imposes severe limitations. Moreover, digital trace and social media data
can suffer from a lack of stability (Schober et al. 2016). Social media platforms tend to change over time and even
disappear. Other issues are the access and privacy policies. Most of the time, big data sources are proprietary and
access, therefore, is restricted (Couper 2013).
The flaws of big data make implausible to think of a near future without surveys. Likewise, the use of surveys is
not exempt from issues and challenges. The need for accurate statistics imposes the collaboration of surveys and
big data. They can cooperate to overcome their imperfections by building an enhanced data environment. Some
scholars have openly advocated for this combination as a form of refining survey data quality (Forsyth and
Boucher 2015; Miller 2017; Kalton 2019). Others have shown that surveys can help to improve the quality of big
data (Rafei, Flannagan and Elliott 2020; Kim and Tam 2020). Either way, both approaches support the idea that
surveys and big data can achieve together what they cannot accomplish on their own. In the last few years there
have been efforts form industry and academia to test different combinations of big and survey data and new
spaces have emerged to enhance these new research streams such as the BigSur18 and BigSur20 conferences
organised by the European Survey Research Association (Hill et al. 2019).
4.COMBINING BIG DATA AND SURVEYS
There are several approaches to combine big data and surveys. The method to be used depends on the
characteristics of the datasets. The first relevant factor is whether the records in the databases belong to the
same entity. The second requirement is the existence of a set of variables that uniquely identify the entities in the
datasets.
Meeting the two conditions allow performing a one-to-one linkage using deterministic or probabilistic methods.
However, if the datasets contain information from different elements or the identification is not practicable, a
modelbased approach can be employed. This model-based strategy, which is called statistical matching or data
fusion, aims to match records based on a set of common characteristics. Alternatively, a statistical model can
translate the information from one data source to the other. This is the case of techniques like imputation, small
area estimation, and hierarchical models (Lohr and Raghunathan 2017). Finally, this paper also considers a case of
combination that consists of applying big data related methods such as machine learning and artificial intelligence
to survey research.
The most extended form of data matching is the deterministic linkage. This method requires a set of unique
identifiers for each case in all the datasets. Typical examples of unique identifiers are the national insurance
number, the passport ID, or the employee code. This type of matching is not exempt from errors since the registers
might be outdated, or the identifiers of some records can contain errors. In these cases, the use of a probability
approach can help to increase the number of matches if some merging variables contain errors (Calderwood and
Lessof 2009). Sometimes, even though the data sources cover the same elements, the variables do not uniquely
identify them or contain errors. Then, the use of a probabilistic approach can enable the data matching. The

probabilistic matching relies on an algorithm and a set of quasi-identifiers which are variables that can identify
pairs of cases with some probability such as surname, date of birth, or address.
However, beyond the technical details, there are legal and ethical barriers to perform a one-to-one deterministic or
probability linkage. First, the research team needs to have access to the databases. The previous section
addressed the issues that imposes the proprietary nature of most of the big data sources. The most obvious
implication for research is that the data collected by companies is not normally usable while the governments
have the obligation to preserve the privacy of individuals and organizations. Only some countries have systems in
place to perform data matching in a secure environment. Second, survey respondents must give their informed
consent to the data linkage. The data linkage process is also critical for data quality since the differences between
those accepting and refusing to share their information might bias the estimates. This issue has attracted the
attention of some researchers. For instance, some studies showed that agreeing to link administrative is related to
the respondents' cognitive skills, trust in the survey organisation, or privacy concerns in the data linkage request
(Jäckle et al. 2018; Sala, Burton and Knies 2013; Sakshaug et al. 2012). Also, in relation to smartphone and social
media data, some studies have detected a significant resistance to share personal data (Baghal et al. 2019; Revilla,
Couper, and Ochoa 2019).
The use of model-based approaches allows combining surveys and big datasets in situations where the records
belong to different entities. This approach includes statistical matching, imputation, small area estimation, and the
use of hierarchical methods (Lohr and Raghunathan 2017). In contrast to the deterministic and probability record
linkage methods, statistical matching is used to merge records that belong to different entities based on a set of
characteristics present in both datasets (Moriarity and Scheuren 2001). Another method of combining big data
and surveys is imputation. In this approach, a statistical model is built to predict a target variable using a set of
covariates shared by all datasets. Then, the model is employed to predict the values in the datasets where this
measure is missing (Carpenter and Kenward 2012). In small area estimation, administrative data and surveys join
forces to produce statistical estimates for small areas such as census tracks or population subgroups. This
method helps to estimate summary statistics where survey estimates would be imprecise due to the small sample
size by combining the prediction from a model of the statistic for the subgroup and the estimate from the survey
data (Rao and Molina 2015; Fay and Herriot 1979). Similarly, hierarchical models are also used to synthesise
summary statistics or individual records. These models allow combining estimates from different studies or the
individual records nested in the studies (Cooper, Hedges and Valentine 2019).
Finally, another approach consists of using machine learning and artificial intelligence to treat surveys. The use of
machine learning is being extended to some areas of survey research, such as the calculation of response
propensities for the computation of non-response weights (Buskirk 2018; Kern, Klausch and Kreuter 2019). These
tools help to solve classical problems of survey research more efficiently. Likewise, the use of artificial intelligence
is also helping to improve the efficiency of tasks such as the generation of sample frames using satellite images
and gridded population data (Chew et al. 2018).
5.DEVELOPMENTS USING BIG DATA AND SURVEYS
The synergy between surveys and big data can have a variety of purposes. This section presents some
developments in which the combination of both sources leads to survey enhancement, measurement
improvements, solve issues related to representativeness, or facilitate fieldwork management.
5.1.Big data to enhance surveys
The most recurrent case of synergy between surveys and big data consists of supplementing the survey with
covariates from other sources. This merge generates a joint dataset that broadens the scope of the survey or
improves the quality of the measures. This approach has been used in the area of official statistics for a long time.
This is the case of the Census Longitudinal Study in England and Wales. This study, which started in 1971, links
census records and administrative data about vital events for a sample of 500,000 individuals. In recent years, the
number of studies that use a form of big data to enhance surveys is growing (e.g. Biddle et al. 2019; Dissing et al.
2021; Möller et al. 2019).

Eady and his colleagues (2019) researched social media consumption to establish whether people tend to live in
online bubbles where they only receive insights from ideologically aligned users. To answer this question, they
used a dataset ensembled by YouGov, which contained survey and Twitter data. The representative sample of
Twitter users was linked to the content of the accounts they followed. The final dataset, which comprised 1,496
survey respondents and 1,2 billion of tweets from 642,345 accounts, allowed them to replicate respondents'
timelines.
Cornwell and Cagney (2017) used smartphones to research the mobility of older adults. They wanted to assess
whether the elderlies spend their time in their neighbourhood or have a more extensive area of movement. For this
research, they selected a convenience sample of 60 elderlies in New York City and equipped them with
smartphones. The devices were programmed to send the GPS location every five minutes for four days. Besides,
the GPS measures were supplemented by an initial questionnaire and a set of ecological momentary assessments,
which are short questionnaires about the location, experiences, and activities. This information allowed them to
track the movements of the sample through granular and accurate information collected using GPS.
Meyer and Mittag (2019) provide an example of how linking a survey with administrative data affects the quality of
economic related measures. They merged the sample of the Current Population Survey (2008-2013) from New York
with administrative records from benefits programs including information about the amounts received. First, they
compared the administrative and the survey reports data in order to assess the impact of measurement error.
Then, they analysed the effect of government transfers on the level of deprivation using administrative data
instead of survey reports. They found out that respondents on low income tend to misreport the amount of money
received from government transfers. This also affected the assessment of the program, which had a more
significant impact than what survey data analysis showed.
5.2.Big data and surveys together to tackle measurement error
Measurement error occurs when the response in the questionnaire differs from the actual characteristic of the
sample unit (Groves et al. 2013). This phenomenon has several causes, such as recall mistakes or response
modifications due to judgement. The latter is especially striking in measures of attitudes and behaviours affected
by social desirability. Alterations in the question position, wording, or response categories may help to reduce the
impact of measurement error. However, a benchmark is needed to evaluate the level of bias in the responses. Big
data sources are adequate to perform a measure validation. Indeed, the combination of survey data and
administrative records for this purpose is not a new idea (Ferber et al. 1969; Parry and Crossley 1950). Also, related
to measurement, machine learning emerges as an alternative to ease the coding of open-ended questions.
The appearance of big data offers a genuine opportunity to assess whether a survey accurately measures the
population characteristics. One illustrative case is the use of administrative records to research on the causes of
electoral turnout overestimation in surveys. In some countries, the public administration keeps a record of those
who voted in the elections which can be linked to survey responses. The scholars have examined two hypotheses
that could explain the turnout overestimation. The first is related to a deliberate misreporting in which some
respondents hide their intention of not participating in the election. The second, which covers the effects of
sample selection, states that those with lower levels of interest in the elections are less likely to take part in the
survey. The use of administrative records offers an opportunity to test these hypotheses by linking the individual
records from the voting files with the survey (Ansolabehere and Hersh 2012; Selb and Munzert 2013; Enamorado
and Imai 2019).
Sometimes surveys are assumed to be the benchmark to validate big data measures. Hersh (2015) performed
such an exercise to validate the variable race contained in the Catalist database, one of the commercial databases
used in American politics to organise electoral campaigns and target voters. This database is composed of several
sources being the voter records the most important. However, the electoral legislation, which is different for each
State, shapes the availability of data at the individual level. Some states do not collect information about the race
at the registration stage. Therefore, to fill-in that variable, Catalist employs an imputation algorithm using other
variables. This research validated the race variable in the Catalist database by linking the American National

Election Study.
The use of big data for validation is not restricted to transaction data. In the last years, scholars are using data
collected from smartphones, sensors, and social media to evaluate the accuracy of survey self-reports (e.g. Boase
and Ling 2013; Scharkow 2016). Vraga and Tully (2018) compared the self-reports of news consumption with
behavioural data tracked using a web analytics software. Haenschen (2018) combined Facebook and survey data
to assess how the selfreports about social media usage departs from reality. Henderson and his colleagues
(2019) replicated this exercise using Twitter. They collected data from a subsample of adults in the US who had
Twitter and asked them for permission to link their responses to their Twitter data. They investigated how
engagement with the social platform affects the accuracy of self-reports.
However, using big data to validate survey measures present some drawbacks. Jürgens, Stark and Magnin (2019)
identified three types of biases that affect this type of validation analysis, sample selection, tracking device
selection, and data generation errors. The first, sample selection, refers to the composition of the sample and the
possible deviations with respect to the target population. The tracking device selection refers to the fact that those
accepting to cooperate with the data collection, which generally involves downloading and installing and
application, may differ from those not taking part. Finally, during the data generation, technical issues may arise, or
the individuals' behaviour may change due to the awareness about the tracking device. In this study, for instance,
they show that overestimation of survey self-reports is more likely to happen when the tracker application is on the
smartphone rather than on the desktops or laptops.
Coding open-ended questions is another field of survey research where the emergence of big data is having an
impact. In this case, the innovations do not come from the use of new data sources but the development of
machine learning techniques (Gweon et al. 2017). Schonlau and Couper (2016) combined human coders, the use
of text mining techniques, and multinomial boosting -a type of machine learning model- to classify the responses
to open-ended questions. In this experiment, human coders classified a random sample of responses to train the
machine learning model before applying the algorithm to the rest of the sample. The authors, who applied the
methodology to two surveys, found that half of the responses can be classified automatically with an accuracy of
80%. However, the performance of the algorithms also depends on how accurately the human coders classify the
training set of responses (He and Schonlau 2019). Also, some experiments have used unsupervised topic
modelling in which the algorithm joins the responses based exclusively on their content, and no human coding is
needed. Pietsch and Lessman (2018) tested different machine learning models, including Latent Feature Latent
Dirichlet Allocation, Biterm Topic Model, and Word Network Topic Model. They concluded that research could
benefit from these techniques for topic exploration in some instances.
5.3.Survey representativeness and inference for big data
The possibility of having access to massive volumes of data also entails an opportunity to study the issues related
to representativeness in survey research. Sampling can use GPS and satellite images to outperform the quality of
traditional sampling frames in certain contexts. Administrative records can be useful to research the effects of
non-response by describing those not taking part in the survey. Additionally, big data can benefit from the
techniques employed to infer from nonprobability surveys, and surveys can rely on big data sources to adjust
survey estimates.
The dominant framework in survey research establishes that a random selection of elements is necessary to infer
the characteristics from the sample to the population. Drawing a probability sample requires a sampling frame - a
full list of the population elements, such as the census or other administrative registers. However, sometimes
administrative records are not up to date, do not exist, or are unreliable, as it happens in some developing
countries. In such cases, gridded population data works as a valid alternative to more traditional sampling frames.
The generation of a gridded population dataset consists of splitting up the territory where the target population
lives in little squares and calculating a population count for each. The population counts are computed using
models that combine administrative data, spatial covariates, and satellite images (Thomson et al. 2017). In some
cases, when the administrative data is unreliable, other data such as mobile phone connection logs can be used.

Besides, machine learning and deep learning techniques are being used to classify satellite images and generate
the population counts of each grid cell (Stevens et al. 2015; Chew et al. 2018).
The study of the effects of non-response can also benefit from the use of big data sources. The problem of
investigating the effects of non-response has to do with the lack of information about those not taking part in the
survey. The use of big data allows observing nonrespondents' characteristics and assessing whether the survey
estimates are biased. For this purpose the use of administrative records is especially useful (McMinn et al. 2019;
Sakshaug and Eckman 2017). Other researches have experimented linking administrative aggregate data based on
geographical identifiers (Biemer and Peytchev 2012).
Another area of synergy is the application of the evidence accumulated in survey research to infer from
nonprobability samples. There is some parallelism between nonprobability samples and some forms of big data. In
the field of survey methodology, the inference from nonprobability surveys is a topic that has gained relevance in
the last decades due to the rise of internet data collection methods (Baker et al. 2013). There are two main
strategies that, based on statistical models, are used to infer from nonprobability samples (Valliant 2019). The first
is quasi-randomisation in which a statistical model is used to calculate the pseudo probabilities of selection for
the elements in the nonprobability sample. The second strategy is based on superpopulation models. Furthermore,
in the last years, the expansion of Bayesian models has helped to develop new methods to combine survey and big
data to boost model-based inference (Gelman 2007; Mercer 2018). For example, Wang and colleagues (2015) used
data from Xbox users to forecast the 2012 US presidential elections. The original data was heavily skewed towards
males and young people, however, using a multilevel regression with poststratification model, it was possible to
rebalance the sample and make an accurate forecast of the vote.
Some examples show how surveys and big data can be used together to produce estimates. The Directorate-
General for Regional and Urban Policy of the European Commission (2019) carried out a feasibility study to assess
whether some economic activity indicators for urban areas in Germany can be estimated using aggregate mobile
data and the Labour Force Survey (LFS). For this, they employed small area estimation. The model was built using
the LFS data while the aggregate mobile data were the covariates used to generate the area estimates. Klingwort
and his colleagues (2019) combined the Dutch Road Freight Transport Survey, the Dutch vehicle and enterprise
registers, and weigh-in-motion road sensor data to correct the bias of surveys estimates about the number of
transportations and the total weight.
Machine learning techniques are being used to improve the models that adjust surveys after data collection. The
computation of survey adjustments is another field where machine learning can be used to improve the results by
substituting the traditional parametric models (Buelens, Burger and van den Brakel 2018). Chen and his colleagues
(2018) used an adaptative LASSO model to compute calibration weights that performed slightly better than the
traditional linear calibration model. Likewise, Ferri-García and Rueda (2020) compared the performance of logistic
regression and some machine learning techniques such as Random Forests, GBM, k-Nearest Neighbours, and
Naive Bayes to compute the pseudo probabilities of selection. They showed through a set of simulations that
using machine learning techniques outperform the traditional logistic regression model.
5.4.Fieldwork applications using paradata
Paradata, the by-products generated during the survey process, such as the call records or the questionnaire
completion times, are of great interest in tracking and adjusting the fieldwork process. The use of paradata can
help to improve contact rates, monitor representativeness during the fieldwork, generate data quality indicators,
and study non-response (Kreuter 2013). Recently, other sources like GPS are also contributing to improving the
data collection process by adding meaningful information to fieldwork monitoring.
The emergence of paradata has fostered the generation of quality indicators to monitor survey data collection.
These indicators are the base for survey responsive designs. A responsive design monitors a set of process and
quality indicators and alters survey design features during the data collection to improve survey cost efficiency
and the quality of the estimates (Groves and Heeringa 2006). The National Survey of Family Growth in the United
States, for instance, achieved a significant increase in the number of completed interviews, from 12,500 (2002-

2003) to 22,500 (2006-2010), partially by using paradata to inform fieldwork decisions (Kirgis and Lepkowski
2013). The management team used paradata like interviewer observations and call records to build a response
propensity model. The predicted response propensities were used to select the cases more likely to respond,
which were reissued during the second phase of fieldwork. Focusing the interviewers' efforts on these cases
caused a rise of response rates while limiting the costs.
Some recent applications of paradata also include the prediction and adjustment of panel attrition in a web panel
survey (Roßmann and Gummer 2015). This research assessed whether some paradata like past participation
history or response times are helpful to predict response propensities and adjust the sample. The analysis
concluded that some paradata such as response times or history call help to predict panel attrition. Similar
findings found Durrant and her colleagues (2017) using data from the United Kingdom Household Longitudinal
Survey, a face-to-face longitudinal survey. Other authors used paradata to study interviewer effects and how these
effects influence interviewing quality (Sharma 2019). Similarly, another study used GPS data to track interviewers
travel behaviour in a face-to-face survey in order to establish the potential of this information to improve fieldwork
management (Olson and Wagner 2015).
6.FINAL THOUGHTS
Along these pages I have discussed the qualities and issues associated with big data, some of the challenges
faced by survey research, and the potentials arising from the cooperation between these two worlds. Here are
some reflections emerging from this review.
Big data has been around for a while and, for example, the use of administrative records to validate survey
measures goes back to the fifties of the past century. Big data is part of a broader technological change. The
capacity to store and process data has increased exponentially in the last decades and so has done the data
available for research purposes. Some of these sources, like administrative data, are not new to survey research;
however, others, like satellite images or social media posts, offer excellent opportunities to refine data quality and
enhance social research.
There is no expectation that big data will be able to substitute surveys in the near future. This paper outlined some
of the limitations associated with big data sources -the inability to cover the whole population, the instability of
some data sources, or the measures definitions-. These barriers are not minor issues given that the main
characteristic of surveys is a double inference process: the extrapolation of sample characteristics to the
population and the inference from individuals' responses to respondents' characteristics. However, there are some
cases in which big data sources could substitute surveys in the area of social research. An example is the use of
administrative records to reduce the burden on respondents and the survey costs. But, even in these cases,
surveys are still necessary if the objective is to explore the relationships between variables.
Other barriers that prevent big data from substituting surveys are the lack of access to most of the databases and
the legal and ethical requirements to perform the data linkage. Big data does not mean open data since companies
and governments are in control of the data sources. In this scenario, researchers must generate synergies with the
database owners to access data or await that the company implements a data-access policy. Either way, the
scientific community needs to identify the relevant datasets for research and advocate for an open-data
framework.
However, data access is not only a matter of property. There are legal and ethical requirements in place to preserve
the rights of the citizens and organizations who origin the data. The process of data linkage needs to ensure that
citizens anonymity is guaranteed. Given the increasing importance of big data, authorities need to develop flexible
systems that allow the use of data while protecting citizens' rights. Some countries, which have a long tradition
using data for policy research, such as the United Kingdom, have developed institutions that control data quality,
release, and access in the area of social sciences. This is another area of work to foster the use of big data in the
context of survey research.
Also, when using big data, we need to acknowledge that they are prone to error. This paper presents some
researches devoted to assessing the quality of some big data sources. For example, Bähr and his colleagues

(2020) have developed a framework to identify the possible sources of error when dealing with sensor data. This
research is utterly necessary before we adopt any source of big data. Besides, it is the responsibility of the
research team to think about the definition of the big data concepts and the data generation process to anticipate
possible issues at the analysis stage.
Despite all these warnings, the emergence of big data is already an opportunity for survey research. Survey
researchers are working to integrate the opportunities of big data into the field. One of the purposes of this review
was to illustrate this process. However, to utilise the potential of this cooperation, we should go beyond combining
data and techniques from both fields. Data scientists and programmers need to gain presence in survey teams,
and the survey methodologists need to understand what these roles can bring to the field. Overall, this exciting
time of change is opening new opportunities to improve data quality and reduce costs. Big data has come to foster
the future of survey research.
Nevertheless, this cooperation should not be a one-way transaction from data science to survey research. The
developments from the field of survey methodology are also valuable in many data science projects. Survey
researchers have thought for a long time about issues such as the inference from nonprobability samples or the
best way to measure complex constructs. Data science can benefit from all this knowledge. It is not a coincidence,
for instance, that companies that mostly work with big data, such as Facebook, incorporate survey methodologists
in their teams. Again, the cooperation between these two worlds brings new portunities to the future of data
collection methodologies.
Footnote
* El proyecto que ha generado estos resultados ha contado con el apoyo de una beca de la Fundación Bancaria "la
Caixa" (ID 100010434), cuyo código es LCF/BQ/ES16/11570005
References
7.BIBLIOGRAPHY
AL BAGHAL, T., SLOAN, L., JESSOP, C., WILLIAMS, M. L., BURNAP, P. (2019): "Linking Twitter and Survey Data: The
Impact of Survey Mode and Demographics on Consent Rates Across Three UK Studies", Social Science Computer
Review.
ANSOLABEHERE, S., HERSH, E. (2012): "Validation: What big data reveal about survey misreporting and the real
electorate", Political Analysis, 20, 4, 437-459.
BÄHR, S., HAAS, G.-C., KEUSCH, F., KREUTER, F., TRAPPMANN, M. (2020): "Missing Data and Other Measurement
Quality Issues in Mobile Geolocation Sensor Data", Social Science Computer Review.
BAKER, R. (2017): Big Data. In: Total Survey Error in Practice. John Wiley &Sons, Inc., Hoboken, NJ, USA, 47-69.
BAKER, R., BRICK, J. M., BATES, N. A., BATTAGLIA, M., COUPER, M. P., DEVeR, J. A., GILE, K. J., TOURANGEAU, R.
(2013): "Summary report of the aapor task force on non-probability sampling", Journal of Survey Statistics and
Methodology, 1, 2, 90-105.
BIDDLE, N., BREUNIG, R., MARKHAM, F., WOKKER, C. (2019): "Introducing the Longitudinal Multi-Agency Data
Integration Project and Its Role in Understanding Income Dynamics in Australia", Australian Economic Review, 52,
4, 476-495.
BIEMER, P. P., PEYTCHEV, A. (2012): "Census geocoding for nonresponse bias evaluation in telephone surveys",
Public Opinion Quarterly, 76, 3, 432-452.
BOASE, J., LING, R. (2013): "Measuring Mobile Phone Use: Self-Report Versus Log Data", Journal of Computer-
Mediated Communication, 18, 4, 508-519.
BUELENS, B., BURGER, J., VAN DEN BRAKEL, J. A. (2018): "Comparing Inference Methods for Non-probability
Samples", International Statistical Review, 2, 86, 322-343.
BUSKIRK, T. D. (2018): "Surveying the Forests and Sampling the Trees: An overview of Classification and
Regression Trees and Random Forests with applications in Survey Research", Survey Practice, 11, 1, 1-13.
CALDERWOOD, L., LESSOF, C. (2009): Enhancing Longitudinal Surveys by Linking to Administrative Data. In: Lynn,
P. (ed.): Methodology of Longitudinal Surveys. John Wiley &Sons, Ltd, Chichester, UK, 55-72.

CALLEGARO, M., YANG, Y. (2018): The Role of Surveys in the Era of "Big Data." In: The Palgrave Handbook of
Survey Research. Springer International Publishing, Cham, 175-192.
CARPENTER, J., KENWARD, M. (2012): Multiple Imputation and its Application.
CHEN, J. K., VALLIANT, R. L., ELLIOTT, M. R. (2018): "Model-assisted calibration of non-probability sample survey
data using adaptive LASSO", Survey Methodology, 44, 1, 117-145.
CHEW, R. F., AMER, S., JONES, K., UNANGST, J., CAJKA, J., ALLPRESS, J., BRUHN, M. (2018): "Residential scene
classification for gridded population sampling in developing countries using deep convolutional neural networks
on satellite imagery", International Journal of Health Geographics, 17, 1, 1-17.
CONNELLY, R., PLAYFORD, C. J., GAYLE, V., DIBBEN, C. (2016): "The role of administrative data in the big data
revolution in social science research", Social Science Research, 59, 1-12.
COOPER, H., HEDGES, L. V., VALENTINE, J. C. (2019): The Handbook of Research Synthesis and Meta-Analysis.
Russell Sage Foundation.
CORNWELL, E. Y., CAGNEY, K. A. (2017): "Aging in activity space: Results from smartphone-based GPS-tracking of
urban seniors", Journals of Gerontology - Series B Psychological Sciences and Social Sciences, 72, 5, 864-875.
COUPER, M. P. (2013): "Is the sky falling? New technology, changing media, and the future of surveys", Survey
Research Methods, 7, 3, 145-156.
DE LEEUW, E. D., HOX, J. J., LUITEN, A. (2018): "International Nonresponse Trends across Countries and Years: An
analysis of 36 years of Labour Force Survey data", Survey Methods: Insights from the Field, 1-11.
DISSING, A. S., ROD, N. H., GERDS, T. A., LUND, R. (2021): "Smartphone interactions and mental well-being in young
adults : A longitudinal study based on objective high-resolution smartphone data", Scandinavian Journal of Public
Health, 49, 3, 325-332.
DOMO (2019): Data never sleeps, https://www.domo.com/learn/data-never-sleeps-6.
DURRANT, G. B., MASLOVSKAYA, O., SMITH, P. W. F. (2017): "Using prior wave information and paradata: Can they
help to predict response outcomes and call sequence length in a longitudinal study?", Journal of Official Statistics,
33, 3, 801833.
EADY, G., NAGLER, J., GUESS, A., ZILINSKY, J., TUCKER, J. A. (2019): "How Many People Live in Political Bubbles on
Social Media? Evidence From Linked Survey and Twitter Data", SAGE Open, 1, 9.
ELLIOTT, M. R., VALLIANT, R. (2017): "Inference for Nonprobability Samples", Statistical Science, 32, 2, 249-264.
ENAMORADO, T., IMAI, K. (2019): "Validating Self-Reported Turnout by Linking Public Opinion Surveys with
Administrative Records", Public Opinion Quarterly, 83, 4, 723-748.
EUROPEAN COMMISSION (2019): City data from LFS and Big Data.
EUROSTAT (2016): Internet use by individuals. https://ec.europa.eu/eurostat/ documents/2995521/7771139/9-
20122016-BP-EN.pdf/f023d81a-dce2-4959-93e38cc7082b6edd
FAY, R. E., HERRIOT, R. A. (1979): "Estimates of Income for Small Places: An Application of James-Stein
Procedures to Census Data", Journal of the American Statistical Association, 366a, 74, 269-277.
FERBER, R., FORSYTHE, J., GUTHRIE, H. W., MAYNES, E. S. (1969): "Validation of a National Survey of Consumer
Financial Characteristics: Savings Accounts", The Review of Economics and Statistics, 436-444.
FERRI-GARCÍA, R., DEL MAR RUEDA, M. (2020): "Propensity score adjustment using machine learning
classification algorithms to control selection bias in online surveys", PLoS ONE, 15, 4, 1-19.
FORSYTH, J., BOUCHER, L. (2015): "Why Big Data Is Not Enough", Research World, 50, 2015, 26-27.
GAYO-AVELLO, D. (2012): ""I Wanted to Predict Elections with Twitter and all I got was this Lousy Paper" - A
Balanced Survey on Election Prediction using Twitter Data", CoRR.
GELMAN, A. (2007): "Struggles with survey weighting and regression modeling", Statistical Science, 22, 2, 153-164.
GERSCHENFELD, N., KRIKORIAN, R., COHEN, D. (2004): "The Sevenfold Way", Scientific American, 291, 4, 76-81.
GROVES, R. M., FOWLER, F. J., JR., COUPER, M. P., LEPKOWSKI, J. M., SINGER, E., TOURANGEAU, R. (2013): Survey
Methodology, John Wiley &Sons.
GROVES, R. M., HEERINGA, S. G. (2006): "Responsive design for household surveys: tools for actively controlling

survey errors and costs", Journal of the Royal Statistical Society: Series A (Statistics in Society), 169, 3, 439-457.
GWEON, H., SCHONLAU, M., KACZMIREK, L., BLOHM, M., STEINER, S. (2017): "Three methods for occupation
coding based on statistical learning", Journal of Official Statistics, 33, 1, l0l-122.
HAENSCHEN, K. (2018): "Self-Reported Versus Digitally Recorded: Measuring Political Activity on Facebook",
Social Science Computer Review.
HAND, D. J. (2018): "Statistical challenges of administrative and transaction data", Journal of the Royal Statistical
Society. Series A: Statistics in Society, 181, 3, 555605.
HE, Z., SCHONLAU, M. (2019): "Automatic Coding of Text Answers to Open-Ended Questions: Should You Double
Code the Training Data?", Social Science Computer Review, 1-12.
HENDERSON, M., JIANG, K., JOHNSON, M., PORTER, L. (2019): "Measuring Twitter Use: Validating Survey-Based
Measures", Social Science Computer Review, 1-21.
HERSH, E. D. (2015): Hacking the electorate: How campaigns perceive voters, Cambridge University Press.
HILL, C. A., BIEMER, P. P., BUSKIRK, T. D., CALLEGARO, M., CORDOVA CAZAR, A. L., ECK, A., JAPEC L., KIRCHNER,
A., KOLENIKOV, S., LYBERG, L.E., STURGIS, P. (2019): "Exploring new statistical frontiers at the intersection of
survey science and Big Data: Convergence at 'Bigsurv18.'", Survey Research Methods, 13, 1.
HSIEH, Y. P., MURPHY, J. (2017): "Total Twitter Error", en Total Survey Error in Practice, Wiley &Sons, 23-46.
JÄCKLE, A., BENINGER, K., BURTON, J., COUPER, M. P. (2018): "Understanding data linkage consent in longitudinal
surveys", Understanding Society Working Paper Series, University of Essex.
JÄCKLE, A., GAIA, A., LESSOF, C., COUPER, M. P. (2019): "A review of new technologies and data sources for
measuring household finances: Implications for total survey error", Understanding Society Working paper Series,
University of Essex.
JAPEC, T. F. M. I. L., KREUTER, F., BERG, M., BIEMER, P., DECKER, P., LAMPE, C., LANE, J., O'NEIL, C., USHER, A.
(2015): "AAPOR Report on Big Data", American Association for Public Opinion Research.
JÜRGENS, P., STARK, B., MAGIN, M. (2019): "Two Half-Truths Make a Whole? On Bias in Self-Reports and Tracking
Data", Social Science Computer Review, 1-16.
KALTON, G. (2019): "Developments in Survey Research over the Past 60 Years: A Personal Perspective",
International Statistical Review, 87, S1, S10-S30.
KERN, C., KLAUSCH, T., KREUTER, F. (2019): "Tree-based machine learning methods for survey research", Survey
Research Methods, 13, 1, 73-93.
KEUSCH, F., BÄHR, S., HAAS, G. C., KREUTER, F., TRAPPMANN, M. (2020): "Coverage Error in Data Collection
Combining Mobile Surveys With Passive Measurement Using Apps: Data From a German National Survey",
Sociological Methods and Research.
KIM, J., TAM, S.-M. (2020): "Data Integration by combining big data and survey sample data for finite population
inference", International Statistical Review, 1-30.
KIRGIS, N. G., LEPKOWSKI, J. M. (2013): Design and Management Strategies for Paradata-Driven Responsive
Design: Illustrations from the 2006-2010 National Survey of Family Growth. In: Improving Surveys with Paradata.
John Wiley &Sons, Inc., Hoboken, New Jersey, 121-144.
KLINGWORT, J., BUELENS, B., SCHNELL, R. (2019): "Capture-Recapture Techniques for Transport Survey Estimate
Adjustment Using Permanently Installed Highway-Sensors", Social Science Computer Review.
KREUTER, F. (2013): Improving Surveys with Paradata: Analytic Uses of Process Information. John Wiley &Sons.
KÜNN, S. (2015): "The challenges of linking survey and administrative data", IZA World of Labor.
LANEY, D. (2001): "META Delta", Application Delivery Strategies.
LAZER, D., BREWER, D., CHRISTAKIS, N., FOWLER, J., KING, G. (2009): "Life in the network: the coming age of
computational social science", Science, 5915, 323, 721-723.
LOHR, S. L., RAGHUNATHAN, T. E. (2017): "Combining Survey Data with Other Data Sources", Statistical Science,
32, 2, 293-312.
MCMINN, M. A., MARTIKAINEN, P., GORMAN, E., RISSANEN, H., HÄRKÄNEN, T., TOLONEN, H., LEYLAND, A. H.,

GRAY, L. (2019): "Validation of non-participation bias methodology based on record-linked Finnish register-based
health survey data: A protocol paper", BMJ Open, 9, 4, 1-6.
MERCER, A. W. (2018): Selection Bias in Nonprobability surveys: a causal inference approach, Doctoral
dissertation, University of Maryland, College Park.
MEYER, B. D., MITTAG, N. (2019): "Using linked survey and administrative data to better measure income:
Implications for poverty, program effectiveness, and holes in the safety net", American Economic Journal: Applied
Economics, 11, 2, 176-204.
MILLER, P. V. (2017): "Is There a Future for Surveys?", Public Opinion Quarterly, 81, 205-212.
MÖLLER, J., VAN DE VELDE, R. N., MERTEN, L., PUSCHMANN, C. (2019): "Explaining Online News Engagement
Based on Browsing Behavior: Creatures of Habit?", Social Science Computer Review.
MORIARITY, C., SCHEUREN, F. (2001): "Statistical Matching: A Paradigm for Assessing the Uncertainty in the
Procedure", Journal of Official Statistics, 3, 17, 407.
MURPHY, J., HILL, C. A., DEAN, E. (2013): Social Media, Sociality, and Survey Research. In: Social Media, Sociality,
and Survey Research. John Wiley &Sons, Inc., Hoboken, NJ, USA, 1-33.
NEGROPONTE, N. HARRINGTON, R., MCKAY, S. R., CHRISTIAN, W. (1997): "Being digital", Computers in Physics, 11,
3, 261-262.
NEYMAN, J. (1934): "On the Two Different Aspects of the Representative Method: The Method of Stratified
Sampling and the Method of Purposive Selection", Journal of the Royal Statistical Society, 97, 4, 558.
OLSON, K., WAGNER, J. (2015): "A feasibility test of using smartphones to collect GPS information in face-to-face
surveys", Survey Research Methods, 9, 1, 1-13.
PARRY, H. J., CROSSLEY, H. M. (1950): "Validity of responses to survey questions", Public Opinion Quarterly, 14, 1,
61-80.
PASEK, J., JANG, S. M., COBB, C. L., DENNIS, J. M., DISOGRA, C. (2014): "Can marketing data aid survey research?
Examining accuracy and completeness in consumer-file data", Public Opinion Quarterly, 78, 4, 889-916.
PEYTCHEV, A., RAGHUNATHAN, T. (2013): "Evaluation and Use of Commercial Data for Nonresponse Bias
Adjustment", American Association for Public opinion Research annual conference.
PIETSCH, A.-S., LESSMANN, S. (2018): "Topic modeling for analyzing open-ended survey responses", Journal of
Business Analytics, 2, 1, 93-116.
PLAYFORD, C. J., GAYLE, V., CONNELLY, R., GRAY, A. J. J. G. (2016): "Administrative social science data: The
challenge of reproducible research", Big Data and Society, 3, 2, 1-13.
POLIDORO, F., GIANNINI, R., CONTE, R. Lo, MOSCA, S., ROSSETTI, F. (2015): "Web scraping techniques to collect
data on consumer electronics and airfares for Italian HICP compilation", Statistical Journal of the IAOS, 31, 2, 165-
176.
RAENTO, M., OULASVIRTA, A., EAGLE, N. (2009): "Smartphones: An emerging tool for social scientists",
Sociological Methods and Research, 37, 3, 426-454.
RAFEI, A., FLANNAGAN, C. A. C., ELLIOTT, M. R. (2020): "Big data for finite population inference: Applying quasi-
random approaches to naturalistic driving data using bayesian additive regression trees", Journal of Survey
Statistics and Methodology, 8, 1, 148-180.
RAO, J. N. K., MOLINA, I. (2015): Small Area Estimation: Second Edition. John Wiley &Sons, Inc, Hoboken, NJ, uSa.
REVILLA, M., COUPER, M. P., OCHOA, C. (2019): "Willingness of online panelists to perform additional tasks",
Methods, Data, Analyses, 13, 2, 223-251.
ROSSMANN, J., GUMMER, T. (2015): "Using Paradata to Predict and Correct for Panel Attrition", Social Science
Computer Review, 34, 3, 312-332.
SAKSHAUG, J. W., COUPER, M. P., OFSTEDAL, M. B., WEIR, D. R. (2012): "Linking Survey and Administrative
Records", Sociological Methods &Research, 41, 4, 535-569.
SAKSHAUG, J. W., ECKMAN, S. (2017): "Are survey nonrespondents willing to provide consent to use
administrative records? Evidence from a nonresponse follow-up survey in Germany", Public Opinion Quarterly, 81,

2, 495-522.
SALA, E., BURTON, J., KNIES, G. (2013): "Correlates of Obtaining Informed Consent to Data Linkage: Respondent,
Interview, and Interviewer Characteristics", Sociological Methods &Research, 41, 3, 414-439.
SALGANIK, M. J. (2017): Bit by Bit: Social Research in the Digital Age. Princeton University Press.
SAVAGE, M., BURROWS, R. (2007): "The Coming Crisis of Empirical Sociology", Sociology, 41, 5, 885-899.
SCHARKoW, M. (2016): "The Accuracy of Self-Reported Internet Use-A Validation Study Using Client Log Data",
Communication Methods and Measures, 10, 1, 1327.
SCHOBER, M. F., PASEK, J., GUGGENHEIM, L., LAMPE, C., CONRAD, F. G. (2016): "Social Media Analyses for Social
Measurement", Public Opinion Quarterly, 80, 1, 180-211.
SCHONLAU, M., COUPER, M. P. (2016): "Semi-automated categorization of openended questions", Survey Research
Methods, 10, 2, 143-152.
SCOTT, P. R., JACKA, M. (2012): Auditing Social Media. John Wiley &Sons, Inc., Hoboken, NJ, USA.
SELB, P., MUNZERT, S. (2013): "Voter overrepresentation, vote misreporting, and turnout bias in postelection
surveys", Electoral Studies, 32, 1, 186-196.
SHARMA, S. N. (2019): "Paradata , Interviewing Quality , and Interviewer Effects", Doctoral Dissertation.
SLOAN, L. (2017): "Who Tweets in the United Kingdom? Profiling the Twitter Population Using the British Social
Attitudes Survey 2015", Social Media + Society, 3, 1.
STEVENS, F. R., GAUGHAN, A. E., LINARD, C., TATEM, A. J. (2015): "Disaggregating census data for population
mapping using Random forests with remotelysensed and ancillary data", PLoS ONE, 10, 2, 1-22.
STIER, S., BREUER, J., SIEGERS, P., THORSON, K. (2019): "Integrating Survey Data and Digital Trace Data: Key
Issues in Developing an Emerging Field", Social Science Computer Review.
THOMSON, D. R., STEVENS, F. R., RUKTANONCHAI, N. W., TATEM, A. J., CASTRO, M. C. (2017): "GridSample: An R
package to generate household survey primary sampling units (PSUs) from gridded population data", International
Journal of Health Geographics, 16, 1, 1-19.
VALLIANT, R. (2019): "Comparing Alternatives for Estimation from Nonprobability Samples", Journal of Survey
Statistics and Methodology, 1-33.
VRAGA, E. K., TULLY, M. (2018): "Who Is Exposed to News? It Depends on How You Measure: Examining Self-
Reported Versus Behavioral News Exposure Measures", Social Science Computer Review.
WANG, W., ROTHSCHILD, D., GOEL, S., GELMAN, A. (2015): "Forecasting elections with non-representative polls",
International Journal of Forecasting, 31, 3, 980-991.
WARD, J. S., BARKER, A. (2013): "Undefined By Data: A Survey of Big Data Definitions", arXiv preprint
arXiv:1309.5821.
WENZ, A., JÄCKLE, A., COUPER, M. P. (2019): "Willingness to use mobile technologies for data collection in a
probability household panel", Survey Research Methods, 13, 1, 1-22.
WOOLLARD, M. (2014): Administrative Data: Problems and Benefits: A perspective from the United Kingdom.
SCIVERO, Berlin
DETALLES
Materia: Internet of Things; Big Data; By products; Polls &surveys; Data collection; Datasets;
Social insurance numbers; Social sciences; Social networks; Social research;
Questionnaires
Término de indexación de Asunto: Big Data Social networks

negocios:
Título: Survey Research in Times of Big Data *

Título alternativo: Investigación con encuestas en los tiempos del big data
Autor: Cabrera-Álvarez, Pablo11 Institute for Social and Economic Research de la

Universidad de Essex Universidad de Salamanca
Número: 53
Páginas: 31-51
ISSN: 11395737
e-ISSN: 21740682
Idioma de la publicación: English
DOI: 10.empiria.53.2022.32611

ProQuest:
URL del documento: https://www.proquest.com/scholarly-journals/survey-research-times-big-

data/docview/2639730254/se-2

Premium Collection

Partidos conectivos durante la pandemia. La
estrategia de comunicación de Podemos en
Twitter 1
de Marco, Stefano 1 ; Gil, Juan Antonio Guevara 2 ; Torralba, Ángela Martínez 3 ; Sánchez, Celia García-
Ceca 4 ; Jiménez, Alejandro Echániz 5 ; Palese, Rosario 1 Universidad de Salamanca.
s.demarco@usal.es (ESPAÑA) 2 Universidad Complutense de Madrid juanguev@ucm.es (ESPAÑA) 3
Universidad Complutense de Madrid angela19@ucm.es (ESPAÑA) 4 Universidad Complutense de
Madrid celiga06@ucm.es (ESPAÑA) 5 Universidad Complutense de Madrid aechaniz@ucm.es (ESPAÑA)
. Empiria ; Madrid N.º 53, (Jan-Apr 2022): 121-145.
TEXTO COMPLETO
Headnote
Recibido: 09.03. 2021
RESUMEN
Los partidos conectivos han llegado como respuesta a las inclinaciones ciudadanas hacia la toma de decisiones
compartida y la horizontalidad. Esto es posible gracias a que ceden parte de su organización a herramientas de la
Web. En esta investigación se estudia si dichas formaciones representan realmente una innovación en cuanto a la
representación política. Para ello se observan los modos comunicativos a nivel externo del partido conectivo
Podemos en comparación con los otros cuatro partidos con más representación en el Congreso de los diputados
durante el periodo de estado de alarma ocasionado por la pandemia de COVID19. Con este fin se medirá la tasa de
interacción y respuesta de los diputados en la red social Twitter ante las interpelaciones de los usuarios y se
determinará si éstas son mayores cuando se trata de mensajes con mayor repercusión en la red o cuando se trata
de usuarios con mayor influencia y poder comunicativo. Los resultados muestran que los patrones comunicativos
a nivel externo de Podemos responden a criterios verticales, propios de los partidos convencionales.
PALABRAS CLAVE
Partidos conectivos; comunicación política; Twitter; Red social; COVID-19.
ABSTRACT
Connective parties were originated as the response to the citizens inclinations towards the shared decision
making and horizontality. To accomplish that, they delegate part of their organization to online tools on the net. In
this research we study if those connective parties actually represent an innovation in terms of political
representation. Thus, we observe - on an external level - the communicative manners of the connective party
Podemos in comparison with four parties which hold the higher representation in the Spanish congress during the
state of alarm in Spain due to the COVID19 pandemic. To this end, we measure the interactions and responses rate
of the deputies in Twitter to the interpellations of the users and we determine if these are higher according to the
message impact on the net or when it comes to users with greater influence and communicative power. Our
results show that the external communication patterns of Podemos correspond to a vertical criterion in terms of
communication which is typical of traditional parties.
KEYWORDS
Connective parties; political communication; Twitter; Social network; COVID-19.

1.INTRODUCCIÓN
La incorporación de Internet al ámbito político ha generado un intenso debate entre los científicos sociales. De
este debate surgen dos amplias perspectivas teóricas. Por un lado, algunos autores piensan que Internet podría
hacer que la política sea más inclusiva (Larsson, 2013; Van Dijk, 2000; Hague y Loader, 1999). De hecho, las teorías
ciberoptimistas fomentan la noción de que las nuevas tecnologías proporcionan un escenario desintermediado
(Benkler, 2006) en el que la ciudadanía ocupa el rol comunicativo predominante que tradicionalmente se le asigna
a los actores sociopolíticos convencionales (Robles y Córdoba, 2019; Castells, 2012). Por otra parte, hay diferentes
autores que apoyan la teoría de la normalización (Margolis y Resnick, 2000). Es decir, lejos de generar prácticas
participativas innovadoras, los partidos políticos se limitan a utilizar Internet para promover sus programas
electorales y sus candidatos. Por lo tanto, se mantiene la idea de "political as usual" (Margolis y Resnick, 2000), en
la que las nuevas tecnologías e Internet no suponen un factor de cambio con el que los ciudadanos ganen entidad
frente a los sujetos comunicativos y políticos tradicionales (Molyneux y Mourao, 2017).
Sin embargo, la difusión del uso en el ámbito político de plataformas de redes sociales en línea, diseñadas para
generar altos niveles de interacción entre usuarios, parece haber traído aire fresco a este debate. De hecho, varios
estudios han demostrado que las plataformas sociales juegan un papel extremadamente importante en el
aumento de la visibilidad de los movimientos sociales y la acción colectiva en el siglo XXI (Castells, 2012). En este
sentido, hay quien considera a las redes como instrumentos de empoderamiento social (Cáceres Zapatero et al.,
2017). También facilitarían la creación de un nuevo tipo de acción colectiva basada en la co-construcción de
marcos de acción por parte de los miembros del movimiento: la "acción conectiva" (Bennett y Segerberg, 2012).
Tomando estas consideraciones como punto de partida, varios autores han sugerido que las redes sociales
también pueden ayudar a modificar los mecanismos de representación política, ya que permitirían instaurar
relaciones más profundas entre los ciudadanos y sus representantes (Gil de Zuñiga et al., 2010; Lilleker y Koc-
Michalska, 2013; Rauchfleisch y Metag, 2020). De hecho, varios estudios han destacado que a nivel local y con
partidos minoritarios, las herramientas de la web permiten fomentar un grado de intercambio comunicativo entre
la élite institucional y la ciudadanía común (Jensen, 2016; Rauchfleisch y Metag, 2020). En este contexto en el que
se combina un sistema vertical, basado en estructuras dialógicas tradicionales, con uno horizontal y digital, en el
que las diferencias entre actores lleguen a nivelarse, se puede generar un nuevo tipo de comunicación más
inclusiva entre representantes y representados (Balcels y Cardenal, 2013).
En línea con estos estudios, Bennett, Segerberg y Knüpfer (2018) pusieron de manifiesto cómo, a raíz de las
oleadas de indignación y protesta en los años posteriores a la crisis económica, han nacido en Europa nuevos
sujetos políticos definidos como "partidos conectivos". Éstos, según los autores, se fundamenta- rían en un uso
intensivo de las nuevas tecnologías de la comunicación e información (TIC) y de las plataformas sociales. No solo
implementan las herramientas de la web a nivel organizativo o estructural, sino que también ceden la dimensión
comunicativa a redes digitales, creando así un contexto favorable para la interacción en línea entre ciudadanos y
representantes.
Este espacio comunicativo digital que albergan los partidos conectivos consta de dos vertientes. Por un lado,
encontramos la comunicación interna del partido. En este nivel, las herramientas digitales se pueden considerar
como un espacio para deliberar y debatir cuestiones que, posteriormente, se trasladan hacia asambleas de
carácter presencial (Rico Motos, 2019; Deseriis, 2020). Por otro lado, la comunicación externa hace referencia a la
gestión y al uso de las herramientas de la web como canal comunicativo al margen de los medios de
comunicación tradicionales (García Carretero y Establés, 2019). En línea con lo anterior, Gerbaudo (2019) atribuye
a los partidos conectivos dos características que tienen que ver con su vertiente comunicativa externa: la primera
a la que hace referencia es que estas formaciones poseen una superbase en términos de reacción hacia las
consignas del líder, y que encuentran su espacio de expresión y deliberación en los medios digitales; la segunda es
la desintermediación entendida como el debilitamiento de las estructuras burocráticas y la creación enlaces más
directos con los líderes (Lisi, 2018).
Esta segunda vertiente comunicativa, la que tiene que ver con el feedback entre ciudadanos y organización, será el

objeto de estudio de la investigación. En este sentido, en el caso de los partidos conectivos, deberían observarse
flujos de comunicación bidireccional entre representantes y base electoral, mientras que en las redes de los
partidos tradicionales debería haber flujos de comunicación unidireccionales. En general, el concepto de partido
conectivo parece apoyar la idea de que las redes sociales pueden crear un nuevo tipo de relación entre votantes y
políticos, basada en altos niveles de interacción bidireccional.
De todos los partidos políticos españoles, Podemos es el más relevante para los objetivos de este artículo. Como
han atestiguado Bennett y colaboradores (2018) y Sampedro y Mosca (2018), Podemos muestra todas las
características de un partido conectivo. Se originó a partir de las oleadas de protestas de 2011 en España y delega
muchas de las funciones estructurales de los partidos políticos en plataformas digitales (por ejemplo, selección de
candidatos y programas, debate político, comunicación, etc.). Esto convierte a Podemos en un excelente caso de
estudio para probar la teoría de los partidos conectivos.
Teniendo en cuenta lo anterior, lo que se plantea en el presente estudio es contrastar la noción de partido
conectivo como espacio de espacio de expresión y de intercambio de ideas. Por ello, la hipótesis de partida es que
los partidos conectivos, en este caso concreto el partido Podemos, representan una innovación en cuanto a
representación política por sus altos niveles de comunicación externa y por su uso bidireccional de las redes
sociales.
Para comprobar este supuesto, en este trabajo se realiza un estudio comparativo de la tasa de respuesta en
Twitter a las interpelaciones directas dirigidas a los diputados de los cinco principales partidos durante el periodo
de estado de Alarma en España: El Partido Socialista Obrero Español (PSOE); Partido Popular (PP); Ciudadanos
(C's); VOX; y Podemos. También se implementará un análisis de redes sociales para observar las comunidades
que se generan a partir de las menciones y de las respuestas a las mismas. De esta manera, será posible observar
qué diferencias manifiestan los diputados de Podemos en cuanto a su estilo comunicativo en redes sociales
respecto a los diputados de los demás partidos.
2.INTERNET Y REPRESENTACIÓN POLÍTICA: LOS PARTIDOS CONECTIVOS
La relación entre la política e Internet es objeto de atención de la comunidad académica desde hace años. En la
primera fase de estas investigaciones, se consideró la posibilidad de que Internet pudiera contribuir a alguna
forma de innovación democrática, o al menos permitir fortalecer la relación entre representantes y representados
(Larsson, 2013; Van Dijk, 2000; Hague y Loader, 1999). Sin embargo, algunos académicos se mostraron menos
optimistas sobre el potencial innovador de esta herramienta (Margolis y Resnick, 2000). Sugirieron que no habría
espacio para la comunicación bidireccional entre representantes y ciudadanos, prediciendo en cambio que el uso
de Internet estaría dirigido a la movilización de votantes y campañas políticas (Jackson, 2007). Los primeros
estudios sobre el comportamiento en línea de los partidos políticos y candidatos encontraron mucha evidencia
empírica que apoyaba esta segunda perspectiva teórica (Davis, 1999, Gibson et al., 2005, Greer y Lapointe, 2004;
Gibson y Ward, 2002; Bimber y Davis, 2003; Schweitzer, 2005; Deseriis, 2020; Rico Motos, 2019).
Sin embargo, la reciente introducción de las redes sociales en la arena política ha planteado nuevas preguntas
sobre el potencial democrático del uso de Internet (Loader y Mercea, 2011). Concretamente, varios autores se han
mostrado optimistas sobre la relación entre las redes sociales y la representación institucional (Kim y Lee, 2020).
De hecho, varias encuestas anteriores han demostrado que la presencia de los políticos en la web puede producir
en el electorado un sentimiento de mayor proximidad con sus representantes, fomentando así el debate y la
interacción entre ambos. (Lilleker y Koc-Michalska, 2013; Gil de Zuñiga et al., 2010; Southern y Lee, 2019;
Rauchfleisch y Metag, 2020). Siguiendo estas consideraciones, los académicos volvieron a la pregunta de si la
figura de la representación política se beneficiaría de estas nuevas herramientas, desencadenando interacciones
más intensas y bidireccionales entre ciudadanos y representantes.
Por una parte, los resultados empíricos han permitido destacar que este fenómeno es posible en el caso de la
representación a nivel local (Rauchfleisch y Metag, 2015) y de los partidos minoritarios (Jensen, 2016; Seethaler y
Melischek, 2019). Por otra parte, se ha ido generando un conjunto de reflexiones sobre la nueva evolución de los
partidos. En este sentido, los partidos tradicionales habrían ido adaptando su estructura hacia modelos más

híbridos (Gerbaudo, 2018). Esto quiere decir que trasladan parte de su organización comunicativa hacia
escenarios digitales. Sin embargo, el uso primordial que las formaciones convencionales hacen de las redes
sociales suele ser de canal informativo (Rico Motos, 2019), un espacio más con el que difundir los mensajes en
línea con sus objetivos de campaña. No obstante, y como contrapunto a los partidos tradicionales, surgen los
partidos conectivos (Bennett et al., 2018). El término se refiere a los nuevos partidos políticos, mayoritariamente
de izquierda, que surgieron tras las últimas oleadas de protesta en varios países europeos provocadas por la crisis
económica y democrática de 2011, entre ellos: el Movimiento Cinco Estrellas (M5S) en Italia; Píratar en Islandia;
Alternativet en Dinamarca y Podemos en España. Según los autores, los partidos conectivos desempeñan las
funciones burocráticas clásicas, como la creación de una agenda, la selección de candidatos y la comunicación
política, utilizando una mezcla de reuniones presenciales y decisiones tomadas mediante plataformas digitales
por todos los afiliados (Raniolo y Tarditi, 2019). Además, se entiende que estos nuevos actores políticos se
caracterizan por la implicación de sus simpatizantes en prácticas de "acción conectiva" (Bennett y Segerberg,
2012), que influyen en las operaciones centrales de la organización del partido y requieren la interacción entre
ciudadanos y representantes políticos.
Según Sampedro y Mosca (2018), de hecho, los estilos de comunicación online de los partidos conectivos
deberían ser diferentes a los de los partidos clásicos. La vertiente comunicativa de los partidos conectivos, en
primer lugar, responde a las pretensiones horizontales y participativas que son los principios fundamentales de
este tipo de formaciones, motivo por el que las redes sociales y las plataformas deliberativas ocupan un rol central
en la organización (Bennett et al., 2018). En segundo lugar, esta dimensión se encuentra sistematizada en dos
niveles: interno y externo. Por un lado, el nivel interno hace referencia a los mecanismos utilizados para la toma de
decisiones y la creación de políticas que serán el eje de acción del partido (Gerbaudo, 2018). En este contexto
cobran especial relevancia las plataformas digitales de deliberación habilitadas por los partidos (Lisi, 2018). El
objetivo primordial que se persigue es el de democratizar las decisiones, es decir, deslocalizar el debate político
que deja de pertenecer únicamente a la élite del partido (Deseriis, 2020). Por otro lado, está la comunicación
externa del partido, que tomaría una forma descentralizada y que, por ende, permitiría estrechar las relaciones
entre simpatizantes de un partido y sus representantes. Esto es posible porque desaparecen los mediadores
tradicionales para canalizar los mensajes (García-Carretero y Díaz Noci, 2018). Es en este nivel comunicativo en el
que se enfoca la presente investigación.
Sin embargo, hay varios motivos para pensar que los partidos conectivos no son diferentes de los partidos
tradicionales en cuanto a uso de las redes sociales para interactuar con su base. El principal de ellos es el hecho
de que la lógica comunicativa subyacente a las redes sociales parece estar más cerca de la difusión de mensajes
virales y la expresión emocional unidireccional que del debate, la deliberación y el intercambio comunicativo
(Papacharissi, 2014; Klinger y Svensson, 2015). Algunos estudios realizados en diferentes países han demostrado
que estas herramientas son utilizadas de forma unidireccional por representantes y partidos políticos (Daniel y
Obholzer, 2020; Baviera, Calvo y Llorca-Abbad, 2019; Larsson y Moe, 2012; Jungherr, 2016; Tromble, 2018; Guerrero
Solé, 2018). Larsson y Moe (2012), que estudiaron el contexto sueco durante la campaña política de 2010, llegaron
a la conclusión de que las mayores contribuciones al debate político en Twitter provinieron de las élites
tradicionales, como legisladores, políticos, partidos políticos, periodistas e influencers. Estas élites envían y
retuitean mensajes de forma unidireccional, únicamente para impactar en la opinión pública. Recientemente,
Tromble (2018) estudió las cuentas de Twitter de parlamentarios de Estados Unidos, Reino Unido y Holanda.
Encontró que solo el 15% de la actividad en línea total de estas cuentas se basa en la interacción con otras
cuentas de Twitter. Finalmente, Guerrero Solé (2018) estudió el contexto español durante las elecciones generales
de 2015 y 2016. En su investigación demostró que el comportamiento de respuesta de los parlamentarios
españoles en Twitter se orienta fundamentalmente a interacciones entre miembros del mismo partido político,
dejando poco espacio para la comunicación con los ciudadanos comunes.
En este sentido, Papacharissi (2015) plantea que Twitter no es un sitio de deliberación o interacción política
debido a la falta de un flujo recíproco de comunicaciones y la ausencia de una co-construcción de significados.

Además, parece que la comunicación política solo puede ser ventajosa en términos electorales cuando el uso de
redes sociales online se fundamenta en nodos de contactos a gran escala y en mensajes virales, más que en la
reciprocidad en las comunicaciones (Klinger y Svensson, 2015). En consecuencia, el uso de las redes sociales con
fines deliberativos puede ser contraproducente desde un punto de vista electoral para los partidos conectivos.
No obstante, hasta ahora ningún estudio ha arrojado luz sobre cómo los políticos vinculados a los partidos
conectivos utilizan las redes sociales para interactuar (o no) con sus electores. La gran mayoría de la
investigación sobre partidos conectivos se ha centrado en la organización de la propia formación o en el análisis
del contenido de los tweets, pero se ha prestado poca atención a los modelos de interacción on-line (Vittori, 2020;
Doroshenko et al, 2019; Stier et. al, 2018; Ramos Serrano et al., 2016). El propósito de este trabajo, por tanto, es
entender si los partidos conectivos, en concreto Podemos como ejemplo conectivo en España, se caracterizan por
niveles más altos de reciprocidad, o si muestran el mismo estilo unidireccional que ha caracterizado a los partidos
más tradicionales. Para probar nuestra hipótesis se analizó el caso de España y el uso de Twitter entre los
representantes políticos del Congreso de los Diputados de los cinco principales partidos (PSOE; PP; C'S; VOX; y
Podemos).
3.METODOLOGÍA
3.1.Objetivos
En cuanto a nuestro campo de observación digital, Twitter fue seleccionado como la red social online a investigar
para este trabajo. De hecho, se han depositado grandes expectativas en esta plataforma, debido a su potencial
para facilitar las interacciones directas entre ciudadanos y representantes (Spierings, Jacobs y Linders, 2019).
Dado que Twitter permite a la gente común ponerse en contacto con sus representantes sin autorización previa,
podemos esperar una gran cantidad de interpelaciones a las cuentas de los diputados y relativamente pocos
filtros al flujo de la conversación. Además, esta plataforma se puede considerar una de las muchas "tecnologías
horizontales" (Belli y Aceros, 2020) que permite compartir información entre los usuarios, pudiendo generarse al
mismo tiempo vínculos entre ellos. En consecuencia, creemos que Twitter es la herramienta perfecta para poner a
prueba la teoría de Bennett y colaboradores, ya que nos permitirá observar los patrones de interacción entre
ciudadanos y representantes a través de las redes sociales online, y si ser parte de un partido conectivo realmente
implica niveles más altos de respuestas e interacciones con el público en general.
El objetivo principal de este trabajo es comprobar si el partido conectivo Podemos utiliza las redes sociales online
como herramienta para fomentar la comunicación horizontal con sus simpatizantes o si, por otra parte, el uso que
hace de esta tecnología entra dentro del concepto de "politics as usual". Este objetivo, a su vez, se articula
alrededor de tres objetivos específicos:
1. Observar si hay diferencias en las tasas de respuesta en Twitter entre los diputados de Podemos y aquellos que
pertenecen a los cuatro partidos políticos españoles con más representación en el Congreso (PSOE, PP, C's y VOX)
.
2. Observar si existe una tendencia por parte de los principales partidos políticos a contestar con mayor frecuencia
a aquellos tweets que tienen mayor visibilidad en la red.
3. SO2: Conocer para cada partido político seleccionado su tendencia particular a responder aquellos tweets que
tienen una mayor visibilidad en la red.
4. Observar si existe una tendencia, por parte de los diputados de los partidos seleccionados a contestar con
mayor frecuencia a aquellos usuarios que presentan una mayor influencia en Twitter, tal y como periodistas o
influencers, excluyendo las respuestas a otros diputados.
3.2.Recogida de datos.
Para cumplir con estos objetivos, se ha decidido enfocar la atención en los diputados españoles que tienen cuenta
de Twitter. Adoptando la metodología sugerida por Tromble (2018), se ha optado por observar los patrones
interactivos online de los representantes analizando las respuestas que éstos emiten a las menciones que se les
dirigen en Twitter. El tramo temporal escogido paras el análisis es el que coincide con el Estado de Alarma (de
marzo a junio de 2020) como respuesta a la emergencia sanitaria en España. La idea es la de utilizar un tramo

temporal libre de elecciones que, sin embargo, haya generado mucho debate e intentos de interacción con los
representantes por parte de los ciudadanos. En una época de grandes cambios como la de la pandemia, es lícito
esperar una elevada necesidad comunicativa de los electores con sus diputados. Ello proporcionaría el contexto
ideal para observar los patrones de interacción online entre representantes y representados.
Los datos adquiridos para la realización de este estudio se han descargado mediante la API Twitter usando el
lenguaje de programación R y la librería "rtweet" (Kearney, 2019). Los datos se han adquirido a lo largo de cinco
tandas durante todo el periodo del estado de alarma en España (14 de marzo - 20 de junio). Estas tandas fueron
realizadas durante la primera semana de cada una de las fases que comprendió el estado de alarma en España.
Los tweets descargados fueron recolectados conforme a un conjunto de palabras clave, entre las cuales se
comprenden los nombres de usuarios en Twitter de los principales cinco partidos políticos (podemos, psoe,
ciudadanos pp y vox), así como de sus máximos representantes además del término "estado de alarma" y
"España".
3.3.Limpieza y selección de datos.
Antes de proceder al análisis de los datos, se ha implementado una fase de filtrado para eliminar aquellos
mensajes descargados que no pertenecían a la temática objeto de este estudio y que, sin embargo, acabaron en la
base de datos por cuestiones inherentes al criterio de descarga de palabras clave. Un ejemplo de esto es la
palabra "podemos", seleccionada con el fin de descargar mensajes que mencionen al partido político que, sin
embargo, también incluye en su significado el verbo poder, resultando en la descarga de mensajes no
estrictamente relacionados con el análisis. Para ello, se entrenó un clasificador de aprendizaje automático
supervisado con el fin de codificar los mensajes que sí pertenecen a la temática de estudio. Así pues, se ha
realizado una codificación manual previa de mil quinientos tweets para entrenar al clasificador de aprendizaje
automático y extender esta codificación a toda la base de datos. Finalmente, el SVM lineal (máquinas de soporte
vectorial lineal) resultó ser el procedimiento escogido, ya que mostró los mejores resultados de clasificación.
Sucesivamente, se han aplicado tantos procedimientos de aprendizajes como tandas de descarga debido a las
diferencias de contenido que los mensajes manifestaban al haberse descargado en momentos diferentes. En todo
este proceso, el SVM ha mostrado una precisión media del ochenta por ciento, una medida F media de 0.77 y un
área bajo la curva media de 0.75.
Por otro lado, respecto a los tweets objetivo de este estudio, debemos destacar que se entienden como
interpelaciones y respuestas aquellos tweets generados de forma intencionada y elaborada. Concretamente, se ha
considerado como interpelación todos aquellos tweets que hacen una mención expresa a la cuenta de un
congresista y que ha generado un mensaje de forma intencionada y elaborada. Por lo tanto, para los datos
considerados en este estudio, se procedió a eliminar los retweets que no proporcionan información o texto
adicional, pues se consideran acciones que no implican una tarea activa de elaboración de contenido
comunicativo. Por otro lado, se han considerado como respuestas aquellos tweets generados por diputados de
manera intencionada y elaborada hacia los usuarios que les emitieron una pregunta, construyendo de esta forma,
una red de relaciones.
Por último, cabe señalar que, debido a que un determinado usuario i puede mencionar a distintos diputados, se ha
contabilizado como interpelación cada mención individual dentro del tweet. De esta forma, un mismo tweet podía
ser considerado como más de una interpelación, si este mencionaba a más de un diputado. De forma especular,
cuando un parlamentario j generaba una respuesta con varias menciones, esta respuesta se ha contabilizado en
base al número de menciones que contenía.
De esta forma, se han obtenido tres unidades de análisis con las que se abordarán los objetivos de investigación:
* Interpelaciones totales: Mensajes con menciones a los diputados, teniendo un total de n = 36.862, de las cuales
99.99% provienen de usuarios no verificados y el 0.91% de usuarios verificados.
* Respuestas: Del contenido generado por los diputados, aquellas menciones que van dirigidas a los usuarios que
generaron las preguntas (n = 104).
* Interpelaciones respondidas: De todas las menciones totales, aquellas que fueron respondidas por algún

congresista, obteniendo un total de n = 132. La diferencia entre cantidad de interpelaciones y respuestas aquí
destacada se debe a que, como se ha dicho anteriormente, los tweets pueden contener menciones a diferentes
usuarios. Esto vale tanto para menciones, que pueden ir dirigidas a varios congresistas, como para respuestas,
que pueden servir para contestar a diferentes interpelaciones en un solo tweet.
3.4.Método.
Para cumplir con el objetivo uno, se ha realizado una prueba Chi-cuadrado sobre bondad de ajuste comparando el
porcentaje de interpelaciones totales dirigidas a cada partido con el porcentaje de respuestas emitido por cada
uno de ellos. Se espera que la proporción de respuestas por partido sea equivalente a la proporción de
interpelaciones dirigidas a los mismos. En caso contrario, diputados de un determinado partido estarían
mostrando mayor o menor actividad de lo esperado.
Respecto al objetivo dos, el foco de estudio se ha centrado en el tipo de mensajes que han sido respondidos en
función al partido político al que dirigían sus preguntas, por lo que se realizarán dos análisis ANOVA de un factor
sobre los usuarios que emitieron las interpelaciones respondidas, de acuerdo con el número de retuits que obtuvo
la interpelación respondida, así como sobre el número de seguidores del usuario que la emitió, realizando la
prueba de Tukey de comparaciones múltiples. Así mismo, se ha realizado una prueba binomial para contrastar el
porcentaje de interpelaciones totales provenientes de cuentas no verificadas con el encontrado en las
interpelaciones respondidas, con el fin de conocer si existe un sesgo respecto a esta variable.
Finalmente, para alcanzar el objetivo tres y conocer si existe un sesgo a contestar a usuarios influyentes, se
eliminaron de las interpelaciones respondidas aquellas generadas por los congresistas u otros políticos con el fin
de conocer el perfil de los usuarios respondidos que no pertenecen al ámbito de la política. Así mismo, con los
usuarios restantes, se realizó un análisis de redes sociales para representar gráficamente la red de relaciones
entre usuarios. Para ello, se eliminaron las interpelaciones respondidas generadas.
Según la teoría de los partidos conectivos, deberíamos esperar tasas de respuesta a las menciones más altas por
parte de los parlamentarios de Podemos, al ser el único partido conectivo a nivel nacional. Además, los
representantes de los otros partidos políticos solo deberían usar Twitter para la comunicación unidireccional.
4.RESULTADOS.
En primer lugar, dado que los partidos PSOE, Podemos, PP, Vox y Ciudadanos han sido los principales cinco
partidos, este apartado se centrará sólo en ellos (ver tabla 1).
Asi pues, para conocer en que medida un determinado partido es mas activo que los demás - objetivo 1 -, se ha
contrastado el porcentaje de respuestas emitidas en función al porcentaje de interpelaciones totales recibidas
(Ver Gráfico 1). Diferencias estadísticamente significativas al alza o a la baja indicarían una mayor o menor
actividad de la esperada. El gráfico muestra que los congresistas de los partidos PSOE, Vox y Ciudadanos reciben
un 40.38%, 11.1% y 2.22% de las interpelaciones respectivamente. En los tres casos, los porcentajes de respuestas
son muy parecidos a los de interpelaciones recibidas, siendo el 42,31%, el 14.42% y el 4.81% para PSOE, Vox y
Ciudadanos. Sin embargo, en el caso de los congresistas del PP y Podemos se aprecian importantes diferencias
entre el porcentaje de menciones recibidas, el 19.6% y 26.8% respectivamente, y el porcentaje de respuestas
emitidas, que se sitúan en el 34.62% para el PP y el 3.85% para Podemos.
A continuación, se contrastan estas observaciones con una prueba ji cuadrado comparando las frecuencias de
respuesta de los diputados según el partido al que pertenecen. Se espera que la proporción de respuestas por
partido sea equivalente a la proporción de interpelaciones totales dirigidas a los mismos. Sin embargo, la prueba
ofrece un estadístico ji cuadrado = 36.75, df = 4; p <0.001. En la tabla 2 se puede observar que la proporción
teórica del partido de Podemos y PP quedan fuera de los límites de confianza encontrados. Cabe concluir, que el
partido PP muestra una mayor cantidad de respuestas respecto a la esperada en función a las interpelaciones
recibidas, mientras que Podemos ofrece una frecuencia de respuestas significativamente menor a la esperada.
Para intentar cumplir con el segundo objetivo de investigación, y averiguar si existe un sesgo entre los diputados a
contestar con mayor frecuencia a aquellas interpelaciones que pueden darles mayor visibilidad, se ha
implementado un análisis ANOVA de un factor. De este modo se ha intentado comprobar si existen diferencias

estadísticamente significativas entre la cantidad de número de veces que una interpelación respondida ha sido
retuiteada (rt_count) y el partido que la responde (Tabla 3). Este contraste estadístico permite conocer el posible
sesgo de un partido político a responder interpelaciones con alta o baja repercusión. Con el mismo objetivo, se ha
implementado otro análisis ANOVA donde se ha sustituido la variable rt_count por el número de seguidores que
tiene el usuario que realiza la interpelación (followers_count) (Tabla 3). De este modo, se ha podido comprobar que
se tiende a responder más a menciones procedentes de cuentas con más seguidores. Cabe señalar que, ante el
incumplimiento de los supuestos de normalidad y homocedasticidad, se contrastará la prueba con los
estadísticos propuestos por Welch y Borwn - Forsythe, siendo ambos robustos ante estos escenarios (Pardo
Merino y San Martín, 2010).
Tal y como se puede apreciar en la tabla 3, ambos estadísticos ofrecen una significación <0.05, rechazando la
hipótesis nula y concluyendo la existencia de diferencias estadísticamente significativas entre partidos a la hora
de contestar interpelaciones en función a su número de retweets, así como al número de seguidores.
Para cumplimentar el subapartado del segundo objetivo, se presenta la prueba de Tukey para comparaciones
múltiples, observando que existen diferencias estadísticamente significativas entre todos los partidos (Gráfico 2).
Se evidencia que el partido Vox tiene un sesgo significativo a contestar aquellas interpelaciones que presentan un
alto número de retweets respecto a los demás partidos. En cuanto al número de seguidores de las cuentas que
produjeron la interpelación, se aprecian diferencias estadísticamente significativas entre todos los partidos con
Podemos, teniendo este último cierta propensión a contestar únicamente aquellas interpelaciones de cuentas con
un mayor número de seguidores en comparación con el resto. Además, se encuentran diferencias
estadísticamente significativas entre PSOE y Vox, concluyendo que el PSOE presenta una tendencia a responder
interpelaciones de cuentas con un número significativamente mayor de seguidores en comparación a Vox.
Siguiendo con el objetivo dos, respecto a la clasificación de las interpelaciones respondidas en función de si las
cuentas que emitieron las menciones eran verificadas o no, cabe decir que se ha contestado ciento quince veces a
cuentas verificadas y diecisiete veces a cuentas no verificadas. Al respecto, se ha implementado una prueba
binomial para contrastar si los porcentajes de interpelaciones respondidas a los dos tipos de perfil se
corresponden con los porcentajes de las interpelaciones generadas en su conjunto. Dado que la proporción
esperada - la observada en las interpelaciones totales - queda fuera de los límites esperados (ver tabla 4), cabe
concluir que los diputados de los partidos políticos muestran diferencias estadísticamente significativas en la
proporción de interpelaciones de cuentas verificadas que reciben y las que contestan, mostrando un sesgo a
contestar aquellas interpelaciones provenientes de cuentas verificadas.
Twitter, en este caso, no facilita la interacción real entre quienes participan en los debates políticos en línea.
Teniendo esto en cuenta, se extrae la noción de que los parlamentarios del partido conectivo Podemos muestran
los mismos modelos comunicativos en línea que otros diputados y con bajas tasas de respuesta a la gente
común.
Para cumplir con el tercer objetivo de esta investigación, se ha observado si los diputados mostraban cierta
tendencia a contestar a aquellas cuentas que pertenecen a personas influyentes en Twitter. Para ello, se han
analizado con mayor detalle los patrones de respuesta de los congresistas y se ha implementado un análisis de
redes sociales. Se eliminaron las respuestas de diputados hacia otros diputados con el fin de tener una base de
datos en la que únicamente responden a cuentas influyentes no políticas. Así, la base de datos restante se
compone únicamente de veintiún tweets. La práctica totalidad de estos, excepto dos (dirigido a una usuaria
común de Twitter, @flordevide, y a @rodriguez_pose, un usuario más popular), iban dirigidos a medios de
comunicación. En el siguiente gráfico se observa el número de veces que un usuario ha sido contestado por un
diputado, destacando entre éstos @El_Plural, que ha recibido nueve respuestas de las veintiuna no dirigidas a
otros diputados.
Por último, y en relación con el tercer objetivo de investigación, se ha implementado un Social Network Analysis
(SNA) para así representar gráficamente las relaciones existentes entre los usuarios que emiten interpelaciones
que han sido respondidas y los diputados. Como se aprecia en el gráfico anterior, las cuentas de usuarios a las

que han contestado los diputados pertenecen, en su mayoría, a medios de comunicación. Así pues, un SNA
aportaría la información necesaria para conocer la naturaleza de las relaciones entre las cuentas que han emitido
preguntas y aquellas que las responden. La red se ha construido interpretando como nodos las cuentas que
emiten a las que se mencionan en las respuestas, y como enlaces la relación generada entre dos cuentas, una de
las cuales responde a la otra mencionándola en su tweet.
En esta, el tamaño de los nodos es proporcional a su grado, es decir, las conexiones que tiene cada nodo; y el
tamaño de los enlaces es proporcional a su peso, es decir, al número de interacciones entre los dos nodos que
une.
Una vez construida la red se realiza un análisis por comunidades con Gephi. Al realizar el análisis de comunidades
con resolución 1 se obtiene una modularidad de 0.382. La modularidad se utiliza para medir la fuerza de la división
de una red en módulos o comunidades. Toma valores entre -1/2 y 1, siendo las conexiones entre comunidades
más sólidas que las intramódulos conforme tome valores más cercanos a 1. Para este caso se crean
comunidades relativamente sólidas. El análisis de comunidades encuentra cuatro grupos diferentes en la red. Sin
embargo, este dato ha de ser tratado con cautela debido al tamaño del grafo, pues este se compone únicamente
de diecisiete usuarios y catorce relaciones entre ellos. Finalmente, el tamaño de los nodos/usuarios está
relacionado con la cantidad de relaciones que presentan con otros usuarios, por lo que, a mayor conexión con
otras cuentas, mayor será el tamaño de los nodos en el gráfico.
En el gráfico se puede observar la importancia de @sanchezcastejon en la red como el mayor emisor de
respuestas entre ellas una a una usuaria común, @flordevide, aparte de las dirigidas a medios. Alrededor de este
usuario se conforma la comunidad más grande de la red (color morado), en la que tiene un importante peso
@El_Plural, medio receptor de varias respuestas por parte de congresistas del PSOE, y en concreto siete
respuestas por parte de @sanchezcastejon. Otros usuarios relevantes de la red serán @anapastorjulian, que lidera
una comunidad (verde) también conectada con @sanchezcastejon por medio de @HoyPorHoy; y
@LasMananas_rne, que recibe respuestas de dos dipurtados de Podemos y PP, conformando una comunidad
aislada (naranja). Por último, existe otra pequeña comunidad (azul) conformada por @pmklose (PSOE) y @
rodriguez_pose, un usuario no verificado ni con demasiados seguidores, aunque con cierto prestigio.
Si se toma en consideración el tamaño de los nodos, es posible ver como los más grandes son, @sanchezcastejon
y @El_Plural. El mayor tamaño del primero se debe a que se trata de las cuentas de congresistas que más
respuestas realizan. El gran tamaño en el caso de @El_Plural se debe a que este medio recibe una gran cantidad
de respuestas como ya se mostró en el gráfico anterior.
En lo relativo al tamaño de los enlaces esto nos permite ver la gran afluencia de respuestas por parte de
@sanchezcastejon hacia @El_Plural.
En el gráfico sólo se observan dos cuentas (@florvide y @rodriguez_pose) que no son un medio de comunicación.
El resto de las cuentas serán medios o cuentas de partidos políticos que los diputados han mencionado en su
actividad como respuestas a las interpelaciones recibidas. Se puede observar así la clara preponderancia de los
congresistas a responder a cuentas relevantes como son las de los medios, y no tanto a cuentas de usuarios
anónimos que no puedan tener tanta relevancia comunicativa.
Con estos resultados presentes, se podría descartar el ideal desintermediador planteado por los autores más
optimistas con respecto a las redes sociales. El poder conversacional sigue estando en manos de los actores
sociopolíticos tradicionales, es decir, representantes políticos, así como organizaciones e instituciones y
periodistas y medios de comunicación. Es relevante también señalar que el uso que el partido Podemos hace de
Twitter no se aleja del modelo comunicativo convencional. La formación morada no sigue los estándares externos
asociados a la relación de los partidos conectivos con la ciudadanía. En este caso, el objetivo de horizontalidad
propio de las formaciones conectivas queda difuminado en favor de una comunicación unilateral y jerarquizada,
en la que predomina el contacto con medios de comunicación y con representantes afines.
5.CONCLUSIONES
La crisis provocada por la COVID-19 y la imposición del Estado de Alarma en España se ha sumado en los últimos

meses al desequilibrio institucional y de legitimidad que atraviesan las democracias occidentales. Dadas estas
circunstancias, es congruente la búsqueda de nuevos espacios de debate y colaboración política por parte de la
ciudadanía (Bennett et al., 2018). Internet y las redes sociales se han convertido en una extensión de la arena
política en la que los usuarios encuentran un escenario de deliberación y participación en la conversación política
(Gallardo y Enguix, 2016).
La literatura y las investigaciones previas que mantienen esta tesis como eje principal han destacado el contraste
entre dos amplios bloques teóricos y empíri- cos. Por un lado, los autores que defienden la vertiente ciberoptimista
creen que Internet y las redes sociales tienen el suficiente potencial para la implementación de modelos cercanos
a una democracia participativa o, al menos, para generar un nuevo tipo de relación entre representantes y
representados (Larsson, 2013; Van Dijk, 2000; Hague y Loader, 1999; Gil de Zuñiga et al., 2010; Lilleker y
KocMichalska, 2013). Por el contrario, existen autores que sostienen que se cumple la teoría de la normalización
(Margolis y Resnik, 2000), viendo Internet como una herramienta que sirve únicamente para aumentar la voz de
aquellos actores políticos que ya tienen una presencia establecida en el mundo offline (Jackson, 2007; Davis,
1999; Gibson et al., 2005; Greer y Lapointe, 2004; Gibson y Ward, 2002; Bimber y Davis, 2003; Schweitzer, 2005).
Siguiendo esta línea, las redes sociales servirían para transmitir los mensajes políticos de partidos y candidatos y
para incrementar la cobertura de anuncios específicos, pero no para generar debate entre las formaciones y la
ciudadanía (Papacharissi, 2015).
En medio de esta disputa académica y con el objetivo de satisfacer las crecientes necesidades de participación de
los ciudadanos, nacen los "partidos conectivos" (Bennett et al., 2018). Este nuevo tipo de organización utiliza y se
sirve de las nuevas tecnologías de manera que los usuarios puedan ser parte del organismo de decisión de la
formación y conseguir el fomento de la horizontalidad y autoridad compartida cada vez más demandada por la
ciudadanía.
Tomando como fundamento esta teoría, el propósito de esta investigación ha sido investigar si los diputados que
pertenecen a partidos conectivos actualmente mantienen mayores niveles de interacción online con su base
política al compararlos con diputados de partidos tradicionales. En concreto, se pretende saber si Podemos, tal y
como afirman los precursores del término, se rige por patrones conectivos a nivel externo teniendo en cuenta su
tasa de respuesta en Twitter en comparación con el resto de los partidos convencionales. Para ello, se ha tenido
en cuenta el nivel de respuestas esperadas de todos los diputados con escaño en el Congreso a razón de las
interpelaciones que han recibido de los usuarios de Twitter. Dada la supuesta naturaleza conectiva de Podemos,
su tasa de respuesta debería ser superior en proporción a la del resto de partidos.
En este sentido, los resultados demuestran, en primer lugar, que los diputados que pertenecen a Podemos no
muestran una mayor propensión a la interacción online comparados con otros parlamentarios de partidos
tradicionales, a pesar de ser la segunda formación más interpelada, anulando así la hipótesis inicialmente
planteada. De hecho, es llamativo que se trate del partido cuyo porcentaje de respuesta en función de las
menciones recibidas es significativamente menor que el resto. El hecho de que los partidos que forman parte del
grupo de la oposición al gobierno, es decir, el Partido Popular, Vox y Ciudadanos, muestren niveles de respuestas
más altos de lo esperado puede deberse a estrategias de carácter meramente político o a un fenómeno
simplemente casual.
Otro elemento de relevancia es que la tasa de respuesta de los diputados españoles baja de forma considerable
cuando se trata de interpelaciones emitidas desde cuentas estándar, es decir, no verificadas. En otras palabras, la
mayor parte de las respuestas de los diputados se hacen a apelaciones de profesionales de la política de distinto
rango, o a medios de comunicación y periodistas reconocidos, siendo Podemos el partido que más sesgo presenta
hacia propiciar la interacción con estas cuentas.
Esta evidencia demostraría que Twitter es usado por todos los representantes para interactuar casi
exclusivamente con otros representantes, partidos y medios de comunicación, manteniendo una interacción
prácticamente nula con los ciudadanos. Estos resultados parecen apoyar la idea de que las redes sociales no
están teniendo un efecto democratizador en la arena electoral o, al menos, en el campo de la representación

política. No están creando nuevos espacios para la deliberación o para el debate entre ciudadanos y
representantes. En línea con la teoría de la normalización, parece que las redes sociales son mayoritariamente
usadas por los partidos y los políticos como instrumentos de marketing para compartir sus mensajes, de la misma
manera que han sido utilizados los medios convencionales durante las últimas décadas. Los mediadores clásicos
reconocidos y los agentes sociopolíticos tradicionales siguen teniendo el poder comunicativo y la capacidad de
interferir y participar en el debate político. Sin embargo, las aportaciones ciudadanas continúan sin ser
escuchadas en general, ya que se tiende a ignorar el flujo comunicativo horizontal que se plantea desde la base
hasta el centro de los partidos.
Desde esta perspectiva, los diputados de Podemos no muestran patrones diferentes comparados con los de otros
partidos. Por tanto, no puede afirmarse que esta formación se rija por los patrones de un partido conectivo en
cuanto a su comunicación externa si nos atenemos a la interacción de sus diputados en Twitter. A pesar de sus
tendencias democratizadoras y horizontales, su nivel de respuestas no se puede considerar lo suficientemente
alto como para que se dé y se fomente el intercambio comunicativo entre el partido y los ciudadanos-usuarios.
Por tanto, Podemos y el resto de los partidos no se diferencian en gran medida en cuanto a su modo de
comunicación externa por su uso normalizado de las redes sociales en general y de Twitter en concreto, dejando a
un lado la capacidad de crear nuevos espacios para la deliberación o para el debate entre ciudadanos y
representantes. Las redes permiten, en este caso, compartir y difundir mensajes, pero no son útiles para la
deliberación ciudadana, basada en la bidireccionalidad.
Consecuentemente, el proceso representativo no debería apoyarse en estas herramientas para la innovación
democrática. Los ciudadanos y las partes interesadas deben usar otro tipo de canales comunicativos y
participativos para interactuar con los representantes de los partidos políticos, ya que las redes sociales no
garantizan la reciprocidad en los flujos informativos, no ofreciendo la posibilidad de ser escuchado. No se
pretende afirmar que Twitter sea, y tenga que ser considerado como una representación exacta y fehaciente de la
vida real. Sin embargo, las redes sociales se han convertido en un escenario más en el que se plasman las
dinámicas establecidas. En definitiva, se confirma el papel de la red como una dimensión más a disposición de los
partidos que más visibilidad tienen en el mundo "offline".
Para finalizar, las limitaciones que se presentan en este estudio tienen que ver con el hecho de que solo se han
tenido en cuenta datos del ámbito político español. También es reseñable que se hayan seleccionado los datos
durante el Estado de Alarma, es decir, un escenario no usual que puede hacer que se modifiquen los patrones de
respuesta de los diputados. En este sentido, es posible que los resultados presentados difieran de los de otros
contextos. Como tal, es importante que se observen los partidos conectivos en diferentes países y situaciones,
para fortalecer nuestros resultados. Para investigaciones futuras, se considera de gran interés la inclusión de
análisis cualitativos que puedan servir como soporte a los mostrados en este estudio con el fin de abordar las
posibles causas de los resultados relacionales aquí mostrados, tales como la preferencia de respuesta de los
partidos políticos a determinados medios, entre otros.
Footnote
1 Esta investicación está parcialmente apoyada por el proyecto financiado por el Plan Nacional de I+D+i, PID2019-
106254RB-I00
2 Observaciones que muestran diferencias estadísticamente significativas
References
6.BIBLIOGRAFÍA
BALCELLS, J., CARDENAL, A. S. (2013): "Internet y la competición electoral: el caso de Esquerra Rapublicana de
Catalunya", Revista Española de Investigaciones Sociológicas, 141, pp. 3-28.
BAVIERA, T, CALVO, D, &LLORCA-ABAD, G. (2019): "Mediatisation in Twitter: an exploratory analysis of the 2015
Spanish general election", The Journal of International Communication, 25(2), pp. 275-300.
doi:10.1080/13216597.2019.1634619
BELLI, S., ACEROS, J. C. (2020): "La confianza distribuida en las redes: un estudio de caso en el ámbito de los

movimientos sociales", Revista Hispana para el Análisis de Redes Sociales, 31(1), pp. 46-56.
BENKLER, Y. (2006): The wealth of networks: How social production transforms markets and freedom, New Haven,
Yale University Press.
BENNETT, W. L, SEGERBERG, A. (2012): "The logic of connective action", Information, Communication &Society, 15,
pp. 739-768.
BENNETT, W. L, SEGERBERG, A. &KNÜPFER, C. B. (2018): "The democratic interface: technology, political
organization, and diverging patterns of electoral representation", Information, Communication &Society, 21, 1655-
1680.
BIMBER, B., DAVIS R. (2003): Campaigning online: The Internet in US elections, New York, NY, Oxford University
Press.
CÁCERES ZAPATERO, M. D., BRÄNDLE SEÑÁN, G., &RUIZ SAN ROMÁN, J. A. (2017): "Sociabilidad virtual: la
interacción social en el ecosistema digital", Historia y Comunicación Social, 22(1), pp. 233-247.
https://doi.org/10.5209/hics.55910.
CASTELLS, M. (2012): Networks of outrage and hope: Social movements in the Internet age, Cambridge, Polity
Press.
DANIEL, WT, OBHOLZER, L. (2020): "Reaching out to the voter? Campaigning on Twitter during the 2019 European
elections", Research &Politics, 7(2), 2053168020917256. doi:10.1177/2053168020917256.
DAVIS, R. (1999): The web of politics: The Internet's impact on the American political system, New York, Oxford
University Press.
DESERIIS, M. (2020): "Two Variants of the Digital Party: The Platform Party and the Networked Party", PACO.
PArtecipazione e COnflitto, 13(1), pp. 896-917. https:// doi.org/10.1285/i20356609v13i1p896
DOROSHENKO, L., SCHNEIDER, T., KOFANOV, D., XENOS, M.A., SCHEUFELE, D.A. &BROSSARD, D. (2019):
"Ukrainian nationalist parties and connective action: an analysis of electoral campaigning and social media
sentiments", Information, Communication &Society, 22(10), 1376-1395. doi:10.1080/136911 8X.2018.1426777.
GALLARDO, B., ENGUIX, O. (2016): Pseudopolítica: el discurso político en las redes sociales, Valencia, Universitat
de Valencia.
GARCÍA CARRETERO, L., ESTABLES, M. J. (2019): "La otra campaña de Barcelona en Comú: Som Comuns,
Movimiento de Liberación Gráfica y la guerrilla comunicativa", Revista Dígitos, (5), pp. 33-55.
https://doi.org/10.7203/rd.v0i5.138
GARCÍA-CARRETERO, L., DÍAZ-NOCI, J. (2018): "From social movements to political parties. Barcelona en Comú's
electoral message, uses and limitations on Twitter during 2015 city council election", OBETS, Revista de Ciencias
Sociales.
GERBAUDO, P. (2018): Il partito piattaforma. La trasformazione dell'organizzazione politica nell'era digitale,
Fondazione Giangiacomo Feltrinelli, Milano.
(2019): The Digital Party: Political Organisation and Online Democracy, London, Pluto.
GIBSON, R. K., WARD, S. (2002): "Virtual campaigning: Australian parties and the impact of the Internet", Australian
Journal of Political Science 37, pp. 99-129.
GIBSON, R. K., LUSOLI, W. &WARD, S. (2005): "Online Participation in the UK: Testing a 'Contextualised' Model of
Internet Effects", The British Journal of Politics &International Relations, 7, pp. 561-583.
GIL DE ZÚÑIGA, H., VEENSTRA, A., VRAGA, E. ET AL. (2010): "Digital democracy: Reimagining pathways to political
participation", Journal of Information Technology &Politics, 7, pp. 36-51.
GREER, J.D., LAPOINTE, M.E. (2004): "Cyber-campaigning grows up: A comparative content analysis of websites
for US Senate and gubernatorial races 1998-2000", In Electronic Democracy, Routledge, pp. 132-148.
GUERRERO-SOLÉ, F. (2018): "Interactive Behavior in Political Discussions on Twitter: Politicians, Media, and
Citizens' Patterns of Interaction in the 2015 and 2016 Electoral Campaigns in Spain", Social Media + Society, 4,
2056305118808776.
HAGUE, B. N., LOADER, B. D. (1999): Digital democracy: Discourse and decision making in the information age, New

York, NY, Routledge.
JACKSON, N. (2007): "Political parties, the Internet and the 2005 General Election: third time lucky?", Internet
Research, 17, pp. 249 - 271.
JENSEN, M.J. (2016): "Social Media and Political Campaigning: Changing Terms of Engagement?", The
International Journal of Press/Politics, 22, pp. 23-42.
JUNGHERR, A. (2016): "Twitter use in election campaigns: A systematic literature review", Journal of Information
Technology &Politics, 13, pp. 72-91.
KEARNEY, M. W. (2019): "rtweet: Collecting and analyzing Twitter data.", Journal of Open Source Software, 4 (42),
1829. https://doi.org/10.21105/joss.01829.
KIM, C, LEE, S. (2020): "Innovation vs. Normalization: Politicians' Twitter use at the early majority stage of its
diffusion in the Korean assembly", The Social Science Journal, pp. 1-13. doi:10.1080/03623319.2020.1782634.
KLINGER, U., SVENSSON, J. (2015): "The emergence of network media logic in political communication: A
theoretical approach", New Media &Society, 17, 12411257.
LARSSON, A. O., MOE, H. (2012): "Studying political microblogging: Twitter users in the 2010 Swedish election
campaign", New Media &Society, 14, pp. 729-747.
LARSSON, A. O. (2013): "Rejected Bits of Program Code: Why Notions of "Politics 2.0" Remain (Mostly) Unfulfilled",
Journal of Information Technology &Politics, 10, pp. 72-85.
LILLEKER, D. G, KOC-MICHALSKA, K. (2013): "Online Political Communication Strategies: MEPs, E-Representation,
and Self-Representation", Journal of Information Technology &Politics, 10, pp. 190-207.
LISI, M. (2018): "Party innovation, hybridization and the crisis: the case of Podemos", Italian Political Science
Review/Rivista Italiana di Scienza Politica, 49 (3), pp. 245262. https://doi.org/10.1017/ipo.2018.20.
LOADER, B. D, MERCEA, D. (2011): "Networking democracy?", Information, Communication &Society, 14, pp. 757-
769.
MARGOLIS, M., RESNICK, D. (2000): Politics as usual: the cyberspace revolution, Thousand Oaks, Calif., Sage
Publications.
MOLYNEUX, L., MOURAO, R. (2017): "Political journalists' normalization of Twitter: interaction and new
affordances". Journalism Studies, 20 (1), pp. 1-19.
PAPACHARISSI, Z. (2015): Affective publics: Sentiment, technology, and politics, Oxford, Oxford University Press.
PARDO MERINO, A., SAN MARTÍN, R. (2010): Análisis de datos en ciencias sociales y de la salud (Vol. II), Madrid,
Síntesis.
RAMOS-SERRANO, M., FERNANDEZ GÓMEZ, J. D, &PINEDA, A. (2016): "Follow the closing of the campaign on
streaming': The use of Twitter by Spanish political parties during the 2014 European elections", New Media
&Society, 20 (1), pp. 122-140. doi:10.1177/1461444816660730
RANIOLO, F., TARDITI, V. (2019): "Digital revolution and party innovations: An analysis of the Spanish case", Italian
Political Science Review/Rivista Italiana Di Scienza Politica, pp. 1-19.
RAUCHFLEISCH, A., METAG, J. (2020): "Beyond normalization and equalization on Twitter: Politicians' Twitter use
during non-election times and influences of media attention", Journal of Applied Journalism &Media Studies, 9 (2),
pp. 169-189. doi:10.1386/ajms_00021_1.
RICO MOTOS, C. (2019): "Let the Citizens Fix This Mess!' Podemos' Claim for Participatory Democracy in Spain",
Politics and Governance, 7(2), pp. 187. https://doi. org/10.17645/pag.v7i2.1893.
ROBLES, J. M., CÓRDOBA, A. (2019): Digital Political Participation: Disintermediation in the Era of Web 2.0, Londres,
Palgrave.
SAMPEDRO, V., MOSCA, L. (2018): "Digital Media, Contentious Politics and Party Systems in Italy and Spain",
Javnost-The Public, 25, pp. 160-168.
SCHWEITZER, E. J. (2005): "Election Campaigning Online German Party Websites in the 2002 National Elections",
European Journal of Communication, 20, pp. 327-351.
SEETHALER, J., MELISCHEK, G. (2019): "Twitter as a tool for agenda building in election campaigns? The case of

Austria", Journalism, 20(8), 1087-1107. doi:10.1177/1464884919845460.
SOUTHERN, R., LEE, B. J. (2019): "Politics as usual? Assessing the extent and content of candidate-level online
campaigning at the 2015 UK general election", Journal of Elections, Public Opinion and Parties, 29(2), pp. 179-198.
doi:10.1080/17457289.2 018.1515209.
SPIERINGS, N., JACOBS, K. &LINDERS, N. (2019): "Keeping an Eye on the People: Who Has Access to MPs on
Twitter?", Social Science Computer Review, 37, pp. 160-177.
STIER, S., SCHÜNEMANN, W. J., &STEIGER, S. (2018): "Of activists and gatekeepers: Temporal and structural
properties of policy networks on Twitter", New Media &Society, 20(5), 1910-1930. doi:10.1177/1461444817709282.
TROMBLE, R. (2018): "Thanks for (actually) responding! How citizen demand shapes politicians' interactive
practices on Twitter", New Media &Society 20, pp. 676-697.
VAN DIJK, J. (2000): "Models of democracy and concepts of communication" In Digital democracy: Issues of
theory &practice, Thousand Oaks, CA, USA: Sage Publications, pp. 30-53.
VITTORI, D. (2020): "The impact of populism on party organization? A study of four Southern European 'populist'
parties", European Politics and Society, 21(1), pp. 5371. doi:10.1080/23745118.2019.1602925
DETALLES
Materia: Internet; Communication; Coronaviruses; Pandemics; Social networks; COVID-19
Término de indexación de Asunto: Social networks

negocios:
Título: Partidos conectivos durante la pandemia. La estrategia de comunicación de

Podemos en Twitter 1
Título alternativo: Connective parties during the pandemic.The communication strategy of Podemos in
Twitter
Autor: de Marco, Stefano1; Gil, Juan Antonio Guevara2; Torralba, Ángela Martínez3;
Sánchez, Celia García-Ceca4; Jiménez, Alejandro Echániz5; Palese, Rosario1
Universidad de Salamanca. s.demarco@usal.es (ESPAÑA)2 Universidad
Complutense de Madrid juanguev@ucm.es (ESPAÑA)3 Universidad Complutense de
Madrid angela19@ucm.es (ESPAÑA)4 Universidad Complutense de Madrid
celiga06@ucm.es (ESPAÑA)5 Universidad Complutense de Madrid
aechaniz@ucm.es (ESPAÑA)
Número: 53
Páginas: 121-145

ISSN: 11395737
e-ISSN: 21740682
DOI: 10.empiria.53.2022.32615

ProQuest:
URL del documento: https://www.pro quest.com/scholarly-journals/partidos-conectivos-durante-la-

pandemia/docview/2639723150/se-2

Premium Collection
Social big data y sociología y ciencias sociales

computacionales
Gualda, Estrella 1 1 Universidad de Huelva Grupo de Investigación ESEIS/Centro de Investigación
COIDESO . Empiria ; Madrid N.º 53, (Jan-Apr 2022): 147-177.
TEXTO COMPLETO
Headnote
Recibido: 28.03. 2021
RESUMEN
Investigar sobre lo que ocurre en Internet frecuentemente nos aproxima a estudios que se sitúan en la frontera del

conocimiento. Este artículo se enmarca en el espacio transdisciplinar de las Ciencias Sociales y Sociología
Computacionales con el objetivo de presentar el desarrollo actual de la investigación que toma como referencia
Social Big Data o datos sociales masivos, describir procesos metodológicos que son típicos en este campo donde
los medios sociales en Internet son la fuente principal de datos y, al hilo de esta descripción, destacar algunas de
las ventajas, limitaciones y desafíos para la investigación en este campo, muy ligados a los avances
metodológicos y técnicos que se hacen en otras ciencias.
El texto introduce la especificidad conceptual de los Social Big Data como confluencia de los medios sociales,
análisis de datos y datos masivos. Se explora qué cambios suponen los procesos de investigación en este campo
y se exponen avances en el trabajo con datos sociales masivos en áreas de la inteligencia artificial como el
aprendizaje automático, las redes neuronales artificiales o el aprendizaje profundo, que se alinean con unas
ciencias sociales que tienden a la predicción. Argumentamos a continuación sobre la pertinencia para la
Sociología, así como para otras ciencias, de avanzar igualmente en un enfoque basado en métodos mixtos en el
campo de los Social Big Data, repensando el vínculo micro - macro en este campo de estudio.
A través de un estudio de caso que intercalamos (sobre las expresiones en Twitter del movimiento negacionista en
España que se produce al hilo de la pandemia de COVID-19), ilustramos igualmente algunas potencialidades y
limitaciones de este tipo de investigación, lo que nos permitirá esbozar algunos de los desafíos metodológicos
que pueden incorporarse en una agenda de investigación en esta área. Un área de investigación que ofrece
direcciones de gran interés para la sociología en los próximos años y en la que se puede avanzar de manera
excepcional en el desarrollo de la transdisciplinariedad y la hibridación en las Ciencias, enriqueciéndolas.
PALABRAS CLAVE
Social Big Data - Big Data - Ciencias Sociales Computacionales - Sociología Computational - Twitter - Inteligencia
Artificial - Aprendizaje automático - Aprendizaje profundo - Redes neuronales artificiales.
ABSTRACT
The research on what happens on the Internet often brings us closer to studies at the frontier of knowledge. This
article is part of the transdisciplinary space of Computational Sociology and Social Sciences. It pretends to
present the current development of research referred to as Social Big Data. It describes methodological processes
typical in this field where social media on the Internet are the primary data source. Along with this description, it
highlights some of the advantages, limitations, and challenges for research in this field, closely linked to
methodological and technical advances made in other sciences.
The text introduces Social Big Data's conceptual specificity as a confluence of social media, data analysis, and
massive data. Then, we explore essential changes in the research process in this field and advances in working
with social big data in areas of artificial intelligence such as machine learning, artificial neural networks, and deep
learning, which are aligned with social sciences that tend to predictions. We then argue about the relevance for
Sociology and other sciences to advance in an approach based on mixed methods in the Social Big Data area,
rethinking the micro-macro link in this field of study.
Through a case study [on the negationist social movement in Twitter in Spain during the COVID-19 pandemics], we
also illustrate some potentials and limitations of this type of research, which will allow us to outline some of the
methodological challenges that experts could incorporate into a research agenda in this area. Social Big Data and
Computational Sociology and Social Sciences research offer directions of great interest to the Sociology of the
coming years in which exceptional progress can be made in the development of transdisciplinar-ity and
hybridization in science, enriching them.
KEYWORDS
Social Big Data - Big Data - Computational Social Sciences - Computacional Sociology - Twitter - Artificial
Intelligence - Machine Learning - Deep learning - Artificial Neural Networks.
1.INTRODUCCIÓN
Este artículo se enmarca globalmente, como indica el título, en el campo transdisciplinar emergente de las
Ciencias Sociales Computacionales y, más específicamente, en lo que podríamos llamar Sociología

Computacional (Edelmann et al. 2020; Evans y Foster 2019). Si a veces cuesta trabajo, dada la complejidad de
nuestros objetos de estudio, trazar una línea clara entre las disciplinas asociadas a las Ciencias Sociales (por sus
múltiples hibridaciones e intercambios), las áreas de investigación cuyo objeto requiere necesariamente observar
fenómenos que transcurren en Internet, presentan un extra de complejidad, en la medida en que investigar sobre lo
que ocurre en Internet frecuentemente nos aproxima a investigaciones que se sitúan, necesariamente, en la
frontera del conocimiento, yendo mucho más allá de las Ciencias Sociales. Este sería el caso sobre el que
queremos reflexionar en este artículo, al hilo del desarrollo actual de la investigación que toma como referencia
datos sociales masivos, macrodatos sociales o Social Big Data1. Si bien el paradigma de los datos masivos
parece haberse incorporado primero a las "ciencias duras" antes que a otras (Burgess y Bruns 2012), la situación
inicial ha ido cambiando, provocando nuevos desafíos para la Sociología.
El campo de las Ciencias Sociales Computacionales, entre ellas la Sociología Computacional, está en expansión
ofreciendo una variedad de direcciones de trabajo interesantes en algunos subcampos. Más allá de lo descriptivo,
los sociólogos están contribuyendo al desarrollo de nuevas teorías y a la construcción de metodos híbridos en las
Ciencias Sociales Computacionales que combinan métodos clásicos y modernos de la Sociología (Edelmann et al.
2020). Motiva el artículo, principalmente, el interés por identificar en el campo de las Ciencias Sociales algunas de
las implicaciones metodológicas de este tipo específico de investigación en la cual la materia prima procede de
Internet. Advertimos que a lo largo de estas páginas algunos de los dilemas que se van a presentar y que
conciernen al método y a las técnicas, son comunes en las Ciencias Sociales y, si cabe, habituales también en las
llamadas Humanidades Digitales. Igualmente, se comparten dilemas en algunos casos con otras Ciencias, en la
medida en que la investigación en Internet presenta algunas limitaciones y ventajas ligadas al manejo de la
información que son comunes independientemente de la disciplina desde la que se trabaja.
Las páginas que siguen introducen la especificidad conceptual de los Social Big Data frente al término de Big
Data. A partir de aquí, exploramos qué suponen los procesos de investigación en este campo, frente a la
investigación tradicional en las Ciencias Sociales, enfatizando dilemas emergentes relativos a los métodos y
técnicas que se aplican, sus ventajas y limitaciones. La investiga- ción en el área de Big Data ha estado asociada
desde sus orígenes a la llamada Ciencia de Datos y a la Inteligencia de Negocios [Data Science y Businness
Intelligence] y ha enfatizado el manejo de algoritmos y estadística avanzada. Progresivamente ha ido
profundizando también en áreas de la inteligencia artificial como el aprendizaje automático, las redes neuronales
artificiales o el aprendizaje profundo, entre otros, alineándose a veces con unas ciencias sociales que tienden a la
predicción. Argumentamos a continuación sobre la pertinencia para la Sociología, así como para otras ciencias, de
avanzar igualmente en un enfoque basado en métodos mixtos en el campo de los Social Big Data, repensando el
vínculo micro - macro en este campo de estudio. A través de un estudio de caso que intercalamos, ilustramos
igualmente algunas potencialidades y limitaciones de este tipo de investigación, lo que nos permitirá trazar
algunos de los desafíos metodológicos que pueden incorporarse en una agenda de investigación en esta área. Un
área de investigación en la que se puede progresar de manera excepcional en el desarrollo de la
transdisciplinariedad y la hibridación en las Ciencias, enriqueciéndolas.
2.SOCIAL BIG DATA: LA CONFLUENCIA DE LOS MEDIOS SOCIALES, EL ANÁLISIS DE DATOS Y LOS DATOS
MASIVOS EN LA INVESTIGACIÓN
De acuerdo con Bello-Orgaz, Jung y Camacho (2016), en el campo de los Social Big Data se produce la confluencia
de tres grandes áreas: los medios sociales, el análisis de datos y los datos masivos, que se conforman como un
área interdisciplinar donde los medios sociales destacan como fuente principal de datos. En este artículo, al hilo
de la relevancia que alcanzan las plataformas de redes sociales, por la importante generación de contenidos que
se produce en ellas, centramos nuestra atención en el área específica de Social Big Data, sin menospreciar la
importancia que tiene la generación de otro tipo de datos masivos. De hecho, no son infrecuentes las
investigaciones cuyos análisis se basan en fuentes relacionadas tanto con medios sociales como con otros
medios de obtención de la información (sensores, estadística pública, GPS, cartografía, etc.) (Bartosik-Purgat y
Ratajczak-Mroek, 2018; Kumar y Jaiswal, 2019; He y Xiong, 2018; Piccialli y Jung, 2017; Olshannikova et al., 2017).

El área de Social Big Data se nutre principalmente de contenidos que se producen en Internet, en los medios
sociales, como plataformas de comunicación en línea, con un protagonismo importante de algunas redes sociales.
Algunas fuentes típicas de este tipo de datos son desde redes sociales como Facebook, a blogs, pasando por
microblogs como Twitter. Noticias sociales (como Reddit), medios para el etiquetaje o marcadores sociales (como
lo fuera Delicious), medios para el intercambio de archivos de fotos o videos (Instagram, YouTube, TikTok),
páginas wikis (Wikipedia, Wikihow), sitios basados en preguntas y respuestas de los usuarios (tales a Yahoo!
Answers o Ask.com) y otros que basan su actividad en la formulación de reseñas o críticas sobre servicios y
establecimientos (como Yelp o TripAdvisor) (Jin et al, 2015).
Para el análisis de los datos sociales masivos que se generan en estos u otros medios sociales se desarrollan
métodos y técnicas de análisis que progresivamente han ido conformando las especialidades en Ciencia de Datos
e Inteligencia de Negocios, con el objeto de avanzar en el manejo de amplios volúmenes de información, su
procesamiento y análisis con el fin de generar conocimiento útil (Del Vecchio, 2018). La intersección entre las tres
parcelas (social media, big data y data analysis) va asociada a continuos y novedosos desarrollos técnicos para el
análisis de datos. En las secciones que siguen, exponemos algunos aspectos del trabajo metodológico con datos
sociales masivos, con la idea de mostrar algunos elementos claves de los procesos de investigación en las
Ciencias Sociales Computacionales con este tipo de datos, así como algunas de sus ventajas y limitaciones. Se
exponen algunas orientaciones que apuntan hacia el fortalecimiento del paradigma predictivo en la Sociología
(Chen, Wu, Hu, A. et al. 2021), al tiempo que destacamos el amplio margen de avance si se profundiza en los
métodos mixtos y la sociología cualitativa si se incorporan al análisis de datos sociales masivos.
El tipo de retos que se plantean con los datos sociales masivos se ven condicionados por algunas de las
características propias de los datos masivos, en la medida en que son datos con rasgos muy diferentes a los que
manejábamos antaño en aspectos como el volumen, velocidad, variedad, veracidad, valor, validez, variabilidad,
volatilidad, virtual, visualización, visibilidad (para más detalles sobre la diversidad de Vs con que se han descrito
estos datos y su evolución, véase en Bello-Orgaz, Jung y Camacho 2016; Patgiri y Ahmed 2016; Laney 2001; Beyer
y Laney, 2012; Bulger, Taylor y Schroeder, 2014; Hashema et al., 2015).
3.INTELIGENCIA ARTIFICIAL, APRENDIZAJE AUTOMÁTICO, REDES NEURONALES ARTIFICIALES Y APRENDIZAJE
PROFUNDO: REPERCUSIONES EN LAS CIENCIAS SOCIALES Y LA SOCIOLOGÍA
Si bien la inteligencia artificial tiene un amplio recorrido, los avances en los últimos años, con el desarrollo del
aprendizaje automático, las redes neuronales artificiales y el aprendizaje profundo han hecho que algunos
expertos sugieran que en este campo se está produciendo un cambio de paradigma (Chen, Wu, Hu, A. et al. 2021),
con repercusiones entre otras, en las Ciencias Sociales y la Sociología. Los términos que encabezan el título de
esta sección, aunque no son sinónimos, es común encontrarlos en el mismo escenario. Introducimos brevemente
algunos elementos clave en estos campos, como ejemplos muy representativos de avances actuales, al objeto de
reflexionar sobre los efectos que tiene para las Ciencias Sociales y la Sociología la introducción de estas áreas, y
específicamente para el campo de datos sociales masivos en el que se centra este artículo.
3.1.Inteligencia artificial o artificial inteligence [AI]
Con la metáfora "inteligencia artificial" [AI] se define todo un campo de conocimiento que explora la capacidad que
tienen las computadoras para mostrar un comportamiento "inteligente", por ejemplo, a través del desarrollo de
funciones cognitivas (la parte relativa a la inteligencia) que llevan a cabo máquinas (la parte artificial). Este
comportamiento abarca un amplio espectro de acciones, como pueda ser la de resolver problemas. Si en sus
inicios la inteligencia artificial funcionaba a base de crear o configurar una serie de reglas que decían a las
computadoras lo que debían hacer, con la aparición del aprendizaje automático se produce un cambio cualitativo
y las máquinas realizan funciones que van más allá del seguimiento de reglas.
De esta forma, hoy la inteligencia artificial se refiere al estudio, al desarrollo y a la aplicación de técnicas que
permiten a las computadoras adquirir ciertas habilidades propias de la inteligencia humana como, por ejemplo, el
reconocimiento de imágenes, la comprensión del lenguaje natural, estudiar y resolver problemas, entender los
contextos, aprender a hacer tareas nuevas y otras. Se recogerían en este campo técnicas que permiten a los

ordenadores imitar la inteligencia humana usando la lógica, reglas tipo si-entonces (if-then rule) que establecen
condiciones que deben pasar (si) para que se pueda afirmar una segunda parte (entonces), árboles de decisión y
aprendizaje automático, incluyendo aquí redes neuronales artificiales y aprendizaje profundo.
3.2.Aprendizaje automático o machine learning [ML]
Cuando en el ámbito de la inteligencia artificial aparece el aprendizaje automático, este aporta a las computadoras
una capacidad real de aprendizaje, que se asemeja más a la idea recogida en la metáfora o concepto de
"inteligencia artificial". El aprendizaje automático se configura, por tanto, como una de las ramas dentro de la
inteligencia artificial que se especializa en los aspectos relativos al aprendizaje. Sin ser las únicas, algunas ramas
relevantes para la Sociología y el análisis de datos sociales masivos son, por ejemplo, el procesamiento del
lenguaje natural [PLN]2 que, al permitir que las máquinas entiendan el lenguaje humano, posibilita avanzar en
aplicaciones no solo para tareas como la traducción automática, sino también en otras como el procesado y
análisis de datos sociológicos; la visión artificial, que enseña a los ordenadores a ver y entender las imágenes
digitales3, el reconocimiento automático del habla; las redes neuronales artificiales o el aprendizaje profundo4.
El aprendizaje automático crea inteligencia artificial, lo que hace normalmente a través del uso de técnicas
estadísticas para programar algoritmos que puedan aprender por su cuenta a realizar tareas y mejorar en su
ejecución a través de la experiencia. Frente a las reglas fijas de antaño, el machine learning es una de técnica de
entrenamiento que se utiliza para crear y mejorar dicho comportamiento (clasificar datos automáticamente,
predecir, etc.) (Chen, Wu, Hu et al. 2021). Con la llegada de los datos masivos, por otra parte, se facilitan estos
procesos de aprendizaje, por cuanto los ordenadores puedan contar con una cantidad y diversidad de datos para
ser procesados, analizados e incorporados en el proceso de aprendizaje, siguiendo un esquema en el que
proporcionando conjuntos amplios de datos como inputs se obtiene una mejora en el rendimiento al solucionar
problemas (Robles et al. 2020).
Lo característico del aprendizaje automático es la introducción de procesos de aprendizaje, entre los que están la
capacidad de aprender, razonar y mejorarse por sí mismos a través de diferentes técnicas o modelos (Molina y
Garip 2019; Di Franco y Santurro 2021). Como subrayan Molina y Garip (2019) y Di Franco y Santurro (2021), el
aprendizaje automático, incluyendo las redes neuronales artificiales, es resultado de la intersección de varias
disciplinas (estadística, matemáticas, informática, neurociencia) que usan algoritmos para extraer información y
conocimiento de los datos masivos y heterogéneos, con aplicaciones que alcanzan a ciencias sociales como la
economía, las ciencias políticas y la sociología (Di Franco y Santurro 2021).
3.3.Redes neuronales artificiales o artificial neural networks [ANN]
Por otra parte, entre las técnicas o modelos que se incorporan al machine learning, están las redes neuronales
artificiales, caracterizadas por imitar a las redes neuronales biológicas, en la medida en que encuentran su
inspiración en cómo se comporta el cerebro humano (las neuronas, sus conexiones y la transmisión de
información). Las redes neuronales artificiales son capaces de extraer patrones y detectar aspectos que el ser
humano o el empleo de otras técnicas computacionales no pueden (Plebe y Grasso 2019). A partir de aquí, se
crean modelos para intentar resolver problemas complejos a través de técnicas algorítmicas. Es clave el
entrenamiento de la red, que trata de encontrar la combinación que mejor se ajusta buscando la mayor precisión
del algoritmo en un proceso normalmente iterativo que se detiene cuando se alcanza el grado de error establecido
por el investigador. Una red ya entrenada se puede usar para otras aplicaciones, por ejemplo, para hacer
predicciones o clasificaciones. Las redes neuronales virtuales están diseñadas para analizar grandes volúmenes
de datos, a partir de lo que extraen enseñanzas que aplican para la realización de tareas. Algunas de estas tareas,
de aplicabilidad en las Ciencias Sociales y la Sociología, son el análisis de imágenes, la traducción de textos, el
reconocimiento del habla y otras.
Dado que las redes neuronales analizan un conjunto muy ingente de datos haciendo durante todos los procesos
innumerables tests, en realidad los investigadores no pueden saber con certeza qué factores fueron los que
aportaron más capacidad de aprendizaje y mejora, aunque es viable corroborar el conocimiento aportado. Existen
muchas vías por las que se puede llevar a cabo el proceso de aprendizaje en las redes neuronales (ejemplo de ello

son aprendizaje supervisado, aprendizaje no supervisado, aprendizaje de refuerzo, aprendizaje fuera de línea,
aprendizaje en línea), así como diferentes arquitecturas para las redes neuronales que se diferencian en cómo
fluye la información. Aunque una descripción de estos aspectos excede del objetivo de este artículo, pueden
consultarse un desarrollo más extenso con aplicaciones para las ciencias sociales y la sociología (Plebe y Grasso
2019; Molina y Garip 2019; Robles et al. 2020; Franco y Santurro 2021).
Un ejemplo de este enfoque con aplicación sociológica es el estudio reciente de Gabdrakhmanova y Pilgun (2021)
que presenta un caso en el que las redes neuronales se han desarrollado para resolver aspectos diversos como la
gestión eficaz de los sistemas urbanos y la resolución de conflictos urbanísticos. Para ello se crea un algoritmo a
partir de fuentes diversas de datos que recopilan huellas digitales de redes sociales, microblogging, blogs,
mensajería instantánea, foros, reseñas y videos dedicados a la construcción del Noroeste Chord (NEC) en Moscú.
Se trata de un caso donde se usan diferentes estrategias y modelos matemáticos con el fin de detectar, prevenir y
abordar tempranamente conflictos en la planificación urbana para ganar en eficiencia. Son muchas las
aplicaciones en curso o potenciales de las redes neuronales artificiales que se desarrollan hoy en campos muy
diversos, tanto asociados con los datos sociales masivos como con otro tipo de datos.
3.4.Aprendizaje profundo o deep learning [DL]
Las redes neuronales artificiales trabajan con capas de neuronas. Conforme hay más capas, más profunda es la
red, y se alcanza mayor capacidad de aprendizaje y de procesamiento. Cuando la red neuronal artificial alcanza
niveles muy profundos, se crea lo que se conoce como aprendizaje profundo o deep learning, que es un área de la
inteligencia artificial que ha crecido mucho en poco tiempo (Plebe y Grasso 2019). Cuando se alcanza este nivel de
profundidad, la novedad, en comparación, es que no solo se aprenden conceptos, sino también se pueden
comprender contextos complejos. Esto hace que si el aprendizaje automático se caracteriza por la capacidad que
algunos sistemas de inteligencia artificial tienen para auto-aprender y corregir errores basados en sus acciones
previas, el aprendizaje profundo es capaz también de tomar decisiones a partir de los datos. Un ejemplo clásico de
las aplicaciones fuera del campo de los datos sociales masivos es el diseño de los vehículos automáticos
actuales. Otros ejemplos de utilidad para la investigación sociológica son los de los algoritmos que permiten que
el software se entrene a sí mismo para realizar tareas como reconocimiento de voz e imágenes al exponer a las
redes neuronales de múltiples capas a una gran cantidad de datos.
4.LOS PROCESOS DE INVESTIGACIÓN EN EL ÁREA DE SOCIAL BIG DATA Y MÉTODOS MIXTOS
Del mismo modo que ocurre en otras ciencias, una de las características sobresalientes de los datos masivos es
que la magnitud y la complejidad de los datos que se producen y se quieren analizar es tan grande que afecta a
diferentes momentos del proceso de investigación, siendo inviable llevar a cabo diversas operaciones de
recolección, procesado y análisis con métodos y técnicas tradicionales. En el Cuadro 2 destacamos algunos hitos
del proceso de investigación en el área de Social Big Data, incorporando diversas posibilidades analíticas que, más
allá de los habituales propósitos predictivos comunes al área de Big Data, profundizan en el vínculo micro - macro
y los métodos mixtos, propios de la Sociología y las Ciencias Sociales, en el contexto del procesamiento y análisis
de datos masivos. Hemos incorporado en el cuadro técnicas como el análisis de redes sociales o el análisis del
discurso, que conectan con un ejemplo que mostramos posteriormente. La idea de fondo es que, si bien la tónica
más habitual al pensar en Big Data ha sido trabajar desde la perspectiva mayoritariamente cuantitativa, así como
en la construcción de modelos y el avance de una ciencia social predictiva, para la Sociología y otras Ciencias
Sociales, la recolección de datos masivos puede ir ligada igualmente a una mayor diversificación de los
procesamientos y análisis de datos, desde una concepción en la que el objeto de conocimiento transita por el
continuum macro - meso - micro. Este foco, además de producir igualmente conocimiento útil para diferentes
fines, es también acorde a las metas y métodos propios de las Ciencias Sociales. Ciencias que ya, de hecho, han
indagado suficientemente en el ámbito de los medios sociales, aunque no habitualmente desde una aproximación
tan centrada en los datos masivos.
5.INTERNET COMO FUENTE: REPENSANDO EL MUESTREO PARA ACCEDER A DATOS SOCIALES MASIVOS
El estudio sobre los contenidos producidos en los medios sociales es un tipo de investigación basada en

documentos que proceden de Internet. Como otros trabajos de este tipo, se trata de una investigación
fundamentada en fuentes secundarias que maneja documentos de índole diverso (textuales, visuales, sonoros,
audiovisuales) recopilados en medios sociales. La recogida de la información o la producción de datos es una de
las tareas claves en la investigación, e implica definir algún tipo de criterio muestral, sea basado en criterios de
representación estadística, teórica, u otros, siempre en función de los objetivos que tengamos. En el caso concreto
de los medios sociales, estas tareas son quizás más complejas de emprender para los científicos sociales y aquí -
en el establecimiento de criterios muestrales y la extracción de datos- se encuentra uno de los cambios y desafíos
principales en las investigaciones basadas en Social Big Data, si las comparamos con otro tipo de investigaciones
más asentadas en las Ciencias Sociales.
Junto a la dificultad recurrente de establecer un claro marco muestral, la investigación en medios sociales cuenta
con la dificultad añadida de la recolección de datos, en la medida en que dicha recolección requiere en ocasiones
el manejo de técnicas ligadas a conocimientos informáticos (principalmente programación), sobre todo cuando
los objetivos de nuestra investigación nos conducen a la necesidad de obtener datos masivos o macrodatos. El
establecimiento de criterios muestrales para acceder a datos de medios sociales en Internet supone un cambio de
gran relevancia en el proceso de investigación. Por ejemplo, al estar los medios sociales dominados por empresas,
es frecuente no poder contar con datos suficientemente desagregados y fiables sobre las poblaciones de
referencia, lo cual es un hándicap para investigaciones cuantitativas, pues el desconocimiento del tamaño y
características del universo afecta directamente tanto a las posibilidades del diseño muestral, como a las de la
inferencia.
Otro ejemplo de las dificultades que entraña la investigación en este campo sería el de la volatilidad de los datos
frente a otro tipo de investigaciones sociales. El que los datos sean perecederos hace más difícil (o imposible) la
posibilidad de investigaciones de carácter retrospectivo, como ocurre cuando son las propias empresas (Twitter,
Facebook, etc.) las que borran algunas de sus cuentas (y con ello sus mensajes), a pesar de que ya han podido
tener un importante impacto social en aspectos como la propagación de discursos de odio (Avaaz, 2019). Aunque
algunos de los mensajes borrados hayan podido ser captados y almacenados previamente por investigadores, o
incluso aunque algo de esta información haya podido quedar almacenada para la posteridad en el repositorio
Internet Archive (https://archive.org/). la indefinición del universo a la que aludíamos y la volatilidad de los datos
son importantes handicaps para la investigación. Un ejemplo claro sería la suspensión de la cuenta de Twitter de
Donald Trump el 9 de enero de 2021, tras el asalto al Capitolio.
Como consecuencia, la investigación basada en la obtención de datos de medios sociales adopta nuevos
procedimientos técnicos. Por ejemplo, durante el muestreo, al contactar con las APIs es habitual establecer
criterios de búsqueda para realizar extracciones automatizadas de datos. Esta estrategia difiere claramente del
clásico establecimiento de un universo de partida a partir del que se diseñan muestras con un criterio de
representatividad estadística para, por ejemplo, la realización de una encuesta (en el enfoque clásico cuantitativo).
Frente a muestras probabilísticas, que permiten que todos los elementos de la población tengan la probabilidad de
ser seleccionados y con ello se puedan construir parámetros y realizar inferencias, en el área de Big data
difícilmente se puede contar con muestras de este tipo. Como señalaran Burgess y Bruns (2012), uno de los
problemas cuando este tipo de datos son almacenados por empresas es que no hay forma de saber cuán
incompletos están los datos que descargamos. Este tipo de limitaciones, más que llevarnos a descartar este tipo
de investigaciones, plantean diversos tipos de retos tales a los de la reducción de los sesgos de selección y
ponderación, así como otros que han sido ya discutidos (Keiding &Louis 2016; Elliott &Valliant 2017; Franke et al.
2016; Morstatter et al. 2013).
6.LIMPIEZA Y PROCESAMIENTO: DE LA MINERÍA AL ANÁLISIS DE DATOS Y LOS RETOS DERIVADOS DE LA
MAGNITUD Y LA COMPLEJIDAD
Sea más o menos acertado el término Big Data, es evidente que las Ciencias se encuentran tras el desarrollo de
Internet y los avances tecnológicos que corren en paralelo, con el desafío de manejar la ingente, compleja y
continua cantidad de datos que circulan o están accesibles en la red. A veces estos datos proceden de la

naturaleza y son medidos, por ejemplo, a través de sensores, mientras que en otras ocasiones puede tratarse de
datos que se originan en las redes sociales. En el campo de Social Big Data el foco principal lo tienen aquellos
datos que proceden de medios sociales, si bien es cierto que muchas investigaciones, encuadradas de alguna
forma en enfoques de métodos mixtos, dan valor también a datos procedentes de otras fuentes -como, por
ejemplo, datos censales, encuestas, etc.- para la explicación de fenómenos sociales (Rahman et al., 2020; Flores,
2017).
Aunque en este artículo nos enfocamos sobre todo en los desafíos para las Ciencias Sociales, y prestamos más
atención a la Sociología, la preocupación por el manejo de macrodatos alcanza cada vez más a las ciencias en
general (sociología, ciencia política, ciencia de la información, periodismo, economía, psicología, geografía,
astronomía, ecología, física, matemáticas, etc.). Esto se debe principalmente a que los métodos y técnicas de
investigación clásicos no suelen ser suficientes para el manejo de los volúmenes y complejidad de los datos que
se generan hoy en día en el mundo natural y social y a los que, cada vez más, la tecnología que se desarrolla
permite aproximarnos.
Con el crecimiento de los Big Data, emergen diversidad de técnicas y procedimientos destinados a la realización
de análisis de datos sobre todo de carácter textual, auditivos y visuales. Las características descritas arriba sobre
los Big Data obligan necesariamente a que se produzcan cambios sustanciales en cuanto a la captura,
procesamiento y análisis de datos si nuestro objeto es desarrollar investigaciones basadas en Internet desde esta
perspectiva. Existe mucha bibliografía, sobre todo técnica, que describe, sistematiza y profundiza en estas
técnicas analíticas, su estado actual y retos presentes y futuros (una buena revisión para datos sociales masivos
se encuentra en Bello-Orgaz, Jung, Camacho, 2016).
En lo que sigue, no obstante, nos referimos solo a algunas técnicas, sin ningún ánimo de exhaustividad, con el
objeto de hacer visibles algunos puentes de interés entre métodos clásicos de las Ciencias Sociales, y algunas de
las técnicas comunes en las Ciencias Sociales Computacionales actuales. Uno de los aspectos que nos interesa
es, igualmente, sintetizar alguno de los cambios sustantivos en los procesos de investigación social que supone el
incorporarse al estudio de Social Big Data, así como reflexionar sobre las aportaciones a la discusión sobre el
vínculo micro - macro que este nuevo campo abre. Si bien el procesamiento y análisis de datos en el campo de
Social Big Data puede abarcar el estudio tanto de datos textuales, auditivos o visuales, dada la limitación de
espacio, vamos a centrarnos sobre todo en algunos cambios metodológicos de relevancia respecto al análisis de
textos, cuando estos son de gran magnitud.
6.1.Un cambio de escala en el procesamiento de datos textuales
La ingente cantidad de datos que se genera en los medios sociales conduce al desarrollo de técnicas de
extracción de la información que permitan obtener datos estructurados para abordar el análisis de datos masivos
que frecuentemente son no estructurados. Diversos procedimientos, que se ayudan de algoritmos para el
procesamiento y el limpiado de información superflua para el análisis, facilitan el manejo posterior de los grandes
datos que se han recolectado. Las tareas de pre-procesamiento de datos textuales previas al análisis siempre
deben hacerse de acuerdo con los objetivos de investigación que hayamos formulado, si bien, como exponemos a
continuación, hay una serie de pasos que son habituales para trabajar con grandes volúmenes de información
textual. Recordamos algunas de las tareas típicas basándonos, entre otros, en el artículo de Welbers, van Atteveld
y Benoit (2017), que recoge perfectamente el proceso habitual que suele hacerse en el análisis de textos, lo
apliquemos al manejo de grandes o pequeños corpus de datos.
La investigación empírica en el campo de los Social Big Data arranca a partir de la obtención de datos procedentes
de Internet. Una vez tenemos estos datos, hemos de leerlos con el lenguaje de programación o programa que
vayamos a emplear para su procesamiento y análisis. Aunque son muchos los recursos que se pueden usar hoy
en día, el uso de R como lenguaje de programación de software libre para el análisis de textos destaca cada vez
más en Ciencias Socia- les. Sobresale igualmente, para llevar a cabo otro tipo de análisis e incluso para recolectar
datos de diferentes medios sociales, con aplicaciones cuantitativas y cualitativas.
Lenguajes como Python o R, así como otros, permiten llevar a cabo operaciones habituales relativas a la lectura,

procesamiento y limpieza de datos. En el caso de las indicaciones respecto al análisis de textos basadas R,
Welbers, van Atteveld y Benoit (2017), podemos ver un ejemplo de cómo se articula el paquete Quanteda en R de
forma coherente con otros paquetes complementarios en R para el análisis de textos (Benoit et al., 2018),
posibilitando su uso para el estudio de datos sociales masivos.
En el proceso básico de trabajo, una vez que leemos los datos, contaríamos ya con un corpus a partir del que
podríamos empezar a limpiar y preparar los datos o incluso realizar algunos análisis exploratorios [EDA,
Exploratory Data Analysis]. Para emprender algunas de las operaciones más interesantes y potentes que conlleva
el análisis de datos sociales masivos (en este caso textuales), lo habitual es preparar un corpus que permita
trabajar con toda esa cantidad de información de manera más rápida y efectiva. Aparecen aquí operaciones
básicas del procesamiento de textos tales a la lectura o importación de los textos originales y su conversión o
división en tokens. Los tokens son unidades significativas de texto (palabras -lo más habitual-, n-grams, frases,
párrafos), llamándose tokenización al proceso de dividir el texto en tokens (Silge y Robinson, 2021).
Otras tareas básicas en las primeras fases buscan la normalización, con el objetivo de generar textos uniformes,
de forma que el análisis sea más eficiente y se facilite. Entran en juego aquí transformaciones del estilo a
homogeneizar el texto de mayúscula a minúscula o, por ejemplo, eliminar las tildes y ñs, si esto fuera de utilidad
para contestar a nuestras preguntas de investigación. Otra operación frecuente es la de eliminar del corpus las
stopwords, o palabras vacías de contenido informativo. Para ello se compara el corpus con una lista de stopwords
y se aplican instrucciones a través de un script (u otro procedimiento) para que se eliminen estas palabras
superfluas antes del análisis. Palabras del estilo a "lo, la, los, las, y, de, que...". Esta operación reduce el tamaño del
corpus y mejora el trabajo computacional. Otra de las tareas típicas es eliminar los signos de puntuación, o los
números (si no son necesarios en nuestro análisis), y tratándose de redes sociales, entre las rutinas típicas se
pueden borrar espacios vacíos entre palabras, caracteres especiales tales a @, #, \\, los trazos de urls o incluso los
emojis. Muchas operaciones se ayudan de expresiones regulares que simplifican los procesos de búsqueda de la
información que se quiere modificar o limpiar. Cualquiera de estas tareas, aunque son típicas, vendrán
condicionadas por nuestros objetivos de investigación, así como por los procedimientos analíticos que
posteriormente se van a aplicar. Hay que tener en cuenta que, en la medida en que siempre conservamos los
textos originales antes de procesar, es posible usar el corpus original para contestar unas preguntas de
investigación, y el texto limpio o procesado para hacer otras operaciones que no requieran trabajar con todos los
datos.
Además de estas tareas elementales de limpieza de textos, es habitual llevar a cabo otras de radicación
[stemming] que consisten en normalizar o convertir las palabras en sus raíces para facilitar el recuento de
términos. Las raíces son la parte de las palabras que no varían, no necesariamente las palabras en sí mismas. Esta
operación convierte palabras conjugadas en raíces [stems], lo que de nuevo posibilita reducir el número de
elementos que forman nuestros textos. Otra operación posible, a veces usada en vez de la radicación, es la
lematización [lemmatization], que es una técnica que convierte palabras flexionadas o derivadas en sus lemas. El
lema está formado por una serie de caracteres que forman una unidad semántica con significante y significado. El
procedimiento normalmente emplea un diccionario para reemplazar las palabras con sus lemas. Estas estrategias
se benefician de los avances en el área del procesamiento del lenguaje natural [NLP, Natural Language
Processing] (Martí 2003; Vajjala et al. 2020). Actualmente son operaciones que se pueden realizar con apoyo de
diversos paquetes de software, así como, por ejemplo, a través de librerías o bibliotecas que funcionan en
lenguajes como Python (NLTK, Spacy) o R (quanteda, tm, tidytext, OpenNLP), citando algunas muy usadas. Tras
estos procesos se suele reducir el tamaño de datos a procesar, lo que mejora la capacidad de cálculo, lo cual es
esencial si trabajamos con datos sociales masivos.
6.2.De los textos pre-procesados a la matriz de términos [Documentterm matrix, DTM]
Una vez que el corpus se ha procesado, se puede crear una matriz documento-término o matriz de términos del
documento [Document-term matrix, DTM], donde las filas corresponden a los documentos de la colección y en las
columnas se encuentran los términos. En las celdas encontramos la frecuencia con la que ocurre cada término

(Benoit et al. 2018). A partir de aquí, se puede calcular la frecuencia del término [term frequency, tf], o frecuencia
en que una palabra ocurre en un documento y la frecuencia inversa del documento [inverse document frequency,
idf], o frecuencia en que el término ocurre en una colección de documentos (Silge y Robinson 2021). Las
estadísticas tf-idf ayudan a medir la importancia de un término en una colección de documentos.
Según el enfoque de minería de textos [Data mining] empleado, hay diversas vías para el análisis. Por ejemplo, una
aproximación está basada en el modelo de "bolsa de palabras" [BoW, bag-of-words], de acuerdo con el cálculo de
las frecuencias de palabras que hay en un documento, sin tener en cuenta la posición u orden de cada palabra en
el texto, aunque el contexto en muchas ocasiones puede ser clave. En el modelo de BoW se analizarían las
palabras como simples token, sobre la base de diccionarios. Otro enfoque es aquel en el que se lleva a cabo un
análisis sintáctico - semántico [semantic parsing] en el que se tienen en cuenta el orden en el que están las
palabras en el documento, así como el tipo de palabras. Es importante el contexto en este caso.
Las operaciones previas, sin ser las únicas, explicadas muy someramente, se realizan con frecuencia en
investigaciones basadas en grandes datos sociales o Social Big Data, en ocasiones al objeto de reducir el tamaño
de los corpus con los que operar o hacerlos más amigables y eficientes para la computación (Gualda y Rebollo,
2020).
7.MÁS ALLÁ DE LOS ALGORITMOS: REPENSANDO EL VÍNCULO MICRO Y MACRO EN EL CONTEXTO DE LOS
SOCIAL BIG DATA
Hasta ahora la Ciencia de Datos ha puesto un gran énfasis en asociar los datos masivos al desarrollo de técnicas
estadísticas avanzadas, en gran medida al servicio de potenciar la capacidad predictiva y aportar valor en
diferentes ámbitos empresariales. En este apartado presentamos un breve ejemplo de investigación al objeto de
mostrar algunas potencialidades analíticas de los Social Big Data, en la línea de reforzar un enfoque de métodos
mixtos, de gran utilidad para las Ciencias Sociales y la Sociología. Al mismo tiempo, nos paramos brevemente en
dar unas pinceladas sobre varias técnicas de análisis para mostrar la versatilidad que propicia el desarrollo de
enfoques mixtos y la combinación metodológica en la Sociología. Hace ya un tiempo Alexander y Giesen (1987)
plantearon que la lealtad a puntos de partida limita el éxito en los intentos de integración micro - macro y que era
necesario cambiar radicalmente de punto de arranque teórico para lograr un vínculo inclusivo. Más que una
estrategia de combinación se planteaba cambiar de modelo de partida. Münch y Smelser (1987) destacaron el
error de priorizar unos niveles sobre otros, enfatizando las interrelaciones entre los niveles micro y macro y la
necesidad de caracterizar los procesos transicionales y emergentes que se mueven en ambas direcciones como
agenda para los próximos años. En esta sección, aplicado al caso de los datos sociales masivos, exploramos este
desafío, que continua con una larga tradición sociológica.
7.1.De los procesos clásicos de codificación y categorización al aprendizaje automático y la inteligencia artificial
Si en la investigación clásica se llevan a cabo procedimientos de clasificación de la información (codificación y
categorización) básicamente forma manual, en el trabajo actual en el ámbito de los Social Big Data, es habitual
implementar otros procedimientos. Uno de los empleados en investigaciones sociales y políticas es el método de
codificación semiautomática con diccionario. En este, a través de varias etapas que pueden incluir la codificación
manual de muestras aleatorias se puede ir mejorando la fiabilidad al codificar (Casas, Davesa y Con- gosto, 2016.;
Gallego, Gualda y Rebollo, 2017; Arcila, Blanco y Valdez, 2020; Arcila et al. 2021).
La automatización, para llevar a cabo la clásica tarea de "codificar" en Ciencias Sociales (preguntas abiertas,
discursos, etc.), es necesaria ante la ingente cantidad de datos que se manejan. Conlleva habitualmente
desarrollar actividades de programación, sea a través de lenguajes como Python, R u otros, o a través de paquetes
que incorporan algunas de estas potencialidades, como es el caso de Tableau o Power BI, que permiten, en un
entorno quizás más amigable para científicos sociales no acostumbrados a programar, usar algoritmos para el
procesamiento de los datos, expresiones regulares o incluso conectar con estos lenguajes de programación. Otras
opciones las aportan, por ejemplo, paquetes tales a Atlas ti o NVivo -amen de otros similares- que incorporan
rutinas de codificación automática o de limpieza de stopwords en un entorno que no requiere la elaboración de
scripts complejos).

En tareas clásicas como la codificación, incorporar procesos de codificación semiautomática (con momentos de
revisión de códigos manualmente como verificación) suele ser muy útil para aplicar los códigos resultantes de
forma automática a la serie de datos que se está procesando y analizando, lo que permite alcanzar datos masivos,
algo que manualmente sería inviable. A veces es necesario llevar a cabo, desde cero, el proceso de elaboración de
libros de códigos o diccionarios iniciales, si bien en ocasiones se pueden encontrar diccionarios o lexicones ya
preparados en investigaciones similares, incluso en otras lenguas, por lo que podrían adaptarse y mejorarse.
Los procesos de codificación cualitativa (manuales o semiautomáticos), que ya de por sí son complejos, se nutren
a veces ante los Social Big Data de estrategias derivadas de la inteligencia artificial donde se aplican técnicas de
aprendizaje automático [machine learning], sea este supervisado, no supervisado o por refuerzo [supervised,
unsupervised, reinforcement machine learning] que buscan el reconocimiento de patrones en los datos, por
ejemplo, para ayudar en el proceso de clasificación de textos, a partir del entrenamiento de modelos que sin ser
programados específicamente, pueden ayudar a resolver problemas computacionales a través del ensayo y error
[reinforcement learning], del etiquetaje previo de algunos datos con los que se entrena a las máquinas [supervised
learning] o de la localización de similitudes [non supervised learning]. Estas estrategias son útiles en el proceso de
clasificación de ingentes cantidades de datos. El mismo aprendizaje automático cuenta con diferentes elementos
de utilidad para la sociología si quiere aproximarse al análisis de este tipo de datos (Molina y Garip 2019). Por otra
parte, estas técnicas de aprendizaje automático, u otras citadas menos sofisticadas, encuentran un uso cada vez
mayor para el análisis de datos documentales de Internet, en el estudio de fenómenos como el bullying (Bellmore
et al. 2015); tensiones sociales y análisis de sentimientos en comunidades on line (Burnap et al. 2016; Shu et al.
2017; Bello-Orgaz, Hernandez-Castro y Camacho 2017), discursos de odio y teorías de la conspiración (Arcila,
Blanco y Valdez 2020; Arcila et al. 2021; Calderón, De la Vega y Herrero 2020; Gualda 2020) y una variedad de otros
fenómenos sociales.
7.2.Análisis de redes sociales y micro discursos
Siguiendo con el ejemplo del análisis textual en el marco de los Social Big Data, una de las líneas que nos parece
más sugerente para las Ciencias Sociales Computacionales es la que conecta el análisis de redes sociales con los
datos sociales masivos, encontrando aquí diversidad de posibilidades de explotación de datos aún no
suficientemente exploradas, a veces por las propias limitaciones técnicas. Si nos detenemos por un segundo en
un mensaje típico en Twitter -similar en otros medios sociales-, en el contexto de un tuit se pueden encontrar
varias etiquetas [#hashtags] que, consideradas conjuntamente, muestran, aunque sea de forma simbólica, por lo
abreviado, un micro discurso. A partir de aquí, con procedimientos de filtrado, pueden elaborarse análisis
cualitativos destinados a interpretar aspectos como la simbología o condensación de significados que una sola
etiqueta incorpora (llamada a la movilización, crítica social, solidaridad, identidad, etc.) (Gualda 2016). Al mismo
tiempo, se pueden estudiar desde la perspectiva de las redes sociales analizando relaciones entre co-hashtags, o
co-ocurrencias de etiquetas en el mismo espacio de un tuit, a los efectos de encontrar patrones significativos que
a simple vista no se aprecian ante el amplio volumen de datos. De igual modo, podría hacerse respecto a las co-
palabras, si pensamos en el texto completo de un tuit, en las palabras que se encuentran en un blog, etc., lo que
nos puede permitir no solo conocer elementos clave del discurso, sino también sus conexiones, para profundizar
en otras facetas.
En nuestro estudio sobre el entramado de actores y mensajes que se difundieron en Twitter con motivo de la
manifestación de Madrid del movimiento negacionista en agosto de 2020, se extrajo la información a partir de la
etiqueta que se usó para la difusión de esta movilización. De esta forma, como criterio de búsqueda para la
descarga de datos a partir de la API Twitter se empleó la cadena: #madrid16a. El criterio establecido en la
plataforma que usamos para descargar los datos (t-hoarder_kit, de Congosto, 2016; Congosto, Basanta y Sánchez,
2017) fue simplemente que se descargaran los tuits que contenían dicha etiqueta. Una estrategia de muestreo
muy diferente a las clásicas. A partir de los datos descargados se extrajo una red de retuits y llevamos a cabo un
análisis de redes sociales, con el objetivo de identificar las diferentes comunidades en Twitter que estaban
conversando este día apoyando o no la manifestación.

Con ayuda de Gephi, un paquete de análisis de redes sociales, se representó visualmente la red de retuits y se
calcularon estadísticas de modularidad y centralidad de los actores de dicha red. El análisis visual y los datos de
modularidad permitió identificar una comunidad que se encontraba a gran distancia del resto por su
comportamiento relacional. Esta contaba con algunos actores conocidos, promotores del negacionismo, como fue
el caso de la cuenta de usuario de Miguel Bosé (@boseofficial, cuenta que se suspendió por Twitter), que ocupaba
una gran centralidad de grado e intermediación en ese cluster. Otras centrales fueron las cuentas de
@paseamosjuntos, @gatunaguerrera o @cisnenegrojmal, también con importantes grados de entrada, reflejo ello
de que sus mensajes fueron altamente retuiteados (Figura 1).
Para acercarnos a los contenidos que se estaban difundiendo por los actores de esa comunidad o cluster, ya en R,
vinculamos a partir de la identificación de cada @user la base de datos completa de tuits con los datos de
modularidad y centralidad obtenidos en Gephi para cada actor. De esta forma, pudimos aislar una submuestra de
tuits publicados por los actores que integraban el cluster negacionista, y estudiar su comportamiento a partir de
los mensajes publicados. El segundo grafo (Figura 2) muestra la red de principales co-hashtags del cluster donde
se encontraba la cuenta @boseofficial. El grafo mide las relaciones entre hashtags que comparten el mismo
espacio de un tuit. Mostramos solo los hashtags que forman la principal comunidad de co-hashtags
(representados en verde). El discurso tiene un claro tinte negacionista, como igualmente se aprecia a partir de la
elaboración de una clasificación de hashtags más frecuentes (Figura 3).
No parece casualidad la proximidad encontrada en este cluster entre hashtags tales a #plandemia,
#yosoylaresistencia, #coronatimo, #bozaltóxico, #tiranovirus, #controlavirus, #covid1984, #elviruseselmiedo,
#noalbozal, #noalamascarilla, #timovirus, etc. El discurso negacionista y conspiracionista se manifiesta en el
mismo espacio de crítica y ataque tanto al gobierno como a actores claves internacionales: #arrestbillgates,
#sanchezaprision, #iglesiasaprisión, así como de referencias a la privación de libertad: #queremosrespirar,
#covidesnazismo, etc. Algunoss hashtags como palabras clave que comparten espacio con otros desarrollan un
micro discurso plagado de metáforas, con una importante carga simbólica (#noalbozal). La exploración sobre las
pautas que adquiere el discurso en el contexto de microblogs tiene un gran interés desde la perspectiva de los
métodos cualitativos.
7.3.Análisis de sentimientos, discursos de odio y polarización
En un contexto donde la polarización, los discursos de odio o las noticias falsas son frecuentemente estudiados
en procesos de comunicación, a pesar de su dificultad técnica (Shu, 2017; Arcila et al., 2020; Arcila-Calderón, et al.,
2021; Sánchez y Arcila, 2020; MacAvaney et al., 2019), no es extraño que el análisis de sentimientos suscite
interés en el marco del análisis de textos para recoger las opiniones que se vuelcan en las redes (Rahman et al.
2020; Liu, 2012).
El interés en el análisis de sentimientos conecta igualmente directamente con algunos desarrollos que, basados
más en el análisis de redes sociales, teorizan sobre comunidades que conversan dentro de sí mismas en cámaras
de eco o especie de "burbujas de filtro" (Cinelli et al. 2020; Brugnoli, Cinelli, Quattrociocchi, et al. 2019; Stout,
Coulter y Edwards, 2017). Más allá de cuestiones teóricas, hay importantes desafíos técnicos en este campo (y
aún más complejidad en el caso del análisis de videos o fotos). Uno muy evidente tiene que ver con las
dificultades para clasificar contenidos procedentes de medios sociales que, como ocurre con otros textos,
siempre cuentan con problemas tales a la ambigüedad, los dobles sentidos, y otras peculiaridades del lenguaje
(MacAvaney et al., 2019). Adicionalmente, hay una gran laguna aún respecto a las capacidades para el
procesamiento y el análisis en el mismo proceso de investigación de texto, imágenes, vídeos o audios con la idea
de estudiar las conexiones entre sus contenidos, o para observar el componente emocional de algunos datos
publicados en medios sociales. Por ejemplo, aunque se ha identificado el componente emocional que incorporan
los robots sociales a campañas políticas (Ferrara, 2017), cuando se analizan datos masivos para la Sociología es
de gran interés poder saber si en un mismo mensaje (por ejemplo, un tuit), el discurso de odio se encuentra tanto
en el texto como en la imagen o vídeos adjuntos, o incluso en las URLs que se recomiendan.
Trabajar con algunos conjuntos de datos (de Twitter, por ejemplo) requiere especificar el idioma a través del que

se van a clasificar los sentimientos. En ocasiones hay complejidades añadidas porque no es infrecuente que ante
determinadas temáticas se escriban textos que incorporan palabras de varias lenguas (hashtags, por ejemplo). A
veces, la resolución de este problema va de la mano de un algoritmo que reconoce el idioma principal a partir de
umbrales que se delimitan, y esto a la vez es una ganancia, porque este tipo de estrategias posibilita el manejo de
datos masivos, pero al mismo tiempo es una pérdida, en la medida en que siempre hay márgenes de error que
asumir.
Muchos paquetes de análisis trabajan con diccionarios y lexicones en inglés, pero es posible encontrar una serie
de ellos (adaptados a lenguajes diversos como R o Python) de carácter multilingüe. Basándonos en la librería
Syuzhet sobre análisis de sentimientos que trabaja en R, hemos explorado emociones y sentimientos de los textos
correspondientes al cluster de @boseofficial. Para ello, se ha usado el lexicón en español de este paquete
(Mohammad, 2015). En él, a partir de los textos de los tuits, tras el preprocesado y limpieza de textos, se
proporciona un puntaje de sentimientos para cada tuit a partir del uso del diccionario NRC de sentimientos en
español. Se aportan dos tipos de puntajes. Uno evalúa si los tuits, de acuerdo con los sentimientos que expresa su
vocabulario, son positivos o negativos. Otro, respecto a las emociones: Ira, expectación, disgusto, miedo, alegría,
tristeza, sorpresa, confianza, donde se evalúa la intensidad en que están asociadas las palabras a diferentes
emociones. Una de las dificultades para este este tipo de análisis es precisamente que no siempre es viable
encontrar lexicones en todas las lenguas. Aparte de las ambigüedades, dobles sentidos, etc.
Pese a que habitualmente la bibliografía alude a que los contenidos que se vuelcan en Twitter son más positivos
que negativos, en el caso de los tuits asociados al cluster negacionista, hemos encontrado mayor carga de
sentimientos negativos (Figura 4) o de emociones negativas como Ira, etc. (Figura 5). Un paso más en el análisis
podría ser delimitar las palabras clave que caracterizan cada grupo de emociones, y compararlas con el conjunto
de datos total, a los efectos de identificar algunos aspectos que pueden estar sobrecargando el discurso que se
encuentra en las redes y que conviene explorar con más atención con ayuda de técnicas clásicas de corte
cualitativo.
La Figura 6 recoge las principales palabras de los tuits asociados a cada emoción, a modo de ejemplo. Aunque
permite una primera visión, habría que seguir profundizando para conectar estas palabras con el contenido
completo de los tuits donde aparecen. Otras estrategias son posibles, más sencillas o complejas, permitiendo la
articulación metodológica. Desde identificar los mensajes concretos donde aparecen los principales términos
asociados a cada emoción para estudiar el contexto en el que aparecen, hasta profundizar en aspectos como
puedan ser la descripción del tipo de hashtags con los que algunas palabras clave pueden compartir espacio en el
microdiscurso que se elabora en un tuit. Otros objetivos podrían ser conocer cuáles son las URLs que se
recomiendan, o analizar, con criterios visuales, si los videos y fotos que acompañan a los tuits refuerzan o no las
emociones que parecen expresar globalmente los tuits. Además de diversidad de aspectos complementarios que
podrían explorarse de forma cuantitativa si se comparan entre sí las comunidades de una serie de datos que
previamente ha sido sometida a un análisis de redes sociales. De esta forma, podría afinarse en la identificación
de los discursos principales expresados por los usuarios de los diferentes subgrupos de una red social.
8.AVENIDAS HACIA UNA SOCIOLOGÍA COMPUTACIONAL, MÉTODOS MIXTOS Y PREDICCIÓN SOCIAL
8.1.Predicción social y métodos mixtos
Recientemente, Chen, Wu, Hu et al. (2021) sugieren que la predicción social basada en el aprendizaje automático
tiene gran importancia en el horizonte de la sociología y las ciencias sociales, en aspectos tales a la obtención de
indicadores latentes de interés para la sociología, la generación de hipótesis teóricas, ayudar a llevar a cabo
inferencias causales, la estimación de valores perdidos o incompletos a través del aprendizaje automático y
promover la innovación. Apuntan a un cambio de paradigma que se abre en las ciencias sociales a raíz de la
introducción del aprendizaje automático. Este radica en el desarrollo de tres orientaciones: la cuantitativa (basada
en la correlación y la causalidad), la cualitativa y la predicción cuantitativa, esta última a raíz del rápido desarrollo
del aprendizaje automático y de factores como la posibilidad de contar con datos masivos representativos del
contexto histórico que puedan nutrir el aprendizaje automático de más información que facilite la "predicción

social" (Chen, Wu, Hu et al., 2021). Por otra parte, en el campo de los datos sociales masivos, en conexión con los
avances que se introducen en la inteligencia artificial, se observa una diversidad de aplicaciones orientadas hacia
la predicción, se trate de investigaciones que buscan pronosticar la personalidad basándose en datos relativos a
la interacción en redes sociales (Jang, 2021), el uso de algoritmos de machine learning en marketing para predecir
el comportamiento del consumidor (Baptiste, 2020), el establecimiento de predicciones que ayudan a tomar
decisiones política u otros usos en ciencias sociales (véase en Molina y Garip, 2019).
A pesar de la intensidad con que parece revitalizarse la predicción en la investigación social de la mano del
machine learning, y aunque se subrayan diversidad de aspectos positivos como, entre otros, la habilidad de las
redes neuronales artificiales para adaptarse a diversos tipos de datos (Di Franco y Santurro, 2021), se mantienen
muchas de las incógnitas y limitaciones de antaño respecto a la capacidad que tenemos para predecir fenómenos
sociales. Por otra parte, dado que las redes neuronales y especialmente el deep learning trabajan sobre la base de
capas ocultas donde se realizan operaciones en los datos, esto genera mecanismos de "caja negra" que suponen
igualmente una limitación y una falta de transparencia para la investigación social, en la medida en que la manera
de trabajar estas redes hace imposible ver el proceso completo que genera los resultados de aprendizaje, si bien
las predicciones puedan ser o parecer robustas. Esto dificulta conocer aspectos clave para la sociología cómo la
manera en que se relacionan las variables entre sí (Di Franco y Santurro, 2021).
Un aspecto complementario que, entre otros, dificulta la predicción tiene que ver con que algunos modelos
predictivos se asientan en procesos de preprocesado o transformación de datos donde los algoritmos manejan
umbral es que pueden ser una fuente de error. Un caso típico que puede citarse es respecto al etiquetaje
automático de palabras sobre la base de algoritmos basados en la distancia de Levenshtein o algoritmos de
distancia fonética, o cuando se aplican procesamientos de normalización léxica u otros relativos al procesamiento
del lenguaje natural destinados minimizar el efecto de las faltas ortográficas, omisiones y errores gramaticales
que frecuentemente se encuentra en textos publicados en los medios sociales (Ahmed, 2015). Por no decir de los
intentos de desambiguación aplicados automáticamente pueden fallar. Otras fuentes de error se encuentran en
estrategias o análisis concretos como cuando se evalúan los mensajes asignando un puntaje con relación a la
carga emocional detectada, que a veces no detectan la sutilidad o los dobles sentidos de los mensajes, o se
necesita, para una adecuada comprensión, un buen conocimiento del contexto que difícilmente un lexicón
estandarizado puede recoger si no se aplican procesos semiautomatizados.
El umbral establecido por los algoritmos importa. Estrategias de clasificación o reducción de datos, que pueden
ser algunas de las formas en las que se hace viable la investigación basada en datos sociales masivos, puede
tener, en este sentido, sus pros y sus contras. Una de las ventajas es que todas las tareas de preprocesado y
transformación de datos facilitan aplicar una serie de técnicas que con los textos originales serían menos
eficientes (o incluso imposibles) ante el ingente volumen y complejidad de los datos. Pero, dado que cualquier
transformación de los datos crudos desvirtúa el original, y puede hacer que se pierdan algunos sentidos
interpretativos o matices, es preciso valorar siempre este contraste entre las pérdidas y las ganancias antes de
ejecutar cada paso al investigar.
Las bondades atribuidas en la historia a la predicción en las ciencias sociales no son nuevas. No obstante, sin
rechazar la posibilidad de esbozar horizontes o escenarios a partir del análisis de datos sociales masivos, nos
parece importante para las Ciencias Sociales mantener un sano escepticismo respecto a nuestra capacidad
predictiva, sobre todo cuando se entiende esta como causalidad, a pesar de que un buen diagnóstico con el apoyo
de datos sociales masivos puede llevar a la toma de decisiones mejor informadas. En este sentido, la posibilidad
de aplicar modelos avanzados de estadística destinados a la predicción social no deben considerarse como una
panacea, sino más bien como la oportunidad de poder aproximarnos a la ingente cantidad de datos complejos que
se encuentran en los medios sociales y que serían inaccesibles de otra forma.
Por otra parte, la constatación histórica de la existencia de factores imprevisibles que afectan a la sociedad hace
que los modelos, que suelen ser útiles para esbozar escenarios, adelantarse a posibles problemas y ayudar a la
toma de decisiones, haya que considerarlos siempre con cierta reserva, huyendo del espejismo de la

predictibilidad (la pandemia de COVID-19 es un buen ejemplo de nuestra falta de control de los potenciales
imprevistos o elementos que invalidan en la práctica muchas predicciones).
El trabajo con los datos (sociales) masivos ha estado fuertemente influido hasta ahora por disciplinas como la
informática, la ingeniería, la estadística o las matemáticas. No obstante, desde la perspectiva sociológica, del
mismo modo que desde las Ciencias Sociales Computacionales y las Humanidades Digitales, otras miradas
complementarias son posibles, entre las que nos parecen especialmente productivas las que se encuentran
enmarcadas en los métodos mixtos, la hibridación y el pluralismo teórico y metodológico, al hilo de los que
emergen nuevas preguntas de investigación. En las páginas precedentes hemos mostrado un ejemplo a este
respecto.
Algunas de las limitaciones señaladas arriba no invalidan el estudio de datos sociales masivos, si bien plantean la
enorme importancia de ser concientes de hasta dónde pueden llegar en sus conclusiones, lo que puede ser
variable según las ciencias y el propósito de cada investigación. Nuestra invitación es quizás más a la prudencia.
En el campo de los datos sociales masivos otros elementos que invitan a la cautela son, por ejemplo, que estamos
a expensas de datos proporcionados por empresas, datos que normalmente no sabemos cuán completos o
sesgados están pero son la base que nutre nuestro análisis. En este sentido, una mirada crítica y la orientación al
esbozo de escenarios de cara a la prevención pueden ser más útiles que predicciones estrictas.
8.2.Avenidas de la Sociología computacional en el área de Social Big Data
Diferentes tipos de desafíos y/o hándicaps aparecen en el escenario de las nuevas Ciencias Sociales
Computacionales cuando estos se aplican al área de los datos sociales masivos. Desde todo lo que comporta ser
capaz de manejar grandes volúmenes de información en un tiempo razonable (inviable con estrategias clásicas),
hasta avanzar en aspectos como la profundización y mejora del estudio de los datos generados en streaming, con
lo que ello implica tanto de manejo de gran cantidad de información en tiempo real, como de formulación de
analíticas e indicadores sintéticos de utilidad. Igualmente, el avance en la identificación y el estudio de las
ambigüedades del lenguaje, los matices o la sutilidad del discurso en datos masivos.
La mejora en el análisis conjunto de texto, fotos, audio y video, que permita obtener una visión más integral del
contenido de cada mensaje es igualmente una línea muy prometedora y compleja para la Sociología, que entraña
la necesidad de avances tanto en la línea de almacenaje como de procesamiento y analítica de fotos, audios y
videos, con gran dependencia, por ejemplo, de los avances en el reconocimiento de audio e imagen, o en la mejora
con tecnologías de big data en procesos como los que llevan a poder revisar a fondo los vídeos, indexarlos o
trabajar con metadata para una búsqueda y recuperación más fácil y certera de contenidos, aspectos estos en que
algunas áreas de la inteligencia artificial avanzan. Conectados a los anteriores, se encuentran otros retos
complejos relacionados con la ética y la confidencialidad al trabajar con datos sensibles a veces. Junto al desafío
de poder articular los planos micro y macro con diferentes tipos de datos, está también el avance en el manejo de
la complejidad computacional para el procesamiento de grandes volúmentes de información estructurada y no
estructurada.
Otro aspecto importante es preguntarse por cambios venideros en la Sociología y en otras Ciencias Sociales
cuando se incorpora esta línea de trabajo. Además de la posibilidad de transferir algunos métodos y técnicas
desarrollados para el manejo de datos masivos, que pueden ser adaptados para otro tipo de datos, observamos
varios caminos complementarios para la disciplina. Por una parte, la apertura de una nueva especialización de
trabajo en el campo de la Sociología Computacional requiere necesariamente que nuevas generaciones de
Sociólogos reciban formación para ser capaces de abordar los nuevos desafíos al conocimiento que plantea la
gran cantidad de información publicada en los medios sociales. Esto, en la práctica, implica incorporar nuevas
materias de conocimiento en planes de estudio, tales al aprendizaje de Lenguajes de Programación, para superar
hándicaps técnicos y adquirir habilidades para trabajar escribiendo código para recolectar, procesar y analizar
datos sociales (Edelmann, Wolff, Montagne y Bail 2020; Evans y Foster 2019; Gualda y Rebollo 2020). Otra vía es
reforzar la presencia de los equipos inter y transdisciplinares con profesionales de ramas más técnicas,
especialmente para el manejo de aspectos técnicamente más complejos. Una tercera aproximación guarda

relación con la profundización en el manejo de paquetes de software más amigables o que requieren menor
capacitación técnica, si bien, son limitados a veces para el diseño y realización de investigaciones con datos
sociales masivos.
La Sociología Computacional saca ventaja de nuevas herramientas y fuentes de datos para amplificar su alcance
y escala, abriendo a su vez nuevos espacios en diferentes especialidades de la Sociología. "Y, sobre todo, amplia la
imaginación sociológica" (Evans y Foster 2019, traducción propia). Entre los aspectos más sugerentes que se
potencian en el ámbito de la Sociología Computacional, siendo una de sus facetas el análisis de datos sociales
masivos, se encuentra el uso de nuevos tipos de datos para revisitar preguntas sociológicas antiguas (en los
ámbitos micro-macro) o que se desarrollen creativamente métodos híbridos que contribuyan a profundizar en el
espacio entre niveles de análisis si se ligan teorías de corte macro con procesos a un nivel micro (Edelmann et al.
2020). Apreciamos, por tanto, el gran potencial que aporta para la Sociología el estudio de datos sociales masivos
y el enriquecimiento que produce la articulación de métodos y técnicas convencionales y modernas, así como la
fertilidad de la hibridación entre diferentes ciencias en la Sociología y Ciencias Sociales Computacionales en
construcción.
Footnote
1 Por la amplia difusión que tienen en este campo científico términos como Big Data u otros, hemos optado a lo
largo del artículo por usar terminología técnica tanto en inglés como en español. En ocasiones, para lectores no
familiarizados, hemos incorporado entre corchetes otros términos técnicos frecuentes en inglés.
2 Natural Language Processing (NLP).
3 Computer visión (CV).
4 Deep Learning (DL).
References
9.BIBLIOGRAFÍA
AHMED, B. (2015): "Lexical Normalisation of Twitter Data". Arxiv. Computation and Language,
https://arxiv.org/abs/1409.4614.
ALEXANDER, J.C. Y GIESEN, B. (1987): "From Reduction to Linkage: The Long View of theMicro - Macro Link". The
Micro-Macro Link. Berkeley y Los Angeles: University of California Press, pp.1-42.
ARCILA, C., BLANCO, D. &VALDEZ, B. (2020): "Rejection and Hate Speech in Twitter: Content Analysis of Tweets
about Migrants and Refugees in Spanish". Revista Española de Investigaciones Sociológicas, 172, pp.21-40.
ARCILA-CALDERÓN, C.; BLANCO-HERRERO, D.; FRÍAS-VÁZQUEZ, M. Y SEOANE-PÉREZ, F. (2021): "Refugees
Welcome? Online Hate Speech and Sentiments in Twitter in Spain during the Reception of the Boat Aquarius".
Sustainability, 13(5), 2728. MDPI AG, http://dx.doi.org/10.3390/su13052728
AVAAZ (2019): Far Right Networks of Deception. Avaaz Report 22/5/2019, https://secure.avaaz.org/avaaz report
network deception 20190522.pdf.
BAPTISTE, K. (2020): "Mass personalization: Predictive marketing algorithms and the reshaping of consumer
knowledge". Big Data &Society, 7(2), doi:http://dx.doi. org/10.1177/2053951720951581
BARTOSIK-PURGAT, M., Y RATAJCZAK-MROEK, M. (2018): Big data analysis as a source of companies'
competitive advantage: A review. Entrepreneurial Business and Economics Review, vol. 6(4), 197, http://0-
dx.doi.org.columbus.uhu.es/10. 15678/EBER.2018.060411
BELLMORE, A.; CALVIN, A.J.; XU, J.M. Y ZHU, X. (2015): "The five W's of 'bullying' on Twitter: Who, What, Why,
Where, and When". Computers in Human Behavior, 44, pp.305-314, https://doi.org/10.1016/j.chb.2014.11.052
BELLO-ORGAZ, G.; JUNG, J.J.; CAMACHO, D. (2016): "Social big data: Recent achievements and new challenges".
Information Fusion, 28, pp. 45-59, https://doi. org/10.1016/j.inffus.2015.08.005
BELLO-ORGAZ, G., HERNANDEZ-CASTRO, J., CAMACHO, D. (2017): "Detecting discussion communities on
vaccination in Twitter". Future Generation Computer Systems, 66, pp. 125-136,
https://doi.org/10.1016/j.future.2016.06.032
BENOIT, K.; WATANABE, K.; WANG, H. et al. (2018): "quanteda: An R package for the quantitative analysis of

textual data". Journal of Open Source Software, 3(30), 774, https://joss.theoj.org/papers/10.21105/joss.00774
BEYER, M. Y LANEY, D. (2012): "The Importance of "Big Data": A Definition",
https://www.gartner.com/en/documents/2057415/the-importance-of-big-data-a-definition
BRUGNOLI, E.; CINELLI, M.; QUATTROCIOCCHI, W. Y SCALA, A. (2019): "Recursive patterns in online echo
chambers". Sci Rep 9, 20118, https://doi. org/10.1038/s41598-019-56191-7
BULGER, M.; TAYLOR, G. Y SCHROEDER, R. (2014): "Engaging Complexity: Challenges and Opportunities of Big
Data", London: NEMDOE.
BURGESS, J. Y BRUNS, A. (2012): "Twitter Archives and the Challenges of "Big Social Data" for Media and
Communication Research". M/C Journal, vol. 15, 5, http:// joumal.media-
culture.org.au/index.php/mcjoumal/rt/printerFriendly/561Driscoll/0
BURNAP, P. Y WILLIAMS, M.L. (2016): "Us and them: Identifying cyber hate on Twitter across multiple protected
characteristics". EPJ Data Sci, 5, 11, https:// doi. org/10.1140/epjds/s13688-016-0072-6
CALDERÓN, C. A.; DE LA VEGA, G. Y HERRERO, D. B. (2020): "Topic Modeling and Characterization of Hate Speech
against Immigrants on Twitter around the Emergence of a Far-Right Party in Spain". Social Sciences, 9(11), 188.
MDPI AG, http://dx.doi.org/10.3390/socsci9110188
CASAS, A.; DAVESA, F. Y CONGOSTO, M. (2016): "La cobertura mediática de una acción "conectiva": la interacción
entre el movimiento 15-M y los medios de comunicación". Revista Española de Investigaciones Sociológicas, 155,
pp.73-96, http:// dx.doi.org/10.5477/cis/reis.155.73
CHEN, Y., WU, X., HU, A. et al. (2021): "Social prediction: a new research paradigm based on machine learning". The
Journal of Chinese Sociology, 8, 15. https://doi. org/10.1186/s40711-021-00152-z
CINELLI, M. et al. (2020): "Echo Chambers on Social Media: A comparative analysis". Physics and Society.
arXiv:2004.09603 [physics.soc-ph] arXiv.org physics >arXiv:2004.09603
CONGOSTO MARTÍNEZ, M. (2016): Caracterización de usuarios y propagación de mensajes en Twitter en el
entorno de temas sociales. Tesis Doctoral defendida en la Universidad Carlos III de Madrid. En
http://hdl.handle.net/10016/22826.
CONGOSTO, M., BASANTA-VAL, P. Y SÁNCHEZ-FERNÁNDEZ, L. (2017): "THoarder: A framework to process Twitter
data streams". Journal of Network and Computer Applications, vol. 83, 1, 28-39.
DEL VECCHIO, P.; MELE, G.; NDOU, V. Y SECUNDO, G. (2018): "Creating value from Social Big Data: Implications for
Smart Tourism Destinations", Information Processing &Management, Volume 54, Issue 5, 2018, pp.847-860,
https://doi. org/10.1016/j.ipm.2017.10.006.
DI FRANCO, G., SANTURRO, M. (2021): "Aprendizaje automático, redes neuronales artificiales e investigación
social". Quality &Quantity, 55, pp.1007-1025. https:// doi.org/10.1007/s11135-020-01037-y
EDELMANN, A.; WOLFF, T.; MONTAGNE, D.; BAIL, C. (2020): "Computational Social Science and Sociology". Annual
Review of Sociology, 46, https://doi. org/10.1146/annurev-soc-121919-054621
ELLIOTT, M. Y VALLIANT, R. (2017): "Inference for Nonprobability Samples. Statistical Science". pp. 249-264,
https://doi.org/10.1214/16-STS598
EVANS, J., Y FOSTER, J. G. (2019): "Computation and the Sociological Imagination". Contexts, 18(4), pp. 10-15,
https://doi.org/10.1177/1536504219883850
FERRARA, E. (2017): Disinformation and social bot operations in the run up to the 2017 French presidential
election. First Monday. [S.l.], https:// doi.org/ 10.5210/ fm. v22i8.8005
FLORES, R.D. (2017): "Do Anti-Immigrant Laws Shape Public Sentiment? A Study of Arizona's SB 1070 Using
Twitter Data." American Journal of Sociology, 123(2), pp.333-84
FRANKE, B. ET AL. (2016): Statistical Inference, Learning and Models in Big Data. International Statistical Review,
84, 3, pp.-389, https://doi.org/10.1111/insr.12176
GABDRAKHMANOVA, N.; PILGUN, M. (2021): "Intelligent Control Systems in Urban Planning Conflicts: Social Media
Users' Perception". Applied Sciences, 11, 6579. https://doi.org/ 10.3390/app11146579
GALLEGO, M.; GUALDA, E. Y REBOLLO, C. (2017): "Women and Refugees in Twitter: Rethorics of Abuse,

Vulnerability and Violence from a Gender Perspective", Journal of Mediterranean Knowledge, 2(1), pp.37-58,
http://www.mediterraneanknowledge.org/publications/index.php/journal/article/view/65
GUALDA, E. (2020): "Social network analysis, social big data and conspiracy theories". Butter, M. &Knight, P. (Ed.):
Handbook of Conspiracy Theories. London: Routledge, pp.135-147.
GUALDA, E. Y REBOLLO, C. (2020): "Big data y Twitter para el estudio de procesos migratorios: Métodos, técnicas
de investigación y software". Empiria. Revista de metodología en ciencias sociales, 46, pp.147-177,
http://revistas.uned.es/index.php/ empiria/article/view/26970
GUALDA, E. (2016): Spanish General Elections, Microdiscourses Around #20D and Social Mobilisation on Twitter:
Reality or Appearance?, Freire, F.C. et al. (eds.): Media and Metamedia Management: Switzerland: Springer
International Publishing, pp. 67-77.
HASHEMA, I.A.T; YAQOOBA, I; ANUARA, N.B. et al. (2015): "The rise of big data on cloud computing: review and
open research issues", Information Systems, 47, pp.98-115.
HE, J. Y XIONG, N. (2018): "An effective information detection method for social big data. Multimedia Tools and
Applications", 77(9), pp.11277-11305, https://doi. org/10.1007/s11042-017-5523-y
JIANG, Y., DENG, S., LI, H., &LIU, Y. (2021). "Predicting user personality with social interactions in Weibo". Aslib
Journal of Information Management, 73(6), 839-864. http://dx.doi.org/10.1108/AlIM-02-2021-0048
JIN, X. ET AL. (2015): "Significance and Challenges of Big Data Research". Big Data Research 2, pp.59-64.
KEIDING, N. Y LOUIS, T. (2016): "Perils and potentials of self-selected entry to epidemiological studies and
surveys". Journal of the Royal Statistical Society: Series A (Statistics in Society), 179, pp. 319-376,
https://doi.org/10.1111/rssa.12136
KUMAR, A. Y JAISWAL, A. (2019): "Swarm intelligence based optimal feature selection for enhanced predictive
sentiment accuracy on twitter". Multimedia Tools and Applications, 1-25, http://0-
dx.doi.org.columbus.uhu.es/10.1007/s11042-019-7278-0
LANeY, D. (2001, 6 de febrero): "3D Data Management: Controlling Data Volume, Velocity, and Variety", Gartner, file
No. 949, https://idoc.pub/documents/3d-datamanagement-controlling-data-volume-velocity-and-variety-
546g5mg3ywn8
LIU, B. (2012): "Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies",
5(1), pp.1-167, https://doi.org/10.2200/s00416ed1v01y201204hlt016
MORSTATTER, F.; PFEFFER, J.; LIU, H., &CARLEY, K. (2013): "Is the sample good enough? Comparing data from
twitter's streaming api with twitter's firehose". Proceedings of the International AAAI Conference on Web and
Social Media, 7(1), https://arxiv.org/abs/1306.5204
MACAVANEY, S.; YAO, H.; YANG, E. et al. (2019): "Hate Speech detection: Challenge and solutions". Plos One, 14(8),
https://doi.org/10.1371/journal.pone.0221152
MARTÍ, M. A. (2003): "Introducción". Tecnologías del lenguaje. Barcelona: Editorial UOC, pp.9-29.
MOHAMMAD, S.M.; KIRITCHENKO, S.; ZHU, X. Y MARTIN, J. (2015): "Sentiment, Emotion, Purpose, and Style in
Electoral Tweets". Information Processing and Management, 51(4), pp.480-499.
PLEBE, A. Y GRASSO, G. (2019): "The Unbearable Shallow Understanding of Deep Learning". Minds &Machines 29,
pp.515-553. https://doi.org/10.1007/s11023-01909512-8
RAHMAN, M.M.; ALI, G.G.M.N.; LI, X.J. et al. (2021): "Socioeconomic factors analysis for COVID-19 US reopening
sentiment with Twitter and census data". Heliyon, 7,2:e06200, https://doi.org/10.1016/i.heliyon.2021.e06200
MOLINA, M. Y GARIP, F. (2019): "Machine Learning for Sociology". Annual Review of Sociology, 45, pp.27-45,
https://doi.org/10.1146/annurev-soc-073117-041106
MÜNCH, R. Y SMELSER, N.J. (1987): "Relating the Micro and Macro". En Alexander et al. (eds). "From Reduction to
Linkage: The Long View of the Micro - Macro Link". The Micro-Macro Link. Berkeley y Los Angeles: University of
California Press, pp.356-387.
OLSHANNIKOVA, E., OLSSON, T., HUHTAMÄKI, J. et al. (2017): "Conceptualizing Big Social Data". Journal of Big
Data 4, 3, en https://doi.org/10.1186/s40537-0170063-x

PATGIRI, R. Y AHMED, A. (2016): "Big Data: The V's of the Game Changer Paradigm". 18th IEEE High Performance
Computing and Communications, Sydney, https://doi.org/10.1109/HPCC-SmartCity-DSS.2016.0014
PICCIALLI, F. Y JUNG, J. E. (2017): "Understanding customer experience diffusion on social networking services by
big data analytics". Mobile Networks and Applications, 22(4), pp.605-612, en http://dx.doi.org/10.1007/s11036-
016-0803-8
ROBLES, J.M.; TINGUARO, J.; CABALLERO, R. Y GÓMEZ, D. (2020): Big data para científicos sociales. Una
introducción. Centro de Investigaciones Sociológicas.
SÁNCHEZ, P. Y ARCILA, C. (2020): "Supervised Sentiment Analysis of Science Topics: Developing a Training Set of
Tweets in Spanish". Journal of Information Technology Research, 13(3).
SHU, K.; SLIVA, A.; WANG, S., et al. (2017): "Fake News Detection on Social Media: A Data Mining Perspective".
ACM SIGKDD Explorations Newsletter archive, 19(1), pp.22-36.
SILGE, J. Y ROBINSON, D. (2021): Text Mining with R! O'Reilly. https://www.tidytextmining.com/
STOUT, C. T.; COULTER, K. Y EDWARDS, B. (2017): "#BlackRepresentation, Intersectionality, and Politicians'
Responses to Black Social Movements on Twitter. Mobilization: An International Quarterly", 22(4), pp.493-509,
https://doi. org/10.17813/1086-671X-22-4-493
VAJJALA, V.; MAJUMDER, B.; GUPTA, A. Y SURANA, H. (2020): Practical Natural Language Processing: A
Comprehensive Guide to Building Real-World NLP Systems. Boston: O'Reilly.
WELBERS, K.; VAN ATTEVELDT, W. Y BENOIT, K. (2017): "Text analysis in R". Communications Methods and
Measures, 11(4), pp-245-265, https://doi.org/10.108 0/19312458.2017.1387238
DETALLES
Materia: Machine learning; Big Data; Sociology; Internet; Deep learning; Coronaviruses;
Artificial intelligence; Social sciences; Neural networks; Social networks; COVID-19
Término de indexación de Asunto: Machine learning Big Data Social networks

negocios:
Título: Social big data y sociología y ciencias sociales computacionales
Título alternativo: Social big data and computational sociology and social sciences
Autor: Gualda, Estrella11 Universidad de Huelva Grupo de Investigación ESEIS/Centro de

Investigación COIDESO
Número: 53
Páginas: 147-177

ISSN: 11395737
e-ISSN: 21740682
DOI: 10.empiria.53.2022.32631

ProQuest:
URL del documento: https://www. proquest.com/scholarly-journals/social-big-data-y-sociología-ciencias-

sociales/docview/2639719323/se-2

Premium Collection
Lo necesario, lo superfluo y la medición de la

pobreza
Ramos, José María Larrú 1 1 Universidad CEU SAN PABLO . Empiria ; Madrid N.º 53, (Jan-Apr 2022):
179-208.
TEXTO COMPLETO
Headnote
Recibido: 24.01.2020
RESUMEN
El objetivo de este trabajo es unir la aportación de la filosofía escolástica con la técnica de la medición de la

pobreza a fin de clarificar cuánto ingreso debe ser normativamente considerado para adquirir "lo necesario" para
vivir. La escolástica ha diferenciado -desde Tomás de Aquino- los bienes necesarios, los socialmente necesarios y
los superfluos. Sobre los dos primeros se reconocieron derechos de propiedad usufructuaria, pero no sobre los
superfluos. Lo que el trabajo investiga es saber si la línea de pobreza absoluta, nacional o internacional
(actualmente establecida en $1,90 diarios en PPP de 2011) da buena cuenta de la capacidad para adquirir "lo
necesario". Rechazada esta opción se propone un Índice de Acceso a lo Necesario y se analizan las
consecuencias de políticas públicas que conlleva la ambigüedad de "lo necesario".
PALABRAS CLAVE
Pobreza absoluta, pobreza relativa, necesario, superfluo.
ABSTRACT
The goal of this work is to combine the contribution of scholastic philosophy with the technique of poverty
measurement in order to clarify how much income should be normatively considered in order to acquire "what is
necessary" to live. Scholasticism has differentiated - from Thomas Aquinas - the necessary, socially necessary and
superfluous goods. On the first two rights of usufruct property were recognized, but not on the superfluous ones.
What the research investigates is whether the absolute poverty line, national or international (currently set at $
1.90 per day in PPP 2011) gives a good account of the capability to acquire "what is necessary". Once this option is
rejected, an Index of Access to the Necessary is proposed and the consequences of public policies that entail the
ambiguity of "what is necessary" are analyzed.
KEYWORDS
Absolute poverty, relative poverty, necessary, superfluous.
1.INTRODUCCIÓN
¿Cuánto ingreso tiene derecho a disponer un ciudadano para que pueda ser considerado respetado en su
dignidad? ¿Cuál es la cuantía de renta básica y qué criterios seguir para considerar que permiten acceder a lo
necesario para vivir? Estas preguntas remiten al cálculo del umbral de pobreza absoluta (lo necesario para
sobrevivir) o relativa (no quedar materialmente excluido de la sociedad en la que se vive). Parecen sencillas, pero -
como veremos- contienen más complejidad de la que aparentan. Una opción de cálculo para el umbral de pobreza
es considerar que el acceso a calorías suficientes, agua potable y unos mínimos educativos para poder ganarse la
vida constituyen criterios suficientes sobre los que elaborar un Índice de Acceso a lo Necesario. Esta es la vía que
se seguirá en este trabajo, cuyo objetivo es unir la aportación de la filosofía escolástica con la técnica de la
medición de la pobreza a fin de clarificar cuánto ingreso debe ser normativamente considerado para adquirir "lo
necesario" para vivir.
La hipótesis a investigar es si la actual línea internacional de pobreza absoluta fijada por el Banco Mundial para el
seguimiento de la pobreza, responde a los criterios mencionados. Si se rechaza la hipótesis, convendrá ofrecer
alguna alternativa que en nuestro caso denominamos Índice de Acceso a lo Necesario.
La cuestión tiene interés teórico y práctico. Desde el interés teórico, permitirá verificar si la actual línea de pobreza
abandonó o sigue estando adherida a poder adquirir lo que una persona necesita para vivir (tradicionalmente
reducido a una ingesta calórica determinada, en relación a su edad y sexo, pero sin tener en cuenta factores
idiosincráticos como el clima donde se viva, la actividad diaria realizada o el propio metabolismo basal de cada
individuo). Se comprobará que la actual línea de pobreza es resultado de un proceso estadístico, y no está
fundamentada en una adaptación contextualizada a cada país para adquirir "lo necesario" para vivir.
El interés práctico, por una parte, consiste en ofrecer un índice que se acerque mejor a lo que es "necesario" y lo
diferencie de "lo superfluo" o "socialmente necesario" dada la subjetividad en las preferencias que estos
conceptos incorporan. Variables como la renta básica universal, el seguro de desempleo, el ingreso mínimo vital al
cual todo ciudadano pueda tener derecho o la cuantía de una transferencia condicionada en efectivo, quedan
directamente relacionadas con la cuestión que aquí se tratará. Por otra parte, enlaza con la Agenda 2030 para el
Desarrollo Sostenible y los Objetivos de Desarrollo Sostenible 1 (erradicar la pobreza), el 2 (acabar con el hambre)
y el 6 (acceso al agua). El artículo propone un índice para medir de forma conjunta el acceso a los bienes más

necesarios.
Desde nuestro conocimiento, esta es la primera vez que se intenta unir criterios éticos como la distinción entre "lo
necesario" sobre lo cual se tiene derecho de propiedad y puede reclamarse como derecho a ser satisfecho por el
Estado y "lo superfluo" o relativo, que contextualiza la pobreza relativa y la ajusta para "no sentir vergüenza de
aparecer en público" como la describió Adam Smith1.
La estructura del trabajo es la siguiente. En la sección segunda se expondrá la doctrina que los filósofos
escolásticos elaboraron para fijar los derechos de propiedad y el acceso a los bienes necesarios. En la siguiente
sección, se revisa la literatura sobre la línea de pobreza absoluta y su cálculo actual para analizar si realmente
determina un umbral de acceso a "lo necesario" y se identifican sus debilidades. En la cuarta sección se ofrece
como alternativa un Índice de Acceso a la Necesario para países desarrollados y en desarrollo y se compara con el
Índice de Desarrollo Humano. La quinta sección recoge las conclusiones.
2.LA REFLEXION SOBRE "LO NECESARIO" Y "LO SUPERFLUO": ¿SOBRE QUÉ TENEMOS DERECHO DE PROPIEDAD
PRIVADA?
Cuando los filósofos escolásticos tuvieron que enfrentarse a la cuestión de la propiedad privada de los bienes,
hicieron una distinción de interés: existen bienes necesarios y bienes superfluos. Sobre los bienes necesarios,
defenderán una propiedad relativa (en usufructo) dado que su condición de creyentes les obligaba a referir la
propiedad absoluta a Dios, creador de todas las cosas. Sobre los bienes superfluos, consideran que no hay
derecho de propiedad y quedan sujetos al bien de la comunidad y a la subsistencia del pobre que podrá tomar de
ellos en caso de extrema necesidad2. Tomás de Aquino denomina "dominio principal" a la cualidad de todas las
cosas de pertenecer a Dios por ser su creador y "dominio natural" a la capacidad del hombre de ser custodio,
administrador o usufructuario de ellas.
Para el filósofo dominico, la propiedad privada no es de derecho natural (lo es la comunidad de bienes, pues todo
lo creado por Dios fue puesto a disposición del hombre en lo que se denomina el principio de destino universal de
los bienes3), pero puede serlo de derecho positivo (convención humana), si bien esta convención queda
subordinada a la comunidad de bienes. Las razones que aduce S. Tomás, de raíz aristotélica, para permitir la
propiedad privada como convención son tres: i) cada uno es más solícito en la gestión de aquello que le pertenece
en exclusividad; ii) porque las cosas se administran más ordenadamente cuando incumbe el cuidado de sus
propios intereses; iii) porque cuando cada uno está contento con lo suyo reina más la paz. Como vemos, son
razones "pragmáticas" más que ontológicas.
Aunque el hombre no disponga por derecho natural la propiedad, puede disponer de ella una "potestad de gestión".
S. Tomás divide los bienes en tres tipos: los bienes necesarios, los bienes socialmente necesarios -según su
contexto sociocultural- y los bienes superfluos4.
Sobre los bienes necesarios, el hombre posee una propiedad que podríamos titular de "usufructuaria". Son de Dios
porque todo ha sido originariamente creado por Él, pero el ser humano puede tomarlos para garantizar su
supervivencia. Así mismo, también tiene "dominio natural" sobre los bienes socialmente necesarios, aunque éstos
sobrepasen en nivel de la pura supervivencia física. La propiedad absoluta es de Dios, pero el hombre puede tener
propiedad "relativa". Bajo la virtud de la austeridad el hombre puede donar parte de estos bienes necesarios,
realizando una acción de "limosna (donación) de caridad" al privarse de lo necesario. Éticamente esta acción es
supererogatoria (no exigible a todo el mundo).
Sobre los bienes superfluos, cuya posesión no está justificada, se debe realizar una "limosna (donación) de
justicia"5. Los filósofos sociales escolásticos reconocieron que los impuestos deberían ser cargados sobre estos
bienes super fluos y no sobre los necesarios. Las cantidades que puedan donarse libremente por caridad o por
justicia, serán discernidas y decididas por la conciencia de cada uno.
De alguna manera, esta distinción entre lo necesario, lo socialmente necesario y lo superfluo puede aplicarse a los
conceptos de pobreza. La pobreza absoluta o extrema, al menos teóricamente, se concibe como la incapacidad de
un individuo (u hogar) de satisfacer con sus ingresos (en dinero, especie o autoconsumo) las necesidades
mínimas para su supervivencia. Es por ello que algunas líneas de pobreza son el resultado de cálculos

aproximativos sobre los ingresos necesarios para adquirir una cesta básica de bienes. Dado que esos bienes
imprescindibles pueden estar mediados culturalmente (por costumbres o gustos alimenticios), la composición
concreta de la cesta de bienes varía entre países (las líneas nacionales de pobreza). Lo más común hasta la fecha
ha sido aceptar ciertos postulados nutricionales para fijar el "mínimo vital", reduciéndolo -por simplicidad- a las
calorías diarias necesarias que una persona necesita para vivir.
Pero también hay variación en los bienes "socialmente necesarios" y los superfluos dada la naturaleza cultural del
hombre y la mujer y los diferentes niveles de desarrollo entre los países. El "gradiente" de necesidades
culturalmente diverso ha dado origen a la denominada pobreza relativa, sea en su sentido débil (más propia de los
países en desarrollo) o "fuerte" al concretarse en una medida de dispersión de los ingresos en los países
desarrollados (Sen 1983; Ravallion &Chen 2011; Chen &Ravallion 202; Jolliffe &Prydz 2017). La pobreza relativa6,
introduce en el debate sobre la pobreza qué es lo que puede considerarse "social y culturalmente necesario" y qué
es lo superfluo. Sobre lo superfluo, así como la doctrina escolástica no prescribía derecho de propiedad alguno,
tampoco el Estado tendría obligación política de asegurarlos de forma universal.
¿Cómo se mide entonces lo "necesario", entendiendo su falta como pobreza absoluta y pudiendo reclamarse un
derecho sobre los poderes públicos? ¿Cómo determinar lo superfluo para que los indicadores de pobreza relativa
realmente cumplan su función social de combatir "la vergüenza de aparecer en público" de la que hablaba Adam
Smith?
Estos son los interrogantes que guían esta investigación. Para abordarlos, se procede con una metodología mixta,
cualitativa (mediante la revisión bibliográfica más actual) y cuantitativa (revisando los datos disponibles y
juzgándolos críticamente).
La cuestión es importante porque si no hay claridad sobre el concepto de quién es pobre y el indicador concreto
que se utiliza, las valoraciones políticas sobre la eficacia de las políticas públicas en la lucha contra la pobreza
quedan sesgadas o manipuladas. Si un ciudadano cree que con sus impuestos se están transfiriendo recursos
(monetarios o en especie) hacia aquellos que carecen de lo realmente necesario, pero no es así porque se incluyen
otros elementos (que pueden estar socialmente justificados pero no explicitados de forma clara), podrá sentirse
engañado, precisamente en un campo donde la sospecha de corrupción, clientelismo y captura de rentas es
amplia, tanto en las políticas nacionales (transferencias en efectivo, subvenciones incondicionadas, rentas
mínimas o básicas concedidas a "afines" en vez de a los realmente necesitados que hacen un esfuerzo por
aprovechar la oportunidad que les brinda ese recurso público y muestran un resultado satisfactorio) como en las
internacionales (cooperación internacional al desarrollo).
Bastaría una encuesta a pie de calle en la puerta de un hipermercado y preguntar a los consumidores si lo que han
comprado es "necesario" para hacernos una idea de que jerarquizar y ordenar las necesidades básicas es más
complejo de lo que parece. La teoría económica neoclásica eludió esta complejidad escondiéndola bajo el
principio de "racionalidad" en un consumidor cuyo fin era satisfacer su individual función de utilidad, cualquiera
que fuera su composición concreta. Dado que el orden de esas necesidades era subjetivo (por no decir que incluso
caprichoso), las preferencias se consideraban estáticas y dadas, y las utilidades a lo sumo ordinalmente
comparables7. La teoría económica más moderna, derivada de los experimentos de la "economía del
comportamiento" (Hoff &Stiglitz 2010) pone en duda la validez de la neoclásica y sostiene que las preferencias
son dinámicas e influidas por lo cultural, la psicología y lo aspiracional de cada individuo (Haushofer &Fehr 2014;
Hoff &Stiglitz 2016; Thaler 2016; Tirole 2017: 137-157). ¿Se tiene en cuenta esta complejidad de "lo humano" a la
hora de fijar y dar seguimiento a la pobreza absoluta en el mundo? Tratamos de abordar esta cuestión en la
siguiente sección.
3.LO NECESARIO Y LA LÍNEA DE POBREZA ABSOLUTA.
¿Qué es lo necesario para vivir? La pregunta es compleja pues las necesidades humanas son múltiples. Los
debates en torno a las necesidades básicas frente a modelos que garanticen el empleo o el ingreso, que centraron
gran parte de los estudios del desarrollo en la década de los setenta (Streeten &Burki 1978; Streeten 1979;
Streeten et al. 1982; Jolly 2010)8, no llegaron a un consenso universal y necesario, pero fueron el antecedente de

lo que posteriormente sería el paradigma del desarrollo humano9. Este paradigma amplía "lo necesario" a las
oportunidades y capacidades para poder vivir la vida que cada individuo tenga razones para valorar (PNUD 1990;
Sen 2000). El indicador representativo de dicho paradigma (el Índice de Desarrollo Humano) considera "necesario"
no sólo ingresos para poder vivir un "nivel de vida decente", sino que también es necesaria una vida saludable
(estimada a través de la esperanza de vida al nacer) y acceder a unos estudios que permitan transformar los
deseos en oportunidades de ser y hacer lo que cada uno considere valioso (actualmente bajo los indicadores del
nivel de estudios promedio y esperados en cada país; PnUd 2011).
Incluso si sólo se consideran las necesidades materiales, el consenso parece difícil de lograr. Por ejemplo, el valor
medio del umbral de riego de pobreza en España entre 2008-2017 fueron 22,85 euros por persona al día. El salario
mínimo interprofesional tuvo una mediana de 24,75 para el mismo periodo. El Indicador Público de Renta de
Efectos Múltiples (JPREM) medio fue de 17,51 euros, pero la pensión mínima no contributiva fue de 14,28 euros. El
mínimo vital calculado en 2015 para acceso a las rentas mínimas de inserción se estableció en 10,01 euros, pero
según la Encuesta de Presupuestos Familiares de 2017, el quintil más bajo de ingreso se situó en 13,65 euros al
día. Por último, la línea de pobreza manejada por el Banco Mundial para España fue de 13,40 euros. El rango entre
las opciones es casi del doble entre una y otra. ¿Por cuál optar para realizar políticas sociales y con qué
fundamento?
¿Cómo ha procedido entonces el pragmatismo de los estudios cuantitativos de medición de la pobreza para
analizar quién y cuántos no alcanzan "lo necesario" para vivir? Revisamos a continuación tres de los principales
estudios realizados recientemente: Lindgren (2015), Allen (2017) y los procedimientos del Banco Mundial para fijar
la línea de pobreza (LP a partir de ahora) internacional en USD 1,90 al día.
Lindgren (2015) diferenció cuatro posibles umbrales para determinar "lo necesario". La línea "dura" de
supervivencia física para cualquier persona bajo las circunstancias más extremas, la denominó "línea suelo de
supervivencia" ("rock bottom line") y su estimación fue de $0,27 en Paridad de Poder Adquisitivo (PPA) de 2005. Si
se adapta al consumo requerido a unas circunstancias personales más normales de nutrición respecto a su altura,
edad y clima donde vive, la denominó "línea [de pobreza] mínima física" de subsistencia, y su estimación la situó
en $0,67 a precios de 2005 para una cesta de 2.100 calorías10. Por encima de ella se podría calcular la "línea de
consumo mínimo" para un grupo de personas en un momento dado. Por encima, el PIB per capita mínimo11; y
finalmente, la "línea malthusiana de subsistencia", en la que el crecimiento de la población de ese país fuera cero.
Bajo diferentes supuestos, los cálculos de Lindgren (2015) se mueven entre $0,32 al día y $1,28 en PPA 200512.
Allen (2017) realiza un ejercicio de programación lineal que le permite establecer un conjunto de líneas de pobreza
nutricionales con el mismo requerimiento calórico en cada país (con dos modelos de 1.700 o 2.100 calorías)13.
Además, aunque añade otros componentes no alimenticios para la determinación de su Línea de Pobreza (LP a
partir de ahora) (como vestido, electricidad y calefacción en los países fríos), utiliza los precios locales, lo que
evita los notables problemas derivados del uso de las Paridades de Poder Adquisitivo que tantos problemas
generan14. Sus resultados ofrecen 228,14 millones menos de pobres que los que estima el Banco Mundial con su
LP de 1,90$ al día15. Precisamente Allen parece mantener lo contrario en el propio título de su artículo: lo
necesario desplaza a lo deseado ("when necessity displaces desire")16.
Cuando el Banco Mundial tuvo que construir una línea internacional de pobreza comparable entre países y
consistente a lo largo del tiempo (Ravallion 1998, 2008, 2010, 2015; Ravallion, Datt &van der Walle 1991; Ravallion,
Chen &Sangraula 2009) partió de las líneas de pobreza nacionales entonces disponibles, eludiendo la tarea
normativa de discernir qué era "lo necesario" para vivir. Estas eran el resultado de encuestas de consumo (excepto
algunas que lo eran de ingreso como las de Iberoamérica o Europa) en las que se estimaba el nivel mínimo
(política y socialmente definido) sobre una cesta de bienes alimenticios y no alimenticios que se consideraba el
mínimo bienestar ("wellbeing"). Estos bienes son valorados por el precio de mercado, no por el coste específico de
obtenerlos, como lo hace la "línea física de subsistencia" de Lindgren (2015).
El proceso que han llevado a cabo los investigadores del Banco Mundial puede resumirse en los siguientes puntos
(Ravallion, Chen &Sangraula 2009; Ferreira et al 2016):

* Se parte de las líneas de pobreza nacionales en moneda local que se convierten a la unidad común de los dólares
internacionales mediante las PPA (o Purchasing Power Parity, PPP a partir de ahora) correspondiente a la ronda de
precios internacionales observados (International Comparison Program, ICP)17 más reciente;
* Con esas mismas PPP se calcula el consumo promedio de cada país obtenido de su contabilidad nacional;
* Se identifica el "suelo" de los consumos promedios más bajos en relación a las líneas de pobreza (en las rondas
de PPP 2005 de 2008 y PPP 2011 de 2015 se han mantenido fijas las de los 15 países con menor línea de
pobreza)18;
* Establecida la línea de pobreza internacional, se vuelve a utilizar la PPP más reciente para aplicarla a la línea de
pobreza nacional y obtener así la nueva línea de pobreza internacional en moneda local (es decir, se pasa $1,90
PPP 2011 a las monedas locales);
* Se actualiza la línea de pobreza local utilizando el Índice de Precios al Consumo (IPC) u otro índice de precios
disponible, para calcular la equivalencia de línea de pobreza de 2011 a la de los años posteriores y anteriores
sobre los que el Banco Mundial mide la pobreza por regiones y la global (1981, 1984, 1987, 1990, 1993, 1996, 1999,
2002, 2005, 2008, 2010, 2011, 2012, 2013 y 2015 hasta la fecha);
* Se estima el porcentaje de población bajo el umbral de la pobreza internacional, así como el número de pobres a
partir de los censos de población y datos demográficos que recopila Naciones Unidas.
El seminal trabajo de Sen (1976) ya estableció que para analizar de forma adecuada la pobreza era necesario
enfrentarse a dos problemas: el de la identificación (quién es pobre) y el de la agregación (cómo elaborar un
indicador que los agrupe)19. Seguiremos este orden para analizar críticamente la LP internacional establecida por
el Banco Mundial para determinar si refleja acertadamente un acceso "lo necesario".
3.1. Las dificultades de identificación.
Las dos principales fuentes para identificar a los pobres son las Cuentas Nacionales a través del "consumo
privado final de los hogares" y las encuestas sobre las condiciones de vida (a menudo las Demographic and Health
Surveys).
La principal limitación del consumo privado final de los hogares es que su cómputo suele ser residual (Ravallion
&Chen 2017:10)20. Es claro que este no refleja el consumo verdadero de los pobres, ni si ese consumo ha sido
sobre "lo necesario" o incluso siendo pobre se ha destinado a otros fines como recreación o festivales, como
reportan que no es inusual Banerjee &Duflo (2007)21. Se han realizado propuestas empíricas para ampliar la
cobertura de este consumo y completarlo con los servicios gratuitos que pueden recibir los pobres desde el sector
público y el privado, así como las transferencias en especie (mayoritariamente en salud y educación). Es lo que se
denomina "consumo ampliado" (Pena-Trapero 2009:303).
Las fuentes principales de datos de pobreza son las encuestas de hogares. El procedimiento usual para construir
la línea de pobreza nacional consiste en determinar técnicamente la línea de pobreza alimenticia promedio del
país, una vez ajustada por altura, actividad física y edad. A continuación, se buscan los hogares cuyo consumo
alimenticio cumpla ese estándar y se observa en qué y cuánto consumen que no sea alimenticio. Así se puede
identificar un "alza" (mark up) mínima a la línea de pobreza alimenticia, en promedio, para el país sin especificar
necesariamente los componentes de eso "necesario no alimenticio", como el combustible para cocinar, el vestido,
o la vivienda (Lindgren 2015:24-26).
El análisis comparativo de las líneas nacionales o internacionales que contiene la base del Banco Mundial (2018),
World Development Indicators, ofrece algunos resultados que podríamos calificar de sorprendentes, ya que se
supone que los datos internacionales son resultado de pasar las líneas de pobreza nacionales en moneda local a
dólares internacionales en PPA y precios actualizados utilizando su IPC.
Una primera idea de las diferencias en los datos puede verse en la Tabla 1.
El mayor dato de incidencia de pobreza según las LP nacionales fue del 83,3% en 2002 en Ucrania, mientras que
con la LP internacional fue en la R.D. del Congo en 2004 con un 94,1% de la población. El mínimo ofrecido por las
LP nacionales fue el de Malasia en 2014 y con las LP internacional hay numerosos casos de 0% de incidencia. Por
último, mientras que las LP nacionales contienen 8 casos de pobreza superior al 70% de la población, la

internacional ofrece 3422.
Conviene advertir la escasez de datos de que se dispone. Serajuddin et al. (2015) para el periodo 2002-2011,
identificaron que para 29 países en desarrollo no se disponía de ninguna encuesta, para otros 28 países sólo había
una observación y en 20 más apenas se contaba con dos observaciones separadas seis años o más, lo que
dificultaría mucho su actualización. En total, sobre 77 de los 155 países en desarrollo, apenas se disponía de
información fiable, lo que representa un 49,6% con datos deficientes o nulos. En suma, el grado de ignorancia
sobre cuánta población en el mundo realmente carece de "lo necesario" es muy elevado.
En la compilación de LP nacionales que hicieron Jolliffe &Prydz (2016) obtuvieron 126 encuestas entre la más
antigua de 2003 (Gambia) y las más modernas de 2012, a partir de los datos disponibles en el Banco Mundial, la
OCDE o el propio país (en los casos de EE.uU., Canadá y Finlandia). Las respectivas LP nacionales, trasformadas
en dólares internacionales de PPA de 2011 iban desde el mínimo de USD 1,27 al día de Malawi (2010) o USD 1,40
del R.D. Congo (2012) hasta los USD 35,12 al día de Noruega (2011) o los USD 32,39 de Luxemburgo (2011)23
como muestra la Figura 1.
Es sabido que las encuestas tienen sus propios problemas de identificación. En primer lugar, son caras. Kilic et al.
(2017) han estimado unos costes de entre USD 80.000 y los USD 5 millones. El coste de apoyar a los 78 países
miembros del IDA del Grupo del Banco Mundial para obtener una encuesta de pobreza de calidad cada tres años
entre 2016-2030 se eleva, según estos autores, a USD 945 millones (USD 692 millones en la ejecución de la
encuesta y USD 253 millones en asistencia técnica directa a las oficinas de estadísticas de los países). Salvados
los costes, sería necesario un cuestionario común, con entrenamiento específico a los encuestadores y cuidar
especialmente los subreportes de ingresos de los hogares más ricos (o su negativa a participar en la encuesta) y
el de los más pobres (por estar muy alejados y ser ineficiente entrevistarlos). Téngase en cuenta que, además,
suelen excluirse de las encuestas los hogares comunes (hospitales, centros de acogida, cuarteles, campos de
refugiados y desplazados, etc.), así como los que no disponen de un techo ni dirección domiciliaria.
En segundo lugar, deben tenerse en cuenta los errores de medida asociados al periodo de reporte. Por ejemplo, en
Jordania, encuestando la pobreza cada trimestre en 2010, Jolliffe &Serajuddin (2018) encontraron que el dato de
pobreza del 2° trimestre (abril-junio) era del 20,1%, el del 3er trimestre (julio-septiembre) de 14,8%, el 4° trimestre
(octubre-diciembre) de 18,2% y el primer trimestre (enero-marzo) de 19,4%. La diferencia entre ellos es del 5,3% y el
global anual había sido estimado en 14,4%. Es claro que, para una parte de la población, sobre todo rural, los
ingresos son estacionales y las percepciones pueden variar bastante sobre la realidad. Desirie &Jolliffe (2018)
encontraron que, en Etiopía, los dueños de las pequeñas propiedades de tierra sobreestimaban la producción
mientras que los grandes propietarios las subestimaban. Concluían así que la relación inversa frecuentemente
sostenida entre tamaño de la propiedad y productividad, no se confirmaba.
En tercer lugar, los resultados obtenidos en una encuesta pueden depender de factores como el periodo de
referencia. Por ejemplo, Beegle et al. (2012) utilizaron en un experimento, siete cuestionarios diferentes en
Tanzania entre muestras comparables y seleccionadas aleatoriamente. Cuando la única diferencia entre los
cuestionarios fue que el periodo de referencia fuera la semana anterior o la quincena anterior, el consumo medio
reportado en la quincena cayó un 12% y la pobreza aumentó un 8%. Cuando utilizaron un mismo periodo de
respuesta pero la longitud del cuestionario varió, el consumo promedió cayó un 24% en el caso del cuestionario
largo25. Jolliffe (2001) en un trabajo en El Salvador, ofreció cuestionarios sobre consumo cortos (27 ítems) y muy
largos (94 ítems) como por ejemplo "queso" vs. "tres clases de queso" y obtuvo los siguientes resultados: un 43%
más de consumo del primer decil con el cuestionario largo; un 30% más en el 2° decil; un 26-27% en los deciles 3 a
6; un 25-36% en los deciles 8 y 9 y un 40% más en decil 10. Este mismo autor, menciona el caso de la India, donde
al modificar el periodo de reporte del consumo de alimento en 2009 (a un método mixto en vez de los 30 días que
era el periodo de las encuestas desde los años '50) se obtuvo un descenso de pobreza del 9% (109 millones
menos).
En cuarto lugar, el tratamiento de los datos tampoco está exento de dificultades. Es necesario hacer un
tratamiento de los "no sabe" y "no contesta" y de falsos ceros. Conviene tener en cuenta que los entrevistadores

pueden tener incentivos a "rellenar" por sí mismos los cuestionarios si cobran por el número presentado de
ellos26.
Debe tenerse en cuenta que las encuestas nacionales que sirven para medir la pobreza suelen centrarse en los
hogares, pero también pueden considerar sólo al individuo como unidad. Algunas de ellas, utilizan equivalencias
de escala sobre el hogar, mientras que otras no27. También difieren en su naturaleza, pues algunas pretenden
apreciar el conjunto de ingresos o renta (las de los países desarrollados y América Latina, principalmente)
mientras que otras lo pretenden sobre el consumo. Apreciar con rigor tanto los ingresos como el consumo es
difícil, sobre todo cuando hay autoconsumo o ingresos no monetarios y porque los bienes no comercializables
tienden a no ser bien valorados. Lo mismo pasa con las transferencias en especie (educación y salud, sobre todo).
3.2. Los problemas de agregación.
El proceso de agregación se enfrenta en primer lugar a la actualización de los datos recogidos en los diferentes
periodos de realización de las encuestas. Para ello es necesario emplear un deflactor. Lo ideal sería poder
disponer de un índice de precios realmente ajustado al patrón de consumo de "lo necesario". Ante la ausencia de
tal indicador específico suele utilizarse el IPC28. El rigor del IPC depende, claro está, de la capacidad estadística
del país, pero también del lugar y frecuencia donde se observen los precios. Las diferencias entre precios urbanos
y rurales suelen ser notables (más altos los de la ciudad) y la estacionalidad influye en los precios de alimentos,
por eso es conveniente desestacionalizarlos29. Los errores de medida pueden ser amplios30.
Pero el problema principal de agregación se produce en la conversión de las monedas nacionales a la
internacional, mediante las Paridades de Poder Adquisitivo (PPA) 31. Deaton &Dupriez (2011) hicieron una
propuesta interesante para observar específicamente los bienes consumidos por los pobres y elaborar así una
Paridad de Poder Adquisitivo de Pobreza, pero no ha tenido una respuesta por parte de la comunidad
internacional.
El rigor de las PPA ha sido determinante en la credibilidad de los datos sobre pobreza mundial. Aunque la
participación de cada vez más países en este proceso ha ido ampliándose significativamente32, aún hay
problemas notables. Por ejemplo, antes del ajuste realizado por Ferreira et al. (2016), Dykstra et al. (2014) hicieron
una primera aproximación al número de pobres utilizando los precios del ICP de 2011 y el IPC de EE.UU. para
actualizar los dólares de 2005 y obtuvieron que la incidencia de la pobreza mundial pasaba del 19,7% al 8,9% "de la
noche a la mañana" como podría traducirse su trabajo. Si no se ajustan los precios rurales de China en la ronda de
2005, por ejemplo, la pobreza del país sería del 35% frente al 18% si se toman en cuenta. Lo mismo para India que
pasaría de tener un 62% de incidencia de pobreza con precios urbanos al 13% incluyendo los precios rurales
(Klasen et al. 2016:213)33.
En suma, esta sección muestra que puede rechazarse la hipótesis de que la LP internacional comúnmente
utilizada y seleccionada por el Banco Mundial refleje realmente la capacidad de los identificados como pobres
como carentes del acceso a "lo necesario", ya que se procede mediante instrumentos estadísticos que ha
abandonado la idea de apreciar en cada país un acervo común de lo que se considere realmente "necesario": la
ingesta calórica, por ejemplo. En la siguiente sección proponemos un acercamiento novedoso a la cuestión.
4.HACIA UN "ÍNDICE DE ACCESO A LO NECESARIO".
Una forma de identificar un "suelo" común de disponibilidad de bienes necesarios es reducirlos a los alimentos y
agua34. Dadas las diferencias climáticas, estacionales y los gustos derivados de la cultura de cada país, tampoco
es una tarea sencilla. Pero lo que se ha venido haciendo es estimar las calorías necesarias para mantener una vida
sana y activa y componer "cestas básicas de alimentos" que aportarían ese equivalente de calorías por persona,
ajustadas a la edad, sexo, clima y actividad física que realice cada individuo35. La población que no las alcanza, es
denominada por la FAO "prevalencia de desnutrición".
Medida bajo la metodología de la FAO (2008), la "prevalencia de desnutrición" para el periodo 2014-2016 fue de
728,6 millones de personas carentes de lo "alimentariamente necesario", aproximadamente el 10,8% de la
población mundial36. Los 10 países con mayores niveles de esta carencia se ofrecen en la Tabla 2, en las cuatro
primeras columnas.

Si atendemos al porcentaje de la población del país carente de lo necesario en materia nutricional, los diez
primeros países del ranking pueden verse en las dos últimas columnas de la Tabla 2.
La prevalencia de subalimentación puede deberse a falta de acceso a macronutrientes equilibrados
(carbohidratos, grasas o proteínas) o de micronutrientes (hierro, ácido fólico, riboflavina, vitaminas A y B12)37.
Uno de los hechos que siguen sorprendiendo a los investigadores es que el aumento de ingresos no se traduce
linealmente en una mejora de la ingesta alimenticia, sino que hay efectos de sustitución y complementariedad en
el consumo. Por ejemplo, Deaton &Dreze (2009) encontraron que en la India había un menor consumo calórico a
medida que crecía el ingreso, sobre todo por una sustitución hacia alimentos más ricos en grasa en vez de en
proteínas. Para estos autores, la explicación podría venir del lado de la mejor salud y menor actividad física -y por
tanto las necesidades calóricas- a medida que aumenta el ingreso38. Es muy probable que factores como la
urbanización y el consumo de alimentos elaborados frente a los frescos más disponibles en el ámbito rural, sean
factores explicativos de esta combinación de subalimentación por incapacidad de acceso directo o renta para
adquirirlos, con obesidad por pautas de consumo no saludables39. Nótese que, además de la accesibilidad a
alimentos y agua, es necesario disponer de cierta formación para estar bien nutrido. Un ejercicio empírico de
interés es clasificar a los países en función de estos tres factores: el porcentaje de la población que está bien
nutrida, el que tiene acceso a agua limpia y el nivel promedio de estudios de su población. En el Tabla 3 puede
verse el resultado del indicador sintético que, siguiendo la metodología equivalente que utiliza el Índice de
Desarrollo Humano (IDH), podríamos denominar "Índice de Acceso a lo Necesario" (IAN).
La correlación de Pearson entre el IAN y el IDH es de 0,9289 (R2=8628) y la correlación de Spearman entre sus
respectivos rankings de 0,9370, con lo que podría afirmarse que el IDH es un buen proxy de acceso a "lo necesario"
en corte transversal, pero no coincidente. La correlación del IAN con la renta nacional per capita es muy inferior:
0,6571 (R2=0,4318). Por ejemplo, España en 2015 ocupó el puesto 27 en el IDH mientras que aparece en el puesto
46 en el Índice de Acceso a lo Necesario. De los 161 países con datos disponibles, 54 países empeoran su valor
respecto al que tenían con el IDH, lo que supone un tercio de los países de la muestra y 79 bajan en el ranking. La
mayoría de los que empeoran su valor y ranking son países de África Subsahariana (los que más fueron Uganda,
Etiopía y Burkina Faso) y alguno del Este de Asia (Timor, Mianmar, Camboya).
Mientras Vanuatu y Antigua y Barbuda tienen mismo IAN (0,704) la diferencia entre sus IDH es del 18,9%. En
sentido contrario, Angola y Nigeria tienen parecido IDH (0,533 y 0,527) pero una diferencia del 34,4% entre sus
IAN40. Estas diferencias son una muestra de la relevancia que tiene el IAN a pesar de la correlación con el IDH a la
hora de priorizar políticas públicas.
Además de sus propiedades estadísticas que permiten una interpretación cardinal sencilla y ordinal dentro del
intervalo [0:1], creemos que el IAN es útil porque logra unir el seguimiento de tres ODS como son el 1 (reducción de
la pobreza), el 2 (hambre) y el 6 (acceso al agua). Unir salud, nutrición y educación invita a una consideración
estructural tratamiento de carácter estructural e integral para reducir la pobreza, y superar algunas de las
deficiencias que tiene hacerlo exclusivamente por el nivel monetario del ingreso por habitante.
5.CONCLUSIONES.
Este trabajo ha tomado como punto de partida la distinción tomista entre los bienes necesarios y los superfluos.
Dado que sobre los primeros se tiene derecho de propiedad usufructuario, se infiere que los pobres son los que
carecen de esos bienes necesarios para la vida en dignidad.
Fruto del análisis cuantitativo y cualitativo realizado sobre las fuentes e indicadores de pobreza disponibles, se ha
evidenciado que la LP internacional más utilizada (1,90 dólares al día en PPA de 2011) no refleja con rigor una falta
de acceso a lo necesario para sobrevivir. Es fruto de procedimientos estadísticos que permiten la comparación
internacional a partir de las encuestas y LP nacionales, pero de ella no puede inferirse que la incidencia de la
pobreza equivalga a "morir de hambre y de sed". Alternativas como las de Lindgren (2015) o Allen (2017) pueden
considerarse en mayor sintonía con el acceso a lo "realmente necesario".
Si se reduce "lo necesario" al mínimo vital, las líneas de pobreza deberían partir del acceso a los alimentos y agua
imprescindibles para la supervivencia. Por tanto, el concepto a priorizar en las políticas públicas debería ser la

seguridad alimentaria (y por tanto el Objetivo de Desarrollo Sostenible 2 de erradicar el hambre y el 6 de acceder a
agua limpia). Dado que la nutrición, la salud y la educación (en higiene y alimentaria) correlacionan, se ha
elaborado un indicador sintético, el Índice de Acceso a lo Necesario, con estas tres dimensiones que ofrece un
ranking diferencial respecto al IDH.
A partir de lo realizado en este estudio, parece recomendable explorar en el futuro metodologías alternativas de
medición de pobreza como la basada en el enfoque de las capacidades que inició el trabajo de Reddy et al. (2009),
o los intentos de unificación de pobreza extrema y pobreza relativa bajo líneas de pobreza híbridas que den más
peso a lo necesario que a lo socialmente necesario o superfluo en la línea de los trabajos de Decerf (2015, 2018) o
Ravallion (2017), Ravallion &Chen (2017).
Otra línea de futura investigación relacionada es la consideración de cómo influyen las aspiraciones en la
identificación subjetiva de la pobreza y en los incentivos de los sujetos para salir o adaptarse a ella (Duflo 2012,
Dalton et al. 2014; Lybbert &Wydick 2018).
Por último, el artículo abre la puerta al diálogo con el "limitarismo" (León 2019) que propone una moral de límites
superiores a la acumulación de riqueza en los contextos de democracias requeridas de controles y balances
efectivos para la codicia de los poderosos tanto en explotación insostenible de recursos naturales como en
influencia política que mantiene sus privilegios. Robeyns (2016), por ejemplo, propone una línea máxima de
riqueza.
Footnote
1"Por necesidades, yo entiendo no solamente los bienes que son indispensables para la vida, sino también aquello
que las costumbres del lugar consideran indecente que las personas -aun las de menor nivel- no posean. Una
camisa de lino, por ejemplo, no es -estrictamente hablando- necesaria para la vida. Los griegos y romanos vivían -
supongo- muy confortablemente aun cuando no tenían camisas de lino. Pero en los tiempos actuales, en la mayor
parte de Europa, un trabajador respetable tendría vergüenza de aparecer en público sin una camisa de lino, ya que
ello denotaría haber caído en tal nivel de pobreza que se presume que nadie debería sufrir si no es por una extrema
mala conducta. De la misma manera, la costumbre ha convertido a los zapatos de cuero en necesarios para la vida
en Inglaterra. La persona más pobre de cualquier sexo, estaría avergonzada de aparecer en público sin ellos" Adam
Smith, An Inquiry into the Nature and Causes of the Wealth of Nations 1776, p. 769, citado por Amartya Sen
(1992:314). Llama la atención que, pese a la distancia en el tiempo del escrito de Adam Smith, este mismo bien (un
par de zapatos) es referido en la actualidad como testimonio directo recogido en el ejercicio cualitativo llevado a
cabo por el PNUD (2015). A la pregunta de qué es progreso un cabeza de familia respondió: "Vos esperás que el
sueldo dé para comer, salir, vivienda, pagar impuestos,...poder comprar un par de zapatos sin pedirle a alguien te
los saque con la tarjeta" (PNUD 2016:91). También es llamativa la actualidad de la excepción "si no es por una
extrema mala conducta" si pensamos en acciones como "okupar" una vivienda, o presentar documentación falsa
para obtener una prestación.
2 El desarrollo de la cuestión se encuentra en Suma Teológica II, Ilae, q.66. Para una ampliación del tema puede
consultarse Aparicio (2017).
3 Este principio afirma que los bienes están originariamente destinados a todos y es por ello que incluso quien
roba en caso de extrema necesidad, no peca: "Por otra parte, en caso de necesidad todas las cosas son comunes;
y por lo tanto no constituye pecado el que uno tome una cosa de otro, porque la necesidad lo hace común." Suma
Teológica II, Ilae, q.66 a.7.
4 Éstos son considerados en el contexto del culto divino en la "questio 93".
5 La cuestión de la justicia está desarrollada en la Suma Teológica II, IIae, q. 58 y será ampliada posteriormente
por el papa León XIII en su encíclica Rerum novarum, n° 16.
6 La pobreza relativa fuerte o "tasa de riesgo de pobreza" es normalmente medida por un umbral discrecional
respecto a los ingresos medianos (50% en el caso de la OCDE o 60% en el caso de la Unión Europea, por lo que
cabe considerarla más como una medida de desigualdad interna en un país o de exclusión social, como hace el
indicador europeo AROPE (At Risk of Poverty and/or Exclusion). Este añade la pobreza relativa un indicador de

baja intensidad laboral (bajo el supuesto de que quien carece involuntariamente de empleo, se puede sentir
excluido de la sociedad) y un indicador sintético denominado "Privación Material Severa". Este es el resultado de
responder afirmativamente en la encuesta que sirve para su realización a cuatro de los 9 items sobre privaciones.
En España el porcentaje de población en privación material severa ha variado entre un 27,2% en 2007 y un 38,6%
en 2014. Los ítems con mayor incidencia son "no poder irse de vacaciones fuera de casa al menos una semana al
año" (el 40% en 2016) y "no poder afrontar un gasto imprevisto de 650 euros con sus propios recursos" (el 38,7% en
2016). Es posible que muchos no consideren estos ítems como "realmente necesarios" y defiendan la no
intervención pública para atenuarlos. Véase Comisión Europea (2010), Larrú (2013) y Larrú (2016) para una
revisión de la literatura.
7 Algunas excepciones notables fueron las de Smith, Ricardo, Marx y, por supuesto, Veblen con su diferenciación
de necesidades materiales de las psicosociales; Keynes, diferenciando necesidades absolutas de las relativas
(insaciables); y Scitovsky distinguiendo los bienes de consumo defensivos de los creativos; cf. Alvarez
Cantalapiedra (2017:15-16).
8 En los ochenta, los trabajos de Max-Neff y Elizalde en el Centro de Alternativas para el Desarrollo (CEPAUR)
ofrecieron una propuesta de necesidades humanas universales (no sólo las de los pobres) con sus
correspondientes satisfactores, en lo que es conocido como "desarrollo a escala humana"; cf. Max-Neef (1994).
9 Lejos de superado, el tema sigue debatiéndose. Por ejemplo, Ravallion (2018b) discute si en la India es más
favorable la ley que garantiza en la actualidad un empleo público para reducir la pobreza o las transferencias bien
focalizadas que aumenten los ingresos de los hogares. Su (no) conclusión es que dependerá de cada caso: "it
cannot be presumed that switching to a universal basic income will reduce poverty more than workfare or finely-
targeted transfers; that is an empirical question and the answer will undoubtedly vary across settings, belying the
generalizations often heard from advocates. Nonetheless, more incentive-neutral, universal and/or state-
contingent transfer schemes merit consideration in settings in which existing public spending is skewed against
poor people and/ or there is scope for raising taxes on the rich".
10 Lindgren estudia también el efecto de los siguientes factores sobre la "línea mínima de salud física": los precios
(50%-150%); la altura de los sujetos (84%-115%); la edad (97%-110%); el clima (menos del 5%). Ravallion (2016)
obtuvo un valor mínimo de consumo global de idéntico valor, mediante manipulaciones estadísticas, a partir de las
LP nacionales. Los diferentes escenarios y supuestos de Lindgren ofrecen un rango de posibles líneas de pobreza
entre los $0,11 (la "rock bottom line") y $1,13 para lograr esas 2.100 calorías y $1,42 en el caso de las condiciones
y supuestos más exigentes.
11 Para 2016, el PIB per capita al día variaba entre los $1,91 de Rep. Centroafricana (seguido de $2,13 de Burundi y
$2,20 de R.D. Congo) y los $349,26 de Qatar y $280,52 de Luxemburgo. El de España se situó en $99,47. Los datos
proceden del Banco Mundial (2018), indicador NY.GDP. PCAP.PP.CD dividido entre 365.
12 Lindgren utiliza la "cesta mínima" (barebones basket) de bienes de Allen (2013) que aportaba en la Inglaterra
del siglo XVIII unas 2100 calorías a base de: avena (466 gramos al día: 1657 calorías); judías/guisantes (55
gramos al día: 187 calorías); carne (14 gramos diarios: 34 calorías, es decir menos del 2%); mantequilla (8 gramos
al día: 60 calorías). A esto se añadía el componente no alimenticio: 4 gramos de jabón (siempre al día); 3 metros
de tela de algodón o lino al año; velas (4 gramos diarios); aceite de lámpara (3 litros al año); carburante (5781
kilojulios por día, que es equivalente a hervir 17 litros de agua al día); y un 5% adicional por la vivienda. El 79% de la
cesta mínima eran alimentos y el 21% no alimenticios (Lindgren 2015:14). La línea de pobreza internacional del
Banco Mundial en PPA 2005 fue $1,25.
13 Pueden verse los comentarios a Allen por parte de Ravallion (2017) y Ferreira (2017). Ambos concluyen que la
aportación es menos novedosa de lo que el autor pretende y que los resultados sobre la pobreza no son
significativamente superiores a los que realiza el Banco Mundial. Un argumento clave es que las personas
(incluidos los pobres) no realizan un ejercicio de programación lineal para minimizar su gasto al consumir el
mínimo de calorías necesarios para la vida. El gasto en el mundo real, es mucho más "intuitivo" o espontáneo. Lo
que aporta como valor usar LP internacionales es que garantizan en cierta medida la constancia en la capacidad

de compra de las personas a lo largo del tiempo. Es por ello que las LP nacionales difieren en la composición de la
cesta alimentaria básica, pero incorporan un elemento social, idiosincrático y cultural que algunos pueden
considerar como valor añadido frente a los "fisiológicamente necesario".
14 Véanse por ejemplo Ravallion (2018a), Jolliffe &Prydz (2015), Deaton &Dupriez (2011), Deaton &Atten (2014). La
crítica más común es el sesgo urbano de algunas de las observaciones de precios, aunque esto se ha corregido
parcialmente en el caso de la ronda de ICP 2011 en la que se incluyó a 145 países.
15 La incidencia de pobreza en los países en desarrollo es del 29% (frente al 23% del Banco Mundial-BM) y el total
global incluyendo 17 países desarrollados es del 6% (igual que BM). China pasa de una pobreza del 7,9% según el
BM al 13,1% de Allen; India del 21,23% del bM al 25,56%. En el sudeste asiático, también aumentan mucho los
pobres de Indonesia, Tailandia, Sri Lanka y Vietnam. En África Subsahariana, la pobreza estimada por Allen es
menor en Níger, Gambia, Liberia, Zimbabue. Para Allen, su metodología tiene como fortalezas: i) claro enlace con
supervivencia; ii) estándar constante en el tiempo y espacio; iii) responde a precios locales y circunstancias
climáticas; iv) evita los problemas de números índice (y las conversiones PPP); v) requiere información ya
disponible; vi) es más transparente que la del BM.
16 Sobre esta misma posible confusión véase van den Boom et al. (2015).
17 Alojado en el Banco Mundial: cf. http://www.worldbank.org/en/programs/icp
18 Malawi, Mali, Etiopía, Sierra Leona, Níger, Uganda, Gambia, Ruanda, Guinea-Bissau, Tanzania, Tayikistán,
Mozambique, Chad, Nepal y Ghana (Chen and Ravallion 2010). En 2005, el promedio de ellas fue $1,25 con un error
estándar de 0,1. Ferreira et al. (2016) han llevado el trabajo de actualizar esa LP a la PPP de 2011 asegurando que
represente la misma capacidad de consumo (ingreso) que en 2005.
19 Pena-Trapero (2009) ofrece una revisión de la literatura sobre los principales métodos de agregación: los
similares a agregar precios y cantidades; los basados en la regresión econométrica; los estadísticos del análisis
factorial (componentes principales) y análisis envolvente de datos y los métodos basados en la distancia.
20 Dhongde &Minoui (2013) muestran que las líneas de pobreza estimadas con datos de la contabilidad nacional
tienden a ser menores que las estimadas por encuestas. Para una muestra de 65 líneas de pobreza entre 1995-
2005, encontraron que esta diferencia metodológica era mucho más significativa que, por ejemplo, la forma de
estimar la distribución de los ingresos. El consumo encuestado suele ser menor que el de la CN y que la renta de la
CN, aumentando las diferencias en el tiempo. Esto explica, parcialmente, que la pobreza en encuesta tienda a ser
mayor que la de la CN y que la mayoría de los expertos prefieran el uso de las encuestas.
21 En las encuestas analizadas por ellos, el consumo no alimenticio varió entre el 22% y el 44%. Es interesante su
realista observación de no esperar que la gente consuma realmente una cesta alimenticia teórica que represente
la forma más barata de incorporar a su cuerpo los nutrientes necesarios. Un argumento más para priorizar la
significatividad de las líneas de pobreza nacionales.
22 Un mayor detalle comparativo entre ambas compilaciones de LP se ofrece en el Anexo.
23 Para España se ofrece una LP de USD 18,63 al día que convertidas en mensuales serían USD 566,66.
24 Agradezco a E.B. Prydz la amable cesión de estos datos.
25 Por el contrario, Jolliffe &Prydz (2017) referencian un experimento similar en Indonesia con 100 items de
alimentos, sin encontrar diferencias estadísticamente significativas.
26 Para una extensión de este aspecto puede verse DNP-DANE (2012:18-24) para el caso de Colombia.
27 La escala más comúnmente usada es la denominada "OCDE modificada" que añade 0.5 por cada adulto mayor
de 15 años en el hogar; y 0.3 por cada miembro menor de 15 años. En trabajos recientes la OCDE ha usado la raíz
cuadrada, dividiendo el ingreso total de un hogar entre la raíz cuadrada del tamaño de ese hogar, de forma que, por
ejemplo, el hogar de cuatro personas tiene el doble de necesidades que un hogar de un solo miembro. Sobre sus
alternativas y limitaciones puede verse OECD (n.d.), Pérez Valverde (2008), INE (2015). Zugasti &Laparra (2017)
muestran la sensibilidad que producen diferentes equivalencias de escala y los umbrales estatales y autonómicas
para determinar la población en riesgo de pobreza española y recomiendan utilizar umbrales anclados para
minimizar estos efectos. Lo mismo podría extenderse a los enmarañados requisitos burocráticos para acceder a

rentas mínimas de inserción u otros instrumentos de garantía de ingresos en España (Fernández 2015).
28 Utilizar el deflactor del PIB sería menos riguroso aun dado que muchos de los bienes y servicios no son
consumidos por los pobres y lo que importa es mantener constante la capacidad de compra de la cesta de bienes
"necesarios".
29 En época de cosecha, como la oferta es abundante los precios tienden a caer, mientras que en los periodos de
menor oferta y más alejados de las cosechas, los precios aumentan. Desestacionalizarlos permite tener una mejor
idea del precio medio a lo largo del año.
30 En la actualización de las LP nacionales que tuvieron que realizar Ferreira et al. (2016) para actualizar la LP
internacional de 1,25$ de 2005 a la de 1,90$ de 2011, decidieron no utilizar el IPC de Ghana, Malawi y Tajikistán por
su falta de calidad.
31 El mayor valor de las PPA es que incorporan los precios de los bienes no comercializables, frente a los tipos de
cambio de mercado que los excluyen. Sin embargo, las PPA tiene como fin principal ajustar las macromagnitudes
de la contabilidad nacional y no están diseñadas específicamente para medir la pobreza.
32 La primera ronda del International Comparison Program (ICP) fue en 1970 y la muestra se reducía a 10 países.
La segunda (1973) contó con 16; la tercera (1975), 34; la cuarta (1980) 60; la quinta (1985) 64; la sexta (1993) 117
que fue la que dio origen a la LP de 1,08$ al día; en la sexta (2005) ya participaron 146, China (sólo precios rurales)
e India por primera vez; en la séptima y última (2011) han participado 199 países y territorios: cf. Banco Mundial
http://www.worldbank. org/en/programs/icp (Acceso el 10-05-2018).
33 Cuando Klasen et al. (2016) utilizan los precios rurales para China, India e Indonesia (países muy grandes con
amplias zonas rurales y gran peso demográfico), la LP internacional de 1,25$ de 2005 pasaría a ser entre 1,67$-
1,71$ a precios de 2011 en función del índice de precios que se use para Bangladesh y Egipto. Con esas LP, la
incidencia es muy inferior en casi todos los países, muy inferior en Nigeria, Pakistán y Bangladesh -tres de los diez
países que más contribuyen al número total de pobres (Sumner 2016)- y la estimación del número de pobres sería
de 572 millones de personas en lugar de los 812 millones que se obtiene con la LP 1.90$ del Banco Mundial
(Klasen et al. 2016:212).
34 Según la OMS (2018) el país con menor porcentaje de acceso a agua en 2015 fue Eritrea con el 19,3%. Los 20
países con menor acceso son todos de África Subsahariana (excepto el 20° que es Afganistán con el 63%).
35 Por ejemplo, Colombia utilizó el programa de la FAO Calculating Population Energy Requirements anfd Food
Needs para actualizar las calorías diarias requeridas para fijar su línea de pobreza. En 1988 el umbral promedio
estaba en 2.297 calorías y en 2005 se fijó en 2.068. Para la actualización a las LP del periodo 2002-2010 ya
consideró edades, pesos y diferencias de sexo para establecer las calorías necesarias, así como las situaciones
especiales debidas a la lactancia, embarazo, bebés, infancia y adolescencia. Con esos datos, el Departamento
Nacional de Planeación colombiano fijó una canasta básica de alimentos para el entorno rural compuesta de 42
alimentos y el equivalente a 2.217,2 calorías diarias y otra para el entorno urbano de 39 alimentos y 1.061,0
calorías al día.
36 El último informe disponible sobre "El Estado de la Seguridad Alimentaria y la Nutrición en el Mundo 2017"
ofrece el dato de 815 millones de personas subalimentadas en 2016 que revertía por primera vez la tendencia
descendente desde los 900 millones de 2000 (FAO, FIDA, OMS, PMA y UNICEF 2017:10). Las diferencias por
regiones son notables: en África la inseguridad alimentaria grave afectaba al 27,4%; en Asia al 7% y en América
Latina al 6,4%. El informe menciona además que el 7,7% de los niños menores de 5 años (52 millones) padecían
desnutrición aguda (bajo peso respecto a su altura); un 6% (41 millones) de los menores de 5 años tenía
sobrepeso; el 13% de la población adulta padece obesidad (600 millones, dato referido a 2014) con un aumento de
más del doble respecto a 1980; y el 33% de las mujeres en edad fértil padecen anemia por falta de acceso a
micronutrientes (FAO, FIDA, OMS, PMA y UNICEF 2017:14).
37 FAO, FIDA, OMS, PMA y UNICEF (2017:10-14).
38 Gaiha et al. (2010) ofrecieron una explicación alternativa, centrada en el mayor precio de los alimentos en el
ámbito rural indio durante 1993-2004. Salois et al. (2011), en un estudio cruzado de países con paneles no

paramétricos y regresiones cuantílicas, encontraron una elasticidad renta hacia los alimentos de entre 0,10-0,25,
siendo más alta en las grasas que en otros nutrientes y advirtiendo posibles problemas de obesidad a medida que
se abandona la pobreza de ingreso.
39 Según los datos de Ritchie &Roser (2018) los principales países con problemas de obesidad en el mundo son
los pequeños estados de las islas del pacífico. El máximo de 2016 para un ranking de 191 países, lo marcó Nauru
con 61% seguido de las islas Cook (56%). Estados Unidos ocupó el puesto 12° con 36,2% de población obesa y
España el 62° (23,8%). El menor fue Vietnam (2,1%).
40 En el Anexo se ofrece el gráfico de dispersión entre el IAN y el IDH (Figura A.3).
41 La tabla de 1,90$ al día contiene 13 filas de datos regionales o agrupaciones de niveles de renta (alta, media-
alta, media-baja, baja), además de incluir datos de pobreza de países desarrollados.
42 Su página web informa de la disposición de 1.500 encuestas tanto de países desarrollados como en desarrollo:
http://iresearch.worldbank.org/PovcalNet/home.aspx
References
6.BIBLIOGRAFÍA
ALLEN, R. (2013): "Poverty lines in history, theory, and current international practice", Oxford, University of Oxford,
Economics Series Working Papers 685.
ALLEN, R. (2017): "Absolute Poverty: When Necessity Displaces Desire", American Economic Review, 107(12), pp.
3690-3721.
ÁLVAREZ CANTALAPIEDRA, S. (2017): "Sustento y sostenibilidad: vivir bajo un techo con los pies bien pegados al
suelo", Papeles, 138, pp. 13-29.
APARICIO, J.M. (2017): "¿Cuál es la economía que mata? Criterios para el discernimiento en una economía
colaborativa", Corintios XIII, 163, pp. 41-60.
BANERJEE, A.V. &DUFLO, E. (2007): "The Economic Lives of the Poor", Journal of Economic Perspectives, 21(1), pp.
141-167.
BEEGLE, K., DE WEERDT, J., FRIEDMAN, J. &GIBSON, J. (2012): "Methods of Household Consumption
Measurement through Surveys: Experimental Results from Tanzania", Journal of Development Economics, 98(1),
pp. 3-18.
BESHAROV, D. &COUCH, K. (2009): "European Measures of Income, Poverty, and Social Exclusion: Recent
Developments and Lessons for U.S.", Poverty Measurement Journal of Policy Analysis and Management, 28(4), pp.
713-752.
CASTELMAN, T; J. FOSTER; S. SMITH (2015): "Person Equivalent Headcount Measures of Poverty", Washington,
Institute for International Economic Policy Working Paper Series, IIEP-WP-2015-10. The George Washington
University.
CHEN, S. &RAVALLION, M. (2010): "The Developing World Is Poorer Than We Thought, But No Less Successful in
the Fight against Poverty", Quarterly Journal of Economics, 125(4), pp. 1577-1625.
CHEN, S. &RAVALLION, M. (2012): "More Relatively-Poor in a Less Absolutely-Poor World", Washington, World Bank
Policy Research Working Paper 6144.
COMISIÓN EUROPEA (2010): "Europa 2020. Una estrategia para un crecimiento inteligente, sostenible e
integrador", COM (2010) 2020 final. Bruselas, 3.3.2010.
DALTON, P.S., S. GHOSAL &A. MANI (2014): "Poverty and Aspirations Failure", The Economic Journal, 126 (Feb),
pp. 165-188.
DANG, H-A; JOLLIFFE, D.; CARLETTO, C. (2018): "Data Gaps, Data Incomparability, and Data Imputation: A Review
of Poverty Measurement Methods for Data Scarce Environments", GLO Discussion Paper, No. 179.
DEATON, A. &ATEN, B. (2014): "Trying to Understand the PPP's in ICP2011: Why Are the Results So Different?",
Cambridge, NBER Working Paper 20244.
DEATON, A. &DREZE, J. (2009): "Food and Nutrition in India: Facts and Interpretations", Economic and Political
Weekly, 44(7), pp. 42-65.

DEATON, A. &DUPRIEZ, O. (2011): "Purchasing Power Parity Exchange Rates for the Global Poor", American
Economic Journal: Applied Economics, 3 (April), pp. 137-166.
DEATON, A. (2005): "Measuring Poverty in a Growing World (or Measuring Growth in a Poor World), The Review of
Economics and Statistics, 87, pp. 1-19.
DEATON, A. (2006): "Measuring Poverty", in BANERJEE, A.; R. BENABOU &D. MOOKERJEE (eds.) Understanding
Poverty. New York. Oxford University Press. pp.3-15.
DECErF, B. (2015): "A new index combining the absolute and relative aspects of income poverty: theory and
application", Job Market Paper. CORE, Université Catholique de Louvain and Bielefeld Universität. November 15.
DECERF, B. (2018): "Why not consider that being absolutely poor is worse than being only relatively poor?", Journal
of Public Economics, 152, pp. 79-92.
DESIRIE, S. &jOlLIFFE, D. (2018): "Land productivity and plot size: Is measurement error driving the inverse
relationship?", Journal of Development Economics, 130(1), pp. 84-98.
DhOnGDE, S. &MINOUI, C. (2013): "Global Poverty Estimates: A Sensitivity Analysis", World Development, 44 (4), pp.
1-13.
DNP-DANE (2012): Misión para el empalme de las series de empleo, pobreza y desigualdad (Mesep). Pobreza
monetaria en Colombia: Nueva metodología y cifras 2002-2010. Resultados segunda fase de la Mesep. Bogotá.
Departamento Nacional de Planeación y Departamento Administrativo Nacional de Estadística.
DUFLO, E. (2012): "Human values and the design of the fight against poverty", Tanner Lectures, disponible en
https://www.povertyactionlab.org/sites/default/files/documents/TannerLectures EstherDuflo draft.pdf [última
consulta: 25-10-2021]
DYKSTRA, S; Ch. KENNY &J. SANDEFUR (2014): "Global absolute poverty fell by almost half on Tuesday", Center
for Global Development blog, 2 May. Disponible en http://www.cgdev.org/blog/global-absolute-poverty-fell-almost-
half-tuesday [última consulta: 25-10-2021].
FAO (2004): "Human Energy Requirements. Report of a Joint FAO/WHO/UNU Expert Consultation", Rome, Food
and Nutrition Technical Report Series 1.
FAO (2008): "FAO Methodology for the Measurement of Food Deprivation", Rome, FAO Statistics Division.
FAO (2018): FAO Stat. Suite of Food Security Indicators. Disponible en http://www. fao.org/faostat/en/#data/FS
[última consulta: 25-10-2021].
FAO, FIDA, OMS, PMA y UNICEF (2017): El Estado de la Seguridad Alimentaria y la Nutrición en el Mundo 2017.
Fomentando la resiliencia en aras de la paz y la seguridad alimentaria, Roma, FAO.
FERNANDEZ, G. (coord.) (2015): Hacia un Sistema más inclusivo de garantía de rentas en España: diferentes
alternativas de desarrollo, Madrid, Fundación FOESSA.
FERREIRA, F.H.G. CHEN, S.; DABALEN, A.L.; DIKHANOV, Y.M.; HAMADEH, N.; JOLLIFFE, D.M.; NARAYAN, A.;
PRYDZ, E.B.; REVENGA, A.L.; SANGRAULA, P.; SERAJUDDIN, U. &YOSHIDA, N. (2016): "A Global Count of the
Extreme Poor in 2012. Data Issues, Methodology, and Initial Results", Journal of Economic Inequality, 14, pp. 141-
172.
FERREIRA, F. (2017): "Global Poverty Today, The 1908 Winter in St. Petersburg, and 'controversy bias'", Let's Talk
Development blog post, December, 11, disponible en https://blogs.worldbank.org/developmenttalk/global-poverty-
today-1908-winter-stpetersburg-and-controversy-bias [última consulta: 25-10-2021].
GAIHA, R., JHA, R., &KULKARNI, V. S. (2010): "Prices, expenditure and nutrition in India", Australia South Asia
Research Centre, Australian National University, Working Paper 15.
GARROWAY, Ch. &DE LA IGLESIA, J.R. (2012): "On the Relevance of Relative Poverty for Developing Countries",
Paris, OECD Development Centre Working Paper 314.
HAUSHOFER, J. &FEHR, E. (2014): "On the Psychology of Poverty", Science, 344(6186), pp. 862-867.
HOFF, K. &sTIgLITZ, J. (2010): "Equilibrium Fictions: A Cognitive Approach to Societal Rigidity", American
Economic Review, 100(2), pp. 141-146.
HOFF, K. &STIGLITZ, J. (2016): "Striving for Balance in Economics. Towards a Theory of the Social Determination

of Behavior", Cambridge, NBER Working Paper 7537.
INE (2015): "La pobreza y su medición. Presentación de diversos métodos de obtención de medidas de pobreza",
Madrid, Instituto Nacional de Estadística.
JOLLIFFE, D. (2001): "Measuring Absolute and Relative Poverty: The Sensitivity of Estimated Household
Consumption to Survey Design", Journal of Economic and Social Measurement, 27(1/2), pp. 1-23.
JOLLIFE, D. &PRYDZ, E.B. (2015): "Global Poverty Goals and Prices. How Purchasing Power Parity Matters",
Washington, World Bank Policy Research Working Paper 7256.
JOLLIFFE, D. &PRYDZ, E.B. (2016): "Estimating International Poverty Lines from Comparable National Thresholds",
Journal of Economic Inequality, 14 (2), pp. 185-198.
JOLLIFE, D. &PRYDZ, E.B. (2017): "Societal Poverty: A Relative and Relevant Measure", Washington, World Bank
Policy Research Working Paper 8073.
JOLLIFFE, D. &PRYDZ, E.B. (2017b): "Poverty Counts. The Future of Global Poverty Monitoring at the World Bank",
slides prepared for DEC Policy Research Talk, April 10, disponible en
http://pubdocs.worldbank.org/en/699591491941266209/ PRT-JOLLIFFE.pdf. lúltima consulta: 25-10-2021].
JOLLIFFE, D. &SERAJUDDIN, U. (2018): "Non-comparable Poverty Comparisons", Journal of Development Studies,
54(3), pp. 523-536.
JOLLY, R. (2010): "Employment, Basic Needs, and Human Development: Elements for a New International
Paradigm in Response to Crisis", Journal of Human Development and Capabilities, 11(1), pp. 11-36.
KILIC, T., SERAJUDDIN, U., UEMATSU, H. &YOSHIDA, N. (2017): "Costing Household Surveys for Monitoring
Progress toward Ending Extreme Poverty and Boosting Shared Prosperity", Washington, World Bank Policy
Research Paper no. 7951.
KLASEN, S., KRIVINOKOVA, T., GREB, F., LAHOTI, R., PASARIBU, S.H. &WIESENFaRtH, M. (2016): "International
Income Poverty Measurement: Which Way Now?", Journal of Economic Inequality, 14, pp. 199-225.
LARRÚ, J.M. (2013): "La pobreza y las desigualdades en la Agenda de Desarrollo Post2015", en ALONSO, J.A. (Dir.)
Compromiso Global por un Desarrollo Incluyente y Sostenible. Consideraciones sobre la Agenda post2015, Madrid,
Documentos de Trabajo Cooperación Española 02, pp. 58-74.
LARRÚ, J.M. (2016): "Medición multidimensional de la pobreza: estado de la cuestión y aplicación al ODS-1",
Revista Internacional de Cooperación y Desarrollo 3(1), pp. 4-34.
LEÓN, M. (2019): "Buen vivir dentro de los límites sociales y ecológicos: tener demasiado y dañar demasiado la
naturaleza no son dos cuestiones separadas", Iberoamerican Journal of Development Studies, 8(1), pp. 138-160.
LEÓN XIII (1891): Rerum novarum. Carta encíclica sobre la situación de los obreros, disponible en
http://w2.vatican.va/content/leo-xiii/es/encyclicals/documents/hf l-xiii enc 15051891 rerum-novarum.html [última
consulta: 25-10-2021].
LINDGREN, M. (2015): "The Elusive Quest for the Subsistence Line. How Much Does the Cost of Survival Vary
Between Population?", Lund University, Sweden, Comparative Institutional Analysis Working Paper 1.
LYBBERT, T.J. &WYDICK, B. (2018): "Poverty, Aspirations, and the Economics of Hope", Economic Development and
Cultural Change, 66(4), pp. 709-753.
MAX-NEEF, M. (1994): Desarrollo a escala humana, Barcelona, Icaria.
OECD (n.d.): "What are Equivalence Scales?", Paris, OECD.
OMS (2018): Basic and Safely Managed Drinking Water Services. Data by country, disponible en
http://apps.who.int/gho/data/node.main.WSHWATER?lang=en [última consulta: 25-10-2021].
PENA-TRAPERO, B. (2009): "La medición del bienestar social: una revisión crítica", Estudios de Economía Aplicada,
27(2), pp. 299-324.
PÉREZ VALVERDE, N. (2008): "Las escalas de equivalencia en la medición de la pobreza", Ciencias Económicas,
26(1), pp. 399-403.
PNUD (1990): Informe sobre el Desarrollo Humano 1990, New York, Programa de Naciones Unidas para el
Desarrollo.

PNUD (2011): Informe sobre el Desarrollo Humano 2011. Sostenibilidad y equidad: un mejor futuro para todos.
New York, Programa de Naciones Unidas para el Desarrollo.
PNUD (2016): Informe sobre Desarrollo Humano para América Latina y el Caribe 2016. Progreso multidimensional:
bienestar más allá del ingreso, New York, Programa de Naciones Unidas para el Desarrollo.
RAVALLION, M. (1998): "Poverty Lines in Theory and Practice", Washington, Living Standard Measurement Study
Working Paper 133.
RAVALLION, M. (2008): "Poverty Lines", in Blume, L. &Durlauf, S. (eds.) The New Palgrave Dictionary of Economics,
2nd. London, Palgrave Macmillan.
RAVALLION, M. (2010): "Poverty Lines across the World", Washington, World Bank Policy Research Working Paper
5284.
RAVALLION, M. (2015): The Economics of Poverty: History, Measurement, and Policy, New York, Oxford University
Press.
RAVALLION, M. (2016): "Toward Better Global Poverty Measures", Journal of Economic Inequality, 14, pp. 227-248.
RAVALLION, M. (2017): "An Interesting Step Backwards in Measuring Global Poverty", disponible en
https://examplewordpresscom61323.files.wordpress. com/2017/12/comments-robert-allen-absolute-poverty-
aer.pdf [última consulta: 2510-2021].
RAVALLION, M. (2018a): "An Exploration of the International Comparison Program's New Global Economic
Landscape", World Development, 105, pp. 201-2016.
RAVALLION, M. (2018b): "Guaranteed Employment or Guaranteed Income?", Washington, Center for Global
Development Working Paper 482.
RAVALLION, M. &CHEN, S. (2011): "Weakly Relative Poverty", The Review of Economics and Statistics, 93 (4), pp.
1251-1261.
RAVALLION, M. &CHEN, S. (2017): "Welfare-Consistent Global Poverty Measures", Cambridge, NBER Working Paper
Series 23739.
RAVALLION, M., CHEN, S. &SANGRAULA, P. (2009): 'Dollar a Day Revisited' The World Bank Economic Review,
23(2), pp. 163-84.
RAVALLION, M; DATT, G. &VAN DE WALLE, D. (1991): "Quantifying Absolute Poverty in the Developing World",
Review of Income and Wealth, 37(4), pp. 345361.
REDDY, S., VISARIA, S. ASALI, M. (2009): "Inter-country Comparisons of Income Poverty Base d on a Capability
Approach", in Basu, K. &Kanbur, R. (eds.) Arguments for a Better World, vol. 2, Oxford, Oxford University Press, 7-30.
RITCHIE, H. &ROSER, M. (2018): "Obesity". Published online at OurWorldInData. org. disponible en
https://ourworldindata.org/obesity [última consulta: 25-10-2021].
ROBEYNS, I. (2016): "Having Too Much", in J. Knight and M. Schwartzberg (eds.) NOMOS LVI: Wealth. Yearbook of
the American Society for Political and Legal Philosophy, New York, New York University Press,
SALOIS, M.J., RTIFFIN, R. &BALCOMBE, K. (2011): "Impact of Income on Calorie and Nutrient Intakes: A Cross-
Country Analysis", Selected Paper prepared for presentation at the Agricultural &Applied Economics Association's
2011 AAeA &NAREA Joint Annual Meeting, Pittsburgh, Pennsylvania, July 24-26, disponible en
https://core.ac.uk/download/pdf/6615136.pdf [última consulta: 25-10-2021].
SEN, A.K. (1976): "Poverty: An Ordinal Approach to Measurement", Econometrica, 44(2), pp. 219-231.
SEN, A.K. (1983): "Poor, Relatively Speaking", Oxford Economic Papers 35(2), pp. 153-169.
SEN, A.K. (1994): "Concepto y medidas de pobreza", Comercio Exterior, 42(4), pp. 310-322.
SEN, A.K. (2000): Development as Freedom, London, Anchor.
SERAJUDDIN, U.; H. UEMATSU; Ch. WIESER; N. YOSHIDA &A. DABALEN (2015): "Data Deprivation. Another
deprivation to End", Washington, World Bank Poverty Research Working Paper 7252.
SILLERS, D. (2015): "Is $1.82 the New $1.25? Choosing the Next International Extreme Poverty Line," Washington,
USAID Economics Brief, U.S. Agency for International Development,
STREETEN, P. P. (1979): Basic needs: premises and promises, Washington, World Bank Reprint Series Number 62.

STREETEN, P., &BURKI, S. J. (1978): Basic needs: some issues, World Development, 6(3), pp. 411-421.
STREETEN, P., BURKI, S. J., HAQ, U., HICKS, N., &STEWART, F. (1982): First things first: meeting basic human
needs in the developing countries, Oxford, Oxford University Press.
SUMNER, A. (2016): "Why Are Some People Poor?", European Journal of Development Research, 28(2), pp. 130-
142.
THALER, R.H. (2016): Todo lo que he aprendido con la psicología económica, Barcelona, Deusto.
TIROLE, J. (2017): La economía del bien común, Barcelona, Taurus.
VAN DEN BOOM, B.; HALSEMA, A. &MOLINI, V. (2015): "Are we confusing poverty with preferences?", Washington,
World Bank Policy Research Working Paper 7247.
ZUGASTI, N. &LAPARRA, M. (2017): "Midiendo la pobreza a nivel autonómico en España. Una propuesta reflexiva",
Revista Española de Investigaciones Sociológicas, 158 (abril-junio), pp. 117-134.
ANEXO
Como queda reflejado en la Figura A.1, entre 2004 y 2014 el Banco Mundial dispone de más de 70 países con
encuestas cada año (aunque no son los mismos países cada año), mientras que, en el nivel nacional, los mayores
volúmenes se obtienen en 2010 (62 países) y 2012 (61).
Si analizamos las LP nacionales (panel b del gráfico), hay 24 países que tienen solo una encuesta y 26 que sólo
tienen dos. El máximo es el caso de Jamaica que dispone de 23 encuestas de LP nacional pero sólo 7 con la LP
internacional. Por el contrario, la LP internacional tiene una moda de 18 países con una y trece encuestas
disponibles, y un máximo de 31 encuestas en el caso de Brasil (14 en la LP nacional), seguido de Costa Rica que
tiene 30 (pero sólo 7 nacionales).
Las LP internacionales tienen una cobertura temporal más amplia (19772016) que las nacionales y por tanto
muchas más observaciones (1.435 si solo contabilizamos las de países o 1.611 si incluyéramos las de regiones
geográficas o agrupaciones por niveles de renta, frente a las 779 nacionales)41. Una parte de las diferencias
puede deberse a que las LP internacionales incluyen a los países desarrollados, que proceden de las encuestas
compiladas por el Luxemburg Income Study (LIS) database y de las EU-SILC de Eurostat, que son incorporadas a la
base PovcalNet del Banco Mundial, como centro de datos para la apreciación de la pobreza en el mundo42. Otra
parte de la explicación son las actualizaciones que realiza el propio personal del Banco Mundial en los países en
desarrollo, pero sin la información primaria de una encuesta nacional.
La comparación entre las LP nacional e internacional ofrecen casos de interés como el de Ucrania o Indonesia
(Figura A.2.). En el caso de Ucrania (20022016) las reducciones relativas de pobreza son enormes en función de la
LP que se utilice: -79,5 puntos porcentuales (p.p.) bajo la LP nacional frente a -1,6 p.p. bajo la LP internacional.
Indonesia presenta el caso contrario: reduce su pobreza en -12,5 p.p. bajo la LP nacional y -60,1 p.p. bajo los 1,90$
al día. Indonesia es de los pocos casos en los que la LP internacional es mucho mayor que la nacional (hasta
2012).
DETALLES
Materia: Poverty
Título: Lo necesario, lo superfluo y la medición de la pobreza
Título alternativo: What is necessary, superfluous and measuring poverty
Autor: Ramos, José María Larrú11 Universidad CEU SAN PABLO

Número: 53
Páginas: 179-208
ISSN: 11395737
e-ISSN: 21740682
DOI: 10.empiria.53.2022.32615

ProQuest:
URL del documento: https://www.proquest.com/scholarly-journals/lo-necesario-superfluo-y-la-medición-

de-pobreza/docview/2639713721/se-2

Premium Collection
La sociología a través de sus publicaciones en

revistas de impacto mediante el uso de big data
Martínez-Uribe, Luis 1 1 Fundación Juan March Universidad de Salamanca lmartinez@march.es
(ESPAÑA) ORCID https://orcid.org/0000-0002-7795-3972 . Empiria ; Madrid N.º 53, (Jan-Apr 2022): 53-
88.

TEXTO COMPLETO
Headnote
Recibido: 14.09. 2020
RESUMEN
Al igual que las demás disciplinas científicas, la sociología se puede concebir como un sistema social compuesto
de complejas relaciones entre actores que incluyen a investigadores, instituciones, revistas y editoriales.
Actualmente, el fenómeno del big data ofrece la posibilidad de usar grandes colecciones de datos que permiten la
representación de los vínculos sociales que se dan en la ciencia. En concreto, a través de las grandes fuentes de
datos bibliométricas, big scholarly data, la sociología tiene a su alcance ingentes cantidades de datos para
describir y estudiar con detalle la evolución de las disciplinas científicas.
En este artículo describimos la sociología de los últimos años a través de las publicaciones en las revistas de
impacto. Para hacer esto, se emplean datos de revistas de sociología del Journal Citation Reports ampliados con
la información de los artículos del Microsoft Academic Graph. Realizamos un análisis descriptivo de las revistas,
sus países de origen, lenguas, editoriales y décadas de aparición e impacto. A continuación, evaluamos la
evolución temporal del número de artículos y citas, así como la coautoría y el género de los autores. Tras esto,
establecemos cuatro grupos de tipos de revistas y estudiamos sus diferencias en las dimensiones anteriores
mediante contrastes de hipótesis. Finalmente, representamos las relaciones entre autores y revistas usando una
red de afiliación que nos permite detectar grupos de revistas que forman interesantes comunidades temáticas y
geográficas.
La novedad del trabajo consiste en haber utilizado una fuente de datos de las denominadas big scholarly data con
más de 300 millones de publicaciones y aportar varias estrategias que permiten seleccionar los datos de interés
entre los millones de publicaciones y reducir su dimensionalidad para representarlos en forma de red. Los
resultados corroboran análisis de estudios previos y presentan la sociología como una disciplina dominada por
revistas generalistas anglosajonas que abarca una amplia variedad de temáticas y con enfoques metodológicos
diversos que dependen del ámbito geográfico en el que se desarrollan. Unas pocas revistas dominan las citas,
mientras que los artículos de revistas metodológicas tienen un grado mayor de coautoría y las revistas temáticas
un menor sesgo de género.
PALABRAS CLAVE
Sociología del conocimiento, sociología, grandes datos, datos masivos, redes de afiliación, bibliometría, métodos
de investigación, Microsoft Academic Graph, análisis de coincidencias.
ABSTRACT
Like other scientific disciplines, sociology can be observed as a social system made up of researchers, institutions,
journals and publishers. These relationships are established via conceptual communications which form networks
that establish the way in which disciplined are organized. At present, the big data phenomena offers the capacity
to use large data collections to analyse social processes. Big scholarly data sources offer sociology immense
quantities of data useful to describe and study the evolution of scientific disciplines in detail.
In this article we characterised the last thirty years of sociology through its publications in impact factor journals.
To do this, we use data about the sociology journals from Journal Citation reports augmented with article
information from Microsoft Academic Graph. The analysis starts by describing the journals, countries of origin,
languages, publishers, the decades in which they appeared and their impact factor. After this, we evaluate the
evolution of numbers of articles and citations as well as co-authorship and gender proportion. Subsequently, we
establish four groups of journal types and study their differences in the previous dimensions using hypothesis

tests. Finally, we represent the relationships between authors and journals using an affiliation network that allows
us to detect groups of journals that form interesting thematic and geographic communities.
The novelty of the work consists in having used a data source of the socalled big scholarly data with more than
300 million publications. The paper also provides several strategies to select the data of interest among the
millions of publications to reduce their dimensionality in order to represent them in the form of a network. The
results show a discipline dominated by Anglo-Saxon countries and large publishing conglomerates. The most
prominent journals dominate citations whilst methodological journals have a higher degree of co-authorship and
thematic journals have the lowest gender bias. The affiliation network between authors and journals contains two
large groups, one formed by the pioneering American journals together with quantitative methodological journals
and another one made up of English and qualitative methodological journals.
KEYWORDS
Sociology of knowledge, sociology, big data, affiliation networks, bibliometrics, research methods, Microsoft
Academic Graph, coincidence analysis.
(ProQuest: ... denotes formulae omitted.)
1.INTRODUCCIÓN
La sociología como disciplina científica surge en distintas comunidades nacionales en distintos momentos en el
tiempo y ha evolucionado en una variedad amplia de temáticas y métodos para resolver el extenso espectro de
problemas que se plantea. La disciplina ha sido acusada de estar dominada por los países anglosajones,
fragmentada en temáticas volátiles, con falta de cohesión metodológica y sesgo de género. Estudios
bibliométricos en los últimos años se han encargado de mapear y analizar la evolución de las disciplinas a partir
de la información de sus publicaciones. En sociología estos estudios se han centrado en medir la producción y el
impacto de ciertas comunidades y subdisciplinas, pero no de la disciplina en su conjunto. La reciente aparición del
fenómeno big data ha generado nuevas fuentes de datos que aportan nuevas oportunidades y retos
metodológicos. En el terreno de bibliometría este es el caso que nos plantean los datos del Microsoft Academic
Graph, una fuente de datos reciente, denominada big scholarly data, que cuenta con 230 millones de publicaciones
con información enriquecida mediante técnicas de inteligencia artificial. ¿Hasta qué punto estos datos corroboran
algunos de estos aspectos de la sociología? ¿Cuáles son los retos metodológicos que nos plantea su utilización?
El objetivo de este artículo consiste en caracterizar la disciplina sociológica a través de sus publicaciones en
revistas de impacto utilizando big scholarly data, nuevos métodos y estrategias que nos permiten reducir la
dimensionalidad para explorar grandes cantidades de datos.
En este artículo se concibe la sociología como una disciplina en la que se entretejen complejos sistemas de
relaciones sociales entre investigadores, instituciones, asociaciones y editoriales. Partiendo de la premisa de que
esas relaciones y su evolución en el tiempo se conforman en forma de redes, se da cuenta de la sociología de los
últimos años a través de sus revistas de impacto. Para ello, se emplean datos de revistas de sociología del Journal
Citation Reports ampliados con la información de los artículos del Microsoft Academic Graph.
El artículo se estructura de la siguiente forma: comienza con una breve introducción de la sociología como
disciplina científica resaltando el corpus teórico que la conceptualiza como un sistema social dominado por sus
comunicaciones. Se presenta a continuación el fenómeno big bata con sus expectativas y retos para después
enfocarse en los grandes datos bibliométricos con su capacidad para analizar las disciplinas científicas. Las
secciones de datos y metodologías describen las fuentes de datos que se emplean y los métodos estadísticos que
se aplican. Tras esto, se exploran los datos obtenidos a través de análisis descriptivos, test de hipótesis y análisis
de redes sociales.
2.LA SOCIOLOGÍA Y SU CONCEPTUALIZACIÓN COMO DISCIPLINA
La definición de la sociología a través de la identificación de sus dominios y métodos ha sido un tema recurrente
desde sus inicios. Emile Durkheim (1982) la definía como la ciencia de los hechos sociales y de esta forma la
diferenciaba del resto de disciplinas científicas. Por otro lado, Albion W. Small (1906), fundador del primer
departamento de sociología en Estados Unidos, leía un artículo ante el Sociology Club de la Universidad de

Chicago donde consideraba una pérdida de tiempo intentar definir la disciplina.
La sociología como disciplina ha sido acusada de fragmentarse con nuevas áreas de interés que surgen
constantemente y que amenazan su estatus y unidad (Moody y Light, 2006, O'Reilly, 2009). Esta misma
preocupación la recoge Smelser al destacar la falta de cohesión en el nivel conceptual:
"...sociology, by comparison with some other sciences, lacks a single, accepted conceptual framework. The field is
difficult to distinguish from other because it contains a diversity of frameworks, some of which it shares with other
fields such as psychology and social anthropology. If anything, then, sociology is too comprehensive, diffuse, soft
in the center, and fuzzy around the edges." (Smelser, 2014)
Otras perspectivas la describen como una disciplina que se origina de modo diverso en distintas comunidades
nacionales, que con el tiempo pasan a formar redes supranacionales que terminan siendo globales
(Vanderstraeten, 2010). Distintos estudios revelan el dominio de prominentes revistas generalistas anglosajonas
(Moody y Light, 2006), una división marcada entre la tradición americana más cuantitativa y la británica más
teórica (Zougiris, 2018), una coautoría más habitual en los trabajos cuantitativos (Moody, 2004) y un cierto sesgo
de género entre los autores que publican (Grant y Ward, 1991).
3.MARCO TEÓRICO: LAS DISCIPLINAS COMO SISTEMAS SOCIALES CONSTITUIDOS POR REDES DE
PUBLICACIONES
Este artículo se encuadra en un marco teórico que concibe la producción científica desde el estudio de los
procesos de interacción social, de su entorno y de su evolución en el tiempo. La imaginación social (Mills, 1959)
cobra entonces un papel esencial para apreciar el escenario en el que estos procesos actúan. Estudios en la
sociología del conocimiento sugieren que el conjunto de ideas que uno considera verdaderas depende en gran
medida del grupo al que pertenezcas. Así científicos que pertenecen a redes de colaboración comparten ideas,
utilizan metodologías similares y se influencian unos a otros (Moody, 2004).
Las disciplinas científicas pueden observarse como sistemas sociales cuya comunicación es fundamental para
entender los mecanismos que las conforman. Estos dominios científicos son dependientes de comunicaciones
conceptuales observadas por terceros (Stichweh, 2008). Los artículos académicos son un buen ejemplo de
comunicaciones, suponen prestigio, establecen reglas de recompensa y reclaman autoridad (Stinchcombe, 1984).
De manera discontinua, estas disciplinas se forman y evolucionan en el tiempo a través de un compendio
compartido de teorías, métodos y problemas que han de ser solucionados (Khun, 1962:11). La ciencia es pues un
ámbito social donde están presentes el interés, las relaciones de poder, cuando no la ostentación de prestigio
(Bourdieu, 2004: 29).
La actual comunicación científica se engloba en la sociedad red definida por Castells como "la nueva estructura
social de la Era de la Información, basada en redes de producción, poder y experiencia" (Castells, 1998:350). Estas
redes se convierten en interesantes laboratorios para entender e interpretar el proceso de producción científica
(Latour y Woolgar, 1987). De este modo, las disciplinas pueden estudiarse como redes de publicaciones en las que
se van construyendo temas y procedimientos aceptados por la comunidad científica (Luhmann, 1995).
Moody (2004) utiliza la idea de estructura de red y propone tres formas posibles de redes de colaboración en
sociología. Una primera estructura es la que se ve afectada por no disponer de una teoría unificada de la
disciplina, esto hace que la red esté compuesta por múltiples especialidades desconectadas y con subredes
altamente agrupadas. La segunda estructura está determinada por la idea de que la producción científica depende
de unos pocos científicos, scientific stars, cuyo trabajo determina el curso de la disciplina y genera redes en forma
de estrella. Finalmente, las colaboraciones con límites teóricos más permeables generan redes de gran alcance y
cohesionadas estructuralmente.
4.BIG SCHOLARLY DATA, UNA FUENTE PARA EL ANÁLISIS DE DISCIPLINAS
El primer uso documentado del término big data aparece en un artículo de científicos de la NASA en 1997
describiendo un problema de visualización de datos debido a conjuntos de datos tan grandes que ponen a prueba
la capacidad de la memoria principal, el disco local e incluso el disco remoto. A esto lo llamaron el problema del
big data (Press, 2014). El big data se puede concebir como una combinación de nuevas fuentes de datos de gran

tamaño con las infraestructuras tecnológicas y los métodos para su tratamiento. El fenómeno del big data trae
consigo beneficios para la investigación social como la capacidad de usar datos sobre fenómenos sociales no
disponibles anteriormente, poseer información sobre poblaciones completas, recabar datos de modo inconsciente
para la persona observada (unobtrusive data) y analizar información de procesos sociales en tiempo real (Boyd y
Crawford, 2012, Espeland y Stevens, 2008, Manovich, 2015, Martinho, 2018, McFarland et al., 2016, Moretti, 2000,
Tinati et al., 2014). Como contrapeso al entusiasmo suscitado por estos nuevos recursos, no faltan los análisis
críticos que reflexionan sobre sus limitaciones y reabren el debate ya acontecido en otros dominios científicos
sobre la investigación centrada en datos versus la investigación basada en hipótesis (Carroll, 2009, Neresini,
2017). Ya en los años 80 los estudios interpretativos sobre la construcción social de la tecnología consideran los
datos y la tecnología como el resultado de un proceso de construcción social y advertían del peligro de las
perspectivas positivistas donde los datos son considerados objetivos (Pinch y Bijker, 1984). La literatura más
reciente nos alerta de los riesgos de los métodos y teoría que acompañan al Big Data ya que en ocasiones los
datos solo capturan información de ciertas actividades, pueden ser incorrectos, parciales o no contar con
información sobre su procedencia (Giardullo, 2016, Halford y Savage, 2017, McFarland y McFarland, 2015).
En las ciencias sociales nuevas subdisciplinas como social data science o computational social science están
asumiendo este reto, abordándolo de manera interdisciplinar junto con matemáticos e ingenieros (Blok et al., 2017,
Burrows y Savage, 2014, Lazer et al., 2009, Savage y Burrows, 2007). En este contexto, los sociólogos han de
contribuir con su conocimiento teórico a interpretar cómo se estructura lo social (Tubaro, 2014). Los datos por si
mismos no son suficientes (Grimmer, 2015) y el trabajo con grandes datos debe seguir siendo una operación
teórica, pues la interpretación es crucial para analizar la realidad social (Boyd y Crawford, 2012).
La sociología ha utilizado métodos cuantitativos desde sus inicios aportando rigor a la disciplina. Asimismo, en
muchos casos la sociología ha contribuido de manera importante al desarrollo de métodos estadísticos (Clogg,
1992). La revisión de Raftery (2000) del uso de estadísticas en sociología presenta tres generaciones de métodos
estadísticos en sociología: una primera generación, a partir de la Segunda Guerra Mundial, centrada en las
tabulaciones cruzadas de encuestas y censos de pocas variables; una segunda generación desde 1960 que trata
con datos de encuesta con muchas variables, y una tercera generación que comienza en los años 80 donde los
formatos varían e incluyen datos textuales, redes sociales o datos espaciales. Actualmente, también se utilizan
técnicas como la visualización de datos (Healy y Moody, 2014), metodologías de procesamiento del lenguaje
natural (PLN) (Evans y Aceves, 2016), minería de datos o modelos de aprendizaje automático (machine learning
ML) (Amaturo y Punziano, 2017, Frank et al., 2019).
Por otro lado, la bibliometría ha acuñado el término big scholarly data (Xia et al., 2017), para referirse a aquellas
fuentes académicas de datos que han sufrido un crecimiento exponencial en los últimos años. Bases de datos,
algunas de pago como Web of Knowledge y Scopus o gratuitas como Google Scholar y Microsoft Academic Graph,
acumulan una inmensa cantidad de información académica sobre autores, citas, artículos de revistas, actas de
congresos, tesis y libros. Estos datos proveen indicadores que se analizan generalmente en investigaciones
bibliométricas, para medir el impacto y la productividad científica o evaluar las redes académicas de
comunicación e investigación.
Además, en los últimos años, según describen Su &Lee (2010), existe una multitud de estudios que mapean y
estudian la evolución de dominios científicos a partir de los datos y metadatos de sus publicaciones científicas.
Existe una amplia tradición de estudio de disciplinas científicas en la sociología de la ciencia. Estos estudios
entienden la comunicación científica a través de revistas especializadas como una forma de organización y
control de las disciplinas constituidas como construcciones sociales (Vanderstraeten, 2010). Sin embargo, Gupta
&Battacharya (2004) argumentan que un nuevo enfoque de estudio surge cuando comienzan los estudios
cuantitativos con información de publicaciones, ya que estas no solo revelan la estrategia científica de sus
autores, sino que también proporcionan información sobre las dinámicas compartidas por la disciplina a la que
pertenecen.
Los estudios bibliométricos de la sociología se han centrado hasta el momento en la producción sociológica y en

los patrones de coautoría de países concretos como Australia, Países Bajos, Italia, Francia o España (De Haan,
1997, Gantman y Dabós, 2018, Phelan, 2000, Riviera, 2015, Vanderstraeten, 2010), en subdisciplinas como la
sociología médica o la desigualdad de riqueza, (Korom, 2019, Seale, 2008), en las élites académicas en sociología
(Korom, 2020), en la división de escuelas metodológicas (Oromaner, 1981, Schwemmer y Wieczorek, 2019), en la
diferencia de citas entre los artículos teóricos y metodológicos (Peritz, 1983), así como en los efectos de los
rankings, que favorecen ciertos tipos de culturas de investigación en los departamentos de sociología (Moksony et
al., 2014).
Sin embargo, tales perspectivas dejan aún sin describir o explicar cuestiones tales como las diferencias entre
diversos países, o entre diversas subdisciplinas temáticas y metodologías, ni abordan la evolución de los patrones
de género y colaboración a través de la coautoría, temas que serán objeto de revisión en las próximas páginas.
5.DATOS: JOURNAL CITATION REPORTS Y MICROSOFT ACADEMIC GRAPH
Para disponer de datos que permitan evaluar la producción científica en sociología se han seleccionado las
revistas de impacto utilizando la base de datos de Web of Science Journal Citation Reports (JCR) (2020)1, fuente
comúnmente reconocida para el establecimiento de rankings de las revistas académicas en función de su impacto
en la producción científica. En la fecha de consulta de los datos, JCR contenía información acerca de 165 revistas
en la categoría de sociología entre 1997 a 2018. Esta información se enriquece añadiendo las editoriales, los
idiomas de publicación, los países de origen y la década en la que aparecen cada una de las revistas. Jacobs
(2016) identifica limitaciones en los datos JCR de sociología al no ser del todo exhaustivos. En la categoría de
sociología se echan en falta importantes revistas como American Sociologist, Context o Work, Family and
Community. Además, algunas de las revistas presentes, en particular Annals of Tourism Research y Cornell
Hospitality Quarterly), cuya temática es de dudosa inclusión en esta categoría. Estas dos últimas las eliminamos
de nuestra selección. Además, los resultados de analizar estos datos pueden verse condicionados por el sesgo
anglosajón en la cobertura de las revistas JCR enfocadas en publicaciones americanas, inglesas y de países bajos
debido a la fuerte presencia de importantes editoriales comerciales (Rodriguez-Yunta, 2009).
La información de los artículos y autores de estas revistas se incorporaron desde los datos de Microsoft Academic
Graph (MAG) (Sinha et al., 2015), fuente que se distribuye libremente con una licencia de datos abierta y contiene
información de 230 millones de publicaciones incluyendo artículos de revistas y actas de congresos, casi 240
millones de autores, 50.000 revistas, 4.500 conferencias y 25.500 instituciones. La base de datos de MAG es el
resultado de procesos de captura de datos que mezclan información indizada por el buscador Bing junto con las
fuentes de sindicación (rss) de los editores. Estos datos son enriquecidos mediante procesos automáticos que
utilizan inteligencia artificial, en concreto de procesamiento del lenguaje natural, que ayudan a detectar y
desambiguar entidades y sus relaciones (autores, afiliaciones, revistas) además de identificar conceptos que
definen cada una de las publicaciones y que posteriormente se organizan en una taxonomía (Wang et al., 2019).
Estos datos tienen limitaciones al no incluir otros tipos de comunicación científica. La sociología, al igual que
otras disciplinas de ciencias sociales, utiliza otros canales de difusión además de los artículos de revistas como
son los libros o seminarios (Clemens et al., 1995).
Los datos de JCR se extrajeron de su plataforma online. Para el acceso y la consulta de los datos de MAG se
desplegó una infraestructura de Big Data en la nube de Microsoft Azure. Los componentes necesarios incluían un
almacenamiento de ficheros de texto plano con los datos y un motor de analítica con el que definir el esquema de
los ficheros y realizar consultas en lenguaje U-SQL para obtener la selección de datos necesaria2. Además, los
datos de los autores de las publicaciones se enriquecieron añadiendo el género a través del nombre del autor
utilizando Gender-API3, un servicio online que utiliza diversas fuentes y clasifica los nombres con un grado por
genero con un grado de acierto alto (Santamaría y Mihaljevi, 2018). La figura 1 muestra esquemáticamente todo el
proceso anterior de captura, selección y enriquecimiento de datos.
6.METODOLOGIA
Toda la manipulación y análisis de datos para este artículo se ha realizado utilizando el lenguaje de programación
estadística R. En la siguiente sección se presentará un análisis descriptivo de las revistas JCR de sociología por

países, idiomas de publicación, editoriales, década de aparición e impacto. Posteriormente, se mostrarán las
revistas a través de sus artículos describiendo la evolución anual del número de artículos y citas. Estos análisis
nos permiten empezar a identificar patrones en las tipologías de las revistas. Tras esto, se seleccionarán algunas
de las revistas y se organizarán en cuatro grupos para los que se estudiarán sus diferencias en las dimensiones de
citas, coautoría y proporción de género aplicando contrastes de hipótesis.
En la última sección de análisis representamos las relaciones entre revistas y autores a través de una red de
afiliación. Las redes de afiliación son redes bipartitas o bimodales, es decir, aquellas que tienen dos tipos de
nodos distintos y las conexiones solo se producen entre elementos que pertenecen a tipos diferentes:
Una red de afiliación G=(U,V,E)
donde u1,u2 U, v1, v2 V no existen aristas e tales que e=(u1, u2 ) ni e=(v1,v2 )
Las redes bimodales pueden proyectarse convirtiéndose en redes de modo uno. Esta reducción de
dimensionalidad permite centrarse en las relaciones de un tipo de nodo. Las redes de afiliación son especialmente
útiles para establecer la relación de pertenencia entre actores y grupos. En nuestro caso, la red de afiliación tiene
por actores a los autores de las publicaciones y los grupos son las revistas JCR donde publican. A través de esta
red podremos detectar aquellos grupos de revistas con comunidades comunes de autores que publican en ellas.
El marco estadístico metodológico que se emplea para generar la red de afiliación es el análisis de coincidencias
(Escobar, 2015, Escobar y Tejero, 2018) que es aplicado usando el paquete de R netCoin (Escobar y Martinez-Uribe,
2020). Este marco tiene por objetivo principal detectar el tipo de personas, eventos, atributos, etc. que tienden a
aparecer de manera simultánea en un número limitado de espacios.
Partimos de N espacios delimitados denominados escenarios, en cada escenario hay un conjunto de tamaño M de
variables aleatorias denominadas eventos X.X. = 1 si el evento j ocurre y X. = 0 si no ocurre. Dos eventos son
coincidentes si ocurren en el mismo escenario. A partir de esta misma información, también podría decirse que
dos escenarios son semejantes si concurren en ellos los mismos eventos de modo no aleatorio.
El conjunto de los escenarios y los eventos forman una matriz binaria de incidencias X=(x.) de dimensiones NxM
con los escenarios en las filas y los eventos en las columnas. Esta matriz es binaria con sus elementos xij iguales
a 0 o 1 indicando si el evento X. ocurre en el escenario i - ésimo.
Con la matriz de incidencias puede obtenerse la matriz simétrica de coincidencias C de tamaño MxM a través de la
operación C= X X , donde XT es la matriz transpuesta de X. Cada elemento cij representa el número de escenarios
en los que X. y X. tienen el valor 1, es decir, coinciden. Esta matriz de incidencias nos permite obtener las siguiente
tres métricas probabilísticas:
La primera es la probabilidad de que suceda un evento Xi que se obtiene dividiendo el número de veces que
sucede el evento entre el número de escenarios:
P(Xi) = ...
También disponemos de la probabilidad conjunta de dos eventos X. y X., denotada por (. Xß, que viene dada por la
frecuencia de ocurrencia de los dos eventos en el mismo escenario dividido entre el número de escenarios:
P(XiXj) = ...
Finalmente, tenemos la probabilidad condicional de que sucedan dos eventos X. y Xj, denotada por P(X. | X.),, que
expresa la probabilidad de que ocurra un evento cuando un segundo evento ya ha ocurrido y se obtiene dividiendo
las probabilidades de cada evento:
P(Xi|Xj) = ...
De esta forma podemos hablar de que dos eventos coinciden en probabilidad basándonos en el concepto de
eventos independientes. Dos eventos X. y Xj, son independientes cuando:
P(Xi|Xj) ...
Lo cual se cumple si la frecuencia c.. correspondiente a la probabilidad conjunta de X. y X. viene dada por:
c·ij = ... donde c·ij es la frecuencia esperada
Así diremos que dos eventos Xi y Xj son coincidentes en probabilidad (tienen grado de dependencia) si:
...

La diferencia entre cij y c·ij toma una distribución normal con el siguiente error estándar (Haberman, 1973):
...
Este error puede utilizarse para estandarizar la diferencia entre el valor empírico de eventos coincidentes c y la
frecuencia esperada c suponiendo que son independientes y obtener así el obtener el residuo de Haberman (rJ
te~Af(0,l)
rij = ...
Así se conforma la matriz de adyacencias A de dimensiones MxM donde dos eventos X. y Xj se dice que son
coincidentes si cumplen la siguiente norma:
A [i, y] = 1 P(rij O) <c i j donde c es el nivel de significación
El valor de c debe ser la probabilidad de concluir que una cierta hipótesis es falsa cuando resulta que es cierta
(Error de tipo I) con c supuesto pequeño. Por ello la hipótesis debe ser que (rij >0), es decir la hipotesis es que c..
>c .. lo cual equivale a que X. y X. son coincidentes en probabilidad. Así A[i,j]=l cuando la probabilidad de que rij sea
menor o igual a cero es pequeña. Es decir que lo muy probable es que c.. >c.
Alternativamente, se podría obtener la matriz S de similitudes de escenarios mediante la fórmula S= XXT, en cuyo
caso aparecería los elementos s , que indicaría cuántos eventos iguales comparten los escenarios p y q. De modo
análogo, podrían calcularse el residuo de Haberman y otra matriz de adyacencias A de dimensiones NxN a fin de
detectar cuando hay una similitud entre escenarios.
A partir de la matriz de adyacencias A se elabora una red en la que los eventos son los nodos y sus vínculos los
valores de los residuos de Haberman. En este artículo, los escenarios son las revistas JCR de sociología y los
autores que publican los artículos en ellas sería los eventos. De esta manera la matriz de adyacencias A indica qué
revistas son semejantes en los autores que en ella publican usando el residuo de Haberman para indicar la fuerza
de la relación.
7.ANÁLISIS DESCRIPTIVO DE LAS REVISTAS JCR DE SOCIOLOGÍA
Las revistas JCR de sociología conforman un conjunto de publicaciones especializadas controladas por
editoriales en múltiples idiomas. Las tablas a continuación (tabla 1) muestran la distribución de las revistas por
países, idiomas y editoriales. De las 163 revistas 67 son de Estados Unidos y 54 de Reino Unido. El resto de las
revistas provienen de otros 21 países, la mayor parte del continente europeo, aunque también de Asia, América y
Oceanía.
El 90% de las revistas publican en inglés, aunque también las hay con artículos en distintos idiomas
simultáneamente. A nivel editorial, dominan los grandes conglomerados editoriales internacionales como SAGE,
Taylor &Francis, Elsevier, Blackwell o Routledge. A estos los acompañan, con menor representación, editoriales
universitarias como las de Oxford, Cambridge y Chicago.
Khun (1962:19) asocia la aparición de revistas especializadas en una disciplina a momentos de cambio de
paradigma. En la sociología las publicaciones pioneras son American Journal of Sociology, creada en 1895 por
Albion W. Small en la Universidad de Chicago y Sociological Review fundada en Reino Unido en 1908 por Leonard
T. Hobhouse. Tras estas publicaciones aparecen otras tres americanas, Social Forces en 1922, American
Sociological Review en 1936 y el Journal of Marriage and Family en 1939. La figura 2 muestra las revistas por
década de aparición. En la década de los 60 hay un aumento importante de aparición de revistas, este aumento
alcanza su máximo en la década de los años 70 con más de 40 revistas. En esta década encontramos Annual
Review of Sociology, Sociological Methods and Research y Social Networks. Un 40% de las revistas aparecen en
las tres últimas décadas, aunque en la década más reciente apenas empiezan su andadura 7 revistas.
Las publicaciones quedan clasificadas de acuerdo con su influencia en la disciplina a través de métricas de
impacto. La métrica más sencilla es el número total de citas, JCR lo calcula teniendo en cuenta las citas entre las
revistas disponibles en su base de datos. Sin embargo, la métrica por excelencia para medir el impacto es el
Journal Impact Factor (JIF) que se calcula anualmente al dividir las citas de la revista ese año por el número de
artículos en los dos años anteriores. En la figura 3 representamos las revistas con su impacto en el eje horizontal y
las citas en el eje vertical. Aparece para cada revista el promedio de los JIF anuales y el total de citas más

reciente. Solo han quedado representadas aquellas revistas con más de 100 citas con un eje vertical expresado en
escala logarítmica en base 10 para ajustar las importantes diferencias en el total de citas entre las revistas.
En la parte superior derecha del gráfico aparecen las revistas pioneras y generalistas. American Sociological
Review y American Journal of Sociology ocupan los más lugares destacados. Junto a estas dos aparece Annual
Review of Sociology, uno de los denominados review journals, que por este motivo obtienen un número elevado de
citas (Moed, 2005). Tras estas publicaciones aparecen revistas temáticas tales como Journal of Marriage and
Family y Journal of Health and Social Behaviour que incorporan investigación de interés actual sobre el género, la
familia la salud y la medicina. Más centrada en el gráfico aparece Social Forces, una de las revistas prominentes
en el campo y junto a American Sociological Review y American Journal of Sociology perteneciente a la
denominada "Triple Corona". Su diferencia de citas e impacto con las otras dos posiblemente sea debido a la
capacidad de las otras dos de distanciarse de las demás (Jacobs, 2016). Alrededor de Social Forces se encuentra
Information Communication &Society, revista que comienza en 2001y centrada en temáticas de creciente interés
como son los estudios sobre la sociedad de la comunicación y el impacto de las nuevas tecnologías. Las otras
tres revistas de este grupo, todas de los años 70, presentan una aproximación empírica y metodológica. Son
Sociological Methods and Research, Social Networks y Social Indicators Research. Un poco más abajo aparece
Sociological Review, otra de las pioneras pero que no llega a tener los indicadores de influencia de ASR y AJS. Las
publicaciones en otros idiomas como el alemán, francés o castellano aparecen en la parte inferior izquierda.
Explorar la procedencia y el impacto de las revistas es un buen punto de partida. Sin embargo, es necesario incluir
en el análisis a los autores e instituciones de las revistas. Es pues preciso bajar un nivel de profundidad y estudiar
los artículos. Para ello se emplean los datos de MAG filtrando los artículos de las 163 revistas JCR de sociología
de 1997 a 2018. Hay cinco revistas para las que no hay artículos en MAG en estos años: Ethology and
Sociobiology, Innovation, Australian and New Zealand Journal of Sociology y Studies in Symbolic Interaction. En
total se cuenta con 164.036 artículos que han sido revisados para eliminar las recensiones de libros eliminando
aquellos títulos que contienen las palabras "book review". Al final de este proceso se obtuvieron 139.452 artículos.
Finalmente, tras descartar los artículos repetidos se consiguió la cifra final de 137.178 artículos de estas 158
revistas entre 1997 y 2018.
En las tablas de abajo (tabla 2) se presentan los listados de las diez revistas con más artículos y citas por artículo.
La revista Contemporary Sociology cuenta con 6.648 representando casi el 5% del total. American Sociological
Review es la revista con la media más alta de citas por artículo con 119, además sus citas representan un 4.7% del
total de citas en esta base de datos.
De aquí en adelante, y con el fin de intuir mejor las tendencias temporales, representaremos las series temporales
con un método de curva suavizada de ajuste de regresión polinómica. En los gráficos siguientes (figura 4) se
representa la evolución anual del número de artículos y citas de las 158 revistas de sociología. En 20 años el
número de artículos se duplica y las medias más altas de citas por artículo se acumulan en los primeros años.
Al fijarnos en los artículos con más citas (tabla 3), resalta que hay 3 de ellos del American Journal of Sociology,
que la mitad son de 1997 o 1998 y que presentan una diversidad de enfoques y temáticas desde temas de salud, a
elementos metodológicos y teóricos.
Los datos de MAG proporcionan información de los 126.744 autores presentes en la selección de artículos.
Además, hay 4.981 instituciones relacionadas con estos autores. Esta información aparece en un 37% de las
relaciones entre autor y artículo. Las tablas 4 y 5 presentan los autores e instituciones con más citas. Paul R.
Amato, de la Universidad de Pennsylvania, es el autor con más citas, seguido de Robert J. Sampson de la
Universidad de Harvard, Alejandro Portes de la Universidad de Princeton, Ed Diener de la Universidad de Illinois,
Tom A. B. Snijders de la Universidad de Oxford y Ellen L. Idler de la Universidad de Emory. Entre las instituciones
con más citas encontramos un predominio de universidades americanas de gran prestigio como Michigan,
Pennsylvania, Cornell, Ohio, Texas, Harvard, California (Berkeley y UCLA) o University of Wisconsin-Madisson.
7.1. Análisis de citas, coautoría y proporción de género por tipos de revistas
En los anteriores análisis descriptivos hemos visto que hay diferentes tipos de revistas: las revistas más antiguas,

las temáticas, las metodológicas o las de lengua no inglesa. ¿Tienen estos tipos de revistas distintos patrones de
citas, coautoría o proporción de género? Para averiguarlo organizamos algunas de las revistas en los cuatro tipos
que indicamos en la tabla abajo (tabla 6). Incluimos las tres revistas de la triple corona, todas las revistas de habla
no inglesa y todas las revistas puramente metodológicas. Para las revistas temáticas seleccionamos las trece
primeras en cuanto a su factor de impacto y número de citas en JCR.
Para cada uno de estos grupos se obtuvieron el número de artículos y la media de citas por artículo (tabla 7). Las
revistas de la triple corona son las que poseen la media más alta de citas por artículo, casi 55, seguidas de las
temáticas y las de métodos. Las revistas de lengua no inglesa tienen la media de citas por artículo más baja con
tan solo 4,5.
Al representar anualmente los artículos y la media de citas por artículo (figura 6) puede apreciarse que el número
de artículos de las revistas de la triple corona desciende con los años. Este efecto se debe principalmente al
descenso de artículos publicados en la American Journal of Sociology. Por otro lado, el número de artículos de las
revistas temáticas y de métodos aumenta debido al aumento de artículos en revistas como Social Indicators
Research o Ethnic and Racial Studies. Basándose en las citas por artículo, las revistas de los tres grupos tienen
tendencias similares a primera vista. Por su lado, las revistas de lengua no inglesa alcanzan su máximo de
artículos en torno al año 2005, pero como ya se ha comentado están lejos de las revistas americanas o británicas
en citas por artículo.
Para comprobar si las diferencias en la media de citas por artículo entre los cuatro grupos de revistas son
significativas se empleó el análisis de varianza (ANOVA) para probar la hipótesis nula de que no hay diferencias
entre las medias de los diferentes grupos. Los resultados de ANOVA entre grupos verifican que la diferencia de
medias es estadísticamente significativa (p<.05) con una F339524 de 494,4. La prueba post hoc de Tukey (tabla 8)
señala que todos los grupos difieren significativamente (p<.05), excepto la media de citas por artículo de las
revistas temáticas y las de métodos. Las revistas de la triple corona son las que obtienen la media de citas por
artículos más alta y con mayor diferencia que las otras revistas en los otros grupos.
El número de coautores por artículo se ha ido incrementando en todas las disciplinas. En sociología es algo cada
vez más común motivado por razones de competitividad y progresión académica, el aumento de las
oportunidades de colaboración o la propia naturaleza de la investigación interdisciplinar (Taylor &Francis, 2017).
Al calcular la media de autores por artículo y por grupo de revistas (tabla 9), pueden observarse diferencias entre
los distintos grupos. Las revistas de métodos con más de 2 autores por artículo superan a las temáticas con 1,9 y
a las de la triple corona con 1,6.
E1 gráfico de evolución anual (figura 7) muestra un crecimiento en la media de coautores para los todos los
grupos a excepción de las revistas de métodos que parten de una media de dos autores y la mantienen en el
tiempo. Las revistas temáticas son las que experimentan mayor aumento pasando de 1,6 autores por artículo a
casi 2,5.
De nuevo, se comprueba que existen diferencias significativas en la media de autores por artículo entre los cuatro
grupos de revistas utilizando el análisis de varianza (ANOVA) para probar la hipótesis nula de que no hay
diferencias entre las medias de autores de los diferentes grupos. Los resultados de ANOVA entre grupos verifican
la diferencia estadísticamente significativa (p<.05) de estas medias F3.339,400=737, p<2e-16). La prueba post hoc
de Tukey (tabla 10) señala que todos los grupos difieren significativamente (p<.05). Las revistas de métodos son
las que obtienen la media de autores por artículos más alta superando en 0.6 coautores por artículo a las de la
triple corona, 0,23 a las temáticas y en 0,74 a las de lengua no inglesa.
Otra de las cuestiones que puede abordarse es la referente a la existencia de sesgo de género en las publicaciones
de estas revistas. A través de los nombres de los autores se puede asignar un género con el fin de estudiar la
proporción de mujeres en las publicaciones. Del total de 19.985 nombres únicos de autores se ha dispuesto del
género en 18.341 casos, un 92%. Un 44% de los autores de los artículos son mujeres. La proporción de género es
distinta en los artículos de los cuatro grupos de revistas (tabla 11) con las revistas temáticas con la proporción de
mujeres más alta.

En la figura 8 puede observarse el aumento en la proporción de autores de género femenino desde 1997 para los
cuatro grupos y la importante diferencia de las revistas temáticas con las de los otros tres grupos. Revistas como
Gender &Society cuentan con una proporción del 83% de mujeres autores o Journal of Marriage and Family con un
60%. Llama también la atención encontrar dentro de las revistas de métodos dos con una proporción de mujeres
por encima de las demás en el grupo, se trata de Qualitative Sociology y Qualitative Research.
El análisis de varianza ANOVA nos permite ver si la diferencia entre las medias de citas y de autores es
significativa, pero no nos vale para la diferencia entre proporciones de género. Para este caso usamos una prueba
de proporciones con la que comprobamos si la diferencia entre las proporciones de autores de género femenino
de los distintos grupos es estadísticamente significativa. Utilizamos la hipótesis nula de que las proporciones son
iguales entre los grupos. El resultado de la prueba confirma las diferencias significativas (p<.05) entre las
proporciones de los cuatro grupos. Las revistas temáticas son las que obtienen la proporción más alta de mujeres
por artículo superando en un 15% a las de la triple corona y las de lengua no inglesa y en un 12% a las temáticas.
8.LA RED DE AFILIACIÓN ENTRE AUTORES Y REVISTAS
Con el fin de entender mejor la relación entre los autores y las revistas JCR de sociología, se representarán sus
relaciones a través de una red de afiliación donde los actores son los autores de las publicaciones y los grupos las
revistas donde publican. A través de esta red podrán detectarse aquellos grupos de revistas con comunidades
comunes de autores.
Para los cálculos del análisis de coincidencias eliminamos los artículos de Contemporary Sociology para evitar el
efecto que pueda tener una revista con una proporción de artículos de revisión elevada, pero con un impacto bajo.
Así partimos de la matriz de incidencias X que tiene 127.368 filas que representan a los autores y 157 columnas,
una por revista. Los valores xij de esta matriz toman el valor 1 si el autor i - ésimo ha publicado alguna vez en la
revista j - ésima y cero en caso contrario. A partir de esta matriz binaria de incidencias X se aplica el análisis de
coincidencias y se calcula la matriz de adyacencias A. La red de afiliación pasa de ser bipartita a modo uno
formada por nodos que representan las 158 revistas cuyas relaciones, establecidas mediante el residuo de
Haberman, representan la fuerza de la relación entre las revistas. Cuantos más autores hayan publicado en dos
revistas, más fuerte será su relación. Para simplificar la red solo se tienen en cuenta aquellas relaciones con
Haberman >3 asegurando que las relaciones son significativas con un nivel de confianza mayor del 99,8% en
pruebas de una sola cola.
La red resultante se muestra en la figura 9. Los nodos representan las revistas JCR y las aristas representan los
enlaces que establecen la relación entre las revistas. Utilizamos el algoritmo basado en fuerzas de atracción
repulsión de redes de Fruchterman-Reingold (Fruchterman y Reingold, 1991). Esta red consta de un componente
central con 139 nodos conectados y otros 18 nodos separados. Las formas de los nodos representan los grupos
de la sección anterior. Todas las revistas de la triple corona y todas las de métodos forman parte del componente
central mientras que una de las temáticas y varias de las revistas de lengua no inglesa están fuera de él. Las tres
revistas más prestigiosas se encuentran próximas a la derecha del componente central. Las revistas de métodos
se agrupan arriba a la derecha del componente principal, aunque dos de ellas (las cualitativas) aparecen en otras
zonas de este mismo componente. Las revistas temáticas están distribuidas por varias zonas sin una agrupación
clara. Finalmente, las revistas de lengua no inglesa están en la parte superior de la red y siete de ellas
desconectadas del componente central.
Se calcularon dos medidas de centralidad de redes: el grado con pesos y la centralidad de intermediación. En la
red de la figura 10 los colores de los nodos representan el grado ponderado en una escala de color. Las revistas de
la triple corona tienen todas valores altos, siendo Social Forces la revista con mayor número de enlaces con otras
revistas. Al fijarnos en la tabla 12 con las quince revistas con mayor grado con peso identificamos revistas
americanas y británicas En la figura 11 los colores de los nodos denotan el grado de intermediación y la tabla 13
presenta los datos de las primeras 20 revistas. Los nodos con mayor grado de intermediación son British Journal
of Sociology, European Societies y Sociological Theory. Estos nodos tienen un papel importante en la red ya que
suelen actuar como controladores de flujo de información al ser puentes entre grupos.

Tras estos análisis, se aplicó el algoritmo de Louvain para el cálculo de comunidades (Blondel et al., 2008) y se
obtuvieron 19 comunidades en la red de afiliación. Como 5 de las comunidades acumulan el 90% de los nodos las
restantes se agruparon en una única comunidad (Comunidad-6). La figura 12 presenta la disposición de estas seis
comunidades.
A continuación, se describirán cada una de las comunidades. Para ello se representarán en la figura 13 las
subredes mediante el grado como tamaño de los nodos y un degradado de color para el factor de impacto de los
nodos. Los enlaces también utilizan un degradado de color que representa el número de autores coincidentes
entre las revistas.
La comunidad 1, situada a la derecha de la red, es la más extensa con 45 nodos. Son los nodos con mayor factor
de impacto, con predominancia de revistas americanas, especialmente las más tradicionales. Las revistas de la
triple corona ocupan un lugar central en esta comunidad que incluso contiene la mayoría de las revistas de
métodos cuantitativos. Además, contiene revistas temáticas enfocadas a la religión, la sociología militar, el
género, la familia, la juventud y la salud. La comunidad 2, es la siguiente en tamaño con 40 nodos y aparece a la
izquierda del componente principal de la red. Esta comunidad está dominada por cuatro revistas del Reino Unido:
British Journal of Sociology, Sociology, Sociological Review y Sociological Research Online. Cuenta con una
revista de métodos cualitativa Qualitative Research e incluye dos de las revistas temáticas de mayor impacto
Information, Communication &Society y Journal of Consumer Culture. Además, contiene revistas que cubren
temáticas como la sociología del lenguaje, salud, media y cultura, inmigración, estudios raciales, nacionalismo y
estudios internacionales.
La comunidad situada entre las dos anteriores es la comunidad 3 y consta de 20 nodos. Contiene revistas teóricas
como Sociological Theory y Theory and Society, además de revistas de corte cualitativo como Qualitative
Sociology, Ethnography y Journal of Contemporary Ethnography. En la parte superior de la red está la comunidad
4, está comunidad está compuesta por revistas temáticas que abordan materias como la sociología rural, la
agricultura, los recursos naturales, el ocio o el deporte. La comunidad que aparece en la parte inferior de la red es
la comunidad 5 e incluye gran cantidad de revistas de lengua no inglesa enlazadas con el componente principal a
través de revistas de temática internacional como European Sociological Review, International Journal of
Comparative Sociology y European Societies. Finalmente, la comunidad 6 agrega 18 revistas desconectadas del
componente principal donde encontramos enlaces entre revistas de los mismos países como las dos revistas
españolas Revista Española de Investigaciones y la Revista Internacional de Sociología o las croatas Sociologija I
Prostor y Drustvena Istrazivanja. También hay enlaces entre revistas de temática común como Society &Animals y
Anthrozoos.
9.DISCUSIÓN DE RESULTADOS
Las revistas JCR de sociología y sus artículos conforman una rica fuente para conocer el conjunto de temáticas,
sistema de comunicación compuesto por investigadores, instituciones y editoriales que complementa sostienen el
conocimiento conjunto de la sociología como disciplina. Como expresó operativamente Inkeles (1964, 8): la
sociología puede ser abordada como "lo que hacen los sociólogos" y en la actualidad la mayor parte de los
sociólogos académicos se dedican a publicar artículos en revistas de impacto.
Los análisis realizados muestran una sociología dominada por grupos editoriales internacionales y en menor
medida por unas pocas editoriales universitarias. Como es de común conocimiento, el idioma predominante es el
inglés y dos de cada tres revistas tienen su origen en Estados Unidos y Reino Unido. Las universidades de ambos
países también aportan los autores con más artículos y citas.
Destacan en la disciplina las revistas de la llamada triple corona: American Journal of Sociology, American
Sociological Review y Social Forces. En el listado de las incluidas en el listado JCR, son las primeras en aparecer y
ejercen un dominio absoluto en citas e impacto. Por otro lado, estas revistas poseen un grado de coautoría bajo y
la mayor desproporción de género entre sus autores. Tras ellas, en los años setenta aparecen gran cantidad de
revistas temáticas y metodológicas. Las revistas metodológicas tienen la media más alta de coautores con más
de dos autores por artículo aportando similares resultados a los obtenidos por Moody (2004). Por su parte, Grant y

Ward (1991) también señalaron un mayor equilibrio de género entre los autores que publican en las revistas
temáticas y, en especial, en aquellas con enfoques de género, familia o salud, que obtienen proporciones más
altas de autoría de género femenino (Grant y Ward, 1991
Las revistas se agrupan en comunidades a través de las redes de afiliación que forman con los autores. La red
resultante corresponde claramente con el primer tipo de red de colaboración que propone Moody (2004). Se trata
de una red compuesta por múltiples especialidades desconectadas y con subredes altamente agrupadas
reflejando la falta de una teoría unificada de la disciplina. Las tres revistas americanas más importantes lideran la
comunidad con mayor número de miembros como ya anticipaban (Moody y Light, 2006). Esta subred está también
compuesta por un grupo de revistas metodológicas más recientes y otras sobre temas de religión, sociología
militar, juventud y salud. La siguiente comunidad en tamaño la dominan las revistas del Reino Unido donde hay
una sola revista metodológica de corte cualitativo y otras temáticas de inmigración, estudios raciales o
nacionalismo. Esta división entre Estados Unidos y Reino Unido coincide con el análisis de Zougiris (2018).
Además, nos encontramos con otros dos tipos de comunidades, las temáticas y las de lengua no inglesa. Las
temáticas abordan temas como la sociología rural, la agricultura, los recursos naturales, las relaciones humanos-
animales, el ocio y el deporte. Las de lengua no inglesa, responden a las comunidades nacionales de
Vanderstraeten ( 2010) e incluyen revistas alemanas, francesas, españolas o del este europeo con una conexión
fuerte con las revistas de enfoque europeo.
10.CONCLUSIONES
En este artículo se ha caracterizado el conjunto de la disciplina sociológica a partir de las publicaciones en
revistas especializadas de impacto en los últimos años. La novedad del trabajo consiste en haber utilizado una
fuente de datos de las denominadas big scholarly data. En concreto se ha utilizado el Microsoft Academic Graph
que cuenta con más de 300 millones de publicaciones. El artículo aporta varias estrategias que permiten
seleccionar los datos de interés entre los millones de publicaciones y reducir su dimensionalidad para
representarlos en forma de red. La selección inicial se realiza a través de las revistas conforme al ranking de
revistas JCR de sociología. Tras esto se vuelve a realizar una selección de revistas y se reúnen en tres grupos para
los que se comparan sus citas, coautoría y sesgo de género. Finalmente, se utiliza el análisis de coincidencias
para establecer una red de afiliación entre autores y revistas que se proyecta a una red de modo uno formada por
solo revistas. Esta red permite localizar agrupaciones de revistas enlazadas por autores comunes.
Los resultados corroboran análisis de otros estudios presentando la sociología como una disciplina dominada por
revistas generalistas anglosajonas. Es una disciplina que abarca una amplia variedad de temáticas y con enfoques
metodológicos diversos que dependen del ámbito geográfico en el que se desarrollan. Unas pocas revistas
dominan las citas, mientras que los artículos de revistas metodológicas tienen un grado mayor de coautoría y las
revistas temáticas un menor sesgo de género.
Estos resultados pueden verse condicionados por el sesgo anglosajón en la cobertura de las revistas JCR y por la
utilización únicamente de artículos de revistas y no de libros o comunicaciones en congresos.
Una posible investigación para estudios futuros consistiría en clasificar temática y metodológicamente los
artículos de las revistas seleccionadas y poder evaluar cuestiones tales como la relación entre el número de citas
y las distintas temáticas o metodologías, la evolución de las tendencias en los últimos años en relación con la
distribución geográfica de las revistas o la correspondencia entre el género, las materias y los métodos que se
utilizan.
Footnote
1 JCR incluye datos de citas extraídos de aproximadamente 12,000 revistas académicas y técnicas y actas de
congresos de más de 3,300 editoriales en más de 60 países. Cubre casi todas las especialidades en ciencia,
tecnología y ciencias sociales y permite la evaluación y comparación de revistas para identificar las revistas mejor
clasificadas y de mayor impacto en un campo en particular.
2 Instrucciones para desplegar la infraestructura necesaria en la nube están disponibles en la siguiente dirección:
https://docs.microsoft.com/en-us/academic-services/graph/get-started-setup-provisioning

3 Gender API es una plataforma web capaz de determinar el género a partir del nombre https://aender-api.com/
References
11.BIBLIOGRAFÍA
AMATURO, E. y PUNZIANO, G. (2017): "Blurry Boundaries: Internet, Big-New Data, and Mixed-Method Approach", en
Data Science and Social Research, Cham, Springer International Publishing, pp. 35-55
BLOK, A., CARLSEN, H. B., JØRGENSEN, T. B., MADSEN, M. M., RALUND, S. y PEDERSEN, M. A. (2017): "Stitching
Together the Heterogeneous Party: A Complementary Social Data Science Experiment", Big Data &Society, 4(2),
DOI: 10.1177/2053951717736337
BLONDEL, V. D., GUILLAUME, J.-L., LAMBIOTTE, R. y LEFEBVRE, E. (2008): "Fast Unfolding of Communities in Large
Networks", Journal of Statistical Mechanics: Theory and Experiment, 2008(10), DOI: 10.1088/1742-
5468/2008/10/p10008
BOURDIEU, P. (2004): Science of Science and Reflexivity, Cambridge, Polity Press
BOYD, D. y CRAWFORD, K. (2012): "Critical Questions for Big Data", Information, communication &society, 15(5),
pp. 662-79. DOI: 10.1080/1369118X.2012.678878
BURROWS, R. y SAVAGE, M. (2014): "After the Crisis? Big Data and the Methodological Challenges of Empirical
Sociology", Big Data &Society, 1(1), DOI: 10.1177/2053951714540280
CARROLL, S. (2009): "Defining the Scientific Method", Nature Methods, 6(4), pp. 237-37. DOI: 10.1038/nmeth0409-
237
CASTELLS, M. (1998): The Rise of the Network Society, Oxford, Blackwell Publishers
CLARIVATE ANALYTICS (2020): Journal Citation Reports, disponible en https://jcr. clarivate.com/ [consulta:
Agosto 2019]
CLEMENS, E. S., POWELL, W. W., MCILWAINE, K. y OKAMOTO, D. (1995): "Careers in Print: Books, Journals, and
Scholarly Reputations", American Journal of Sociology, 101(2), pp. 433-94. DOI: 10.1086/230730
CLOGG, C. C. (1992): "The Impact of Sociological Methodology on Statistical Methodology", Statistical Science,
7(2), pp. 183-96.
DE HaAn, J. (1997): "Authorship Patterns in Dutch Sociology", Scientometrics, 39(2), pp. 197-208. DOI:
10.1007/BF02457448
DURKHEIM, E. (1982): "Sociology and the Social Sciences (1903)", en The Rules of Sociological Method: And
Selected Texts on Sociology and Its Method, London, Macmillan Education UK, pp. 175-208
ESCOBAR, M. (2015): "Studying Coincidences with Network Analysis and Other Multivariate Tools", Stata Journal,
15(4), pp. 1118-56.
ESCOBAR, M. y TEJERO, C. (2018): "El Análisis Reticular De Coincidencias", Empiria. Revista de metodología de
ciencias sociales, 39(2018) DOI:10.5944/empiria.39.2018.20879
ESCOBAR, M. y MARTINEZ-URIBE, L. (2020): "Network Coincidence Analysis: The Netcoin R Package", Journal of
Statistical Software, 93(11), pp. 1-32, DOI: 10.18637/jss.v093.i11
ESPELAND, W. N. y STEVENS, M. L. (2008): "A Sociology of Quantification", European Journal of Sociology, 49(3),
pp. 401-36. DOI: 10.1017/S0003975609000150
EvAnS, J. A. y ACEVES, P. (2016): "Machine Translation: Mining Text for Social Theory", Annual Review of
Sociology, 42(1), pp. 21-50. DOI: 10.1146/annurevsoc-081715-074206
FRANK, M. R., WANG, D., CEBRIAN, M. y RAHWAN, I. (2019): "The Evolution of Citation Graphs in Artificial
Intelligence Research", Nature Machine Intelligence, 1(2), pp. 79-85. DOI: 10.1038/s42256-019-0024-5
FRUCHTERMAN, T. M. J. y REINGOLD, E. M. (1991): "Graph Drawing by ForceDirected Placement", Software:
Practice and Experience, 21(11), pp. 1129-64. DOI: 10.1002/spe.4380211102
GANTMAN, E. R. y DABÓS, M. P. (2018): "Research Output and Impact of the Fields of Management, Economics,
and Sociology in Spain and France: An Analysis Using Google Scholar and Scopus", Journal of the Association for
Information Science and Technology, 69(8), pp. 1054-66. DOI: 10.1002/asi.24020
GIARDULLO, P. (2016): "Does 'Bigger' Mean 'Better'? Pitfalls and Shortcuts Associa-ted with Big Data for Social

Research", Quality &Quantity, 50(2), pp. 529-47. DOI: 10.1007/s11135-015-0162-8
GRANT, L. y WARD, K. B. (1991): "Gender and Publishing in Sociology", Gender and Society, 5(2), pp. 207-223
GRIMMER, J. (2015): "We Are All Social Scientists Now: How Big Data, Machine Learning, and Causal Inference
Work Together", Political Science &Politics, 48(1), pp. 80-83. DOI: 10.1017/S1049096514001784
GUPTA, B. y BHATTACHARYA, S. (2004): "Bibliometric Approach Towards Mapping the Dynamics of Science and
Technology", DESIDOC Journal of Library &Information Technology, 24(1)
HABERMAN, S.J. (1973): "The Analysis of Residuals in Cross-Classified Tables", Biometrics, 29(1), pp. 1-25. DOI:
10.18637/jss.v014.i15
HALFORD, S. y SAVAGE, M. (2017): "Speaking Sociologically with Big Data: Symphonic Social Science and the
Future for Big Data Research", Sociology, 51(6), pp. 1132-48. DOI: 10.1177/0038038517698639
HEALY, K. y MOODY, J. (2014): "Data Visualization in Sociology", Annual Review of Sociology, 40(1), pp. 105-28.
DOI: 10.1146/annurev-soc-071312-145551
JACOBS, J. A. (2016): "Journal Rankings in Sociology: Using the H Index with Google Scholar", The American
Sociologist, 47(2), pp. 192-224. DOI: 10.1007/s12108-0159292-7
KHUN, T. S. (1962): The Structure of Scientific Revolutions, United States, The University of Chicago Press
KOROM, P. (2019): "A Bibliometric Visualization of the Economics and Sociology of Wealth Inequality: A World
Apart?", Scientometrics, 118(3), pp. 849-68. DOI: 10.1007/s11192-018-03000-z
KOROM, P. (2020): "The Prestige Elite in Sociology: Toward a Collective Biography of the Most Cited Scholars
(1970-2010)", The Sociological Quarterly, 61(1), pp. 12863. DOI: 10.1080/00380253.2019.1581037
LATOUR, B. y WOOLGAR, S. (1987): Laboratory life, New Jersey, Princeton University Press
LAZER, D., PENTLAND, A., ADAMIC, L., ARAL, S., BARABÁSI, A.-L., BREWER, D., CHRISTAKIS, N., CONTRACTOR, N.,
FOWLER, J., GUTMANN, M., JEBARA, T., KING, G., MACY, M., ROY, D. y VAN ALSTYNE, M. (2009): "Computational
Social Science", Science, 323(5915), pp. 721. DOI: 10.1126/science.1167742
MANOVICH, L. (2015): "Data Science and Digital Art History", International Journal for Digital Art History, 0(1), DOI:
10.11588/dah.2015.1.21631
MARTINHO, D. T. (2018): "Researching Culture through Big Data: Computational Engineering and the Human and
Social Sciences", Social Sciences, 7(12), DOI: 10.3390/socsci7120264
MCFARLAND, D. A. y MCFARLAND, H. R. (2015): "Big Data and the Danger of Being Precisely Inaccurate", Big Data
&Society, 2(2), DOI: 10.1177/2053951715602495
MCFARLAND, D. A., LEWIS, K. y GOLDBERG, A. (2016): "Sociology in the Era of Big Data: The Ascent of Forensic
Social Science", The American Sociologist, 47(1), pp. 12-35. DOI: 10.1007/s12108-015-9291-8
MILLS, C. W. (1959): The Sociological Imagination, New York, Oxford University Press
MOED, H. F. (2005): "Citation Analysis of Scientific Journals and Journal Impact Measures", Current Science,
89(12), pp. 1990-96.
MOODY, J. (2004): "The Structure of Social Science Collaboration Network: Disciplinary Cohesion from 1963 to
1999", American Sociological Review, 69(2), pp. 213-238. DOI: 10.1177/000312240406900204
MOODY, J. y LIGHT, R. (2006): "A view from Above: The Evolving Sociological Landscape", The American
Sociologist, 37(2), pp. 67-86
MOKSONY, F., HEGEDUS, R. y CSÁSZÁR, M. (2014): "Rankings, Research Styles, and Publication Cultures: A Study
of American Sociology Departments", Scientometrics, 101(3), pp. 1715-29. DOI: 10.1007/s11192-013-1218-y
MORETTI, F. (2000): "Conjectures on World Literature", New left review, pp. 54-68.
NERESINI, F. (2017): "On Data, Big Data and Social Research. Is It a Real Revolution?" en On Data, Big Data and
Social Research. Is It a Real Revolution?, Cham, Springer International Publishing, pp. 9-16
O'REILLY, K. (2009): "For Interdisciplinarity and a Disciplined, Professional Sociology", Innovation: The European
Journal of Social Science Research, 22(2), pp. 21932. DOI: 10.1080/13511610903075761
OROMANER, M. (1981): "Cognitive Consensus in Recent Mainstream American Sociology: An Empirical Analysis",
Scientometrics, 3(2), pp. 73-84. DOI: 10.1007/ BF02025631

PERITZ, B. C. (1983): "Are Methodological Papers More Cited Than Theoretical or Empirical Ones? The Case of
Sociology", Scientometrics, 5(4), pp. 211-18. DOI: 10.1007/BF02019738
PHELAN, T. J. (2000): "Bibliometrics and the Evaluation of Australian Sociology", Journal of Sociology, 36(3), pp.
345-63. DOI: 10.1177/144078330003600305
PINCH, T. J. y BIJKER, W. E. (1984): "The Social Construction of Facts and Artefacts: Or How the Sociology of
Science and the Sociology of Technology Might Benefit Each Other", Social Studies of Science, 14(3), pp. 399-441.
DOI: 10.1177/030631284014003004
PRESS, G. (2014):"12 Big Data Definitions: Whas Yours?" Forbes. Disponible en la página web:
https://www.forbes.com/sites/gilpress/2014/09/03/12-big-data-definitions-whats-yours/ [consulta: Septiembre
2021]
RAFTERY, A. E. (2000): "Statistics in Sociology, 1950-2000", Journal of the American Statistical Association,
95(450), pp. 654-61. DOI: 10.1080/01621459.2000.10474245
RIVIERA, E. (2015): "Testing the Strength of the Normative Approach in Citation Theory through Relational
Bibliometrics: The Case of Italian Sociology", Journal of the Association for Information Science and Technology,
66(6), pp. 1178-88. DOI: 10.1002/asi.23248
RODRIGUEZ-YUNTA, L. (2009): "Revistas españolas en WoS", Anuario ThinkEPI, 2010(4), pp. 250-253 web:
https://recyt.fecyt.es/index.php/ThinkEPI/article/ view/31268 [consulta: Septiembre 2021]
SANTAMARÍA, L. y MIHALJEVIU, H. (2018): "Comparison and Benchmark of Nameto-Gender Inference Services",
PeerJ Computer Science, 4, pp. e156.
SAVAGE, M. y BURROWS, R. (2007): "The Coming Crisis of Empirical Sociology", Sociology, 41(5), pp. 885-99. DOI:
10.1177/0038038507080443
SCHWEMMER, C. y WIECZOREK, O. (2019): "The Methodological Divide of Sociology: Evidence from Two Decades
of Journal Publications", Sociology, 54(1), pp. 3-21. DOI: 10.1177/0038038519853146
SEALE, C. (2008): "Mapping the Field of Medical Sociology: A Comparative Analysis of Journals", Sociology of
health &illness, 30(5), pp. 677-95. DOI: 10.nn/j.1467-9566.2008.01090.x
SINHA, A., SHEN, Z., SONG, Y., MA, H., EIDE, D., HSU, B.-J. y WANG, K. (2015): "An Overview of Microsoft Academic
Service (Mas) and Applications." en An Overview of Microsoft Academic Service (Mas) and Applications, pp. 243-
46
SMALL, A. W. (1906): "The Relation between Sociology and Other Sciences", American Journal of Sociology, 12(1),
pp. 11-31.
SMELSER, N. J. (2014): "The Optimum Scope of Sociology (1969)." en Getting Sociology Right, University of
California Press, pp. 15-34
STICHWEH, R. (2008): "The Sociology of Scientific Disciplines: On the Genesis and Stability of the Disciplinary
Structure of Modern Science", Science in Context, 5(1), pp. 3-15. DOI: 10.1017/S0269889700001071
STINCHCOMBE, A. L. (1984): "The Origins of Sociology as a Discipline", Acta Sociologica, 27(1), pp. 51-61. DOI:
10.1177/000169938402700104
SU, H.-N. y LEE, P.-C. (2010): "Mapping Knowledge Structure by Keyword Co-Occurrence: A First Look at Journal
Papers in Technology Foresight", Scientometrics, 85(1), pp. 65-79. DOI: 10.1007/s11192-010-0259-8
TAYLOR &FRANCIS (2017): Co-Authorship in the Humanities and Social Sciences, disponible en página web
https://authorservices.taylorandfrancis.com/wp-content/ uploads/2017/09/Coauthorship-white-paper.pdf
[consulta: Agosto 2019]
TINATI, R., HALFORD, S., CARR, L. y POPE, C. (2014): "Big Data: Methodological Challenges and Approaches for
Sociological Analysis", Sociology, 48(4), pp. 66381. DOI: 10.1177/0038038513511561
TUBARO, P. (2014): "Sociology and Social Networks." en Sociology and Social Networks, SAGE Publications Sage
UK: London, England, pp.
VANDERSTRAETEN, R. (2010): "Scientific Communication: Sociology Journals and Publication Practices",
Sociology, 44(3), pp. 559-76. DOI: 10.1177/0038038510362477

WANG, K., SHEN, Z., HUANG, C., WU, C.-H., EIDE, D., DONG, Y., QIAN, J., KANAKIA, A., CHEN, A. y ROGAHN, R. (2019):
"A Review of Microsoft Academic Services for Science of Science Studies", Frontiers in Big Data, 2, pp. 45.
XIA, F., WANG, W., BEKELE, T. M. y LIU, H. (2017): "Big Scholarly Data: A Survey", IEEE Transactions on Big Data,
3(1), pp. 18-35. DOI: 10.1109/TBDATA.2016.2641460
ZOUGIRIS, K. (2018):"Detecting Topical Divides and Topical Bridges Across National Sociologies". The American
Sociologist, 50, pp. 63-84. DOI: 10.1007/s12108-0189392-2
DETALLES
Materia: Big Data; Sociology; Research methodology; Impact factors; Co authorship;

Journals; Bibliometrics
Término de indexación de Asunto: Big Data

negocios:
Título: La sociología a través de sus publicaciones en revistas de impacto mediante el uso

de big data
Título alternativo: Sociology through its publications in impact factor journals using big data
Autor: Martínez-Uribe, Luis11 Fundación Juan March Universidad de Salamanca

lmartinez@march.es (ESPAÑA) ORCID https://orcid.org/0000-0002-7795-3972
Número: 53
Páginas: 53-88
ISSN: 11395737
e-ISSN: 21740682

DOI: 10.empiria.53.2022.32612

ProQuest:
URL del documento: https://www.proquest.com/scholarly-journals/la-sociología-través-de-sus-

publicaciones-en/docview/2639712947/se-2

may use this content in accordance with the terms of the Lic ense.
Premium Collection
Copyright de la base de datos  2022 ProQuest LLC. Reservados todos los derechos.
Términos y condiciones Contactar con ProQuest

ProQuestDocuments 2022 07 15

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ProQuestDocuments 2022 07 15

Cargado por

Copyright:

Formatos disponibles

Tipos de big data y análisis sociológico: usos,

críticas y problemas éticos

Enlace de documentos de ProQuest

PDF GENERADO POR PROQUEST.COM Page 1 of 110

PDF GENERADO POR PROQUEST.COM Page 2 of 110

PDF GENERADO POR PROQUEST.COM Page 3 of 110

PDF GENERADO POR PROQUEST.COM Page 4 of 110

PDF GENERADO POR PROQUEST.COM Page 5 of 110

PDF GENERADO POR PROQUEST.COM Page 6 of 110

PDF GENERADO POR PROQUEST.COM Page 7 of 110

PDF GENERADO POR PROQUEST.COM Page 8 of 110

PDF GENERADO POR PROQUEST.COM Page 9 of 110

PDF GENERADO POR PROQUEST.COM Page 10 of 110

Materia: Big Data; Research methodology; Internet; Ethics

Término de indexación de Asunto: Big Data

Autor: Aragona, Biagio11 Universidad de Nápoles Federico II

Título de publicación: Empiria; Madrid

Año de publicación: 2022

Fecha de publicación: Jan-Apr 2022

Editorial: Universidad Nacional de Educacion a Distancia (UNED)

Lugar de publicación: Madrid

País de publicación: Spain, Madrid

Materia de publicación: Sociology

PDF GENERADO POR PROQUEST.COM Page 11 of 110

Tipo de fuente: Revista científica

Idioma de la publicación: Spanish

Tipo de documento: General Information

ID del documento de 2639732013

URL del documento: https://www.proquest.com/scholarly-journals/tipos-de-big-data-y-análisis-

Copyright: © 2022. This work is published under https://creativecommons.org/licenses/by-nc-

Última actualización: 2022-03-16

Análisis de la dinámica, la estructura y el

Enlace de documentos de ProQuest

PDF GENERADO POR PROQUEST.COM Page 12 of 110

PDF GENERADO POR PROQUEST.COM Page 13 of 110

PDF GENERADO POR PROQUEST.COM Page 14 of 110

PDF GENERADO POR PROQUEST.COM Page 15 of 110

PDF GENERADO POR PROQUEST.COM Page 16 of 110

PDF GENERADO POR PROQUEST.COM Page 17 of 110

PDF GENERADO POR PROQUEST.COM Page 18 of 110

PDF GENERADO POR PROQUEST.COM Page 19 of 110

PDF GENERADO POR PROQUEST.COM Page 20 of 110

PDF GENERADO POR PROQUEST.COM Page 21 of 110

PDF GENERADO POR PROQUEST.COM Page 22 of 110

PDF GENERADO POR PROQUEST.COM Page 23 of 110

PDF GENERADO POR PROQUEST.COM Page 24 of 110

Materia: Content analysis; Internet; Sexual assault; Social networks

Término de indexación de Asunto: Social networks

Título: Análisis de la dinámica, la estructura y el contenido de los mensajes de Twitter:

Título de publicación: Empiria; Madrid

PDF GENERADO POR PROQUEST.COM Page 25 of 110

Fecha de publicación: Jan-Apr 2022

Editorial: Universidad Nacional de Educacion a Distancia (UNED)

Lugar de publicación: Madrid

País de publicación: Spain, Madrid

Materia de publicación: Sociology

Tipo de fuente: Revista científica

Idioma de la publicación: Spanish

Tipo de documento: General Information

ID del documento de 2639731901

URL del documento: https://www.proquest.com/scholarly-journals/análisis-de-la-dinámica-estructura-y-

Copyright: © 2022. This work is published under https://creativecommons.org/licenses/by-nc-

Última actualización: 2022-03-16