Big Data

claraluzfernandezvecino�blogspot�com
Claraluzfernandezvecino: marzo 2019
14-18 minutes
Trabajo sobre el artículo:
Seis provocaciones para Big Data
de Danah Boyd y Kate Crawford

Trabajo para la asignatura Analitica del aprendizaje conectado
del Master de Educacion y comunicacion en redes sociales
Este trabajo es un texto sintético analítico con las ideas claves del
artículo de las autoras Boyd y Crawford, (2012) y con aportación de
referencias a otros autores que tratan la misma temática�
El artículo a analizar fué presentado en el Instituto de Internet de
Oxford en un simposium sobre las dinamicas de Internet y de la
sociedad en septiembre del 2011 por lo que tiene antiguedad en
algunos de sus ejemplos, pero sigue formando parte del debate actual
en casi todo su discurso�
El Big Data consiste en una multitud de información producida al

conectarse e interactuar en la red y estos datos pueden producir
ciertos beneficios sociales y económicos�
Según indican Boyd y Crawford, (2012) los datos que aporta el big
data son “por y sobre las personas, las cosas y sus interacciones” en
estos datos, se buscan patrones de conducta, que se derivan del
estudio entre las interconexiones de datos�
En el siguiente enlace se aporta un artículo en el que se clasifican los

datos del Big Data en siete tipos de datos:
El autor clasifica los datos con el nombre de datos estructurados a
aquellos datos que se generan en bases normales de datos y que se
han producido mediante diversas formas, ya sea por haber sido
creadas por una empresa, provocadas al realizar una valoración,
tramitadas al realizar una compra, compiladas como los censos o las
informaciones de nuestros datos personales, al matrícular el coche,
comprar la casa, o sacarte el DNI o el carnet de conducir� Para estos
datos se supone que has dado un consentimiento en las redes, porque
de manera voluntaria has realizado acciones que ayudan a que estén
registrados esos datos�
Por otro lado clasifica como datos no estructurados o

semiestructurados, y los de texto y no texto, que no están en bases de
datos relacionales y que pueden ser documentos XML y NoSQL o
también en otros formatos como documentos de texto, fotografías,
audios, videos, pdf�
De los datos no estructurados, semiestructurados de texto y no texto

están los datos que pueden ser más controvertidos, los que se
producen de forma voluntaria por los usuarios de las redes sociales
mediante mensajes, subir videos o fotos a una plataforma y por
último, no se pueden olvidar, los datos que se generan al ser
capturados de las acciones de las personas y en las que ellas no
tienen conocimiento de que esos datos se están produciendo y
capturando, como son el GPS, o cuando realizas búsquedas en la red
te registran tus búsquedas�
En el trabajo de Boyd y Crawford (2012) se preguntan si ese análisis

de los datos de la red producirá un beneficio en nuestra sociedad o por
el contrario un perjuicio� Hoy en día mediante los datos de internet se
puede detectar los brotes de enfermedades infecciosas, pero aunque
eso es un gran avance, no todo son ventajas�
En el siguiente artículo la autora Perez,G� (2016) se cuestiona los

peligros del estudio de los Big data en salud pública y en
epidemiología:
Perez,G� (2016) indica que los sesgos de información en el big data

posibilitan errores, como son el uso que hacen algunas empresas de
los modelos Twitterbots por los que dichas empresas emiten mensajes
de manera automatizada para aparecer mejor posicionadas en las
redes, y añade, que aunque las leyes europeas tienen leyes que
protegen los datos, eso mismo no ocurre en otros países com leyes
más laxas y que precisamente los datos obtenidos en estos paisas no
suelen servir para revertir las situaciones analizadas en sus datos
debido a la pobreza y a la falta de medios sanitarios�
La recogida de datos se produce no solo en el mundo industrial sino en

el académico, surgiendo la ciencia del estudio de datos que pretende
que ser un aporte científico y objetivo para los estudios científicos
sociológicos�
Mazzocchi (2015) plantea la ciencia basada en macrodatos no como

el fin de la teoría científica sino como nuevas aportaciones a la ciencia
“El Big Data y el mito de una ciencia sin teoría en el siguiente artículo:
Las sociedades, según las autoras, están reguladas por cuatro

fuerzas: el mercado, la ley, las normas sociales y el código� y en el Big
Data, estas fuerzas están en conflicto, porque el mercado piensa en
utilizar cualquier medio de lucrarse a costa de recoger datos, la
sociedad se asusta y pregunta por la invasión del individuo en esa
recogida y las leyes deben de buscar protegernos del abuso del
mercantilismo al plantear la recogida
El siguiente artículo se debate el tema de la privacidad de los datos y

del abuso de su uso:
La autora Soto, � (2017) se plantea el problema de una sociedad en

la que estamos siendo vigilados constantemente, mediante el uso de
herramientas que hemos adquirido voluntariamente, como son los
móviles, tabletas o Pc� Soto, analiza el proyecto PADRIS que recoge
una gran cantidad de datos de salud, obtenidos de la población de
Cataluña y que en las bases de este proyecto se recoge que esta
información podría ser usada por terceros, por lo que podría ser usada
de manera incorrecta, y ejemplifica casos de mercantilismo como son
mazon e Inditex�
En el artículo a analizar las autoras Boyd y Crawford, (2012) se

plantean seis preguntas claves en torno al Big data�
1� La automatización de la investigación cambia la definición

de conocimiento�
En este apartado plantean como las ciencias humanísticas comienzan

a utilizar los datos numéricos y se preguntan por si estos datos del Big
Data son objetivos� El método científico requiere de la objetividad, y
para que esta sea real, hay que plantearse de dónde provienen los
datos a analizar, qué datos se van recoger y cuales se ignorarán y
preguntarse por la objetividad en las decisiones tomadas al escoger
unos datos y dejar de lado otros�
La investigación científica ha cambiado y la recogida que se produce

desde las herramientas del Big Data tienen “limitaciones y
restricciones incorporadas” en dos puntos: las pérdidas de datos y el
tiempo de acceso a datos� Twitter o facebook como ejemplo de ello
permiten la recogida de datos recientes y descuidan y se olvidan de la
recogida de datos antiguos�
2� Los reclamos de objetividad y precisión son engañosos�
Las autoras Boyd y Crawford, (2012) intentan en este punto definir si

las ciencias sociales pueden ser cuantificables y objetivas mediante el
uso del Big Data y el resultado es que no, que trabajar con Big Data
todavía es subjetivo debido a que la toma de decisiones de que datos
se usan y cuáles no, ya exige una interpretación subjetiva y por otro
lado existe el problema de que los datos de internet tengan errores por
los vacíos y perdidas de datos que generan y no podemos demostrar
que los datos sean aleatorios ni representativos�
La interpretación debe de ser objetiva, las autoras lo relacionan con las

investigaciones en torno al número de Dunbar:
Según Dumbar son 150 las relaciones que un individuo realiza�

quellas investigaciones que limitaron a ese número su estudio ya
estaban generando sesgos que no eran objetivos
Sampedro (2017) en su artículo “Nos salvarán los números de la

postverdad” plantea que los números nos llevan por la racionalidad y
el pensamiento científico
Sampedro (2017) plantea que los números usados correctamente te

llevan por caminos seguros pero en ocasiones se pretenden sustituir
por hechos alternativos que ocultan sus verdades�
3� Los datos más grandes no siempre son los mejores
Los científicos sociales tratan de evaluar la validez del trabajo

científico mediante el uso del Big Data argumentado que su trabajo es
riguroso en la recolección y análisis de datos�
Twitter demuestra que la recolección de datos producida desde esta

plataforma no es correcta, ya que algunos usuarios tienen múltiples
cuentas, algunas cuentas son utilizadas por varias personas (como
ocurre con cuentas de partidos, organismos, sindicatos o inclusos de
candidatos políticos) y algunas personas nunca crean una cuenta y por
otro lado los tweets se pierden y eliminan con frecuencia por
contenidos incorrectos, por lo que un muestreo de los datos de Twitter
no podría representar a la sociedad�
nalicemos el artículo del 2015 titulado: nalítica de datos en

Twitter
Mir (2015) se plantea la problemática de la recogida de datos en

twitter y explica las razones por las que para su estudio se limita a
recoger una selección de entre los de las celebrities�
En la era digital las investigaciones basadas en datos muy pequeños,

incluso enfocándose solamente en un individuo, pueden resultar muy
reveladoras, lo importante es responder a las preguntas que generan la
investigación�
En el siguiente documento se habla sobre que el exceso de datos,

pone en peligro la investigación científica
4� No todos los datos son equivalentes
lgunos estudios basados en redes intentan desentrañar las

relaciones sociales, incluso teniendo en cuenta la proximidad física
que se puede descubrir por la geo localización, pero las relaciones
sociales son más complejas, que dos personas estén en el mismo
sitio, incluso que compartan el mismo centro de estudios o de trabajo,
no significa que se conozcan� Las elecciones de amistades en las
redes pueden no ser tus elecciones en el mundo físico, ya que las
motivaciones para elegir amigos en las redes pueden contemplar otros
parámetros como la canalización de la información o los compromisos
de trabajo� El contexto importa�
En el artículo titulado: Tus contactos de Facebook ¿son amigos de

verdad? se trata el tema de si son amistades reales o se buscan
conocidos o personas que te interesen para canalizar la información
que quieres que te llegue
En el enlace siguiente presento el artículo de Dans (2009) en el que

se habla de la asimetría social entre las amistades reales del mundo
físico y las de las redes y de la memoria expandida que producen las
amistades en las redes mediante poder seguir relacionándote con
gente que no recordarías y que gracias al aporte de información
adicional que tienen las redes te permite poder ubicarlas en tu
estructura memorística
Las Redes articuladas son las conexiones interpersonales que

publicas en las redes�
Las redes de comportamiento son las personas que se comunican

entre sí mediante mensajes de texto, etiquetados en fotos o que se
encuentran físicamente en el mismo espacio� Pero los estudios de
datos que intentan relacionar a las personas por encontrarse en el
mismo espacio olvidan las complejidades sociales, ya que la misma
ubicación no significa que formen parte de tus redes personales, lo
que puede conducir a múltiples errores en los estudios que trabajen las
redes de comportamiento�
5� El solo hecho de que sea accesible no lo hace ético
Los datos del Big data pueden comprometer la privacidad, y no son

recogidos con permiso, por lo que no se deberían de poder utilizar sin
un permiso� Hay que asegurarse de que no haya un perjuicio para los
individuos o las sociedades por el uso de esa información, por otro
lado se plantea la imposibilidad de que un investigador pida
consentimiento a las personas implicadas en una recogida de datos
masiva del Big data�
Este apartado hace hincapié en que lo que se publica en la red de

manera pública no implica que esté permitido su uso para otras
finalidades públicas y que algo publicado en un determinado contesto
al extraerlo de ese contexto puede producir un gran daño�
En este artículo se plantean la necesidad de un código ético para los

científicos de datos
6� El acceso limitado a Big Data crea nuevas divisiones digitales
Gran parte del entusiasmo que rodea a Big Data proviene de la

percepción de que ofrece un acceso fácil y barato a grandes
cantidades de datos� pero este acceso a los datos es diferente según
para quién, ya que unas compañías no venden sus datos, otras venden
todos y otras ofrecen unos pocos datos para su estudio� Por lo que se
va a producir una brecha entre los que pueden acceder a todos los
datos de una empresa de manera libre, los que tienen que comprarlos y
los que no pueden comprarlos�
"Solo las empresas de redes sociales tienen acceso a datos sociales

realmente grandes, especialmente datos transaccionales� Un
antropólogo que trabaje para Facebook o un sociólogo que trabaje para
Google tendrá acceso a datos que el resto de la comunidad académica
no tendrá " (Boyd y Crawford, 2012)
En el sistema de investigación mediante el Bigdata va a haber

diferencias entre los ricos del Big Data y los pobres del Big Data�
Las universidades bien dotadas economicamente favoreceran que sus

estudiantes puedan acceder a toda la información de datos, y las
menos dotadas no podrán favorecer que sus estudiantes desarrollen
trabajos en estos medios�
En el siguiente artículo se habla de la división digital mediante

ejemplos en los que los investigadores tienen problemas con el acceso
a la información de las redes, por otro lado explica como Twitter,
después de años vendiendo sus datos, puso sus datos a disposición
solo de 6 proyectos de entre 1000 que se presentaron y que fueron
becados para poder usar toda la información�
Para extraer datos hay que tener una serie de habilidades

computacionales
Los investigadores que tienen acceso a todos los datos de una

empresa por trabajar desde dentro están menos motivados en sus
investigaciones a comprometer a la empresa y por lo tanto van a
realizar estudios subjetivos
El Big Data está implicado cambios históricos y filosóficos� Hay un

gran impulso desde la industrial hacia la recopilación y extracción de
datos que permitan ganar más dinero mediante una publicidad
personificada y revisan nuestras interacciones en la red, así como los
gobierno en aras de la defensa del país realizan acciones de vigilancia�
Como conclusión al estudio de este artículo incorporo una mención al

artículo “Grandes datos, grandes desafíos para las ciencias sociales”
que es una revisión actualizada de este artículo y trata muchos de los
aspectos del artículo analizado, en este artículo Meneses, M�E ()
explica la necesidad de incorporación de procedimientos
computacionales a los estudios humanísticos, habla del origen
etimológico de datos como derivado de la palabra dar, que resulta
interesante ya que todos los usuarios de internet damos de manera
gratuita nuestra información, pero las empresas usan nuestra hueya
digital para el mercantilismo de los datos, explica el Big Data como
fuente para el desarrollo ejemplificado en las posibilidades del control
de epidemias como el ébola� Define la diferencia entre el Big data y la
Smoll data, los atributos para entender el Big data que son la
velocidad, volumen, variedad y velocidad, habla de los problemas que
se producen en el uso de los Big data en el estudio de campos
sociológicos, como son “la veracidad, objetividad, representatividad y
los dilemas éticos asociados” trata profundamente sobre la
objetividad y cita como una gran referencia el artículo de nuestras
autoras�

Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

claraluzfernandezvecino�blogspot�com

Claraluzfernandezvecino: marzo 2019

Trabajo sobre el artículo:

Seis provocaciones para Big Data

de Danah Boyd y Kate Crawford

El Big Data consiste en una multitud de información producida al

En el siguiente enlace se aporta un artículo en el que se clasiﬁcan los

Por otro lado clasiﬁca como datos no estructurados o

De los datos no estructurados, semiestructurados de texto y no texto

En el trabajo de Boyd y Crawford (2012) se preguntan si ese análisis

En el siguiente artículo la autora Perez,G� (2016) se cuestiona los

Perez,G� (2016) indica que los sesgos de información en el big data

La recogida de datos se produce no solo en el mundo industrial sino en

Mazzocchi (2015) plantea la ciencia basada en macrodatos no como

Las sociedades, según las autoras, están reguladas por cuatro

El siguiente artículo se debate el tema de la privacidad de los datos y

La autora Soto, � (2017) se plantea el problema de una sociedad en

En el artículo a analizar las autoras Boyd y Crawford, (2012) se

1� La automatización de la investigación cambia la deﬁnición

En este apartado plantean como las ciencias humanísticas comienzan

La investigación cientíﬁca ha cambiado y la recogida que se produce

2� Los reclamos de objetividad y precisión son engañosos�

Las autoras Boyd y Crawford, (2012) intentan en este punto deﬁnir si

La interpretación debe de ser objetiva, las autoras lo relacionan con las

Según Dumbar son 150 las relaciones que un individuo realiza�

Sampedro (2017) en su artículo “Nos salvarán los números de la

Sampedro (2017) plantea que los números usados correctamente te

3� Los datos más grandes no siempre son los mejores

Los cientíﬁcos sociales tratan de evaluar la validez del trabajo

Twitter demuestra que la recolección de datos producida desde esta

nalicemos el artículo del 2015 titulado: nalítica de datos en

Mir (2015) se plantea la problemática de la recogida de datos en

En la era digital las investigaciones basadas en datos muy pequeños,

En el siguiente documento se habla sobre que el exceso de datos,

4� No todos los datos son equivalentes

lgunos estudios basados en redes intentan desentrañar las

En el artículo titulado: Tus contactos de Facebook ¿son amigos de

En el enlace siguiente presento el artículo de Dans (2009) en el que

Las Redes articuladas son las conexiones interpersonales que

Las redes de comportamiento son las personas que se comunican

5� El solo hecho de que sea accesible no lo hace ético

Los datos del Big data pueden comprometer la privacidad, y no son

Este apartado hace hincapié en que lo que se publica en la red de

En este artículo se plantean la necesidad de un código ético para los

6� El acceso limitado a Big Data crea nuevas divisiones digitales

Gran parte del entusiasmo que rodea a Big Data proviene de la

"Solo las empresas de redes sociales tienen acceso a datos sociales

En el sistema de investigación mediante el Bigdata va a haber

Las universidades bien dotadas economicamente favoreceran que sus

En el siguiente artículo se habla de la división digital mediante

Para extraer datos hay que tener una serie de habilidades

Los investigadores que tienen acceso a todos los datos de una

El Big Data está implicado cambios históricos y ﬁlosóﬁcos� Hay un

Como conclusión al estudio de este artículo incorporo una mención al

También podría gustarte