Está en la página 1de 4

4.

La ética en el big data

Los problemas de anonimato con el big data

Sabemos que con el big data podemos hacer cosas


sorprendentes, especialmente si comparamos la información de un
individuo con el conjunto de datos masivos. 
Alguno de estos ejemplos, sin embargo, pueden cruzar la línea que separa lo
impresionante de lo espeluznante, y es porque la privacidad es un tema
importante, y en muchos casos parece que se traspasa la línea y se revela
información privada que no esperábamos que se divulgase. 
La gente no quiere que su información personal sea pública, y durante los
últimos años, ha habido graves consecuencias por violaciones de la
privacidad, tanto casuales como intencionadas. 
Por otro lado, sí queremos tener un servicio de calidad y necesitamos una
buena investigación, es un problema. 
Una solución posible es anonimizar los datos, convertirlos en anónimos
eliminando identificadores como nombres, direcciones y otra información
personal identificativa obvia. Sin embargo, muchos de estos intentos han
fracasado drásticamente. 
Uno de los mayores problemas a la hora de trabajar con big data es que incluso
cuando alguien intenta que su información sea anónima y elimina
identificadores obvios, no es imposible revertir el proceso. Un ejemplo real
ocurrió hace unos años, con el Netflix Prize, cuando Netflix hizo
recomendaciones de películas a usuarios con datos anonimizados. 
Dos investigadores, Arvind Narayanan y Vitaly Shmatikov, fueron capaces de
seleccionar esa información y compararla con la de los usuarios identificados en
la base de datos de cine Internet Movie Database. 
Lo que hicieron fue buscar la equivalencia entre los usuarios identificados de la
Internet Movie Database y las puntuaciones anónimas de Netflix y vincular
ambos conjuntos de datos. 
Un problema mayor ocurrió con otro concurso relacionado con las redes
sociales. En el concurso se incluía información como «esta persona que se
identificó con un número aleatorio está conectada con esta persona y esta otra
persona, esta otra y esta otra». A partir de ahí, se hizo un gráfico de red
social, una imagen donde cada dibujo representa un individuo y las líneas son
los nodos que los conectan con otros individuos. Lo que el investigador fue
capaz de hacer en este caso fue, de nuevo, enviar un rastreador a varias redes
sociales disponibles públicamente, y encontrar relaciones simplemente
emparejando formas, sin otra información que las formas de los
diagramas. Logró identificar una red social que venía de Flickr, la página para
compartir fotografías, identificó formas en la red social Flickr que coincidían con
los datos del concurso, y también pudo deanonimizar los conjuntos de
datos, con una simple relación entre formas geométricas. 
Otro ejemplo más drástico es el de la investigadora Latanya Sweeney, que fue
capaz de adquirir registros de votantes de Cambridge (Massachusetts). Lo que
se incluye a la izquierda es el nombre, la dirección, la fecha de registro, la
filiación política y la fecha de la última votación, junto con el código postal, la
fecha de nacimiento y el sexo de cada persona de esa lista de votantes. Por sí
sola, no es información horrible, excepto que se sabe la afiliación política de los
votantes. Sin embargo, descubrió que con solo tres datos (el código postal, la
fecha de nacimiento y el sexo de la persona), podía acceder a los registros
médicos que estaban disponibles públicamente, relacionarlos y descubrir el
origen étnico de la persona, la fecha de visita, su diagnóstico, su operación, su
medicación y el costo total. De hecho, de ese conjunto de datos consiguió
identificar al gobernador de Massachusetts y obtener su información médica
mediante este proceso circular. No lo hizo como una forma de dar a conocer la
información, no intentaba airear los trapos sucios de nadie, sino que estaba
intentando mostrar la información disponible y con fácil acceso, como el código
postal, la fecha de nacimiento y el sexo. Identificó correctamente al 97 por
ciento de los individuos a partir de los datos médicos. 
Esto sucedió hace 20 años, y lo bueno es que, desde entonces, las normas sobre
qué información está disponible han cambiado. 
Ahora tenemos la Ley de Portabilidad y Responsabilidad de Seguros Médicos
(HIPAA), que respeta las normas de privacidad de la medicina. 
La HIPAA exige que mucha información distinta, un 17 por ciento de las
variables principales, tiene que ser anónima. Por ejemplo, no puedes informar
de la edad de una persona ni dar su fecha de nacimiento; simplemente debes
decir los años que tiene. Si tiene más de 89 años, simplemente dices que tiene
más de 89 años. No puedes dar su código postal, y solo puedes mencionar el
estado donde reside, para que los grupos sean mayores y sea más difícil
identificarlos. 
Otra investigación de Latanya Sweeney mostró que cuando eliminas la
información protegida por la HIPAA, solo se puede identificar al 0,04 por ciento
de los individuos. 
A efectos comparativos, la probabilidad de que te caiga un rayo es de uno entre
10 000, así que el riesgo es parecido. 
Del mismo modo, el profesor de derecho Paul Ohm mostró que reidentificar a la
gente a partir de conjuntos de datos anonimizados es enormemente
difícil. Exige lo que llama habilidades masivas de gestión de datos y de
estadística. 
La cuestión es que, aunque se puede hacer, es muy difícil. Como descubrió la
profesora Sweeney, si la información está anonimizada apropiadamente, es
prácticamente imposible identificar a la gente. 
El objetivo de estos ejemplos no es fomentar la paranoia, sino destacar que hay
que tener cuidado a la hora de trabajar con big data, especialmente con la
información personal identificable, para garantizar la privacidad. 
El anonimato es un comienzo, pero requiere alguna atención y cuidado para
aplicarlo bien, y si se hace bien, sigue siendo posible proporcionar servicios y
dirigir investigaciones sin traspasar la línea de lo escalofriante o meterse
en problemas legales.

Los problemas de confidencialidad con el big data

Sabemos la importancia y la dificultad de proteger la información


personal identificativa en el big data mediante el anonimato. 
Anonimato significa que los individuos no pueden ser identificados. 
Otro elemento importante de la privacidad, sin embargo, es la confidencialidad
de lo que se llama información privada. 
En su forma más simple, confidencialidad significa que, independientemente de
si los individuos pueden identificarse con los datos, sus datos no se
compartirán con otras personas que no tienen permiso para verlos. 
La confidencialidad es una cuestión de confianza que posibilita las
interacciones. 
Por ejemplo, he facilitado la información de mi tarjeta de crédito a varias
empresas online, porque, primero, que tengan mis datos facilita mis
interacciones, y segundo, me siento seguro de que mantendrán esa información
privada. Sin embargo, la confidencialidad tiene varias excepciones y límites que
tenemos que ver. 
El primero es que, para ejecutar transacciones, las empresas comparten
cierta cantidad de información con terceras partes. Por ejemplo, si alguien va
a hacer una compra significativa, no es raro que el vendedor llame al banco y
pregunte si esa persona tiene suficiente dinero para esa compra. Está
comprobando que tenga fondos suficientes, y el banco le responde sí o no. Se
comparte una pequeña cantidad de información, pero el banco no transmite el
número de cuenta del cliente, su identificación personal, ni comunica el balance
actual; simplemente notifica si tiene el dinero suficiente para cubrir una
transacción en particular. 
Por otro lado, también se da el caso de robo de información de las
empresas. Muchas empresas sufrieron robos de sus datos, con información
sobre tarjetas de crédito y otros datos personales importantes. En algunos
casos, las empresas perdieron millones de dólares porque los consumidores ya
no confiaban en que su información estaría segura. 
De manera similar, otra limitación de la confidencialidad es que las
empresas a veces tienen que dar información a los tribunales o al gobierno
como parte de un proceso legal, que les haría cerrar el negocio en caso de
no proporcionarla. 
Es una situación poco frecuente, pero ocurre alguna vez. La traba es que,
aunque es un proceso legal, no es algo a lo que el cliente haya accedido, por lo
que se da una vulneración de la confianza, incluso si lo que ocurre
técnicamente es un proceso legal. Estas excepciones no exigen un bloqueo
completo de los datos, porque proporcionan servicios muy importantes, pero sí
exigen más cuidado y atención. 
Por ejemplo, la Fundación Nacional para la Ciencia y los Institutos Nacionales de
la Salud han instaurado políticas para que los investigadores presenten un plan
para dar acceso a los datos que utilizarán en sus estudios. Además, hay
aseguradoras que ofrecen seguros que cubren las filtraciones de datos, y las
empresas deberían evaluar si adquieren este tipo de pólizas. Es poco frecuente,
pero la tienen disponible. 
Por último, las empresas deberían considerar si necesitan tener
información confidencial en primer lugar, ya que, si no tienes algo, no lo
podrás perder. Es decir, las empresas deberían evaluar los servicios que
proporcionan y si esa información es importante. Se me ocurre el ejemplo de
una empresa aseguradora de vida que quiera tener acceso a los
registros médicos de sus clientes, quizás, pero es más difícil imaginar una
situación en la que sería apropiado que una empresa de tarjetas de crédito
tenga ese tipo de información. 

Está claro entonces que las cosas pueden salir mal (y lo hacen) cuando se
supone que los datos son confidenciales, pero, repito, esto no exige que
prohíba compartir todos los datos que tengan información privada. Al fin y al
cabo, es lo que hace que las recomendaciones de restaurantes y películas
funcionen tan bien, y es importante usar big data para hacer descubrimientos
médicos. Algunos de estos beneficios son por comodidad personal, y
podríamos renunciar a ellos, pero otros tienen consecuencias de vida o muerte
y vale la pena que se mantengan. 

Por estos motivos, es importante que las empresas estudien cómo van a lidiar
con la información privada. 
Así, la confianza entre la gente común, o los consumidores, y los que
se benefician de las investigaciones del big data puede mantenerse mientras el
big data proporciona todos sus beneficios.

También podría gustarte