Seguridad y Control en Big Data

Seguridad y Control en Big Data
Willy Alonso Jave Rojas1

1
Universidad Nacional de Trujillo
CIP: 148275
javerw@hotmail.com
Resumen. El presente trabajo de investigación busca dar alcances acerca de la

tecnología Big Data, su descripción y uso en el mundo actual de las TI, además
de proporcionar conceptos para mejorar la seguridad y control de la misma.
Abstract. This research seeks to reach about Big Data technology, its
description and use in today's world of IT, as well as providing concepts to
improve security and control of it.
Keywords: Big Data, Bases de Datos, Almacenamiento, Redes de Datos,

Seguridad de Información.
1 Introducción
Con el paso del tiempo las fuentes de información que manejan las
organizaciones no sólo provienen de sus propias bases de datos, hoy en día, reciben
importante información de una gran variedad de mecanismos de interacción internos y
externos, como son las redes sociales, los blogs, de audio y de video. Todas estas
nuevas fuentes de datos conforma un repositorio muy grande de información que se
conoce como Big Data1; es decir crecimiento muy rápido de la información en cuanto
a volumen, con variadas estructuras y que, por lo mismo, requiere de nuevos
elementos tecnológicos para su análisis.
De acuerdo a [1] Big Data implica centros de datos, que reciban, almacenan y
procesen información de actividad en las redes sociales, aplicaciones Cloud2,
analíticas, sensores y dispositivos móviles, datos de actividades profesionales,
usuarios, clientes y proveedores. En [2] capturar valor a partir de grandes volúmenes
de datos, las organizaciones tendrán que implementar nuevas tecnologías (para el
almacenamiento, cómputo y software de análisis) y técnicas (nuevos tipos de análisis).
La gama de retos tecnológicos y las prioridades serán diferentes, dependiendo de la
madurez de datos de la institución. Los sistemas heredados, los estándares y formatos
incompatibles, con demasiada frecuencia impiden la integración de los datos y los
análisis más sofisticados que crean valor a partir de grandes cantidades de datos.
Nuevos problemas y cada vez mayor potencia de cálculo estimularán el desarrollo de
nuevas técnicas de análisis. También hay una necesidad de innovación continua en
tecnologías y técnicas que ayudarán a los individuos y a las organizaciones a integrar,
analizar, visualizar, y consumir el creciente torrente de información.
1
Big Data : Grandes Volúmenes de información
2
Cloud : Tecnología que utiliza internet para desplegarse
2
2 Big Data
Big Data se refiere a grandes conjuntos de datos que son más grandes en términos de
orden de magnitud (volumen); son más diversos, incluyendo datos semiestructurados, y
no estructurados (variedad); y que llegan más rápido (velocidad) que lo que usted o su
organización ha tenido que procesar antes. Este flujo de datos está generado por
dispositivos conectados, desde PC3s y teléfonos inteligentes a sensores como lectores
RFID4 y cámaras de tráfico. Además, es heterogéneo y viene en muchos formatos,
incluyendo textos, documentos, imágenes, videos, registros web, transacciones, y más.[3]
El concepto de Big Data aplica para toda aquella información que no puede ser procesada
o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no
se refiere a alguna cantidad en específico, ya que es usualmente es utilizado cuando se
habla en términos de petabytes5 y exabytes6 de datos. Entonces ¿Cuánto es demasiada
información de manera que sea elegible para ser procesada y analizada utilizando Big
Data? Analicemos primeramente en términos de bytes:[4]
Gigabyte = = 1,000,000,000
Terabyte = = 1,000,000,000,000
5
Petabyte = = 1,000,000,000,000,000
Exabyte = = 1,000,000,000,000,000,000
Además del gran volumen de información, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos móviles, audio, video, sistemas GPS7, incontables sensores digitales en
equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibración,
temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal forma que las
aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo
demasiado rápida para lograr obtener la información correcta en el momento preciso.
Estas son las características principales de una oportunidad para Big Data.[4]
Es importante entender que las bases de datos convencionales son una parte importante y
relevante para una solución analítica. De hecho, se vuelve mucho más vital cuando se usa
en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en específico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la otra
para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas sin
embargo, el resultado no será el más óptimo.[4]
La convergencia de estas dimensiones ayuda tanto a definir como a distinguir big data:
3
PC : Personal Computer o Computador Personal
4
RFID : Identificación por radiofrecuencia
5
Petabytes: Unidad de almacenamiento de información
6
Exabytes: Unidad de almacenamiento de información
7
GPS : Sistema de Posicionamiento Global

3
Volumen: La cantidad de datos. Siendo quizá la característica que se asocia con
mayor frecuencia a big data, el volumen hace referencia a las cantidades
masivas de datos que las organizaciones intentan aprovechar para mejorar la
toma de decisiones en toda la empresa. Los volúmenes de datos continúan
aumentado a un ritmo sin precedentes. No obstante, lo que constituye un
volumen verdaderamente “alto” varía en función del sector e incluso de la
ubicación geográfica y es más pequeño que los petabytes y zetabytes a los que
a menudo se hace referencia.[5]
Algo más de la mitad de los encuestados consideran que conjuntos de datos de entre
un terabyte y un petabyte ya son big data, mientras que otro 30% simplemente no sabía
cuantificar este parámetro para su empresa. Aun así, todos ellos estaban de acuerdo en
que sea lo que fuere que se considere un “volumen alto” hoy en día, mañana lo será más.
 Variedad: diferentes tipos y fuentes de datos. La variedad tiene que ver con
gestionar la complejidad de múltiples tipos de datos, incluidos los datos
estructurados, semiestructurados y no estructurados. Las organizaciones
necesitan integrar y analizar datos de un complejo abanico de fuentes de
información tanto tradicional como no tradicional procedentes tanto de dentro
como de fuera de la empresa. Con la profusión de sensores, dispositivos
inteligentes y tecnologías de colaboración social, los datos que se generan
presentan innumerables formas entre las que se incluyen texto, datos web,
tweets, datos de sensores, audio, vídeo, secuencias de clic, archivos de registro y
mucho más.[5]
 Velocidad: los datos en movimiento. La velocidad a la que se crean, procesan y

analizan los datos continúa aumentando. Contribuir a una mayor velocidad es la
naturaleza en tiempo real de la creación de datos, así como la necesidad de
incorporar datos en streaming a los procesos de negocio y la toma de decisiones.
La velocidad afecta a la latencia: el tiempo de espera entre el momento en el que
se crean los datos, el momento en el que se captan y el momento en el que están
accesibles. Hoy en día, los datos se generan de forma continua a una velocidad a
la que a los sistemas tradicionales les resulta imposible captarlos, almacenarlos
y analizarlos. Para los procesos en los que el tiempo resulta fundamental, tales
como la detección de fraude en tiempo real o el marketing “instantáneo”
multicanal, ciertos tipos de datos deben analizarse en tiempo real para que
resulten útiles para el negocio[5]
Figura 1 Cuatro Dimensiones de Big Data(Fuente: Analytics:

el uso de big data en el mundo real, IBM Institute for Business Value,
http://www-
05.ibm.com/services/es/gbs/consulting/pdf/El_uso_de_Big_Data_en_
el_mundo_real.pdf)

4
Veracidad: la incertidumbre de los datos. La veracidad hace referencia al nivel
de fiabilidad asociado a ciertos tipos de datos. Esforzarse por conseguir unos
datos de alta calidad es un requisito importante y un reto fundamental de big
data, pero incluso los mejores métodos de limpieza de datos no pueden eliminar
la imprevisibilidad inherente de algunos datos, como el tiempo, la economía o
las futuras decisiones de compra de un cliente. La necesidad de reconocer y
planificar la incertidumbre es una dimensión de big data que surge a medida que
los directivos intentan comprender mejor el mundo incierto que les rodea (véase
el recuadro “Veracidad, la cuarta V”.2 En definitiva, big data es una
combinación de estas características que crea una oportunidad para que las
empresas puedan obtener una ventaja competitiva en el actual mercado
digitalizado. Permite a las empresas transformar la forma en la que interactúan
con sus clientes y les prestan servicio, y posibilita la transformación de las
mismas e incluso de sectores enteros. No todas las organizaciones adoptarán
el mismo enfoque con respecto al desarrollo y la creación de sus capacidades de
big data. Sin embargo, en todos los sectores existe la posibilidad de utilizar las
nuevas tecnologías y analíticas de big data para mejorar la toma de decisiones
y el rendimiento.[5]
2.1 Importancia y utilización de Big Data

Veamos algunos ejemplos reales de la importancia en la utilización de datos hoy en
día para marcar la diferencia:[6]
 Facebook usa herramientas de reconocimiento facial para analizar las fotos
 La geolocalización de nuestro Smartphone8 se está usando para proporcionar

que uno sube al muro y poder encontrar amigos potenciales.
 La tarjeta de fidelización de los supermercados detecta cambios en los

datos de tráfico en tiempo real.
 Los sentimientos de Facebook y mensajes Twitter ya se usan para predecir el

patrones de compra y permite adaptar ofertas personalizadas.
 Existen hospitales que monitorizan el latido de los bebes prematuros y los

volumen de ventas e incluso el valor de una marca.
analiza identificando patrones. Se estima que predicen una infección sin que
 El FBI combina datos de medios de comunicación social, cámaras de circuito

el bebé muestre ningún síntoma visible con 24h de anticipación.
cerrado de TV, llamadas telefónicas y mensajes de texto, Line o WhatsApp

para localizar delincuentes y en la medida de lo posible prevenir sus
 En el deporte de alto rendimiento e incluso en los más populares como el

actuaciones.
Fútbol, baloncesto, tenis y béisbol se están utilizando multitud de sensores en

el cuerpo y la pelota para mejorar el rendimiento de los deportistas y
 Los políticos empiezan a analizar los medios sociales para determinar sus
jugadores.
 Los artistas planifican sus espectáculos en vivo en función de nuestras

próximas actuaciones especialmente durante las campañas electorales.
playlists, preferencias, etc.
8
Smartphone : Celular inteligente
5
Otros ejemplos de uso de Big Data en el mundo:[7]
 World Data Centre for Climate El WDCC (Centro Mundial de datos para el
clima), base de datos más grande del mundo. Almacena unos 400 terabytes de
 National Energy Research Scientific Computer Center El NERSC investiga

información sobre el clima en todo el mundo.
 AT&T compañía de telecomunicaciones almacena 350 terabytes de

distintos tipos de energía. Su base de datos tiene 2.8 Petabytes.
 Google recibe más de 100 millones de consultas al día. Se supone que

información.
almacena cientos de terabytes de información.
2.2 Técnicas y Tecnologías
Una amplia variedad de técnicas y tecnologías se ha desarrollado y adaptado para

agregar, manipular, analizar y visualizar grandes volúmenes de datos [8]. Estas técnicas y
tecnologías sacan información de varios campos, incluyendo estadísticas, informática,
matemáticas aplicadas y economía. Esto significa que una organización que tiene la
intención de obtener valor de big data tiene que adoptar un enfoque flexible y
multidisciplinario. Algunas de las técnicas y tecnologías se han desarrollado en un mundo
con acceso a volúmenes mucho más pequeños y para una gran variedad de datos, pero se
han adaptado con éxito para que sean aplicables a conjuntos muy grandes de datos
diversos. Estas técnicas que se han desarrollado y adaptado para visualizar, analizar y
manipular grandes volúmenes de datos, para hacer estos datos manejables, son: fusión de
datos, Crowdsourcing, análisis de series de tiempo, pruebas A / B, análisis de redes,
análisis de clúster9, aprendizaje de reglas de asociación, aprendizaje automático y mucho
otras.
2.2.1 Apache Hadoop
Es un framework10 que permite el procesamiento de grandes

volúmenes de datos a través de clúster, usando un modelo simple de
programación. Además su diseño permite pasar de pocos nodos a
miles de nodos de forma ágil. Hadoop es un sistema
distribuido usando una arquitectura Master-Slave, usando para
almacenar su Hadoop Distributed File System (HDFS) y algoritmos de
MapReduce para hacer cálculos.[9]
2.2.1.1 Arquitectura de Hadoop
2.2.1.1.1 HDFS
HDFS es el sistema de almacenamiento, es un sistema de

ficheros distribuido. Fue creado a partir del Google File
System (GFS). HDFS se encuentra optimizado para grandes
flujos y trabajar con ficheros grandes en sus lecturas y
escrituras. Su diseño reduce la E/S en la red. La escalabilidad
y disponibilidad son otras de sus claves, gracias a la
replicación de los datos y tolerancia a los fallos. Los
elementos importantes del clúster:[9]
9
Clúster : Se aplica a los conjuntos o conglomerados de computadoras unidos entre sí normalmente por
una red de alta velocidad y que se comportan como si fuesen una única computadora.
10
Framework : Marco de trabajo
6
 NameNode: Sólo hay uno en el clúster. Regula el

acceso a los ficheros por parte de los clientes.
Mantiene en memoria la metadata del sistema de
ficheros y control de los bloques de fichero que tiene

cada DataNode.
DataNode: Son los responsables de leer y escribir las
peticiones de los clientes. Los ficheros están formados
por bloques, estos se encuentran replicados en
diferentes nodos.
2.2.1.1.2 MapReduce
MapReduce es un proceso batch11, creado para el proceso

distribuido de los datos. Permite de una forma simple,
paralelizar trabajo sobre los grandes volúmenes de datos,
como combinar web logs con los datos relacionales de una
base de datos OLTP12, de esta forma ver como los usuarios
interactúan con el website13.[9]
El modelo de MapReduce simplifica el procesamiento en

paralelo, abstrayéndonos de la complejidad que hay en los
sistemas distribuidos. Básicamente las funciones Map
transforman un conjunto de datos a un número de
pares key/value. Cada uno de estos elementos se encontrará
ordenado por su clave, y la función reduce es usada para
combinar los valores (con la misma clave) en un mismo
resultado.[9]
Un programa en MapReduce, se suele conocer como Job, la

ejecución de un Job empieza cuando el cliente manda la
configuración de Job al JobTracker, esta configuración
especifica las funciones Map, Combine (shuttle) y Reduce,
además de la entrada y salida de los datos.[9]
Figura2ArquitecturaHadoop
(Fuente :Ticout Outsourcing Center.

http://www.ticout.com/blog/2013/04/02/introducci
on-a-hadoop-y-su-ecosistema/)
11
Batch : Archivo de procesamiento por lotes
12
OLTP : Procesamiento de Transacciones En Línea
13
WebSite : Sitio Web
7
2.2.2 Apache HBase
Escrito en Java y el modelado con BigTable de Google. Apache

HBase es una base de datos no relacional distribuida en columnas,
diseñada para ejecutarse en la parte superior de Hadoop Distributed
File System (HDFS), proporciona tolerancia a fallas de
almacenamiento y un rápido acceso a grandes cantidades de datos
dispersos. HBase es uno de los muchos almacenes de datos de
NoSQL14 que se han vuelto disponibles en los últimos años.[10]
Figura 3 Apache HBASE
(Fuente: http://hbase.apache.org/)
2.2.3 Mongo DB
MongoDB (que proviene de «humongous») es la base de datos

NoSQL líder y permite a las empresas ser más ágiles y escalables.
Organizaciones de todos los tamaños están usando MongoDB para
crear nuevos tipos de aplicaciones, mejorar la experiencia del cliente,
acelerar el tiempo de comercialización y reducir costes.[11]
Es una base de datos ágil que permite a los esquemas cambiar

rápidamente cuando las aplicaciones evolucionan, proporcionando
siempre la funcionalidad que los desarrolladores esperan de las bases
de datos tradicionales, tales como índices secundarios, un lenguaje
completo de búsquedas y consistencia estricta.[11]
MongoDB ha sido creado para brindar escalabilidad, rendimiento y

gran disponibilidad, escalando de una implantación de servidor único a
grandes arquitecturas complejas de centros multidatos. MongoDB
brinda un elevado rendimiento, tanto para lectura como para escritura,
potenciando la computación en memoria (in-memory). La replicación
nativa de MongoDB y la tolerancia a fallos automática ofrece
fiabilidad a nivel empresarial y flexibilidad operativa.[11]
Figura 4mongoDB
(Fuente:
https://www.mongodb.org/downloads?_ga=1.100633566.1526045129.143831
6316)
14
NoSQL : No sólo SQL
8
2.2.4 HCatalog
Ofrece una capa de abstracción de acceso a los datos. Permite a los

usuarios de Hive, Pig o MapReduce acceder fácilmente a cualquier
fichero en HDFS sin preocuparse del formato que puede tener este
fichero (sea CSV15, Sequence File, JSON16, etc). [12]
Figura5HCatalog Table Management
(Fuente: http://hortonworks.com/hadoop/hcatalog/)
2.2.5 Apache Cassandra
Cassandra es una base de datos de código abierto cuya principal

característica es que fusiona Dynamo, de Amazon con BigTable, de
Google, siendo ambas implementaciones de código cerrado.
El desarrollo de Cassandra fue iniciado por, aunque parezca

curioso, Facebook, para intentar solventar la problemática relacionada
con el rendimiento del motor de búsquedas, concretamente con las
relacionadas en la comunicación entre usuarios (“InboxSearch“). Esta
funcionalidad implica un gran volumen de datos a almacenar, con una
perpectiva de crecimiento muy alta (el boom de las redes sociales se
produjo después de la implementación de Cassandra) y la necesidad de
ofrecer un nivel de calidad de servicio fijado (SLA, Acuerdo de Nivel
de Servicio).[13]
Figura 6 Apache Cassandra
(Fuente: http://cassandra.apache.org/)
15
CSV : Comma Separated Values
16
JSON : Notación de Objetos de JavaScript
9
3 Seguridad y Control en Big Data
Desde el punto de vista de seguridad existen dos cuestiones cruciales, que son la
seguridad de la organización y la información del cliente, y las técnicas para analizar
y predecir incidentes de seguridad.[14]
Muchas empresas están usando tecnologías para almacenar y procesar petabytes de

datos, utilizando fuentes como las redes sociales, registros, datos de navegación, etc,
para obtener una idea integral acerca de sus clientes y sobre el negocio. Debido a esta
gran cantidad de datos, la clasificación de la información se vuelve crítica, y es
necesario adicionar la información de propiedad de datos para facilitar dicha
clasificación.
En Big Data el verdadero problema de seguridad no radican en los permisos

(accessrights) que se le puedan dar a los diferentes usuarios, sino en que a medida que
se van agregando grandes cantidades de datos se pierde a su vez contexto. A pesar de
tener permisos, mientras la cantidad de datos almacenados crezca, no podemos saber a
qué filas o registros concretamente tendrá acceso un usuario en particular. Por ende
cada vez es más difícil preservar los derechos y permisos a nivel granular. Sin
embargo y a pesar de ello, podemos buscar soluciones de problemas que son
semejantes, como es el caso de la seguridad de los Datawarehouse 17. En muchos de
esos resultados encontraremos una serie de metodologías que nos ayudarán a resolver
las problemáticas planteadas.[14]
Otras herramientas que serán útiles para la resolución de los problemas de Big Data
son las de protecciones de datos. Para proteger datos sensibles se puede utilizar
técnicas tales como la encriptación basada en atributos y aplicar accesos de control,
que se verán con mayor detalle en las secciones siguientes.[14]
Finalmente, la proveniencia de los datos, resulta ser otra de las áreas a considerar.
Implica absorber y analizar grandes cantidades de datos que pueden haber sido
originados fuera de la organización que los utiliza. Si no se controla la creación y
recolección de los datos, cómo se puede estar seguro de la fuente y la integridad de los
datos, cómo puede alguien saber que posee el derecho a usar la información en la
forma que es planeada. Éste último punto será detallado posteriormente en mayor
profundidad.[14]
Visto desde el otro punto de vista, la introducción de prácticas de análisis de Big Data
en cualquier organización (algo cada vez más común) tiene una serie de aspectos que
deben ser considerados desde las áreas de seguridad de la información y auditoria.[15]
En cuanto a las implementaciones propiamente dichas, existen múltiples aspectos a
evaluar:
 Sistemas / Procesamiento distribuido.[15]
o La mayor parte de las soluciones actuales se basan en sistemas
básicamente centralizados – cuando el procesamiento se realiza en
forma distribuida (MapReduce, etc.), la seguridad de cada “nodo”,
de todos los canales de comunicación y de la solución general de
coordinación de tareas pasa a ser fundamental.
o Lo anterior se puede ver dificultado aún más cuando se utilizan
soluciones tipo “nube”.
17
Datawarehouse : Almacén de Datos

10
Aspectos Tradicionales[15]
o Autenticación – no solamente de usuarios, sino de todos los
componentes que formen parte del ambiente o solución
considerado.
o Integridad de los datos – mayores dificultades por la distribución de
los mismos, la utilización de tecnologías diferentes de las usuales
para manejarlos, la diversidad de los mismos y un “ciclo de vida”
mucho más corto (tiempos mucho menores entre la generación,
almacenamiento y procesamiento de un dato).
o Perfiles de acceso – al tener acceso a mayor cantidad de
información y tener mecanismos más poderosos para procesar la
misma, el contar con mecanismos con una granularidad adecuada
para definir los accesos es crítico (si bien existe la “ventaja” de que
en general los accesos serán mayormente de lectura).
o Interconexión / interfaces – la seguridad de las interfaces (donde los
diversos sistemas / bases de datos / etc. “exponen” sus datos a los
concentradores / visualizadores) es fundamental.
3.1 Desafíos de seguridad y privacidad acerca de Big Data
A continuación se pasarán a enumerar los mayores desafíos en el área de Big Data,

con una brevedescripción de cada uno.
3.2.1. Computación segura en marcos de programación distribuida
Frameworks de programación distribuida procesan grandes

cantidades de datos, utilizando el paralelismo para su
almacenamiento y computación.
Un ejemplo de esto es el framework MapReduce. Éste recibe

como entrada un archivo y lo divide en partes, en donde los datos
son leídos y procesados por los Mappers (que son los que realizan
el mapeo), para posteriormente retornar una lista de pares
clave/valor. Luego los resultados semejantes son combinados y
reducidos mediante un Reducer.[16]
Principalmente en estos frameworks hay que prevenir los ataques

hacia los Mappers, y tener precaución ante la generación de datos
de un Mapper no confiable. Estos problemas podrían generar una
serie de datos que sean erróneos, haciendo que se pierda la
confianza de los datos que el sistema puede retornar.[16]
3.2.2. Mejores prácticas en base de datos no relacionales
Las bases de datos no-relacionales en general se enfocan en

resolver diferentes desafíos del mundo analista, pero aún
continúan en evolución en cuanto a los problemas y cuestiones de
seguridad, dado que la seguridad nunca fue parte del modelo de
diseño. En general se suele embeber la seguridad en el
middleware para contrarrestar la vulnerabilidad existente en las
bases de datos no-relacionales.[16]
11
3.2.3. Registro de Transacciones y almacén de datos seguros
Los datos y registros de transacción son almacenados en

diferentes niveles. En un sistema de datos tradicional existen
registros que indican qué es lo que se desea ver/modificar y
cuándo, sin embargo en un sistema de datos masivos esto no es
posible, debido a la gran cantidad de datos.[16]
Es necesario que los niveles se organicen de manera automática,

en donde los datos que son solicitados con menor frecuencia se
guarden en una capa inferior (generalmente con menor seguridad),
y los de mayor frecuencia en una superior. Ésto no siempre es
deseable, debido a que es posible que los datos solicitados con
menor frecuencia sean críticos para una empresa en particular, por
lo tanto se debe estudiar con cuidado cuál será la estrategia a
seguir.[16]
3.2.4. Monitoreo de la seguridad en tiempo real
El monitoreo en tiempo real tiene el gran desafío de determinar

cuáles de las alertas recibidas son efectivamente una amenaza, y
cuáles representan un falso positivo. Y todo esto se ve potenciado
debido a la gran cantidad de datos que se manejan en sistemas
informáticos Big Data, con una alta tasa de flujo de datos.[16]
3.2.5. Control de acceso criptográfico
Para afirmar que la mayoría de los datos privados sensibles son

seguros entre los terminales que son transmitidos, y solo para
permitir que entidades autorizadas los tengan a su disposición, es
necesario encriptarlos basados en políticas de control de
acceso.[14]
Datos sensibles son almacenados en la nube sin encriptar. El

principal problema de la encriptación es que en general es más
fácil utilizar una política de acceso a todos los datos o a ninguno,
impidiendo que los usuarios puedan tener cierta granularidad en
sus acciones (como compartir registros o búsquedas).[16]
3.2 Soluciones Actuales
Los objetivos básicos de seguridad de la información en Big Data son los mismos que
para los de cualquier otro sistema con persistencia de datos, teniendo que asegurar su
confidencialidad, disponibilidad e integridad. Para alcanzar estos objetivos, ciertos
procesos y elementos de seguridad deben ser puestos en su lugar. Se debe poner
especial atención en las siguientes áreas:
12
3.2.1. Todos son responsables
La naturaleza sin estructura de la Big Data significa que es difícil

de asignar la responsabilidad a una sola persona. Todos en una
organización necesitan entender su responsabilidad por la
seguridad de todos los datos que crean o manejan.[14]
3.2.2. Verificación del origen de datos
Mecanismos técnicos son necesarios para verificar el origen de los

datos externos utilizados, por ejemplo firmas digitales.[14]
3.2.3. Integridad de los sistemas
Es necesario que exista un buen control sobre la integridad de los

sistemas usados para el análisis, incluyendo privilegios en la
administración y controles de cambios.[14]
3.2.4. Seguridad de procesamiento
Medidas para asegurar los datos dentro de la infraestructura de

análisis, son necesarios para mitigar potenciales vulnerabilidades
y fugas de datos. Esto podría 14 incluir encriptación a nivel de
disco y un alto grado de aislamiento de la red. Big Data debería
ser asegurada en el tránsito preferentemente usando encriptación,
o al menos usando SSL/TSL.[14]
3.2.5. Administración de Acceso
El acceso a la infraestructura de análisis, la información siendo

analizada y los resultados, deberían estar sujetos a un apropiado
control de identidad (IAM - Identity and Access
Management).[14]
3.2.6. Auditoría
Deberían existir actividades de logueo y monitoreo de actividades

en el análisis de la infraestructura que permitan una auditoría
adecuada.[14]
3.3 Control de Big Data
ISACA18 una asociación global no lucrativa enfocada en el gobierno de TI19, liberó

estos ocho pasos para atacar los riesgos y mejorar la habilidad de usar Big Data para
alcanzar las necesidades de los objetivos de negocio.
18
ISACA : Asociación de Auditoría y Control de Sistemas de Información
19
TI : Tecnología de Información
13
3.3.1. Setear prioridades con los datos
Para que los datos sean usados productivamente, la organización

necesita considerar un proceso de ciclo de vida para los datos. La
calidad de los datos en cualquier sistema, es una batalla constante
y los sistemas de Big Data no son la excepción. Después de todo,
las perspectivas de Big Data son tan buenas como la calidad de
los propios datos. Ciertos tipos de datos son críticos para el
negocio mientras otros no lo son, por lo que es muy importante
asegurarse que los procesos críticos tienen precedencia.[17]
3.3.2. Entender qué sucede con los datos
El concepto de administración de riesgos de Big Data está aún en

la etapa de desarrollo para muchas organizaciones, y las políticas
de seguridad y procedimiento de los datos están bajo
construcción. Es fundamental proveer percepciones al monitorear
todos los datos que corren en la compañía, para analizar y luego
tomar acciones basadas en los resultados.[17]
3.3.3. Los datos son preciados, deberían ser asegurados de esa

forma
Cuanto más rápido y fácil sea acceder a la Big Data, mayor es el

riesgo para toda esa información. Las organizaciones deben tener
un apropiado conocimiento en la performance de sus procesos de
manejo de datos para minimizar dichos riesgos.[17]
3.3.4. Proveer guías claras de seguridad
Hay que asegurarse que los empleados, datos, redes, asociados y

clientes de la organización son protegidos punto a punto. Para
minimizar los potenciales daños resultantes de datos erróneos o
fraudulentos, las organizaciones necesitan considerar todas las
fuentes de información de las cuales están obteniendo sus análisis
y evaluar las vulnerabilidades de cada una.[17]
3.3.5. Asegurar futuros sistemas de prueba
Esto significa que no solo los sistemas correctos, sino también las
herramientas y procesos adecuados, son implementados para que
la Big Data de hoy pueda tener que enfrentarse con el inevitable
crecimiento de los datos del día de mañana. Las compañías
deberían invertir en herramientas que ayuden a asegurar que sus
datos sean acertados, actualizados y limpios cada vez.[17]
3.3.6. Tomar la nube en consideración
La nube ofrece una nueva opción en almacenamiento y uso de los

datos, aparte de las opciones de compra. Los controles apropiados
deben ser puestos en su lugar para confiar en el proveedor de
servicios en la nube con los datos sensibles. Idealmente, las
compañías empiezan por usar una nube privada y gradualmente
moverse hacia a una segura versión híbrida.[17]
14
3.3.7. Encontrar un director de datos
Se debe pedir por el consejo y las guías de expertos en datos

externos cuando sea necesario. Hablar con compañías y servicios
integradores en la nube, y considerar las compañías que corren
plataformas para el análisis de big data.[17]
3.3.8. Finalmente, asegurar conformidad con las relevantes

regulaciones y leyes actuales
Controles de seguridad lógicos y físicos de acceso son necesarios

para prevenir acceso sin autorización a los datos sensibles y
valiosos. Es importante, mantenerse informado acerca de
propuestas legislativas y usar la oportunidad de emplear las
mejores prácticas en cuanto al ciclo de vida de los datos.[17]
4 Conclusiones
Big Data no es sólo una herramienta o una tecnología si no un conductor de una

disciplina de toma de decisiones mejorada basada en análisis predictivos, que marca el
comienzo de una era de cambio cultural y mejora del rendimiento.
Hemos accedido a una era de grandes volúmenes de datos. A través de un mejor

análisis de los grandes volúmenes de datos que están disponibles, existirá el potencial
para hacer avances más rápidos en muchas disciplinas científicas y la mejora de la
rentabilidad y el éxito de muchas empresas.
La seguridad en Big Data resulta ser vital, pues imaginarse que demasiada
información sin mecanismos control y seguridad, puede convertirse en un riesgo
nefasto para las organizaciones y sobre todo para la operatividad de las mismas.
Los sistemas de Big Data cuentan con una arquitectura compleja y de gran tamaño,
compuesta por diversos elementos de hardware y software los cuales a su vez son
organizados en distintas capas arquitectónicas como se mencionó en la sección del
ecosistema Big Data. Esto conlleva una gran dificultad para poder suplir la seguridad
en todos los puntos del sistema ya que es necesario aplicar diferentes técnicas,
adecuadas a cada componente, convirtiendo la tarea de mantener una seguridad global
en algo muy trabajoso.
Es una realidad que los manejadores de base de datos relacionales tradicionales han
estado en el mercado durante décadas alcanzando la suficiente madurez como para
infundir seguridad a sus clientes (tanto a nivel de privacidad de datos como funcional)
algo que los manejadores NoSQL al ser tan recientes no han logrado en algunas áreas.
Además, la tendencia que parece acompañar a Big Data de mantener todos los datos
en la nube, parece desalentar a entidades importantes sobre todo en el ámbito
gubernamental a dar el paso a esta área
15
Referencias Bibliográficas
[1] TICbeat patrocinado por Informática & Actucast, "Big Data," 2012, Como la avalancha
de datos se ha convertido en un importante beneficio.
[2] Cognizant 20-20 Insights, "Big Data is the Future of Healthcare," Setiembre 2012.
[3] Center, Intel IT, "Guía de Planificación, Comenzando con Big Data," Intel IT Center, pp.
http://dialogoti.intel.com/sites/default/files/documents/e7_big_data_planning-
guide_v2d_esp.pdf, Junio 2014.
[4] IBM. https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/.
[5] IBM Institute for Business Value, "Analytics: el uso de big data en el mundo real," IBM
Institute for Business Value, pp. http://www-
05.ibm.com/services/es/gbs/consulting/pdf/El_uso_de_Big_Data_en_el_mundo_real.pdf,
Cómo las empresas más innovadoras extraen valor de datos inciertos.
[6] Al corriente con GE. http://www.alcorrienteconge.com/big-data-un-desafio-
exponencialmente-creciente/.
[7] Daniel Peña. El fenómeno de Big Data y los títulos de estadística en España. [Online].
http://www.seio.es/descargas/vconferencia/daniel_pena.pdf
[8] McKinsey Global Institute, "Big Data: The next frontier for innovation, competition and
productivity.," 2011.
[9] Ticout Outsourcing Center. http://www.ticout.com/blog/2013/04/02/introduccion-a-
hadoop-y-su-ecosistema/.
[10] Apache HBase. http://hbase.apache.org/.
[11] mongoDB. https://www.mongodb.com/es.
[12] HortonWorks. http://hortonworks.com/hadoop/hcatalog/.
[13] NoSQL.es. http://www.nosql.es/blog/nosql/cassandra.html.
[14] Federico Godán. (2015) Seguridad en Big Data. [Online].
https://eva.fing.edu.uy/pluginfile.php/91058/mod_resource/content/1/InformeBigData.pdf
[15] CISA, CGEIT, CRISC Rodrigo Guirado, "Seguridad en Tiempos de Big Data," 2014.
[Online].
http://www.isaca.org/chapters8/Montevideo/cigras/Documents/CIGRAS2014%20-
%20Seguridad%20en%20tiempos%20de%20Big%20Data.pdf
[16] Cloud Security Alliance ISACA, "Top Ten Big Data Security and Privacy Challenges,"
http://www.isaca.org/groups/professional-english/big-
data/groupdocuments/big_data_top_ten_v1.pdf, Noviembre 2012.
[17] Alicia Stein. Isaca Offers 8 Steps For Wrangling Big Data. [Online]. http://xchange-
community.com/communities/midmarket_it/midmarket_blogs/business_intelligence_anal
ytics_big_data/8_steps_for_wrangling_big_data

Seguridad y Control en Big Data

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Seguridad y Control en Big Data

Cargado por

Copyright:

Formatos disponibles

Seguridad y Control en Big Data

Willy Alonso Jave Rojas1

Resumen. El presente trabajo de investigación busca dar alcances acerca de la

Keywords: Big Data, Bases de Datos, Almacenamiento, Redes de Datos,

 Velocidad: los datos en movimiento. La velocidad a la que se crean, procesan y

Figura 1 Cuatro Dimensiones de Big Data(Fuente: Analytics:

2.1 Importancia y utilización de Big Data

 Facebook usa herramientas de reconocimiento facial para analizar las fotos

 La geolocalización de nuestro Smartphone8 se está usando para proporcionar

 La tarjeta de fidelización de los supermercados detecta cambios en los

 Los sentimientos de Facebook y mensajes Twitter ya se usan para predecir el

 Existen hospitales que monitorizan el latido de los bebes prematuros y los

 El FBI combina datos de medios de comunicación social, cámaras de circuito

cerrado de TV, llamadas telefónicas y mensajes de texto, Line o WhatsApp

 En el deporte de alto rendimiento e incluso en los más populares como el

Fútbol, baloncesto, tenis y béisbol se están utilizando multitud de sensores en

 Los artistas planifican sus espectáculos en vivo en función de nuestras

playlists, preferencias, etc.

 National Energy Research Scientific Computer Center El NERSC investiga

 AT&T compañía de telecomunicaciones almacena 350 terabytes de

 Google recibe más de 100 millones de consultas al día. Se supone que

almacena cientos de terabytes de información.

2.2 Técnicas y Tecnologías

Una amplia variedad de técnicas y tecnologías se ha desarrollado y adaptado para

2.2.1 Apache Hadoop

Es un framework10 que permite el procesamiento de grandes

2.2.1.1 Arquitectura de Hadoop

HDFS es el sistema de almacenamiento, es un sistema de

 NameNode: Sólo hay uno en el clúster. Regula el

MapReduce es un proceso batch11, creado para el proceso

El modelo de MapReduce simplifica el procesamiento en

Un programa en MapReduce, se suele conocer como Job, la

(Fuente :Ticout Outsourcing Center.

Escrito en Java y el modelado con BigTable de Google. Apache

Figura 3 Apache HBASE

MongoDB (que proviene de «humongous») es la base de datos

Es una base de datos ágil que permite a los esquemas cambiar

MongoDB ha sido creado para brindar escalabilidad, rendimiento y

Ofrece una capa de abstracción de acceso a los datos. Permite a los

Figura5HCatalog Table Management

2.2.5 Apache Cassandra

Cassandra es una base de datos de código abierto cuya principal

El desarrollo de Cassandra fue iniciado por, aunque parezca

Figura 6 Apache Cassandra

Muchas empresas están usando tecnologías para almacenar y procesar petabytes de

En Big Data el verdadero problema de seguridad no radican en los permisos

3.1 Desafíos de seguridad y privacidad acerca de Big Data

A continuación se pasarán a enumerar los mayores desafíos en el área de Big Data,

3.2.1. Computación segura en marcos de programación distribuida

Frameworks de programación distribuida procesan grandes

Un ejemplo de esto es el framework MapReduce. Éste recibe

Principalmente en estos frameworks hay que prevenir los ataques

3.2.2. Mejores prácticas en base de datos no relacionales

Las bases de datos no-relacionales en general se enfocan en

Los datos y registros de transacción son almacenados en

Es necesario que los niveles se organicen de manera automática,

3.2.4. Monitoreo de la seguridad en tiempo real

El monitoreo en tiempo real tiene el gran desafío de determinar

3.2.5. Control de acceso criptográfico

Para afirmar que la mayoría de los datos privados sensibles son

Datos sensibles son almacenados en la nube sin encriptar. El

3.2 Soluciones Actuales

La naturaleza sin estructura de la Big Data significa que es difícil