Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abstract. This research seeks to reach about Big Data technology, its
description and use in today's world of IT, as well as providing concepts to
improve security and control of it.
1 Introducción
Con el paso del tiempo las fuentes de información que manejan las
organizaciones no sólo provienen de sus propias bases de datos, hoy en día, reciben
importante información de una gran variedad de mecanismos de interacción internos y
externos, como son las redes sociales, los blogs, de audio y de video. Todas estas
nuevas fuentes de datos conforma un repositorio muy grande de información que se
conoce como Big Data1; es decir crecimiento muy rápido de la información en cuanto
a volumen, con variadas estructuras y que, por lo mismo, requiere de nuevos
elementos tecnológicos para su análisis.
De acuerdo a [1] Big Data implica centros de datos, que reciban, almacenan y
procesen información de actividad en las redes sociales, aplicaciones Cloud2,
analíticas, sensores y dispositivos móviles, datos de actividades profesionales,
usuarios, clientes y proveedores. En [2] capturar valor a partir de grandes volúmenes
de datos, las organizaciones tendrán que implementar nuevas tecnologías (para el
almacenamiento, cómputo y software de análisis) y técnicas (nuevos tipos de análisis).
La gama de retos tecnológicos y las prioridades serán diferentes, dependiendo de la
madurez de datos de la institución. Los sistemas heredados, los estándares y formatos
incompatibles, con demasiada frecuencia impiden la integración de los datos y los
análisis más sofisticados que crean valor a partir de grandes cantidades de datos.
Nuevos problemas y cada vez mayor potencia de cálculo estimularán el desarrollo de
nuevas técnicas de análisis. También hay una necesidad de innovación continua en
tecnologías y técnicas que ayudarán a los individuos y a las organizaciones a integrar,
analizar, visualizar, y consumir el creciente torrente de información.
1
Big Data : Grandes Volúmenes de información
2
Cloud : Tecnología que utiliza internet para desplegarse
2
2 Big Data
Big Data se refiere a grandes conjuntos de datos que son más grandes en términos de
orden de magnitud (volumen); son más diversos, incluyendo datos semiestructurados, y
no estructurados (variedad); y que llegan más rápido (velocidad) que lo que usted o su
organización ha tenido que procesar antes. Este flujo de datos está generado por
dispositivos conectados, desde PC3s y teléfonos inteligentes a sensores como lectores
RFID4 y cámaras de tráfico. Además, es heterogéneo y viene en muchos formatos,
incluyendo textos, documentos, imágenes, videos, registros web, transacciones, y más.[3]
El concepto de Big Data aplica para toda aquella información que no puede ser procesada
o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no
se refiere a alguna cantidad en específico, ya que es usualmente es utilizado cuando se
habla en términos de petabytes5 y exabytes6 de datos. Entonces ¿Cuánto es demasiada
información de manera que sea elegible para ser procesada y analizada utilizando Big
Data? Analicemos primeramente en términos de bytes:[4]
Gigabyte = = 1,000,000,000
Terabyte = = 1,000,000,000,000
5
Petabyte = = 1,000,000,000,000,000
Exabyte = = 1,000,000,000,000,000,000
Además del gran volumen de información, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos móviles, audio, video, sistemas GPS7, incontables sensores digitales en
equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibración,
temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal forma que las
aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo
demasiado rápida para lograr obtener la información correcta en el momento preciso.
Estas son las características principales de una oportunidad para Big Data.[4]
Es importante entender que las bases de datos convencionales son una parte importante y
relevante para una solución analítica. De hecho, se vuelve mucho más vital cuando se usa
en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en específico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la otra
para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas sin
embargo, el resultado no será el más óptimo.[4]
La convergencia de estas dimensiones ayuda tanto a definir como a distinguir big data:
3
PC : Personal Computer o Computador Personal
4
RFID : Identificación por radiofrecuencia
5
Petabytes: Unidad de almacenamiento de información
6
Exabytes: Unidad de almacenamiento de información
7
GPS : Sistema de Posicionamiento Global
3
Volumen: La cantidad de datos. Siendo quizá la característica que se asocia con
mayor frecuencia a big data, el volumen hace referencia a las cantidades
masivas de datos que las organizaciones intentan aprovechar para mejorar la
toma de decisiones en toda la empresa. Los volúmenes de datos continúan
aumentado a un ritmo sin precedentes. No obstante, lo que constituye un
volumen verdaderamente “alto” varía en función del sector e incluso de la
ubicación geográfica y es más pequeño que los petabytes y zetabytes a los que
a menudo se hace referencia.[5]
Algo más de la mitad de los encuestados consideran que conjuntos de datos de entre
un terabyte y un petabyte ya son big data, mientras que otro 30% simplemente no sabía
cuantificar este parámetro para su empresa. Aun así, todos ellos estaban de acuerdo en
que sea lo que fuere que se considere un “volumen alto” hoy en día, mañana lo será más.
Variedad: diferentes tipos y fuentes de datos. La variedad tiene que ver con
gestionar la complejidad de múltiples tipos de datos, incluidos los datos
estructurados, semiestructurados y no estructurados. Las organizaciones
necesitan integrar y analizar datos de un complejo abanico de fuentes de
información tanto tradicional como no tradicional procedentes tanto de dentro
como de fuera de la empresa. Con la profusión de sensores, dispositivos
inteligentes y tecnologías de colaboración social, los datos que se generan
presentan innumerables formas entre las que se incluyen texto, datos web,
tweets, datos de sensores, audio, vídeo, secuencias de clic, archivos de registro y
mucho más.[5]
analiza identificando patrones. Se estima que predicen una infección sin que
Los políticos empiezan a analizar los medios sociales para determinar sus
jugadores.
8
Smartphone : Celular inteligente
5
Otros ejemplos de uso de Big Data en el mundo:[7]
World Data Centre for Climate El WDCC (Centro Mundial de datos para el
clima), base de datos más grande del mundo. Almacena unos 400 terabytes de
2.2.1.1.1 HDFS
9
Clúster : Se aplica a los conjuntos o conglomerados de computadoras unidos entre sí normalmente por
una red de alta velocidad y que se comportan como si fuesen una única computadora.
10
Framework : Marco de trabajo
6
cada DataNode.
DataNode: Son los responsables de leer y escribir las
peticiones de los clientes. Los ficheros están formados
por bloques, estos se encuentran replicados en
diferentes nodos.
2.2.1.1.2 MapReduce
Figura2ArquitecturaHadoop
11
Batch : Archivo de procesamiento por lotes
12
OLTP : Procesamiento de Transacciones En Línea
13
WebSite : Sitio Web
7
2.2.2 Apache HBase
(Fuente: http://hbase.apache.org/)
2.2.3 Mongo DB
Figura 4mongoDB
(Fuente:
https://www.mongodb.org/downloads?_ga=1.100633566.1526045129.143831
6316)
14
NoSQL : No sólo SQL
8
2.2.4 HCatalog
(Fuente: http://hortonworks.com/hadoop/hcatalog/)
(Fuente: http://cassandra.apache.org/)
15
CSV : Comma Separated Values
16
JSON : Notación de Objetos de JavaScript
9
3 Seguridad y Control en Big Data
Desde el punto de vista de seguridad existen dos cuestiones cruciales, que son la
seguridad de la organización y la información del cliente, y las técnicas para analizar
y predecir incidentes de seguridad.[14]
Otras herramientas que serán útiles para la resolución de los problemas de Big Data
son las de protecciones de datos. Para proteger datos sensibles se puede utilizar
técnicas tales como la encriptación basada en atributos y aplicar accesos de control,
que se verán con mayor detalle en las secciones siguientes.[14]
Finalmente, la proveniencia de los datos, resulta ser otra de las áreas a considerar.
Implica absorber y analizar grandes cantidades de datos que pueden haber sido
originados fuera de la organización que los utiliza. Si no se controla la creación y
recolección de los datos, cómo se puede estar seguro de la fuente y la integridad de los
datos, cómo puede alguien saber que posee el derecho a usar la información en la
forma que es planeada. Éste último punto será detallado posteriormente en mayor
profundidad.[14]
Visto desde el otro punto de vista, la introducción de prácticas de análisis de Big Data
en cualquier organización (algo cada vez más común) tiene una serie de aspectos que
deben ser considerados desde las áreas de seguridad de la información y auditoria.[15]
En cuanto a las implementaciones propiamente dichas, existen múltiples aspectos a
evaluar:
Sistemas / Procesamiento distribuido.[15]
o La mayor parte de las soluciones actuales se basan en sistemas
básicamente centralizados – cuando el procesamiento se realiza en
forma distribuida (MapReduce, etc.), la seguridad de cada “nodo”,
de todos los canales de comunicación y de la solución general de
coordinación de tareas pasa a ser fundamental.
o Lo anterior se puede ver dificultado aún más cuando se utilizan
soluciones tipo “nube”.
17
Datawarehouse : Almacén de Datos
10
Aspectos Tradicionales[15]
o Autenticación – no solamente de usuarios, sino de todos los
componentes que formen parte del ambiente o solución
considerado.
o Integridad de los datos – mayores dificultades por la distribución de
los mismos, la utilización de tecnologías diferentes de las usuales
para manejarlos, la diversidad de los mismos y un “ciclo de vida”
mucho más corto (tiempos mucho menores entre la generación,
almacenamiento y procesamiento de un dato).
o Perfiles de acceso – al tener acceso a mayor cantidad de
información y tener mecanismos más poderosos para procesar la
misma, el contar con mecanismos con una granularidad adecuada
para definir los accesos es crítico (si bien existe la “ventaja” de que
en general los accesos serán mayormente de lectura).
o Interconexión / interfaces – la seguridad de las interfaces (donde los
diversos sistemas / bases de datos / etc. “exponen” sus datos a los
concentradores / visualizadores) es fundamental.
Los objetivos básicos de seguridad de la información en Big Data son los mismos que
para los de cualquier otro sistema con persistencia de datos, teniendo que asegurar su
confidencialidad, disponibilidad e integridad. Para alcanzar estos objetivos, ciertos
procesos y elementos de seguridad deben ser puestos en su lugar. Se debe poner
especial atención en las siguientes áreas:
12
3.2.1. Todos son responsables
3.2.6. Auditoría
18
ISACA : Asociación de Auditoría y Control de Sistemas de Información
19
TI : Tecnología de Información
13
3.3.1. Setear prioridades con los datos
Esto significa que no solo los sistemas correctos, sino también las
herramientas y procesos adecuados, son implementados para que
la Big Data de hoy pueda tener que enfrentarse con el inevitable
crecimiento de los datos del día de mañana. Las compañías
deberían invertir en herramientas que ayuden a asegurar que sus
datos sean acertados, actualizados y limpios cada vez.[17]
4 Conclusiones
La seguridad en Big Data resulta ser vital, pues imaginarse que demasiada
información sin mecanismos control y seguridad, puede convertirse en un riesgo
nefasto para las organizaciones y sobre todo para la operatividad de las mismas.
Los sistemas de Big Data cuentan con una arquitectura compleja y de gran tamaño,
compuesta por diversos elementos de hardware y software los cuales a su vez son
organizados en distintas capas arquitectónicas como se mencionó en la sección del
ecosistema Big Data. Esto conlleva una gran dificultad para poder suplir la seguridad
en todos los puntos del sistema ya que es necesario aplicar diferentes técnicas,
adecuadas a cada componente, convirtiendo la tarea de mantener una seguridad global
en algo muy trabajoso.
Es una realidad que los manejadores de base de datos relacionales tradicionales han
estado en el mercado durante décadas alcanzando la suficiente madurez como para
infundir seguridad a sus clientes (tanto a nivel de privacidad de datos como funcional)
algo que los manejadores NoSQL al ser tan recientes no han logrado en algunas áreas.
Además, la tendencia que parece acompañar a Big Data de mantener todos los datos
en la nube, parece desalentar a entidades importantes sobre todo en el ámbito
gubernamental a dar el paso a esta área
15
Referencias Bibliográficas
[1] TICbeat patrocinado por Informática & Actucast, "Big Data," 2012, Como la avalancha
de datos se ha convertido en un importante beneficio.
[2] Cognizant 20-20 Insights, "Big Data is the Future of Healthcare," Setiembre 2012.
[3] Center, Intel IT, "Guía de Planificación, Comenzando con Big Data," Intel IT Center, pp.
http://dialogoti.intel.com/sites/default/files/documents/e7_big_data_planning-
guide_v2d_esp.pdf, Junio 2014.
[4] IBM. https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/.
[5] IBM Institute for Business Value, "Analytics: el uso de big data en el mundo real," IBM
Institute for Business Value, pp. http://www-
05.ibm.com/services/es/gbs/consulting/pdf/El_uso_de_Big_Data_en_el_mundo_real.pdf,
Cómo las empresas más innovadoras extraen valor de datos inciertos.
[6] Al corriente con GE. http://www.alcorrienteconge.com/big-data-un-desafio-
exponencialmente-creciente/.
[7] Daniel Peña. El fenómeno de Big Data y los títulos de estadística en España. [Online].
http://www.seio.es/descargas/vconferencia/daniel_pena.pdf
[8] McKinsey Global Institute, "Big Data: The next frontier for innovation, competition and
productivity.," 2011.
[9] Ticout Outsourcing Center. http://www.ticout.com/blog/2013/04/02/introduccion-a-
hadoop-y-su-ecosistema/.
[10] Apache HBase. http://hbase.apache.org/.
[11] mongoDB. https://www.mongodb.com/es.
[12] HortonWorks. http://hortonworks.com/hadoop/hcatalog/.
[13] NoSQL.es. http://www.nosql.es/blog/nosql/cassandra.html.
[14] Federico Godán. (2015) Seguridad en Big Data. [Online].
https://eva.fing.edu.uy/pluginfile.php/91058/mod_resource/content/1/InformeBigData.pdf
[15] CISA, CGEIT, CRISC Rodrigo Guirado, "Seguridad en Tiempos de Big Data," 2014.
[Online].
http://www.isaca.org/chapters8/Montevideo/cigras/Documents/CIGRAS2014%20-
%20Seguridad%20en%20tiempos%20de%20Big%20Data.pdf
[16] Cloud Security Alliance ISACA, "Top Ten Big Data Security and Privacy Challenges,"
http://www.isaca.org/groups/professional-english/big-
data/groupdocuments/big_data_top_ten_v1.pdf, Noviembre 2012.
[17] Alicia Stein. Isaca Offers 8 Steps For Wrangling Big Data. [Online]. http://xchange-
community.com/communities/midmarket_it/midmarket_blogs/business_intelligence_anal
ytics_big_data/8_steps_for_wrangling_big_data