Está en la página 1de 22

CURSO:

Administración de servicios de red 2

PROFESOR:

Seminario García, Hernán

TEMA:

“Big Data”

INTEGRANTES:

Córdova Saldaña, Diego


Grados Chuque, Henry
Rivera Solórzano, Eduardo
Salinas Pérez Joel

CICLO:

2018-1
Índice

1. Introducción....................................................................................................................... 3
2. Antecedentes..................................................................................................................... 4
3. Objetivos............................................................................................................................. 6
3.1 Objetivo General ....................................................................................................... 6
3.2 Objetivos Específicos ............................................................................................. 6
4. Alcance ............................................................................................................................... 6
5. Contenido ........................................................................................................................... 7
5.1 Big data ....................................................................................................................... 7
5.2 Tipo de datos ............................................................................................................. 8
5.3 Las 7 “V” de Big Data ............................................................................................ 10
5.4 Big data y la nube................................................................................................... 14
5.5 Seguridad en Big Data .......................................................................................... 17
5.6 Herramientas de Big Data .................................................................................... 17
6. Conclusiones................................................................................................................... 20
7. Recomendaciones.......................................................................................................... 20
8. Bibliografía ....................................................................................................................... 21

2
1. Introducción

Lo primero que llega a la mente es ¿Qué es Big Data y porqué se ha vuelto


tan importante? pues bien, en términos generales se podría referir como a la
tendencia en el avance de la tecnología que ha abierto las puertas hacia un
nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada
para describir enormes cantidades de datos (estructurados, no estructurados
y semi estructurados) que tomaría demasiado tiempo y sería muy costoso
cargarlos a un base de datos relacional para su análisis. De tal manera que,
el concepto de Big Data aplica para toda aquella información que no puede
ser procesada o analizada utilizando procesos o herramientas tradicionales.
Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que
es usualmente utilizado cuando se habla en términos de petabytes y
exabytes de datos. Entonces ¿Cuánto es demasiada información de manera
que sea elegible para ser procesada y analizada utilizando Big Data?
Analicemos primeramente en términos de bytes:

𝐺𝑖𝑔𝑎𝑏𝑦𝑡𝑒 = 109 = 1,000,000,000

𝑇𝑒𝑟𝑎𝑏𝑦𝑡𝑒 = 1012 = 1,000,000,000,000

𝑃𝑒𝑡𝑎𝑏𝑦𝑡𝑒 = 1015 = 1,000,000,000,000,000

𝐸𝑥𝑎𝑏𝑦𝑡𝑒 = 1018 = 1,000,000,000,000,000

Además del gran volumen de información, esta existe en una


gran variedad de datos que pueden ser representados de diversas maneras
en todo el mundo, por ejemplo de dispositivos móviles, audio, video,
sistemas GPS, incontables sensores digitales en equipos industriales,
automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales
pueden medir y comunicar el posicionamiento, movimiento, vibración,
temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal
forma que las aplicaciones que analizan estos datos requieren que
la velocidad de respuesta sea lo demasiado rápida para lograr obtener la
información correcta en el momento preciso. Estas son las características
principales de una oportunidad para Big Data.

3
Es importante entender que las bases de datos convencionales son una
parte importante y relevante para una solución analítica. De hecho, se vuelve
mucho más vital cuando se usa en conjunto con la plataforma de Big Data.
Pensemos en nuestras manos izquierda y derecha, cada una ofrece
fortalezas individuales para cada tarea en específico. Por ejemplo, un
beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la
otra para atraparla; puede ser que cada mano intente hacer la actividad de
la otra, sin embargo, el resultado no será el óptimo.

2. Antecedentes

La historia del Big Data es muy poco conocida. Como sucede


frecuentemente con las tendencias, parece que cuando explotan es algo
muy novedoso que acaba de aparecer; pero en muchos casos son la
eclosión de algo que ha estado madurando durante largo tiempo.

El Big Data es el análisis de un gran volumen de conjuntos de datos. Para


recolectar, tratar y analizar la gran cantidad de información se
necesitan fórmulas de procesamiento potentes y rápidas. Por ello, estas
técnicas parecen haber surgido recientemente, gracias a los avances
tecnológicos.

Esto, en gran medida es así: el término se comienza a utilizar de forma


generalizada a finales de los años 90 y el boom llega con los avances
experimentados en campos como internet, dispositivos móviles y conexión.
Sin embargo; la historia del Big Data se remonta a mucho antes, hay incluso
quienes lo sitúan en el paleolítico, con una lógica que relaciona el término
con el primitivo interés de los seres humanos por lograr y procesar la
información. A continuación, se comparte la historia del Big Data:

18000 AC Se empleaban rudimentarios métodos de almacenamiento


de datos con el empleo de palos o muescas en huesos.
2400 AC En Babilonia se extiende el uso del ábaco, un sistema para
realizar cálculos.
Siglo II AC Se desarrolla la primera computadora mecánica conocida
en Grecia.

4
48 AC Los romanos invaden Alejandría y accidentalmente
destruyen su famosa biblioteca.
1663 John Graunt realiza el primer experimento de análisis de
datos estadísticos conocido.
1792 Se asocia el término a la colección y clasificación de datos.
1865 Aparece por primera vez el término business intelligence,
en la enciclopedia comercial de Richard Millar Devens.
1880 Herman Hollerith, empleado del censo estadounidense,
desarrolla su máquina tabuladora.
1926 Nikola Tesla predice la tecnología inalámbrica. El planeta
es un gran cerebro en el que todo está conectado.
1928 El ingeniero alemán Fritz Pfleumer patenta el primer
sistema magnético para almacenar datos.
1944 Primer intento de conocer la cantidad de información que
se crea.
1958 Hans Peter luhn, define la inteligencia del negocio.
1962 Supone el primer paso en el reconocimiento de voz, capas
de registrar palabras en inglés en formato digital.
1965 Se proyecta el primer data center en Estados Unidos
1970 IBM desarrolla el modelo relacional de base de datos
1976 Uso del MRP (software de gestión de materiales),
antecedentes de los ERP actuales
1989 Erik Larson habla por primera vez de Big Data en el sentido
que conocemos la expresión hoy en día
1991 Nace internet, a la postre, la gran revolución de la
recolección, almacenamiento y análisis de datos
1993 Se funda QlikTech, en la actualidad Qlik, que crea un
sistema revolucionario de business intelligence
1996 Los precios de los almacenamientos de datos empiezan a
ser accesibles lo que es una gran revolución en la historia
del Big Data
1997 Google lanza su sistema de búsqueda en internet, lo cual
dentro de años será el primer lugar de búsqueda en internet
1999 El término Big Data es analizado por primera vez en un
estudio académico
2001 Doug Laney, define las 3 V´s del Big Data (volumen,
velocidad y variedad)
2005 Se crea Hadoop, un entorno de trabajo Big Data de
software libre
2007 La revista Wired publica un artículo que lleva el concepto
de Big Data a las masas
2010 Los datos que se generan en 2 días equivalen a la cantidad
de datos generados desde el inicio de la civilización hasta
2003 (según google)
2013 El archivo de mensajes públicos de Twiter llega a 170
billones de mensajes, creciendo a ritmo de 500 millones al
día
2014 La conexión casi continua contribuye a generar muchos
más datos y mejora la conectividad con otros dispositivos

5
2016 El Big Data se convierte en la palabra de moda
2017 Los datos llegan a las masas
Futuro La computación cuántica está a la vuelta de la esquina y la
historia del Big Data sigue avanzando

3. Objetivos

3.1 Objetivo General

 Incorporar en las empresas el concepto de Big Data, que les


permita seleccionar las herramientas adecuadas y la forma
de configurar un ambiente para adaptarlo a su modelo de
negocio.

3.2 Objetivos Específicos

a) Explicar en qué consiste el término Big Data y a qué hace


referencia.
b) Conocer las diferentes tecnologías utilizadas por Big Data y
averiguar si perdurarán en el futuro.
c) Dar a conocer Big Data como una importante ventaja
competitiva en los negocios.
d) Considerar las ventajas competitivas de las empresas ante
sus competidores.

4. Alcance

Demostrar la importancia del manejo de la información ya sea personal


o pública y utilizar está información beneficiando tanto a las compañías
como a las personas. Identificando los problemas/oportunidades de una
forma más comprensible, así como apoyar en la toma de decisiones.

6
5. Contenido

5.1 Big data

Cuando hablamos de Big Data nos referimos a conjuntos de datos o


combinaciones de conjuntos de datos cuyo tamaño (volumen),
complejidad (variabilidad) y velocidad de crecimiento (velocidad)
dificultan su captura, gestión, procesamiento o análisis mediante
tecnologías y herramientas convencionales, tales como bases de datos
relacionales y estadísticas convencionales o paquetes de visualización,
dentro del tiempo necesario para que sean útiles.

Aunque el tamaño utilizado para determinar si un conjunto de datos


determinado se considera Big Data no está firmemente definido y sigue
cambiando con el tiempo, la mayoría de los analistas y profesionales
actualmente se refieren a conjuntos de datos que van desde 30-50
Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la


naturaleza no estructurada de gran parte de los datos generados por las
tecnologías modernas, como los web logs, la identificación por
radiofrecuencia (RFID), los sensores incorporados en dispositivos, la
maquinaria, los vehículos, las búsquedas en Internet, las redes sociales
como Facebook, computadoras portátiles, teléfonos inteligentes y otros
teléfonos móviles, dispositivos GPS y registros de centros de llamadas.

En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data,


debe combinarse con datos estructurados (normalmente de una base de
datos relacional) de una aplicación comercial más convencional, como
un ERP (Enterprise Resource Planning) o un CRM (Customer
Relationship Management).

Lo que hace que Big Data sea tan útil para muchas empresas es el hecho
de que proporciona respuestas a muchas preguntas que las empresas
ni siquiera sabían que tenían. En otras palabras, proporciona un punto
de referencia. Con una cantidad tan grande de información, los datos
pueden ser moldeados o probados de cualquier manera que la empresa
7
considere adecuada. Al hacerlo, las organizaciones son capaces de
identificar los problemas de una forma más comprensible.

La recopilación de grandes cantidades de datos y la búsqueda de


tendencias dentro de los datos permiten que las empresas se muevan
mucho más rápidamente, sin problemas y de manera eficiente. También
les permite eliminar las áreas problemáticas antes de que los problemas
acaben con sus beneficios o su reputación.

5.2 Tipo de datos

Muchas organizaciones se enfrentan a la pregunta sobre ¿qué


información es la que se debe analizar?, sin embargo, el
cuestionamiento debería estar enfocado hacia ¿qué problema es el que
se está tratando de resolver?

Si bien sabemos que existe una amplia variedad de tipos de datos a


analizar, una buena clasificación nos ayudaría a entender mejor su
representación, aunque es muy probable que estas categorías puedan
extenderse con el avance tecnológico.

a) Tipos de datos por origen

8
b) Tipos de datos por categorías

 Estructurados:
o Creados: datos generados por nuestros sistemas de una manera
predefinida (registros en tablas, ficheros XML asociados a un
esquema)
o Provocados: datos creados de manera indirecta a partir de una
acción previa (valoraciones de restaurantes, películas, empresas
(Yelp, TripAdvisor, …)
o Dirigido por transacciones: datos que resultan al finalizar una
acción previa de manera correcta (facturas autogeneradas al
realizar una compra, recibo de un cajero automático al realizar una
retirada de efectivo, …)
o Compilados: resúmenes de datos de empresa, servicios públicos
de interés grupal. Entre ellos nos encontramos con el censo
electoral, vehículos matriculados, viviendas públicas, …)
o Experimentales: datos generados como parte de pruebas o
simulaciones que permitirán validar si existe una oportunidad de
negocio.

9
 No estructurados:
o Capturados: datos creados a partir del comportamiento de un
usuario (información biométrica de pulseras de movimiento,
aplicaciones de seguimiento de actividades (carrera, ciclismo,
natación, …), posición GPS)
o Generados por usuarios: datos que especifica un usuario
(publicaciones en redes sociales, vídeos reproducidos en
Youtube, búsquedas en Google, …)

 Multi-estructurados o híbridos:
o Datos de mercados emergentes
o E-commerce
o Datos meteorológicos

5.3 Las 7 “V” de Big Data

Las características más importantes del Big Data perfectamente se


pueden clasificar en cuatro magnitudes, más conocidas como
las cuatro V del Big Data, relativas a volumen, variedad, velocidad y
veracidad. A estas cuatro V, podemos añadir tres más, como pueden ser
la de Viabilidad y Visualización. Pero si hablamos de V en Big Data no
podemos dejar pasar la principal característica del análisis de datos que
es la V de Valor de los datos. Así pues, en los últimos artículos se
empieza a hablar, ya no de las tradicionales cuatro V de Big Data, sino
de las 7 “V” del Big Data:

a) Volumen de información

El volumen se refiere a la cantidad de datos que son generados cada


segundo, minuto y días en nuestro entorno. Es la característica más
asociada al Big Data, ya que hace referencia a las cantidades masivas
de datos que se almacenan con la finalidad de procesar dicha
información, transformando los datos en acciones.

10
Cada vez estamos más conectados al mundo 2.0 por lo que generamos
más y más datos. Para algunas empresas, el estar en el mundo digital
es algo obligatorio, por lo que la cantidad de datos generados es aún
mayor. Por ejemplo, una empresa que vende sus productos únicamente
a través de un canal online, le convendría implantar tecnología Big Data
para procesar toda aquella información que recoge su página web
rastreando todas las acciones que lleva a cabo el cliente; conocer donde
cliquea más veces, cuántas veces ha pasado por el carrito de la compra,
cuáles son los productos más vistos, las páginas más visitadas, etc.

b) Velocidad de los datos

La velocidad se refiere a los datos en movimiento por las constantes


interconexiones que realizamos, es decir, a la rapidez en la que son
creados, almacenados y procesados en tiempo real.

Para los procesos en los que el tiempo resulta fundamental, tales como
la detección de fraude en una transacción bancaria o la monitorización
de un evento en redes sociales, estos tipos de datos deben estudiarse
en tiempo real para que resulten útiles para el negocio y se consigan
conclusiones efectivas.

c) Variedad de los datos

La variedad se refiere a las formas, tipos y fuentes en las que se


registran los datos. Estos datos pueden ser datos estructurados y fáciles
de gestionar como son las bases de datos, o datos no estructurados,
entre los que se incluyen documentos de texto, correos electrónicos,
datos de sensores, audios, vídeos o imágenes que tenemos en nuestro
dispositivo móvil, hasta publicaciones en nuestros perfiles de redes
sociales, artículos que leemos en blogs, las secuencias de click que
hacemos en una misma página, formularios de registro e infinidad de
acciones más que realizamos desde nuestro Smartphone, Tablet y
ordenador.

11
Estos últimos datos requieren de una herramienta específica, debido a
que el tratamiento de la información es totalmente diferente con respecto
a los datos estructurados. Para ello, las empresas necesitan integrar,
observar y procesar datos que son recogidos a través de múltiples
fuentes de información con herramientas cualificadas.

d) Veracidad de los datos

Cuando hablamos de veracidad nos referimos a la incertidumbre de los


datos, es decir, al grado de fiabilidad de la información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando
soluciones y métodos que puedan eliminar datos imprevisibles que
puedan surgir como datos económicos, comportamientos de los
consumidores que puedan influir en las decisiones de compra.

La necesidad de explorar y planificar la incertidumbre es un reto para el


Big Data que está a la orden del día en las compañías dedicadas al
análisis de datos.

e) Viabilidad

La inteligencia empresarial es un componente fundamental para


la viabilidad de un proyecto y el éxito empresarial. Se trata de la
capacidad que tienen las compañías en generar un uso eficaz del gran
volumen de datos que manejan.

La inteligencia competitiva también se asocia con la innovación de los


equipos de trabajo y el uso de tecnologías empleadas. Una empresa
inteligente analiza, selecciona y monitoriza la información con el fin de
conocer mejor el mercado en el que opera, a sus clientes y diseñar
estrategias eficaces.

Es necesario filtrar a través de esta información y seleccionar


cuidadosamente los atributos y factores que son capaces de predecir los

12
resultados que más interesan a las empresas. El secreto del éxito es
descubrir las relaciones entre las variables ocultas.

Una vez que conoces la viabilidad de tu organización, es el momento de


detallar el proyecto en una hoja de ruta, y desarrollar el plan de negocio.

f) Visualización de los datos

Cuando hablamos de visualización nos referimos al modo en el que los


datos son presentados. Una vez que los datos son procesados (los datos
están en tablas y hojas de cálculo), necesitamos representarlos
visualmente de manera que sean legibles y accesibles, para encontrar
patrones y claves ocultas en el tema a investigar. Para que los datos
sean comprendidos existen herramientas de visualización que te
ayudarán a comprender los datos gráficamente y en perspectiva
contextual.

g) Valor de los datos

El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar


gran cantidad de información. El valor se obtiene de datos que se
transforman en información; esta a su vez se convierte en conocimiento,
y este en acción o en decisión. El valor de los datos está en que sean
accionables, es decir, que los responsables de las empresas puedan
tomar una decisión (la mejor decisión) en base a estos datos.
No todos los datos de los que partimos se convierten en acción o
decisión. Para ello, es necesario tener tecnologías aplicadas. Por
ejemplo, una publicación en una red social, que gracias al uso
de tecnologías de procesamiento de lenguaje natural, puede medir el
sentimiento positivo o negativo, con la ayuda de un algoritmo de análisis
de redes sociales o herramientas que permitan obtener de esto
información.

13
5.4 Big data y la nube

El Big Data y la nube o los servicios Cloud necesariamente han de ir de


la mano en el mundo de los datos. Muchos de los datos de los que
disponemos son generados y creados en la web dentro de un modelo de
computación en la nube.

La gran cantidad de datos generados por satélites, gobiernos, cámaras


de vídeo vigilancia, smartphones, dispositivos del internet de las cosas
(IoT) junto con datos generados en las redes sociales hacen necesarios
los sistemas de Cloud.

No es lo mismo la fase en la que se recopilan los datos, que la fase en


la que se tratan esos datos para generar informes de cara a sacar
conclusiones clave beneficiosas para el negocio. Estos recursos de
computación en la nube pueden ser gestionados con mayor eficiencia,
dependiendo de cuando realicemos el análisis Big Data. De este modo
se pueden liberar servicios para que otra empresa los pueda usar.

a) Modalidades de Cloud para Big Data

IaaS.- Infraestructura como Servicio proporciona acceso a recursos


informáticos situados en un entorno virtualizado en la nube, a través de
una conexión pública, en este caso internet. La modalidad infraestructura
facilita el uso de servidores a bajo nivel controlando: sistema operativo,
uso de memoria, tecnología de almacenamiento en disco etc.

PaaS.- Plataforma como servicio es un servicio cloud que proporciona


una plataforma y un entorno donde se permite crear aplicaciones y
servicios que funcionen a través de internet. Con la modalidad de
entorno pre configurado, el proveedor te ofrece en el servicio Cloud los
lenguajes de programación que necesites: Java, Python, Ruby etc., así
Apache Hadoop, Apache Spark.

14
SaaS.- Software como servicio son servicios en cloud en el que se
puede acceder a aplicaciones de software a través de internet.
modalidad es la de software como servicio Cloud, que te proporciona un
entorno para trabajar directamente con Big Data. Podemos hacer el
procesamiento y análisis de los datos de una manera transparente en
cuanto a detalles de infraestructura.

b) Otros servicios en la nube para Big Data

Nube Pública.- La nube pública es una plataforma donde se tiene


acceso general a servicios y recursos de computación Cloud mediante
una conexión pública a través de Internet. Como hemos visto
anteriormente, los recursos de uso de computación se asignarán de
manera temporal dependiendo de su utilización. Cuando ya no son
usados se asignan a otros usuarios.

Nube Privada.- La nube privada es una plataforma donde los servicios


y recursos En el servicio nube pública se tiene acceso general a
servicios y recursos de computación en la nube están en red privada,
con acceso restringido a usuarios de tu empresa. Los sistemas de
seguridad son más altos, debido al tipo de sensibilidad de los datos con

15
los que trabajamos, siendo necesario mantener la confidencialidad, la
privacidad y la integridad de los datos.

Nube Hibrida.- la nube hibrida es una combinación entre la nube


pública y la nube privada. Estos servicios se utilizan cuando existen
datos Cloud privados que se ofertan en Cloud públicos o cuando existe
una colaboración de distintos proveedores de servicios en la nube.
Estos servicios ofrecen en general ahorro (más económico que la
privada), seguridad, flexibilidad y escalabilidad.

c) Beneficios del Big Data en la nube

 Menor costo: Evitamos las inversiones de infraestructura tanto


hardware como de licencias software, ya que, como hemos visto
antes, no siempre se utilizan los recursos al 100%, sino que
depende de la fase Big Data en la que nos encontremos.
 Rapidez: El acceso a la información, ficheros, base de datos etc,
es mucho más rápido, además de ser más accesible.
 Comodidad: Dependiendo del servicio Cloud, no debes de
preocuparte de versiones, actualizaciones o problemas de
seguridad.
 Mayor personalización: Cada configuración está adaptada a las
necesidades de cada cliente, pudiendo aumentar espacios o
recursos dependiendo de las necesidades de demanda.
 Accesibilidad: Puedes acceder a la información desde varios
dispositivos desde cualquier lugar con acceso a internet.
 Seguridad: Se contemplan protocolos de seguridad y servicios
de copias de seguridad las veces que quieras.

16
5.5 Seguridad en Big Data

Asegurar la protección de los datos es indispensable, la sensación que


tienen los consumidores que han perdido el control de sus propios datos
es del 90 %, sienten que ya no son dueños de esa información. Lo que
se debe realizar para ganar la confianza nuevamente de los
consumidores es la transparencia de los datos.

Es indudable que las empresas tecnológicas necesitan regulaciones


claras, pragmáticas y orientadas al mercado (políticas). Miles de
usuarios se descargan a diario aplicaciones en sus móviles o tablets que
conectan con sus agendas, sus búsquedas en Google, su cámara, etc.
y tienen acceso a toda su información. Por ello, la empresa tiene que
hacer un uso consentido de los datos, es decir, debe solicitar siempre el
consentimiento del usuario y este debe asumir, como dueño de la
información, que da ese consentimiento.

Las redes sociales, la nube, el IoT y el Big Data están provocando un


intercambio de información personal sin precedentes. El valor de estos
datos personales es cada vez mayor y cae cada vez en menos
empresas, cuyas políticas de gestión de datos difieren. El acceso a más
información del internauta debería conllevar, por tanto, que las empresas
asumieran legalmente una mayor responsabilidad, aseguraran que
realizan un uso responsable de los datos y respetaran los derechos que
los dueños de los datos tienen sobre ellos.

5.6 Herramientas de Big Data

a) Herramientas para almacenar datos

 Base de datos SQL.- Usan un lenguaje declarativo de acceso


a base de datos relacionales. Todas las bases de datos SQL
cumplen con las propiedades ACID (Atomicidad de
operaciones, Consistencia de datos, Aislamiento de
operaciones concurrentes, y Durabilidad de los datos). Algunos
ejemplos: DB2, Oracle, SQLite.

17
 Base de datos NoSQL.- Las bases de datos
NoSQL (MongoDB, Cassandra, Elasticsearch, Cloudant,
Neo4j, Redis…) no requieren estructuras fijas y se clasifican
según su forma de almacenar los datos en bases de datos
documentales, columnares o de grafos. Las bases de datos
NoSQL se caracterizan por ser mucho más heterogéneas. Son
todas aquellas que no siguen el estándar SQL y, por tanto, no
cumplen alguna de las propiedades ACID. Son más flexibles a
la hora de guardar datos de índole diversa o de almacenar
datos masivos que deben compartirse entre varias máquinas.
A cambio no garantizan que los datos siempre estén
disponibles en su versión más actualizada, y suelen estar
limitadas a consultas más simples que las que pueden hacerse
sobre bases de datos SQL.

b) Herramientas para analizar datos

La base de las técnicas Big Data radica en las herramientas destinadas


al análisis de datos. A diferencia del almacenamiento y el procesamiento
de datos, las herramientas de análisis no están tan estandarizadas.El
buen científico de datos normalmente combinará diferentes
herramientas y paquetes Open Source para poder aplicar los algoritmos
más adecuados al problema en el que esté trabajando.

Para ello, son necesarios conocimientos matemáticos, estadísticos y


analíticos avanzados que incluyan formación en Machine Learning o
Aprendizaje automático (redes neuronales, ensembles, SVMs, Deep
Learning…), reconocimiento de patrones, modelos predictivos, técnicas
de clustering, Minería de datos o Data Mining (minería de textos, de
imágenes, del discurso…), PLN o Procesamiento del Lenguaje Natural,
Sentiment Analysis, etc.

18
Pero para aplicar técnicas Big Data al negocio dé como fruto los mejores
resultados posibles, además de una gran capacidad de computación
debemos saber combinar la capacidad de almacenamiento y la de
procesamiento con la de análisis. Hay 3 niveles de analítica de datos
distintos:

 La analítica descriptiva, que sirve para saber cómo está funcionando


el negocio.

 La analítica predictiva, que permite anticiparse a lo que


previsiblemente ocurrirá en un futuro. A este nivel nos encontramos
librerías de algoritmos a las que la data scientist puede recurrir como
Scikit-learn, Keras, Tensorflow, nltk.

 Y, por último, la analítica prescriptiva, que ofrece la mayor ventaja


competitiva porque sus recomendaciones sobre cuál es la mejor
estrategia para alcanzar los mejores resultados permiten tomar
decisiones mejor informadas. Este nivel, el prescriptivo, es el más
inexplorado. Junto a las herramientas de la analítica predictiva,
existen otras herramientas que pueden utilizarse para resolver la
componente de optimización de cualquier solución prescriptiva:
CPLEX, Gurobi, paquetes de Matlab…, pero construir la solución
global suele requerir de desarrollos de software específicos para cada
proyecto.

c) Herramientas para visualizar datos

Aparte de saber cómo almacenar datos, procesarlos y analizarlos, ser


un experto en Big Data conlleva saber comunicar la información que
esos datos, tras su clasificación y estudio, nos ha proporcionado. Para
ello es fundamental pintar los datos en un contexto familiar y efectivo
que facilite la labor de interpretarlos, visualizándolos de manera
sencilla y asequible.
En el mercado hay herramientas de visualización de datos asequibles
tanto para desarrolladores o diseñadores como para personal menos

19
técnico. La mayoría cuenta con versiones de pago y versiones
gratuitas y ofrece gráficos optimizados para su uso en redes sociales.
Entre las más populares estarían Tableau, Weave, Datawrappper,
Gephi, Infogram, Many Eyes, Piktochart, NodeXL, Chartblocks, d3,
Thinglink, Axiis, QuickView y Google Fusion Tables.

6. Conclusiones

 Como se pudo notar en la presente exposición, incorporar una


solución alrededor de Big Data implica de la integración de diversos
componentes y proyectos que en conjunto forman el ecosistema
necesario para analizar grandes cantidades de datos en beneficio de
una empresa.
 Debido a la gran cantidad de sensores, cámaras, escáneres médicos,
imágenes, etc. En la vida cotidiana, los datos generados a partir de
estos elementos será dentro de poco el segmento más grande de toda
la información disponible.
 El uso de Big Data ha ayudado a los investigadores a descubrir cosas
que les podrían haber tomado años en descubrir por si mismos sin el
uso de estas herramientas.
 Sin la plataforma de Big Data se necesitaría desarrollar
adicionalmente código que permita administrar cada uno de los
componentes por ejemplo: manejo de eventos, conectividad, alta
disponibilidad, seguridad, optimización y desempeño, depuración,
monitoreo, administración de las aplicaciones, SQL y scripts
personalizados.

7. Recomendaciones

Muchas empresas se enfrentan a la pregunta sobre ¿qué información es


la que se debe analizar?, sin embargo, el cuestionamiento debería estar
enfocado hacia ¿qué problema es el que se está tratando de resolver?
Se recomienda realizar una clasificación para que entender mejor la
información, aunque es muy probable que pueda extenderse con el avance
tecnológico.
 Web and Social Media: Incluye contenido web e información que es
obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc,
blogs.

20
 Machine-to-Machine (M2M): M2M se refiere a las tecnologías que
permiten conectarse a otros dispositivos. M2M utiliza dispositivos
como sensores o medidores que capturan algún evento en particular
(velocidad, temperatura, presión, variables meteorológicas, variables
químicas como la salinidad, etc.) los cuales transmiten a través de
redes alámbricas, inalámbricas o híbridas a otras aplicaciones que
traducen estos eventos en información significativa.
 Big Transaction Data: Incluye registros de facturación, en
telecomunicaciones registros detallados de las llamadas (Call Detail
Records - CDR), etc. Estos datos transaccionales están disponibles
en formatos tanto semiestructurados como no estructurados.
 Human Generated: Las personas generamos diversas cantidades de
datos como la información que guarda un call center al establecer una
llamada telefónica, notas de voz, correos electrónicos, documentos
electrónicos, estudios médicos, etc.

8. Bibliografía

¿Qué es Big Data? (18 jun. 2012), Artículo Web


https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html

Historia del Big Data: un largo viaje poco conocido. – Grupo IGN (02 may
2017), Artículo Web
https://ignsl.es/historia-del-big-data/
Análisis de las posibilidades de uso de Big Data en las organizaciones
(2013), Artículo Web
https://repositorio.unican.es/xmlui/bitstream/handle/10902/4528/TFM%2
0-%20David%20L%C3%B3pez%20Garc%C3%ADaS.pdf?sequence=1
Las 7 V del Big data: Características más importantes (2016), Articulo
Web
http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-
importantes-7-v/

Tipos de datos en Big Data: clasificación por categoría y por origen


(2016), Articulo Web

https://www.bit.es/knowledge-center/tipos-de-datos-en-big-data/

Seguridad en Big Data, Privacidad y protección de datos (2016),


Articulo Web

http://www.iic.uam.es/innovacion/seguridad-big-data/
21
El Big Data y la nube: los servicios Cloud (2016), Articulo Web

http://www.iic.uam.es/innovacion/big-data-la-nube-servicios-cloud/

22

También podría gustarte