Documentos de Académico
Documentos de Profesional
Documentos de Cultura
carlos.montalvo@epn.edu.ec, byron.valle@epn.edu.ec
BIG DATA
1
el tráfico global de datos móviles alcance 10.8 Web, generada por los usuarios en su
Exabytes mensuales o 130 Exabytes anuales. actividad en las redes sociales o
Este volumen de tráfico previsto para 2016 información de búsquedas en buscadores.
equivale a 33 billones de DVDs anuales o 813 Machine-to-Machine (M2M): datos
cuatrillones de mensajes de texto. generados a partir de la comunicación
entre sensores inteligentes integrados en
Pero no solamente somos los seres humanos
objetos de uso cotidiano.
quienes contribuimos a este crecimiento enorme
Transacciones: incluye registros de
de información, existe también la comunicación
facturación, llamadas o transacciones
denominada máquina a máquina (M2M machine-
entre cuentas.
to- machine) cuyo valor en la creación de grandes
Biométricos: datos generados por
cantidades de datos también es muy importante.
tecnología de identificación de personas
Sensores digitales instalados en contenedores mediante reconocimiento facial, de
para determinar la ruta generada durante una huellas dactilares o mediante información
entrega de algún paquete y que esta información genética.
sea enviada a las compañías de transportación, Generados por personas: a través de
sensores en medidores eléctricos para determinar correos electrónicos, servicios de
el consumo de energía a intervalos regulares para mensajería o grabaciones de llamadas.
que sea enviada esta información a las compañías
del sector energético. Se estima que hay más de
30 millones de sensores interconectados en
distintos sectores como automotriz,
transportación, industrial, servicios, comercial,
etc. y se espera que este número crezca en un
30% anualmente.
Si bien sabemos que existe una amplia variedad IV. Herramientas y soluciones
de tipos de datos a analizar, una buena
Big Data necesita nuevas herramientas y
clasificación nos ayudaría a entender mejor su
tecnologías que puedan abarcar la complejidad
representación, aunque es muy probable que
de datos no estructurados y en continua
estas categorías puedan extenderse con el avance
expansión. Para ello, las tecnologías
tecnológico.
tradicionales de base de datos relacionales o
RDBMS, no son adecuadas. Además, se
necesitan aplicaciones avanzadas de análisis y
A la hora de clasificar los “grandes datos” visualización, para poder extraer todo el
podemos hacerlo según dos potencial de los datos y explotarlo para nuestros
criterios: procedencia y estructura. Así, según su objetivos de negocio. Veamos a continuación
procedencia, los datos pueden llegar desde algunas de las principales herramientas: [3]
distintas fuentes, entre otras:
Hadoop: es una herramienta de código abierto
Web y Redes Sociales: información que nos permite tanto gestionar los grandes
disponible en Internet como contenido volúmenes de datos, como analizarlos y
2
procesarlos. Hadoop Dentro del mundo del marketing y ventas es
implementa MapReduce, un modelo de donde mejores resultados ha arrojado Big Data,
programación que da soporte a la los datos son utilizados para analizar y sacar
computación paralela sobre grandes conclusiones sobre el comportamiento y
colecciones de datos. preferencias de los clientes de una empresa.
NoSQL: se trata de sistemas que no utilizan
Para esto, se lleva a cabo la ampliación de los
SQL como lenguaje de consultas, lo que, a
data center comunes con data centers de redes
pesar de no poder garantizar la integridad de
sociales, logins de navegación, análisis de textos
los datos (principios ACID: atomicidad,
y datos de sensores de dispositivos para
consistencia, integridad y durabilidad), les
conseguir un resumen acerca de las preferencias
permite obtener ganancias significativas en
de sus clientes realizando modelos predictivos,
escalabilidad y rendimiento a la hora de
como por ejemplo los realizados por la cadena de
trabajar con Big Data. Una de las bases de
supermercados Target, quienes fueron capaces
datos NoSQL más populares es MongoDB.
de predecir con bastante precisión cuando sus
Spark: es un framework de computación en
clientes esperarían un hijo. Empresas de alto
clúster de código abierto que permite
impacto pueden predecir además que productos
procesar los datos de forma rápida. Permite
se venderán más o menos en ciertas épocas del
escribir aplicaciones en Java, Scala, Python,
año, aseguradoras de autos pueden obtener
R y SQL y funciona tanto sobre Hadoop,
estimaciones de como manejan sus clientes e
Apache Mesos, Kubernetes, como de forma
incluso se puede optimizar la forma en la que un
independiente o en la nube. Puede acceder a
político realiza campaña electoral.
centenares de fuentes de datos.
Storm: es un sistema de computación en
tiempo real distribuido de código libre. Storm
permite procesar flujos ilimitados de datos en
tiempo real de manera sencilla, pudiendo
usarse con cualquier lenguaje de
programación.
Hive: es una infraestructura de Data
Warehouse construida sobre Hadoop. Facilita
la lectura, escritura y administración de
grandes conjuntos de datos que residen en Fig2. Influencia empresarial de Big Data.
almacenamiento distribuido mediante SQL.
R: es uno de los lenguajes de programación
más utilizados en análisis estadísticos y en
minería de datos. Puede integrarse con
distintas bases de datos y permite generar 2. Optimización de procesos en un
gráficos con alta calidad. negocio.
D3.js: es una biblioteca de JavaScript para
En distribuidores se está utilizando Big Data en
producir visualizaciones dinámicas e
base a redes sociales, búsquedas en portales web
interactivas de datos en navegadores web,
e incluso predicciones meteorológicas para tomar
usando HTML, SVG y CSS.
decisiones sobre cadenas de suministro y
optimización de rutas de reparto. Mediante GPS
V. Aplicaciones de Big Data.
y sensores de identificación de radiofrecuencia se
Existen áreas específicas en las cuales Big Data realiza un seguimiento a las mercancías y a
marca diferencia, a continuación, se detalla vehículos de reparto para conseguir la mejor ruta
aquellas donde se están obteniendo los mejores posible hacia un destino y así optimizar el uso de
resultados y que han permitido que este concepto recursos, analizando datos de tráfico en tiempo
se desarrolle. real.
3
gracias al análisis de Big Data; ya que a través de adaptabilidad según el terreno de juego y contra
este se puede detectar y adquirir talento nuevo tácticas a otros jugadores.
para cada tipo de empresa, así como encontrar
De igual manera en el futbol se utilizan
herramientas integradoras de plantillas de
grabaciones y sensores en equipamiento
trabajadores.
deportivo y balones para encontrar nuevos
3. Mejoras en salud pública. itinerarios de entrenamiento, recolectar
información de cada jugador que puede ser usado
Otra aplicación de datos colectivos y masivos es
por sus entrenadores, preparadores e incluso por
dentro de la codificación genética. Mientras más
su agente para ofrecer los servicios de su
datos de usuarios se obtengan se podrá conocer
representado a nuevos clubes.
con mayor precisión información acerca de
antepasados, mejores rutinas alimenticias según Varios equipos de élite incluso lo están usando
el genotipo o para conocer porque ciertos tipos para dar seguimiento a sus jugadores fuera de
de genes que provocan enfermedades cancha, ya que mediante dispositivos inteligentes
degenerativas y mortales se han activado. pueden dar seguimiento al tipo de alimentación
que llevan, horas de descanso y sueño,
Mediante el análisis de cadenas de ADN se puede
preparación física externa o hasta seguimiento en
encontrar nuevos tratamientos y mejores maneras
redes sociales para conocer su estado anímico.
de tratar ciertas enfermedades, sus posibles
desencadenantes y su propagación.
Por ejemplo, en Canadá mediante técnicas de Big Fig3. Big Data aplicado en deportes.
Data se está monitoreando latidos, patrones de
respiración de recién nacidos para predecir
infecciones incluso 24 horas antes que los 5. Optimización y mejora de ciudades.
primeros síntomas se manifiesten. A través de
redes sociales también se puede predecir brotes En las ciudades más importantes del mundo se
de gripe o enfermedades virales gracias al está utilizando Big Data para optimizar flujos de
análisis de lo que los usuarios publiquen en sus tráfico en las principales vías de cada urbe, a este
perfiles. tipo de ciudades se les ha denominado como
Smart Cities. Por ejemplo, los semáforos actúan
4. Herramienta de análisis deportivo.
de acuerdo al tipo de datos obtenidos de tráfico,
En el tenis se lleva utilizando herramientas de de esta manera se optimiza el uso de una calle o
análisis predictivos desde el 2005 avenida para evitar embotellamientos.
aproximadamente, SlamTracker es una
tecnología de IBM SPSS la cual se aplica a
participantes de eventos como Wimbledon,
Roland Garros, Abierto de Australia para
determinar movimientos característicos y
análisis de estilos de los mejores jugadores, así
como eficiencia en servicios, marcadores,
duración de los encuentros, puntos anotados,
tipos de tiros etcétera. Todo esto para determinar
mejores rutinas de entrenamiento para jugadores,
4
Fig4. Big Data orientado a ciudades. humana entre las diferentes zonas y estudiar la
demanda exacta en cada parada.
5
VII. Conclusiones. VIII. Recomendaciones.
La naturaleza de la información hoy es Se recomienda tanto a estudiantes como
diferente a la información en el pasado. profesores relacionados con el mundo
Debido a la abundancia de sensores, de las TICS realizar una investigación
micrófonos, cámaras, escáneres acerca de Big Data, ya que puede
médicos, imágenes, etc. en nuestras resultar un tema de interés común.
vidas, los datos generados a partir de Antes de relacionarse con Big Data se
estos elementos serán dentro de poco el recomienda tener cierta experiencia con
segmento más grande de toda la la programación orientada a objetos, ya
información disponible. que esta herramienta utiliza Java como
El uso de Big Data ha ayudado a los lenguaje de programación.
investigadores a descubrir cosas que les
podrían haber tomado años en descubrir
por si mismos sin el uso de estas BIBLIOGRAFÍA
herramientas, debido a la velocidad del
análisis, es posible que el analista de [1]2019. [Online]. Available:
datos pueda cambiar sus ideas http://www.cisco.com/
basándose en el resultado obtenido y web/ES/about/press/2012/2012-05-30-
hacer el procedimiento una y otra vez internet-sera-cuatro-veces-mas-grande-
hasta encontrar el verdadero valor al en-2016-- informe-vini-de-cisco.html.
que se está tratando de llegar [Accessed: 09- Jul- 2019].
Big Data es una herramienta [2]2019. [Online]. Available:
importante, pero esta debe ser usada con http://www.dataversity.net/not-your-
suma precaución; ya que al realizarse el type-big-data-matchmaker- on-five-
análisis de datos de millones de data-types-you-need-to-explore-today/.
personas el sistema puede verse [Accessed: 09- Jul- 2019].
expuesto a vulnerabilidades y ataques [3]"¿Qué es Big Data y para qué
informáticos los cuales pueden poner en sirve?", #ADNCLOUD, 2019. [Online].
exposición información privada. Es por Available: https://blog.mdcloud.es/que-
eso que en donde se aplique esta es-big-data-y-para-que-sirve/.
estructura de análisis uno de los puntos [Accessed: 09- Jul- 2019].
principales a tomar en cuenta debe ser la
seguridad.
Las aplicaciones de Big Data no
necesariamente se tienen que ver
enfocadas al campo privado o de
negocios, al contar con varias
alternativas de uso esta herramienta
puede aplicarse para mejorar la calidad
de vida de las personas, así como
solventar problemas cotidianos como el
tráfico dentro de una ciudad, el análisis
extenso y con una gran muestra de
ciertas enfermedades y sus posibles
tratamientos entre otros beneficios. Por
lo tanto, se puede concluir que es
importante que el concepto de Big Data
se haga conocer en los distintos
establecimientos educativos
relacionados con la tecnología.