Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Modulo
Modulo
0
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
¿Qué es Big Data?
Las empresas, administraciones e individuos tienen cada día más datos disponibles y
mejores herramientas para analizarlos. A la recopilación y análisis de esas bases de
datos gigantes se les denomina Big Data. Uno de los retos de los próximos años es
sacarle el partido.
Big Data es el uso de grandes cantidades de información que puede proceder tanto de
la actividad de una empresa como de los propios clientes, de los ciudadanos en su
relación con la administración pública, de la actividad en redes sociales o de las
propias estaciones meteorológicas y sensores de tráfico de un ayuntamiento. La
información en cantidad demasiado grande o que se mueve demasiado rápido para
las bases de datos convencionales es llamada Big Data y los sistemas no pueden
procesar, ni almacenar, ni mucho menos analizar estos datos. Sin embargo, Big Data
no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando
se habla en términos de petabytes y exabytes de datos. Entonces ¿Cuánto es
1
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
demasiada información de manera que sea elegible para ser procesada y analizada
utilizando Big Data? Analicemos primeramente en términos de bytes:
2
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
aquellas actividades que la mayoría de nosotros realizamos varias veces al día con
nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5
quintillones de bytes diariamente en el mundo.
1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco.com en su artículo web: Internet será
cuatro veces más grande en 2016, entre el 2011 y el 2016 la cantidad de tráfico de
datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos
móviles conectados a Internet excederá el número de habitantes en el planeta. Las
naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el
2016 de tal modo que habrá cerca de 18.9 billones de dispositivos conectados a la red
a escala mundial, esto conllevaría a que el tráfico global de datos móviles alcance 10.8
Exabytes mensuales o 130 Exabytes anuales. Este volumen de tráfico previsto para
2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de información, existe también la comunicación denominada máquina a
máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades
de datos también es muy importante. Sensores digitales instalados en contenedores
para determinar la ruta generada durante una entrega de algún paquete y que esta
información sea enviada a las compañías de transportación, sensores en medidores
eléctricos para determinar el consumo de energía a intervalos regulares para que sea
enviada esta información a las compañías del sector energético. Se estima que hay
más de 30 millones de sensores interconectados en distintos sectores como
automotriz, transportación, industrial, servicios, comercial, etc. y se espera que este
número crezca en un 30% anualmente.
3
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
Ahora bien ¿Qué tipos de datos debo analizar?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una
buena clasificación nos ayudaría a entender mejor su representación, aunque es muy
probable que estas categorías puedan extenderse con el avance tecnológico.
4
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
Human Generated: Las personas generamos diversas cantidades de datos como la
información que guarda un call center al establecer una llamada telefónica, notas de
voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.
En lecciones anteriores se ha estudiado cómo identificar el Big Data, qué tipo de datos
incluye, y qué tipo de aplicaciones tiene entre diferentes sectores y tamaños de
empresas y organizaciones. A medida que nos vamos adentrando a este tema, surgen
muchas preguntas cuando ya tenemos un concepto global en cómo se almacenan
esos datos y cómo se usan. Ahora bien, al comprender los diversos términos a nivel
teórico, es importante dar una explicación que técnicas se utilizan para analizar los
datos con algunos ejemplos prácticos.
5
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
No todas las técnicas que mencionamos a continuación requieren el uso de Big Data,
algunas se pueden aplicar con eficacia en datasets más pequeños, pero sí que todas
ellas pueden ser aplicadas al Big Data y poder así extraer resultados de provecho de
esos enormes grupos de datos de diversas fuentes.
Test A/B
Reglas de asociación
6
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
determinado conjunto de datos, por ejemplo, entre variables de varias bases de
datos enormes. Estas técnicas consisten en aplicar una variedad de algoritmos para
generar y testear las pautas posibles. Una aplicación práctica sería el análisis de la
cesta de la compra de un comerciante online, en la que podemos determinar qué
productos son comprados conjuntamente con frecuencia, para realizar acciones de
marketing eficientes. Por ejemplo, a priori quizá no se nos hubiera ocurrido pero se ha
descubierto que un producto que se compra en los supermercados junto con los
pañales es la cerveza.
Clasificación
Un conjunto de técnicas para identificar las categorías a las que pertenecen los
puntos de datos basado en un conjunto de pruebas que ya contenga los puntos de
datos categorizados. Una aplicación de esta técnica es la predicción de
comportamiento de un grupo de clientes segmentado. Si tenemos una hipótesis o
Módulo 1 Introducción a la analítica avanzada y Big data 3 un objetivo determinado
claro podemos analizar el comportamiento del conjunto de clientes clasificados por
decisiones de compra, ratio de churn, ratio de abandono, tasa de consumo o cualquier
otra variable que pueda ser analizada. A estas técnicas también se les llaman de
aprendizaje supervisado.
7
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
conocidas previamente. Un ejemplo de análisis clúster ayuda a segmentar a los
consumidores en grupos similares para realizar acciones de marketing segmentadas.
Crowdsourcing
Son una serie de técnicas que permiten integrar y analizar datos de múltiples fuentes
con el objeto de realizar descubrimientos entre la información de manera más
eficiente y potencialmente más precisa que si fueran analizados utilizando una sola
fuente de datos. Un ejemplo práctico sería la aplicación combinada de diversos
sensores de datos de dispositivos conectados en la llamada Internet de las cosas,
integrado con el rendimiento de sistemas complejos distribuidos en una Módulo 1
Introducción a la analítica avanzada y Big data 4 explotación petrolífera. Otro ejemplo
sería el análisis vía procesamiento de lenguaje natural de datos de redes sociales
combinados con datos de ventas en tiempo real, con el objetivo de determinar el
efecto que está teniendo una campaña de marketing en el sentimiento de los clientes
y su comportamiento reflejado en las decisiones de compra.
8
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
Data mining
Algoritmos genéticos
9
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
dentro del conjunto. Estos algoritmos evolutivos funcionan bien para solucionar
problemas no lineales, como, por ejemplo, mejorar la planificación de tareas en la
industria manufacturera, o la optimización del rendimiento de una cartera de
inversión.
Aprendizaje automático
Redes neuronales
10
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
El desafío con estas redes es comprender exactamente qué proceso ocurre en cada
capa: "Por ejemplo, la primera capa puede buscar por los bordes o esquinas de los
elementos de la fotografía. Las capas intermedias interpretan las características básicas
para buscar formas o componentes, como una puerta o una hoja. Y las últimas capas
arman esto en una interpretación completa, las que se activan en respuesta a cosas
complejas como edificios o árboles". Pero los resultados pueden ser impredecibles:
Análisis de redes
11
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
Análisis de sentimiento
Análisis espacial
Son una serie de técnicas, sobre todo estadísticas, que permiten analizar las
propiedades topológicas, geométricas o geográficas codificadas dentro de un
conjunto de datos. A menudo estos datos de ubicación son capturados gracias a un
GIS (sistemas de información geográfica) que registran, por ejemplo, coordenadas de
longitud y latitud. Incorporando datos espaciales en regresiones espaciales podemos
averiguar la correlación entre consumidores que desean adquirir un producto y su
localización. También se emplean en simulaciones, por ejemplo, una empresa que
desee expandirse puede averiguar cómo respondería la red de una cadena de
suministro según donde estuviera ubicada.
12
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
Simulación
13
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
Esta lista no pretende mostrar todas las técnicas existentes sino las más utilizadas. Los
investigadores y proveedores de las soluciones que facilitan estas aplicaciones, como
IBM, están continuamente trabajando para generar nuevas técnicas y mejorar las
existentes, especialmente las referidas a dar respuesta a la necesidad de analizar
nuevas combinaciones de datos.
14
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
¿De dónde provienen los Datos? ¿Por qué hay tanta información?
Competencias a Desarrollar:
Descripción:
Lea las siguientes fuentes bibliográficas que permiten reconocer de donde provienen
los datos, el impacto y las aplicaciones que ha permitido el análisis del Big Data
15
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
¿De donde provienen los Datos?
En cuanto a los Aspectos legales del Big Data los siguientes enlaces de expertos
abogados dejan en claro que es un tema no para tomarse a la ligera:
16
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
Bibliografía:
Big data: The next frontier for innovation, competition, and productivity de
McKinsey Global Institute
Técnicas de big data: Análisis de textos a gran escala para la investigación
científica y periodística:
http://www.elprofesionaldelainformacion.com/contenidos/2016/jul/12.pdf
https://es.wikipedia.org/wiki/Big_data
17
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
18
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data