Big Data

Big Data
Modulo 1 Fundamentos
Introducción
La sociedad en la que vivimos se ha desarrollado con las nuevas tecnologías de la

información. Cuando utilizamos algún dispositivo electrónico, sea Smartphone, Tablet,
ordenador, el propósito principal es obtener información. A la vez que nosotros
navegamos en internet para buscar contenido o comunicarnos, generamos nueva
información que puede ser muy interesante para las empresas.Un ejemplo claro lo
podemos observar en que la publicidad que se nos muestra en cualquier dispositivo que
utilizamos se adapta a nuestros gustos o preferencias.
Por poner un ejemplo, si hacemos una búsqueda de comida china en internet. Las
próximas veces que nos conectemos es posible que aparezcan anuncios relacionados
con la comida china, como pueden ser restaurantes, productos de supermercado…
Todo esto es porque, como ya hemos dicho, cuando hacemos uso de tecnología también
compartimos nuestra información, nuestras preferencias y gustos.
Módulo 2. Procesamiento y análisis de datos

Introducción a infrestructura
HDFS: Sistema de ficheros que viene de Google File System 2003
BBDD No relacionadas: Dentro de éstas, la más habitual es MongoDB y Apache

HADOOP.
HADOOP es una herramienta de Apache que permite hacer procesamiento de datos

distribuidos sobre volúmenes de datos de considerable tamaño. Dispone de dos
componentes principales, el HDFS, sistema de archivos distribuidos que permite
distribuir los ficheros y MapReduce, framework que permite al desarrollador ejecutar
programas escritos en diferentes lenguajes de programación.
Namenode” que además incorpora la información de distribución de datos en los nodos,

“Datanodes” encargado de ejecutar el cálculo (Map y Reduce) de las funciones dentro
de los datos y “Jobtracker” que gestiona y controla las tareas a ejecutar del proceso
“MapReduce”. Por otro lado también disponemos de otras ventajas como son tolerancia
a fallos, acceso a datos en streaming, facilidad de trabajo, modelo sencillo,
portabilidad,…
Por otro lado disponemos del framework MapReduce el cual es un modelo de
programación diseñado por Google y que inicialmente estaba orientado a solucionar el
ranking de páginas del buscador. Este modelo se basa en diversos conceptos como son:
iteraciones sobre datos de entrada, construcción de pares clave-valor a partir de cada
elemento de entrada, reducción de los grupos o variables.
Evidentemente este modelo consta de dos pasos significativos que serian el “mapeo”
donde se asignan los pares y se agrupan por la clave y una posterior “reducción” donde
se genera una colección de valores representativos.
Cassandra es la base de datos propiedad de Apache encargada de este cometido. Es muy útil
en el tratamiento de datos críticos puesto que es escalable,
2. Pre-procesamiento de datos
A) Volumen+ Velocidad+ Variedad -- + Veracidad y Valor las 5v del bigData
B) ETL: Extract Transform y Load
C) Herramientas de programación:
HADOOP. Apache Spark ha demostrado ser mucho más efectiva, principalmente por
ser capaz de cargar datos en memoria y consultarlos más rápidamente MLlib es la
herramienta dentro de Spark que ofrece métodos de pre-procesamiento, como pueden
ser normalización, extracción de atributos, selección y conversión de atributos,…
D) Apache Mahout es una suite de algoritmos encargados del clustering, categorización

y filtrado de los datos. El Machine Learning es la base sobre la que se ejecuta Mahout y
aprovecha esta caracterísitca para facilitar la creación de aplicaciones de aprendizaje
como pueden ser clasificadores, reductores o compresores que facilitan el tratamiento de
los datos.
3. Generación de modelos y análisis de los datos

Modelos predictivos para cualquier sector, finanzas, marketing salud, etc
1. Test A/B: Se refiere a una técnica, muy utilizada en marketing, basada en la medición
de dos valores que corresponden a las posibles soluciones de un problema dado y ver
cual tiene más éxito y aceptación.
2. Reglas de Asociación: Consiste en analizar qué elementos o productos se repiten y con
qué frecuencia. En caso de ventas, cuales se compran a la vez.
3. Clasificación: Sirve para predecir el comportamiento de un cliente de cara a la
compra.
4. Análisis de grupos: Conocer grupos semejantes para aplicar campañas concretas.
5. Fusión e integración de datos: Unificar datos de diferentes tipos para generar
información legible. Un ejemplo son las coordenadas de un Smartphone sobre un
mapa.
6. Minería de datos: Estudios probabilísticos que permiten conocer la probabilidad de
acción. Un ejemplo es la probabilidad para un determinado grupo de responder a una
oferta.
7. Algoritmos genéticos: Sirven para planificaciones, tanto en fabricación, viajes…
8. Aprendizaje automáticoSe utilizan en redes sociales para conocer opiniones y

valorar y clasificar por positivo, negativo, neutro…
9. Lenguajes de procesamiento natural: Se utilizan mucho en motores de búsqueda,
dentro de la función de autocompletado.
10. Redes neuronales: Su uso está orientado a predecir clientes que ocasionarán bajas,
reclamaciones, fraudes…
11. Análisis de redes: Conocer relaciones entre individuos en redes sociales.
12. Optimización: gestión y distribución dentro de los procesos.
13. Modelos predictivos: Por ejemplo, probabilidad de visitas de turistas…
14. Regresiones: Con carácter predictivo también pueden pronosticar volúmenes de
ventas.
15. Análisis de sentimiento: Monitorización de blogs, redes sociales, webs…
16. Análisis espaciales: Predicen la compra de un producto en base a la ubicación del
cliente.
Las más importantes son :
1. minería de datos: Datos-> Reconocimiento de patrones-> Resultados

2. reconocimiento de patrones: partir de un bloque de datos se establecen relaciones
con el objetivo de extraer información
3. machine learning:
4. algoritmos genéticos: Tratan de dar solución a problemas matemáticos que no tienen
solución mediante métodos tradicionales. Los algoritmos genéticos utilizan
operaciones genéticas tales como mutación, recombinación y cruce.
5. Aprendizaje de reglas de asociación es un método que se encarga de encontrar las
relaciones entre variables en grandes bases de datos identificando las relaciones de
interés. Un ejemplo claro es el estudio de de producto s comprados con frecuencia
para sugerir al cliente que haya adquirido algún producto relacionado
4. Visualización e interpretación de los datos

Tableau. Este software es capaz de elaborar visualizaciones de datos interactivos a partir de
bases de datos, hojas de cálculo

Big Data

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data

Cargado por

Copyright:

Formatos disponibles

Big Data

La sociedad en la que vivimos se ha desarrollado con las nuevas tecnologías de la

Módulo 2. Procesamiento y análisis de datos

HDFS: Sistema de ficheros que viene de Google File System 2003

BBDD No relacionadas: Dentro de éstas, la más habitual es MongoDB y Apache

HADOOP es una herramienta de Apache que permite hacer procesamiento de datos

Namenode” que además incorpora la información de distribución de datos en los nodos,

A) Volumen+ Velocidad+ Variedad -- + Veracidad y Valor las 5v del bigData

B) ETL: Extract Transform y Load

D) Apache Mahout es una suite de algoritmos encargados del clustering, categorización

3. Generación de modelos y análisis de los datos

8. Aprendizaje automáticoSe utilizan en redes sociales para conocer opiniones y

Las más importantes son :

1. minería de datos: Datos-> Reconocimiento de patrones-> Resultados

4. Visualización e interpretación de los datos

También podría gustarte