Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Modulo 1 Fundamentos
Introducción
Por poner un ejemplo, si hacemos una búsqueda de comida china en internet. Las
próximas veces que nos conectemos es posible que aparezcan anuncios relacionados
con la comida china, como pueden ser restaurantes, productos de supermercado…
Todo esto es porque, como ya hemos dicho, cuando hacemos uso de tecnología también
compartimos nuestra información, nuestras preferencias y gustos.
Evidentemente este modelo consta de dos pasos significativos que serian el “mapeo”
donde se asignan los pares y se agrupan por la clave y una posterior “reducción” donde
se genera una colección de valores representativos.
Cassandra es la base de datos propiedad de Apache encargada de este cometido. Es muy útil
en el tratamiento de datos críticos puesto que es escalable,
2. Pre-procesamiento de datos
C) Herramientas de programación:
HADOOP. Apache Spark ha demostrado ser mucho más efectiva, principalmente por
ser capaz de cargar datos en memoria y consultarlos más rápidamente MLlib es la
herramienta dentro de Spark que ofrece métodos de pre-procesamiento, como pueden
ser normalización, extracción de atributos, selección y conversión de atributos,…
1. Test A/B: Se refiere a una técnica, muy utilizada en marketing, basada en la medición
de dos valores que corresponden a las posibles soluciones de un problema dado y ver
cual tiene más éxito y aceptación.
2. Reglas de Asociación: Consiste en analizar qué elementos o productos se repiten y con
qué frecuencia. En caso de ventas, cuales se compran a la vez.
3. Clasificación: Sirve para predecir el comportamiento de un cliente de cara a la
compra.
4. Análisis de grupos: Conocer grupos semejantes para aplicar campañas concretas.
5. Fusión e integración de datos: Unificar datos de diferentes tipos para generar
información legible. Un ejemplo son las coordenadas de un Smartphone sobre un
mapa.
6. Minería de datos: Estudios probabilísticos que permiten conocer la probabilidad de
acción. Un ejemplo es la probabilidad para un determinado grupo de responder a una
oferta.
7. Algoritmos genéticos: Sirven para planificaciones, tanto en fabricación, viajes…