Minería de Datos y Big Data

BIG DATA
Y
MINERÍA
DE DATOS
HENRRY EDUARDO
BIG DATA
Cuando hablamos de Big Data nos referimos a conjuntos de
datos o combinaciones de conjuntos de datos cuyo tamaño
(volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión,
procesamiento o análisis mediante tecnologías y
herramientas convencionales, tales como bases de datos
relacionales y estadísticas convencionales o paquetes de
visualización, dentro del tiempo necesario para que sean
útiles.
“Volumen masivo de datos, tanto estructurados como

noestructurados, los cuales son demasiado grandes y
difíciles de procesar con las bases de datos y el software
tradicionales”
¿DE DÓNDE SE RECOLECTAN
LOS DATOS?
• Redes sociales.
• Bancos
• Compras en:
• Almacenes.
• Tiendas.
• Datos en la Web.
• Comercios Electrónicos.
EXPLOSIÓN DE DATOS
Por ejemplo:
Los cambios en los patrones de uso de servicios impulsan la
demanda de datos móviles. Los operadores empiezan a
repensar sus modelos de comercialización para adaptarse a
las necesidades de usuarios que reducen su consumo de voz
y SMS y se inclinan por el uso de aplicaciones y servicios
de datos.
Erstamos hablando de “Cantidad de datos disponibles”.

EXPLOSIÓN DE DATOS
• Medicina.
• Resonancia magnética y tomografías
computarizadas, registros de pacientes, ...
• Entretenimiento
• Imágenes de Internet, películas de Hollywood,
archivos MP3, ...
• Comercio y negocios.
• Las ventas corporativas, transacciones del mercado
de valores, el tráfico aéreo, ...
• Humanidades y ciencias sociales
• Libros escaneados, documentos históricos, datos de
las interacciones sociales, las nuevas tecnologías
como el GPS ...
• Ciencias
• Bases de datos de astronomía, genóma, datos
medioambientales, datos de transporte, ...
LAS SIETE DIMENSIONES DE
BIG DATA
• Volumen: grandes volúmenes de datos
• Velocidad: mover datos rápidamente
• Variedad: estructurados, no estructurados, imágenes, etc.
• Veracidad: La confianza y la integridad es un desafío y
una necesidad y es importante para los grandes datos al
igual que para las BD relacionales tradicionales.
• Viabilidad: Se trata de la capacidad que tienen las
compañías en generar un uso eficaz del gran volumen de
datos que manejan.
• Visualización de datos: Cuando hablamos de
visualización nos referimos al modo en el que los datos
son presentados. Una vez que los datos son procesados
(los datos están en tablas y hojas de cálculo),
necesitamos representarlos visualmente de manera que
sean legibles y accesibles, para encontrar patrones y
claves ocultas en el tema a investigar.
• Valor de los datos: El valor de los datos está en que sean
accionables, es decir, que los responsable de la empresas
puedan tomar una decisión (la mejor decisión) en base a
estos datos
TECNOLOGÍA BIG DATA
• Hadoop:
• Bajo costo.
• Arquitectura escalable.
• Éxito en computación distribuida.
Hadoop es una estructura de software de código

abierto para almacenar datos y ejecutar aplicaciones
en clústeres de hardware comercial. Proporciona
almacenamiento masivo para cualquier tipo de datos,
enorme poder de procesamiento y la capacidad de
procesar tareas o trabajos concurrentes virtualmente
ilimitados.
• NoSQL:
• Escala horizontal enorme y alta disponibilidad
• Altamente optimizado para recuperación y
actualización.
• Tipos:
• Documento.
• Valor clave.
• Bases de datos gráficas.
• RDBMS Analítico:
• Optimizado para cargas masivas de dato y cargas de
trabajo de consulta y agregación intensas
EL VALOR DE BIG DATA
• Predecir el comportamiento del cliente en todos los
ámbitos .
• Comprender el comportamiento del cliente.
• Mejorar la eficacia operativa.
• Máquinas / sensores: predecir fracasos, ataques a la
red.
• Gestión de riesgos financieros: reducir el fraude,
aumentar la seguridad.
• Reducir el costo de data Warehouse.
• Integrar las nuevas fuentes de datos sin aumentar el
costo base de datos.
• Proporcionar acceso en línea a "datos oscurOS
RETOS Y PROBLEMAS DE BIG
DATA
• Fusión de taxonomías de datos dispares.
Las empresas fusionadas o las unidades de

negocio individuales dentro de una empresa pueden haber
creado y perfeccionado sus propias taxonomías de datos y
ontologías que reflejan la forma de trabajar de cada una. Las
inversiones de capital privado, por ejemplo, pueden acelerar
el ritmo de las fusiones y adquisiciones, a menudo
combinando varias empresas en una gran organización,
señaló Chris Comstock, director de producto del proveedor
de plataformas de gobierno de datos Claravine. Cada una de
las empresas adquiridas suele tener su propio CRM,
automatización de marketing, gestión de contenidos de
marketing, base de datos de clientes y datos de metodología
de calificación de clientes potenciales. Combinar estos
sistemas en una única estructura de datos para orquestar
campañas unificadas puede crear un inmenso desafío de
calidad de big data.
DATA
• Mantener la coherencia.
La limpieza, la validación y la normalización de

los datos también pueden suponer un reto para la calidad de
big data. Una compañía telefónica, por ejemplo, construyó
modelos que se correlacionaban con los datos de averías de
la red, los informes de cortes y las quejas de los clientes
para determinar si los problemas podían vincularse a una
ubicación geográfica. Pero había una falta de coherencia
entre algunas de las direcciones que aparecían como «123
First Street» en un sistema y «123 1ST STREET WEST» en
otro sistema.
DATA
• Encontrar variaciones en la preparación de los datos.
A menudo se requiere una variedad de técnicas de

preparación de datos para normalizar y limpiar los datos
para nuevos casos de uso. Este trabajo de preparación es
manual, monótono y tedioso. Los problemas de calidad de
los datos pueden surgir cuando los equipos de preparación
que trabajan con datos en diferentes silos calculan
características de datos que suenan similares de diferentes
maneras, dijo Monte Zweben, cofundador y CEO del
proveedor de IA y plataforma de datos Splice Machine. Un
equipo, por ejemplo, puede calcular los ingresos totales de
los clientes restando las devoluciones de las ventas,
mientras que otro equipo los calcula según las ventas
únicamente. Los resultados son métricas calculadas de
forma incoherente en diferentes secuencias de datos.
DATA
• Recoger demasiados datos.
Los equipos de gestión de datos a veces se

obsesionan con recopilar más y más datos. «Pero más no es
siempre el enfoque correcto», dijo Wilson Pang, CTO en el
servicio de datos de entrenamiento de IA Appen. Cuantos
más datos se recojan, mayor será el riesgo de que se
produzcan errores en ellos. Los datos irrelevantes o
defectuosos deben limpiarse antes de entrenar el modelo de
datos, pero incluso los métodos de limpieza pueden afectar
negativamente a los resultados.
DATA
• Falta de una estrategia de gobernanza de datos.
Un mal gobierno de los datos y las prácticas de

comunicación pueden dar lugar a todo tipo de problemas de
calidad. Una estrategia de calidad de big data debe estar
respaldada por un sólido programa de gobernanza de datos
que establezca, gestione y comunique las políticas,
definiciones y normas de datos para un uso eficaz de los
mismos y fomente la alfabetización de los datos. Una vez
que los datos se desvinculan de sus entornos de origen, las
normas y los detalles de los datos son conocidos y
respetados por la comunidad de datos, dijo Kim Kaluba,
director senior de marketing de productos del proveedor de
software de gestión de datos SAS Institute.
DATA
• Encontrar el equilibrio adecuado.
Existe una tensión natural entre querer capturar

todos los datos y garantizar que todos los datos capturados
sean de la máxima calidad, dijo Arthur Lent, vicepresidente
senior y director de tecnología de la división de protección
de datos de Dell EMC. También es importante comprender
la finalidad de la adquisición de determinados datos, los
procesos de recogida de los mismos y sus aplicaciones
analíticas posteriores previstas por el resto de la
organización. Por lo general, se pueden desarrollar prácticas
personalizadas que son propensas a errores, frágiles y no
repetibles.
MINERÍA DE DATOS
MINERÍA DE DATOS
La minería de datos o exploración de datos es un

campo de la estadística y las ciencias de la computación
referido al proceso que intenta descubrir patrones en
grandes volúmenes de conjuntos de datos. Utiliza los
métodos de la inteligencia artificial, aprendizaje automático,
estadística y sistemas de bases de datos.
Busca anomalías, patrones o correlaciones entre millones

de registros para predecir resultados.
LA MINERÍA DE DATOS
POSIBILITA:
• Limpiar los datos de ruido y repeticiones.

• Extrae la información relevante y la utiliza para evaluar
posibles resultados.
• Tomar mejores decisiones de negocio con mayor rapidez.
Ejemplos de Aplicaciones de la Minería de Datos.
• Marketing.
Analizando las relaciones entre parámetros como
edad de los clientes, género, gustos, etc., es posible adivinar
su comportamiento para dirigir campañas personalizadas de
fidelización o captación. El data
mining en marketing predice también qué usuarios
pueden darse de baja de un servicio, qué les interesa
según sus búsquedas o qué debe incluir una lista de correo
para lograr una tasa de respuesta mayor.
EJEMPLOS DE APLICACIONES
DE LA MINERÍA DE DATOS.
• Comercio minorista.
Los supermercados, por ejemplo, emplean los
patrones de compra conjunta para identificar asociaciones
de productos y decidir cómo situarlos en los diferentes
pasillos y estanterías de los lineales. El data mining detecta
además qué ofertas son las más valoradas por los
clientes o incrementa la venta en la cola de caja.
• Banca.
Los bancos recurren a la minería de datos para
entender mejor los riesgos del mercado. Es habitual que se
aplique a la calificación crediticia (rating) y a sistemas
inteligentes antifraude para analizar transacciones,
movimientos de tarjetas, patrones de compra y datos
financieros de los clientes. El data mining también permite
a la banca conocer más sobre nuestras preferencias o
hábitos en internet para optimizar el retorno de sus
campañas de marketing, estudiar el rendimiento de los
canales de venta o gestionar las obligaciones de
cumplimiento de las regulaciones.
• Medicina.
La minería de datos favorece diagnósticos más
precisos. Al contar con toda la información del paciente —
historial, examen físico y patrones de terapias anteriores—
se pueden prescribir tratamientos más efectivos.
También posibilita una gestión más eficaz, eficiente y
económica de los recursos sanitarios al identificar riesgos,
predecir enfermedades en ciertos segmentos de la población
o pronosticar la duración del ingreso hospitalario. Detectar
fraudes e irregularidades y estrechar vínculos con los
pacientes al ahondar en el conocimiento de sus necesidades
son también ventajas de emplear el data mining en
medicina.
• Televisión y Radio.
Hay cadenas que aplican la minería de datos en
tiempo real a sus registros de audiencia en
televisión online (IPTV) y radio. Estos sistemas recaban y
analizan sobre la marcha información anónima de las
visualizaciones, las retransmisiones y la programación de
los canales. Gracias al data mining se pueden emitir
recomendaciones personalizadas a los radioyentes y
telespectadores, conocer en directo sus intereses y su
actividad, y entender mejor su conducta. Las cadenas
obtienen, además, conocimiento muy valioso para sus
anunciantes, que aprovechan estos datos para llegar con más
precisión a sus clientes potenciales..
TÉCNICAS DE MINERÍA DE
DATOS
Las técnicas de la minería de datos provienen de
la inteligencia artificial y de la estadística, dichas técnicas,
no son más que algoritmos, más o menos sofisticados que se
aplican sobre un conjunto de datos para obtener unos
resultados.
Las técnicas más representativas son:
• Redes neuronales.
Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el sistema
nervioso de los animales. Se trata de un sistema de
interconexión de neuronas en una red que colabora para
producir un estímulo de salida. Algunos ejemplos de red
neuronal son:
• El perceptrón.
• El perceptrón multicapa.
• Los mapas autoorganizados, también conocidos
como redes de Kohonen.
DATOS
• Regresión lineal.-
Es la más utilizada para formar relaciones entre
datos. Rápida y eficaz pero insuficiente en espacios
multidimensionales donde puedan relacionarse más de 2
variables.
• Árboles de decisión.-
Un árbol de decisión es un modelo de predicción
utilizado en el ámbito de la inteligencia artificial y el
análisis predictivo, dada una base de datos se construyen
estos diagramas de construcciones lógicas, muy similares a
los sistemas de predicción basados en reglas, que sirven
para representar y categorizar una serie de condiciones que
suceden de forma sucesiva, para la resolución de un
problema. Ejemplos:
• Algoritmo ID3.
• Algoritmo C4.5
DATOS
• Modelos estadísticos.
Es una expresión simbólica en forma de igualdad
o ecuación que se emplea en todos los diseños
experimentales y en la regresión para indicar los diferentes
factores que modifican la variable de respuesta.
• Agrupamiento o Clustering.-
Es un procedimiento de agrupación de una serie
de vectores según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma que
estén más cercanos aquellos que tengan características
comunes. Ejemplos:
• Algoritmo K-means
• Algoritmo K-medoids
DATOS
• Reglas de asociación.
Se utilizan para descubrir hechos que ocurren en
común dentro de un determinado conjunto de datos.
Según el objetivo del análisis de los datos, los algoritmos
utilizados se clasifican en supervisados y no supervisados
(Weiss y Indurkhya, 1998):
• Algoritmos supervisados (o predictivos): predicen
un dato (o un conjunto de ellos) desconocido a
Machine Learning.- priori, a partir de otros conocidos.
El aprendizaje automático o • Algoritmos no supervisados (o del descubrimiento
aprendizaje automatizado o
aprendizaje de máquinas es el
del conocimiento): se descubren patrones y
subcampo de las ciencias de la tendencias en los datos.
computación y una rama de la
inteligencia artificial, cuyo
objetivo es desarrollar técnicas
que permitan que las
computadoras aprendan.
CALIDA DE LOS DATOS
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Datos de entrada.
Es de donde provienen la mayor parte de los
errores que generan una mala calidad de datos, de la entrada
manual de datos. Interviene el factor humano y como es
normal puede haber errores de comunicación e
interpretación, errores tipográficos, equivocaciones y otros
factores externos. Este tipo de entrada de datos tiende a
eliminarse cada vez más en las empresas y se va a la
automatización de este proceso mediante integraciones entre
diferentes sistemas como es el caso de la comunicación
mediante mensajes EDI.
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Datos Externos.
Proceden de la incorporación de datos de fuentes
externas de forma automática en los sistemas de
información de las organizaciones que, si no se tomas las
precauciones oportunas, como puede ser considerar un sub
proyecto de calidad de datos, provoca que se generen una
gran cantidad de problemas relacionados con la Calidad de
Datos.
• Errores de carga de los sistemas transaccionales:
Vienen de los múltiples errores que suelen ocurrir
durante la carga de datos en los sistemas transaccionales,
generalmente siendo problemas de comunicación entre
sistemas y que suele provocar una deficiencia en la calidad
de los datos.
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Migraciones de datos.
ocurre cuando se realiza una migración de datos
sin haber revisado y analizado previamente y en
profundidad si deben aplicarse cambios a los datos de
origen, es decir, realizar una limpieza de datos previa a la
migración. Como consecuencia conseguimos la ausencia de
calidad de datos, existencia de valores obsoletos o en un
formato distinto al esperado en el nuevo sistema, e incluso
duplicidades. En la mayoría de los casos, los errores
empiezan a aparecer con la carga inicial de datos y pocas
veces se finaliza la carga sin ningún tipo de error durante el
proceso ETL, es decir, durante la extracción, transformación
y carga de los datos.
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Migraciones de datos.
Podríamos dividir los errores de migración en tres
categorías:
• Errores por información incompleta:
Consisten en registros o campos faltantes,
campos de datos que no se cargaron y están vacíos.
• Errores de sintaxis:
Relacionados con el formato de los datos y
cómo se representan. Si están representados de la
forma correcta y se encuentran dentro de un rango de
valores fijado para garantizar su calidad (longitud del
campo, campo de texto o campo numérico, etc).
• Errores de semántica:
Transmite el significado de los datos.
Algunos ejemplos pueden ser registros duplicados con
pequeñas diferencias, datos en un campo de datos que
no lo corresponde según la definición del campo, etc.

Minería de Datos y Big Data

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Minería de Datos y Big Data

Cargado por

Copyright:

Formatos disponibles

BIG DATA

“Volumen masivo de datos, tanto estructurados como

Erstamos hablando de “Cantidad de datos disponibles”.

Hadoop es una estructura de software de código

Las empresas fusionadas o las unidades de

La limpieza, la validación y la normalización de

A menudo se requiere una variedad de técnicas de

Los equipos de gestión de datos a veces se

Un mal gobierno de los datos y las prácticas de

Existe una tensión natural entre querer capturar

La minería de datos o exploración de datos es un

Busca anomalías, patrones o correlaciones entre millones

• Limpiar los datos de ruido y repeticiones.

Ejemplos de Aplicaciones de la Minería de Datos.

También podría gustarte