Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y
MINERÍA
DE DATOS
HENRRY EDUARDO
BIG DATA
Cuando hablamos de Big Data nos referimos a conjuntos de
datos o combinaciones de conjuntos de datos cuyo tamaño
(volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión,
procesamiento o análisis mediante tecnologías y
herramientas convencionales, tales como bases de datos
relacionales y estadísticas convencionales o paquetes de
visualización, dentro del tiempo necesario para que sean
útiles.
• Redes sociales.
• Bancos
• Compras en:
• Almacenes.
• Tiendas.
• Datos en la Web.
• Comercios Electrónicos.
EXPLOSIÓN DE DATOS
Por ejemplo:
Los cambios en los patrones de uso de servicios impulsan la
demanda de datos móviles. Los operadores empiezan a
repensar sus modelos de comercialización para adaptarse a
las necesidades de usuarios que reducen su consumo de voz
y SMS y se inclinan por el uso de aplicaciones y servicios
de datos.
• Medicina.
• Resonancia magnética y tomografías
computarizadas, registros de pacientes, ...
• Entretenimiento
• Imágenes de Internet, películas de Hollywood,
archivos MP3, ...
• Comercio y negocios.
• Las ventas corporativas, transacciones del mercado
de valores, el tráfico aéreo, ...
• Humanidades y ciencias sociales
• Libros escaneados, documentos históricos, datos de
las interacciones sociales, las nuevas tecnologías
como el GPS ...
• Ciencias
• Bases de datos de astronomía, genóma, datos
medioambientales, datos de transporte, ...
LAS SIETE DIMENSIONES DE
BIG DATA
• Volumen: grandes volúmenes de datos
• Velocidad: mover datos rápidamente
• Variedad: estructurados, no estructurados, imágenes, etc.
• Veracidad: La confianza y la integridad es un desafío y
una necesidad y es importante para los grandes datos al
igual que para las BD relacionales tradicionales.
• Viabilidad: Se trata de la capacidad que tienen las
compañías en generar un uso eficaz del gran volumen de
datos que manejan.
• Visualización de datos: Cuando hablamos de
visualización nos referimos al modo en el que los datos
son presentados. Una vez que los datos son procesados
(los datos están en tablas y hojas de cálculo),
necesitamos representarlos visualmente de manera que
sean legibles y accesibles, para encontrar patrones y
claves ocultas en el tema a investigar.
• Valor de los datos: El valor de los datos está en que sean
accionables, es decir, que los responsable de la empresas
puedan tomar una decisión (la mejor decisión) en base a
estos datos
TECNOLOGÍA BIG DATA
• Hadoop:
• Bajo costo.
• Arquitectura escalable.
• Éxito en computación distribuida.
• Marketing.
Analizando las relaciones entre parámetros como
edad de los clientes, género, gustos, etc., es posible adivinar
su comportamiento para dirigir campañas personalizadas de
fidelización o captación. El data
mining en marketing predice también qué usuarios
pueden darse de baja de un servicio, qué les interesa
según sus búsquedas o qué debe incluir una lista de correo
para lograr una tasa de respuesta mayor.
EJEMPLOS DE APLICACIONES
DE LA MINERÍA DE DATOS.
• Comercio minorista.
Los supermercados, por ejemplo, emplean los
patrones de compra conjunta para identificar asociaciones
de productos y decidir cómo situarlos en los diferentes
pasillos y estanterías de los lineales. El data mining detecta
además qué ofertas son las más valoradas por los
clientes o incrementa la venta en la cola de caja.
• Banca.
Los bancos recurren a la minería de datos para
entender mejor los riesgos del mercado. Es habitual que se
aplique a la calificación crediticia (rating) y a sistemas
inteligentes antifraude para analizar transacciones,
movimientos de tarjetas, patrones de compra y datos
financieros de los clientes. El data mining también permite
a la banca conocer más sobre nuestras preferencias o
hábitos en internet para optimizar el retorno de sus
campañas de marketing, estudiar el rendimiento de los
canales de venta o gestionar las obligaciones de
cumplimiento de las regulaciones.
EJEMPLOS DE APLICACIONES
DE LA MINERÍA DE DATOS.
• Medicina.
La minería de datos favorece diagnósticos más
precisos. Al contar con toda la información del paciente —
historial, examen físico y patrones de terapias anteriores—
se pueden prescribir tratamientos más efectivos.
También posibilita una gestión más eficaz, eficiente y
económica de los recursos sanitarios al identificar riesgos,
predecir enfermedades en ciertos segmentos de la población
o pronosticar la duración del ingreso hospitalario. Detectar
fraudes e irregularidades y estrechar vínculos con los
pacientes al ahondar en el conocimiento de sus necesidades
son también ventajas de emplear el data mining en
medicina.
EJEMPLOS DE APLICACIONES
DE LA MINERÍA DE DATOS.
• Televisión y Radio.
Hay cadenas que aplican la minería de datos en
tiempo real a sus registros de audiencia en
televisión online (IPTV) y radio. Estos sistemas recaban y
analizan sobre la marcha información anónima de las
visualizaciones, las retransmisiones y la programación de
los canales. Gracias al data mining se pueden emitir
recomendaciones personalizadas a los radioyentes y
telespectadores, conocer en directo sus intereses y su
actividad, y entender mejor su conducta. Las cadenas
obtienen, además, conocimiento muy valioso para sus
anunciantes, que aprovechan estos datos para llegar con más
precisión a sus clientes potenciales..
TÉCNICAS DE MINERÍA DE
DATOS
Las técnicas de la minería de datos provienen de
la inteligencia artificial y de la estadística, dichas técnicas,
no son más que algoritmos, más o menos sofisticados que se
aplican sobre un conjunto de datos para obtener unos
resultados.
Las técnicas más representativas son:
• Redes neuronales.
Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el sistema
nervioso de los animales. Se trata de un sistema de
interconexión de neuronas en una red que colabora para
producir un estímulo de salida. Algunos ejemplos de red
neuronal son:
• El perceptrón.
• El perceptrón multicapa.
• Los mapas autoorganizados, también conocidos
como redes de Kohonen.
TÉCNICAS DE MINERÍA DE
DATOS
• Regresión lineal.-
Es la más utilizada para formar relaciones entre
datos. Rápida y eficaz pero insuficiente en espacios
multidimensionales donde puedan relacionarse más de 2
variables.
• Árboles de decisión.-
Un árbol de decisión es un modelo de predicción
utilizado en el ámbito de la inteligencia artificial y el
análisis predictivo, dada una base de datos se construyen
estos diagramas de construcciones lógicas, muy similares a
los sistemas de predicción basados en reglas, que sirven
para representar y categorizar una serie de condiciones que
suceden de forma sucesiva, para la resolución de un
problema. Ejemplos:
• Algoritmo ID3.
• Algoritmo C4.5
TÉCNICAS DE MINERÍA DE
DATOS
• Modelos estadísticos.
Es una expresión simbólica en forma de igualdad
o ecuación que se emplea en todos los diseños
experimentales y en la regresión para indicar los diferentes
factores que modifican la variable de respuesta.
• Agrupamiento o Clustering.-
Es un procedimiento de agrupación de una serie
de vectores según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma que
estén más cercanos aquellos que tengan características
comunes. Ejemplos:
• Algoritmo K-means
• Algoritmo K-medoids
TÉCNICAS DE MINERÍA DE
DATOS
• Reglas de asociación.
Se utilizan para descubrir hechos que ocurren en
común dentro de un determinado conjunto de datos.
Según el objetivo del análisis de los datos, los algoritmos
utilizados se clasifican en supervisados y no supervisados
(Weiss y Indurkhya, 1998):
• Algoritmos supervisados (o predictivos): predicen
un dato (o un conjunto de ellos) desconocido a
Machine Learning.- priori, a partir de otros conocidos.
El aprendizaje automático o • Algoritmos no supervisados (o del descubrimiento
aprendizaje automatizado o
aprendizaje de máquinas es el
del conocimiento): se descubren patrones y
subcampo de las ciencias de la tendencias en los datos.
computación y una rama de la
inteligencia artificial, cuyo
objetivo es desarrollar técnicas
que permitan que las
computadoras aprendan.
CALIDA DE LOS DATOS
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Datos de entrada.
Es de donde provienen la mayor parte de los
errores que generan una mala calidad de datos, de la entrada
manual de datos. Interviene el factor humano y como es
normal puede haber errores de comunicación e
interpretación, errores tipográficos, equivocaciones y otros
factores externos. Este tipo de entrada de datos tiende a
eliminarse cada vez más en las empresas y se va a la
automatización de este proceso mediante integraciones entre
diferentes sistemas como es el caso de la comunicación
mediante mensajes EDI.
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Datos Externos.
Proceden de la incorporación de datos de fuentes
externas de forma automática en los sistemas de
información de las organizaciones que, si no se tomas las
precauciones oportunas, como puede ser considerar un sub
proyecto de calidad de datos, provoca que se generen una
gran cantidad de problemas relacionados con la Calidad de
Datos.
• Errores de carga de los sistemas transaccionales:
Vienen de los múltiples errores que suelen ocurrir
durante la carga de datos en los sistemas transaccionales,
generalmente siendo problemas de comunicación entre
sistemas y que suele provocar una deficiencia en la calidad
de los datos.
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Migraciones de datos.
ocurre cuando se realiza una migración de datos
sin haber revisado y analizado previamente y en
profundidad si deben aplicarse cambios a los datos de
origen, es decir, realizar una limpieza de datos previa a la
migración. Como consecuencia conseguimos la ausencia de
calidad de datos, existencia de valores obsoletos o en un
formato distinto al esperado en el nuevo sistema, e incluso
duplicidades. En la mayoría de los casos, los errores
empiezan a aparecer con la carga inicial de datos y pocas
veces se finaliza la carga sin ningún tipo de error durante el
proceso ETL, es decir, durante la extracción, transformación
y carga de los datos.
MOTIVOS DE UNA MALA
CALIDAD DE DATOS
• Migraciones de datos.
Podríamos dividir los errores de migración en tres
categorías:
• Errores por información incompleta:
Consisten en registros o campos faltantes,
campos de datos que no se cargaron y están vacíos.
• Errores de sintaxis:
Relacionados con el formato de los datos y
cómo se representan. Si están representados de la
forma correcta y se encuentran dentro de un rango de
valores fijado para garantizar su calidad (longitud del
campo, campo de texto o campo numérico, etc).
• Errores de semántica:
Transmite el significado de los datos.
Algunos ejemplos pueden ser registros duplicados con
pequeñas diferencias, datos en un campo de datos que
no lo corresponde según la definición del campo, etc.