Está en la página 1de 43

MINERÍA DE DATOS

Alexandra Pomares Quimbaya


pomares@javeriana.edu.co

1
Agenda

1. Definición y evolución
2. Madurez analítica
3. Casos de éxito
4. Conceptos relacionados
Agenda

1. Definición y evolución
2. Madurez analítica
3. Casos de éxito
4. Conceptos relacionados
Definición minería(analítica) de datos

• Es el proceso de extraer conocimiento válido, útil y


comprensible, previamente desconocido, desde grandes
cantidades de datos almacenados en distintos
formatos. Conjunto de actividades y
completa
Información y
correcta,
Lorsesruelstualdtoadsoassosceiapduoesdeqesunat edsícitamenet Se puede
excopnildcuarceennaét um rn negocio?
Por
No se usar
quiereencad aegaoccsino
verificar
el n tivoi?dad el
irdebe
n eosusdefinir:
ldtaedlsogi . nificativa.
procesoQué se debe SE
descubrir REQUIEREN
hacer?
Datos originales válidos
Cómo se debPerhoacceesro?s
Quién lo debe hacer?
Qué se debe
válidos
obtener?
Definición minería (analítica) de datos
Se puede usar en el Los resultados se
• Es el procesneogodcieo?extraer conocimpueden
exieplnci taorevnáét lrimdiono,
n e go c io ?
scomprensible,
ú t il y
d e l previamente desconoci
No se quiere verificar sino d o , d e sde
cantidades
grandes de datodsesaculbmriracenados en distintos
formatos.
Conjunto de actividades y
Información correcta,
resultados asociados que
completa y
conducen a un resultado.
estadísticamente
Por cada actividad el proceso
significativa.
debe definir:
Qué se debe hacer?
SE REQUIEREN
Cómo se debe hacer?
Datos originales válidos
Quién lo debe hacer?
Procesos válidos
Qué se debe
Definición minería (analítica) de datos

• Es el proceso de extraer conocimiento válido, útil y


comprensible, previamente desconocido, desde grandes
cantidades de datos almacenados en distintos
formatos.
Conceptos sinónimos (o casi)

• Analítica de datos
– Es la práctica y arte de analizar datos para apoyar la toma de
decisiones.
• Ciencia de los datos
– Es el conjunto de principios fundamentales que guían la
extracción de conocimiento a partir de los datos.

Vamos a tratar la analítica de datos y la minería de datos como


sinónimos
[PRO13]
Evolución de conceptos a nivel empresarial

Término Periodo Significado específico


Decision Support 1970-1985 Uso del análisis de datos para soportar la toma de
decisiones
Executive Support 1980-1990 Énfasis en el análisis de datos para apoyar la toma de
decisiones de los ejecutivos
Business Intelligence 1989-2005 Herramientas para soportar las decisiones basadas en los
datos. Énfasis en reportes
Analytics 2005-2010 Énfasis en los análisis estadísticos y matemáticos para
apoyar la toma de decisiones
Big Data 2010-Actualmente Énfasis en el manejo de un alto volumen de datos, no
estructurados y que llegan rápidamente.
Evaluación de herramientas- Gartner

2019
Data science and machine
learning platforms
Evaluación de herramientas- Gartner

2016
Advanced Analytics Platform
Evaluación de herramientas- Gartner

2016
Data Science Platforms
Generadores de Datos

Redes sociales Astronomía

300 horas de video por minuto Proyecto Australiano ASKAP


2025: 1,000 –1,700 horas por minuto 7.5 terabytes/segundo de imágenes
1–2 exabytes de videos por año 2025: 750 Terabytes/Segundo
~25 zettabytes anuales
Genera 500 millones de tweets/día
2025: Crecimiento de 1200 millones Genómica
de tweets/día
1.36 petabytes anuales

1 ZB= 103 EB = 106 PB = 109 TB = 1012 GB = 1015 MB = 1018 KB = 1021 bytes.

Stephens ZD, Lee SY, Faghri F, Campbell RH, Zhai C, Efron MJ, et al. (2015) Big Data: Astronomical or Genomical? PLoS Biol 13(7): e1002195.
Generadores de Datos

Volumen

Redes sociales E-commerce Sensores


Decisiones en tiempos cercanos al real

Velocidad

Real Time Near Real Time Batch


• Recomendación a cliente • Personalización de oferta • Entender comportamiento
geolocalizada de producto de un producto
• Alerta de fraude • Acción sube o baja? • Planeación de compra de
• Personalizar portal efectivo
Fuentes de datos diversas

Variedad

1. Estructurados

2. No estructurados

3. Semi-estructurados
Analítica y Big Data

La analítica de datos se ha apoyado en tecnologías Big Data para


generar y aplicar modelos que requieren altos volúmenes de
datos en tiempos menores que empleando tecnologías
tradicionales.
Definición Big Data

• Big Data es usado para describir montos grandes de datos diversos, tanto
estructurados como no estructurados, a los cuales las organizaciones pueden
acceder de manera rápida, para analizarlos usando herramientas innovadoras,
que en conjunto, ayudan a determinar con precisión oportunidades de mejora
en la gestión y en la generación de valor

• Big Data es un paradigma que busca dar soluciones a problemas que involucren
las tres V

IBM2017
Analítica y Big Data: Vs extendidas
Big Data – Desafios técnicos

• Almacenar el alto volumen


• Paralelizar tareas
• Sincronizar tareas
• Balancear carga
• Manejar de fallos
• Envío de información
• Integrar datos heterogéneos
Big Data – Desafios técnicos

• Almacenar el alto volumen


• Paralelizar tareas
• Sincronizar tareas
• Balancear carga
• Manejar de fallos
• Envío de información
• Integrar datos heterogéneos
Big Data – Desafios técnicos
En Resumen…

• La minería (analítica) es un proceso que extrae conocimiento a


partir de datos almacenados en diferentes formatos y requiere
de tecnologías Big data cuando el volumen de datos y la
velocidad requerida en el análisis exigen paralelizar las tareas
de análisis.
• Existen muchas tecnologías de Big Data, unas enfocadas a
administrar el volumen, otras a gestionar datos no
estructurados, y otras a garantizar la velocidad en el
procesamiento.
Agenda

1. Definición y evolución
2. Madurez analítica
3. Casos de éxito
4. Conceptos relacionados
Madurez analítica
Agenda

1. Definición y evolución
2. Madurez analítica
3. Casos de éxito
4. Conceptos relacionados
Casos de éxito - Netflix

Decisiones:
Qué series/películas comprar, qué series mantener?
Qué recomendar?
Qué trailers utilizar?
Cómo lograr que
usemos más el
servicio?
Datos usados:
Más de 86 millones de usuarios
• Qué ve?
• Cuándo hace pausa, adelanta, pasa rápido?
• Qué días y a qué hora ve películas?
Las personas que ven más de 15 horas al mes tienen • Dónde ve, qué dispositivo usa, cómo busca qué
menos probabilidad de cancelar la suscripción. ver?
• Información de las películas: actores, directores,
Los que ven menos de 5 horas al mes tienen más género, etc.
probabilidad de cancelar (95%) • Información de series más pirateadas
Casos de éxito - Netflix

Caso House of Cards


1. Muchos usuarios ven películas dirigidas por David Fincher (The Social Network ).
2. A la versión británica de “House of Cards” le fue bien en los 90s.
3. Aquellos que vieron la versión británica les gusta ver películas de Kevin Spacey y/o dirigidas
por David Fincher.

Armar trailers basados en lo que previamente usted ha


visto (creado a partir de 10 cortes diferentes de la
película)
Estrategia Post-play

Resultado: 3 millones de nuevos suscriptores (2 en


USA y 1 en el resto del mundo)
Casos de éxito - Netflix

• Principio de la mayor felicidad por dolar


Si me cuesta mucho tener El Caballero de la noche
disponible entonces qué
películas
entregan una
felicidad similar a un menor precio.

Memento dirigida por Christopher Nolan


El Secreto de la Montaña protagonizada por Heath
Ledger
Gracias por fumar protagonizada por Aaron Eckhart
Más extraño que la ficción protagonizada por Maggie
Gyllenhaal
El maquinista protagonizada por Christian Bale
Casos de éxito - CAOBA

Decisiones:
Qué alimentos generar
nuevos para necesidades de los
las
responder a
consumidores?
Cómo llegar a los nuevos consumidores a
través de las marcas?
Segmentos más específicos de consumidores

Objetivo:
Perfilamiento digital de los consumidores y segmentación según sus características
Casos de éxito - CAOBA
Casos de éxito - CAOBA

Nota: Aplica para usuarios con más de 20 tuits.


Agenda

1. Definición y evolución
2. Madurez analítica
3. Casos de éxito
4. Conceptos relacionados
Procesamiento de BD vs. Analítica de Datos

• Consulta • Consulta
• Bien definida • Definida vagamente
• SQL
• No hay un lenguaje de consulta específico
• Se usan
• Hay que preparer los datos

• Datos • Datos
• Operacionales • No operacionales
• Deben ser preparados

• Salida • Salida
• Precisa • Difusa

• Subconjunto de • No es subconjunto de la base de datos


la base de datos es nuevo conocimiento
Estadística y Aprendizaje Automático

• La analítica aplica técnicas estadísticas (ej.


Regresión lineal) y de aprendizaje de
Estadística
máquina o inteligencia artificial (ej. Redes
neuronales) para generar los modelos a
partir de los datos. Analítica de
Datos

• Las técnicas de aprendizaje de máquina Aprendizaje


de
están más optimizadas para tener mejor Máquina
desempeño frente a volúmenes altos.
Analítica y Deep Learning

• Deep learning es el nombre usado para


clasificar un conjunto de técnicas de Estadística
aprendizaje de máquina.
Analítica de
Datos
Deep
Learnin
g

Aprendizaje
de
Máquina
Visualización

• Se utilizan estrategias de visualización para la exploración de


datos y para la evaluación de desempeño de los modelos
generados.
Inteligencia de negocios

Inteligencia de negocios

Analítica de
Reportes OLAP Dashboards
datos
¿Qué es Open Data?

Dato de origen público o privado difundido de manera


estructurada según un método establecido o una licencia que
garantiza su acceso libre sin restricciones de tipo técnico, jurídico
o financiero.

El Movimiento OpenData considera que la información es un bien


común y por lo tanto se deben proveer los mecanismos para que
el público en general pueda tener acceso a ellas.

Objetivo de la Open Data [EBE12]


Promover la innovación
Promover una sociedad más
democrática y
transparente
Open Data Index

• Mide el nivel de información abierta que un gobierno provee a sus ciudadanos.

• http://index.okfn.org/
Plataformas Open Data

Para promover la filosofía Open Data se han creado plataformas web que permiten tener disponibles datos, reportes
y herramientas de interés para la comunidad.
Ejemplos:
www.data.gov, www.data.gov.uk, www.data.gouv.fr
www.opendata.socrata.com
http://www.datos.gov.co/

Problemas y Oportunidades
• Naturaleza abierta y gratuita puede generar problemas de
confidencialidad
• Falta de estándares de publicación a pesar de la existencia
del Open Data Protocol
• Multitud de dominios y autores genera problemas de
integración y estandarización
• Extraer metadatos no es sencillo
• Las estrategias de visualización no están adaptadas a quien debe usar la información generada a partir de los
datos
• Enlace entre datos (Linked Data)
Minería de Datos vs. KDD

– Knowledge Discovery in Databases (KDD):


Proceso para encontrar información útil y
patrones en los datos.

KDD
Preparación Minería de Evaluación/
Patrones Interpretación/ K
SI de los datos
datos Visualización

41
Gracias
pomares@javeriana.edu.co
apomares
Referencias
1. Aplicación de técnicas de minería de datos en la construcción y validación de modelos predictivos y asociativos a partir de
especificaciones de requisitos de software. María N. Moreno García, Luis A. Miguel Quintales, Francisco J. García Peñalvo y M. José
Polo Martín. Fernando Virseda Benito, Javier Román Carrillo. Minería de datos y aplicaciones.
2. Aplicación de la minería de datos en la evaluación de la aptitud física de las tierras para el cultivo de la caña de azúcar. Saddys Segrera,
María N. Moreno, Luis A. Miguel.
3. Student dropout analysis with application of data mining methods.Mario Jadrić ,Željko Garača, Maja Ćukušić.
4. Tratamiento de datos personales y derechos fundamentales. Garriga, Ana. Madrid: Dykinson, 2004
5. Customer churn analysis in telecommunication sector. Umman Tuğba Şimşek Gürsoy, Istanbul University Journal of the School of
Business Administration http://journals.istanbul.edu.tr/, 2010
6. Anna L. Buczak and Christopher M. Gifford. 2010. Fuzzy association rule mining for community crime pattern discovery. In ACM SIGKDD
Workshop on Intelligence and Security Informatics (ISI-KDD '10). ACM, New York, NY, USA, , Article 2 , 10 pages.
7. Data mining for intelligence led policing. http://www.sentient.nl/docs/data_mining_for_intelligence_led_policing.pdf van der Veer, H.T. Roos, A. van der
Zanden.
8. JingGui Lu, Yi Liu, and Xiaoli Li. 2011. The decision tree application in agricultural development. In Proceedings of the Third international conference on
Artificial intelligence and computational intelligence.
9. W. Hu and N. Kaabouch, Big data management, technologies, and applications. Hershey: Information Science Reference an imprint of IGI Global, 2014, pp. 1-
28.
10. J. Gantz and D. Ransel, "Extracting Value from Chaos", Emc.com, 2011. [Online]. Available: https://www.emc.com/collateral/analyst-reports/idc-extracting-
value-from-chaos-ar.pdf. [Accessed: 10- Feb- 2018].
11. IBM. Big data portfolio of products. http://www01.ibm.com/software/data/bigdata/platform/product.html. 2017

También podría gustarte