Está en la página 1de 66

INTRODUCCIÓN

Sara Alayón Suárez, MsC.


Datos de contacto
Ing. Sara Alayón Suárez, Msc.
• Ingeniería Industrial
• Maestría en Analítica para la
Inteligencia de Negocios
• Maestría en Ingeniería Industrial

salayon@javeriana.edu.co

Diplomado Analítica de Datos 2


¿Qué es la Minería/Analítica de Datos?
INTRODUCCIÓN
Cada año se producen
más y más datos en el
mundo
El mundo actual
• El avance de la tecnología y la automatización de procesos ha llevado que
las bases de datos almacenen cada día más datos.
• Muchos datos Vs. necesidad de conocimiento

Almacenes de datos Minería de Datos


¿Por qué la minería
de datos?
SE RECOPILAN Y ALMACENAN TECNOLOGÍA A LA MANO PRESIÓN POR VENTAJA
MUCHOS DATOS COMPETITIVA
CONCEPTOS CLAVE
¿Qué es la analítica?
Es el proceso de extracción de conocimiento

Válido Útil y comprensible Previamente desconocido

Información correcta, En términos de El objetivo es


completa y con
relevancia estadística negocio descubrir

A partir de datos almacenados en distintos formatos


¿Qué no es?

GENERACIÓN DE BÚSQUEDAS EN
IMÁGENES A PARTIR GOOGLE
DE INFORMACIÓN

GENERAR GRÁFICAS EMITIR CONSULTAS


Responder dudas sobre probabilidades y situaciones
¿Qué sí es? Encontrar grupos de personas con características similares
Minería de Datos
SON “SINÓNIMOS”
Es el proceso de extraer conocimiento válido, útil y comprensible, previamente desconocido
desde datos
Big Data es usado para describir montos grandes de datos diversos, tanto
estructurados como no estructurados, a los cuales las organizaciones pueden
acceder de manera rápida, para analizarlos usando herramientas innovadoras, qué
BIG DATA en conjunto, ayudan a determinar con precisión oportunidades de mejora en la
gestión y en la generación de valor. Big Data es un paradigma que busca dar
soluciones a problemas que involucren las tres V.

Esta foto de Autor desconocido está bajo licencia CC BY-NC-ND


VOLUMEN VELOCIDAD VARIEDAD
(RS, E-COMMERCE, SENSORES) (TIEMPO REAL, CERCANO AL TIEMPO,
BATCH)
https://www.google.com/url?s a=i &url =https%3A%2F%2Ftwi tter.co m%2Fc ampusbigdat a%2Fstatus%2F1134027399153238016&psig=AOvVaw1ZU8YEhe-
05UZ_NoXn2ZEo&ust=1686099905827000&source=images&cd=vfe&ved=0CBMQjhxqFwoTCNiFjeK5rf8CFQAAAAAdAAAAABAE
Aplicaciones
Aplicaciones
Área Caso Ejemplo Alcance del Proyecto Técnica Minería
Bancos Fraudes Examinar transacciones, Redes Neuronales
cometidos con propietarios de tarjetas
tarjetas de y datos financieros.
crédito

Radiodifusión Tamaño de Predecir el tamaño de Redes neuronales y


audiencias las audiencias árboles de decisión
televisivas televisivas de un
programa determinado,
así como la hora óptima
de emisión

Proyectos de Duración y Estimar el tiempo de Árboles de decisión,


Software calidad de un cada etapa a partir de reglas de asociación
proyecto info. general de proyecto y
de módulos
Aplicaciones
Área Caso Ejemplo Alcance del Proyecto Técnica Minería
Educación Definición de los procesos Comprender mejor el Regresión logística,
clave que tienen que ser problema de la deserción árboles de decisión y
adaptados con el fin de redes neuronales
mejorar la eficiencia de
estudiar

Deporte A C Millan Prevención de Prevenir lesiones. Redes Neuronales


lesiones.
Advanced Scout Apoyo a
entredadores de la NBA.

Agricultura Determinantes en el Predecir los factores del Arboles de Decisión


proceso de siembra de suelo, del clima y agrícolas,
caña de azúcar en cuba. presentes en las parcelas
estudiadas
¿Qué aplicaciones podrían
tener en sus empresas?
DEFINICIONES
CLAVE
Conceptos de la minería

TAREA TÉCNICA ALGORITMO


Tarea de la minería
• Nivel de abstracción más alto
• Determina los objetivos generales de aplicar la minería en ámbito
particular

Descriptiva Predictiva
Predictiva • Estimar valores futuros o desconocidos de variables de
interés
Descriptiva • Identificar patrones o relaciones en los datos
Técnica
• Enfoque conceptual elegido para lograr cumplir con una de las tareas de la
minería.

• Presenta una de las formas de poder manipular los datos para obtener
Información descriptiva o predictiva.
• Árboles de decisión.
• Clustering.
• Reglas de asociación.
• Redes neuronales.
• Patrones secuenciales.
Algoritmo
• Implementación de una técnica
• Secuencia de pasos a ser materializados en un lenguaje de programación.

◼ Árboles de decisión
◼ ID3
◼ CHAID
◼ C.4.5
◼ CART
Técnica Algoritmo
Reglas de asociación Apriori
Fast Distributed Mining of association rules

Detección automática de K-means


grupos (Clustering) Vecino más
próximo
COBWEB
Algoritmo Genético
Generacional Algoritmo
Detalles de Genético Estacionario Algoritmo
evolutivo
Técnicas y Patrones secuenciales AprioriAll
Apriori- Some
Algoritmos Redes
Bayesianas
Árboles de decisión ID3, C4.5, CART, CN2, SLIQ
Lazy decision trees
Clasificación y regresión Naive Bayes
Regresión
lineal Tclass
Redes Neuronales Propagación
Aprendizaje supervisado
Ejemplo
• Predictiva clasificación
• Árboles de clasificación
• ID3

• Descriptiva agrupamiento
• Agrupamiento basado en distancias
• Vecino más cercano
TÉCNICAS PRINCIPALES
Cuatro
técnicas
principales
CLASIFICACIÓN
◼ La clasificación es una de las tareas más utilizadas.
Pertenece a las tareas predictivas.
◼ Cada registro pertenece a una clase, la cual se indica
mediante el valor de un atributo y es denominada
clase de instancia.
◼ Este atributo toma valores categóricos. El resto de los
atributos se utiliza para predecir la clase.
• Tipos de clientes en una compañía
• Tipos de flores
EJEMPLOS • Categorías de películas
• Solvencia crediticia
Modelo de clasificación
◼ Una vez tengo el modelo este examina las características de un nuevo objeto y
lo asigna a una de las clases de instancia (variable discreta).

◼ Objeto -> Registro


◼ Clasificación -> Actualizar campo que indique variable
objetivo
◼ Ej: Tiene solvencia crediticia

◼ ¿Cómo se hace?

◼ Con árboles de decisión


Otros ejemplos de CLASIFICACIÓN
◼ Clasificar transacciones de tarjetas de crédito como
legítimas o fraudulentas

◼ Clasificar las coberturas de tierras (cuerpos de agua, áreas urbanas, bosques, etc.)
utilizando datos satelitales

◼ Categorizar noticias como finanzas, clima, entretenimiento,


deportes, etc.

◼ Identificar intrusos en el ciberespacio

◼ Predecir células tumorales como benignas o malignas


REGRESIÓN
◼ También pertenece a las tareas predictivas.

◼ Consiste en aprender de una función real que


asigna a cada instancia un valor real.

◼ Se diferencia con clasificación en que la regresión


predice
valores numéricos.

◼ El objetivo es minimizar el error entre la


predicción y el valor real.
Ejemplos
• Deserción en Colegios
• Valor de una propiedad
• Valor de la temperatura
REGRESIÓN - Tipos
◼ Regresión No Lineal:
◼ Regresión Lineal: Los datos se modelan de manera más precisa y
Los datos siguen una línea recta. correcta mediante una función no lineal..
Y= a + bX Y = a + b· f(X)
REGRESIÓN - ejemplo
Modelo de regresión

Si ahora quiero estimar el precio de una casa por ejemplo de 1250pies2 el


modelo estima que tendrá un valor de 220k
AGRUPAMIENTO - CLUSTERING
◼ Es la tarea descriptiva por excelencia.

◼ Consiste en obtener grupos “naturales” a partir de los datos.

◼ Se diferencia de la clasificación, donde ya existe la clase, ahora vamos a


generar una etiqueta para esos grupos.

◼ Los datos son agrupados basándose en el principio de maximizar la similitud


entre los elementos de un grupo y minimizando la similitud entre distintos
grupos.

◼ Es decir, los elementos de un grupo son muy similares entre si, y al


mismo tiempo, muy diferentes a los elementos de otro grupo.

◼ Al agrupamiento también se le puede llamar Segmentación


AGRUPAMIENTO – CLUSTERING
Técnicas
AGRUPAMIENTO – CLUSTERING
Técnicas

Clustering Particional
basado en Centroide
utilizando el algoritmo k- Clustering Herarquico,
means Aglomerativo
Ejemplos

• Clientes de las empresas


• Empleados por comportamientos
• Asociación por intereses
REGLAS DE ASOCIACIÓN
◼ Es una tarea descriptiva.

◼ Tiene como objetivo identificar relaciones no explícitas entre atributos


categóricos

◼ Existe gran variedad pero la formulación más común es del estilo “si el atributo X
toma valor b entonces el atributo Y toma valor d”.

◼ Las reglas de asociación no implican una relación causa y efecto, es decir, puede
no existir una causa para que los datos estés asociados.

◼ Este tipo de tarea es frecuentemente utilizada en el análisis de la cesta de la


compra, para identificar productos que se compran juntos.
EJEMPLOS
• Se utilizan para determinar patrones s ec u en c iales en
• los datos.
PATRONES
Estos patrones s e basan en secuencias temporales de ac c ion es .
S E C UE NC IALE S / R E GLAS

DE A S O C I A C I Ó N • Difieren de las reglas de asociación en qu e las relaciones entre los datos


s e basan en el tiempo.
SE C UE NC IALE S
• Identifica cursos de comportamiento rutinarios, de procedimientos múltiples a
través del tiempo.
PATRONES SECUENCIALES - ejemplo
A partir de los siguientes ejemplos,
trate de identificar qué técnica se
puede utilizar en cada caso.
Identificar qué técnicas se puede utilizar
◼ Un empresario quiere conocer cual es el costo de un nuevo
contrato basándose en los datos correspondientes a contratos
anteriores.

◼ Respuesta: Se utiliza regresión, pues se quiere predecir una


variable numérica, en este caso el costo de un nuevo contrato.
Identificar qué técnicas se puede utilizar
◼ Una tienda de venta de electrodomésticos y equipos de audio analiza las ventas y
descubre que el 30% de los clientes que compraron un televisor hace seis meses,
compraron un DVD en los siguientes dos meses.

◼ Respuesta: Utilizando análisis secuencial.


Identificar qué técnicas se puede utilizar
◼ Un oftalmólogo que desea disponer de un sistema que le sirva
para determinar la conveniencia o no de recomendar la cirugía
ocular a sus pacientes. Para ellos dispone de una base de datos
de sus antiguos pacientes clasificados en operados
satisfactoriamente o no en función del tipo de problema que
padecían y su edad.

◼ Respuesta: se utiliza clasificación, porque se quiere predecir una


variable categórica, donde nuevos pacientes son clasificados en si es
conveniente o no operarlos.
Identificar qué técnicas se puede utilizar
◼ Una librería que ofrece sus servicios a través de la red quiere
identificar grupos de clientes en base a sus preferencias de
compras, de tal forma que le permita dar un servicio más
personalizado. Así, cada vez que un cliente se interesa por un
libro, el sistema identifica a qué grupo pertenece y le recomienda
otros libros similares.

◼ Respuesta: Se utiliza agrupamiento, pues los grupos se


desconocen y se quiere llegar a una etiqueta para ellos.
Identificar qué técnicas se puede utilizar
◼ Una compañía de asistencia sanitaria desea analizar las
peticiones de servicios médicos solicitados por sus
asegurados. Cada petición contiene información sobre las
pruebas médicas que fueron realizadas al paciente durante la
visita. Toda esta información se almacena en una base de datos
en la que cada petición es un registro cuyos atributos expresan
si se realiza o no cada una de las posibles pruebas al paciente.

◼ Respuesta: Mediante reglas de asociación, el sistema pueda


encontrar aquellas pruebas médicas que frecuentemente se
realizan juntas.
Tendencias ◼ Minería de

texto
Documentos no estructurados
◼ Texto contenido en bases de datos

◼ Minería de procesos
◼ Logs de transacciones

◼ Minería web
◼ Uso
◼ Estructura
◼ Contenido

◼ Minería prescriptiva
◼ Recomienda uno o varios itinerarios de acción y muestra
posibles consecuencias de cada decisión.

◼ Minería de datos espaciales


FACTORES DE ÉXITO
Factores de éxito de proyectos de Minería
1. Factibilidad Operacional
❑ Cultura
❑ Ambiente del negocio – valor para el negocio
❑ Personas
▪ Expertos del dominio
▪ Administradores de bases de datos
▪ Especialistas de minería

2. Factibilidad Técnica
❑ Arquitectura de TI
❑ Datos disponibles
❑ Herramientas de minería
Factores de éxito de proyectos de Minería

3. Factibilidad Económica
❑ Existe un impacto significativo
❑ No se conocen métodos alternativos
❑ No existen problemas de legalidad o
violación de la información.
Factores de éxito de proyectos de Minería

Data Mining-Kantardzic
¿De dónde provienen los Datos
para hacer Minería de datos?
◼ Bodega de Datos
◼ “Colección de datos orientada a temas, dinámica, integrada,
histórica y no volátil que soporta el proceso de toma de
decisiones.” W. H. Inmon

◼ Operational Data Stores (ERP`s)


◼ Sistemas Operacionales

◼ Datos Externos
VENTAJAS Y DESVENTAJAS
Ventajas y Desventajas
◼ Ventajas

✓ Extraer información táctica y estratégica.

✓ La búsqueda de patrones la realiza en forma


automatizada.

✓ Existe gran diversidad de herramientas de minería de


datos en el mercado.

✓ No requiere de personal experto en ciencias estadísticas o


altamente entrenado en estas ciencias.
Ventajas y Desventajas

◼ Desventajas

✓ La falta, por parte de las organizaciones, de un


repositorio histórico.

✓ La falta de una cultura informática y una visión


corporativa.

✓ Confidencialidad.
¿Por qué fracasan los proyectos de minería de
datos?
1. Datos no apropiados (Empresa)

2. Mala selección de variables de entrada (Experto)

3. Mala preparación de las variables de entrada (Técnico y Experto)

4. Mala definición del periodo de tiempo a usar para generar


• el modelo (Experto y Técnico)

5. Set de entrenamiento mal armado (Técnico y Experto)

6. Selección del algoritmo (técnico)

7. Retroalimentación a partir de la aplicación de resultados (Empresa)


Fases
Fases

Entender el Entender Preparar los Modelar Evaluar


negocio los datos datos Deployment
Traducir el Recolectar los Construir el Evaluar si el
problema del datos, evaluar conjunto de Elegir y aplicar modelo Procesos
técnicas futuros
negocio en una su calidad, datos a partir resultante
definición del plantear de la selección calibrando los cumple con los
problema de hipótesis a y limpieza de parámetros. objetivos del
minería de partir de los datos. negocio.
datos. datos. Decidir cómo
Plan. usar los
resultados de la
minería.
Referencias
• Berry Michael. Mastering Data Mining. Wiley Computer Publishing. 2000.
• Hernández Orallo José, Ramírez Quintana María José, Ferri Ramírez César. Introducción a la Minería de Datos. Prentice Hall. 2004.
• Pyle, Dorian. Data Preparation for Data Mining. Morgan Kaufmann Publishers. 1999
• CRISP-DM 1.0
• ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf
• How Netflix Uses Analytics To Select Movies, Create Content, and Make Multimillion Dollar Decisions.
https://blog.kissmetrics.com/how-netflix-uses-analytics/
• GER10 Gert H.N. Laursen, Jesper Thorlund. Business analytics for Manager. 2010, Wiley

66

También podría gustarte