Está en la página 1de 45

Sistemas Big

Data
6.- Principales métodos y algoritmos
en la minería de datos
Sistemas Big Data

Revisión de la clase anterior


Sistemas Big Data
Revisión de la clase anterior

Técnicas de Integración de la Información en Entornos Big Data

Integración en tiempo real.

Integración batch

Visualización de la información para toma de decisiones

Consumo de datos remotos mediante APIs


Sistemas Big Data

Algoritmos en la minería de datos


Sistemas Big Data
¡PREGUNTA!

¿Qué es la minería de datos o data mining?


Sistemas Big Data
Data mining

También conocido como knowledge discovery in data (KDD)

Las técnicas de data mining se usan para …

https://www.ibm.com/cloud/learn/data-mining
Sistemas Big Data

Principales metodologías del data mining


Sistemas Big Data
Principales metodologías del data mining

• SEMMA de SAS

• CRoss Industry Standard Process in Data Mining (CRISP-DM)

• Knowledge Discovery in Databases (KDD)


Sistemas Big Data
¡PREGUNTA!

¿Qué es el modelo SEMMA?


Sistemas Big Data
Algoritmos en la minería de datos

Modelo SEMMA

Desarrollado por el SAS Institute

Como un proceso de minería de datos

Se compone de cuatro etapas/fases

1. Sample.
2. Explore
3. Modify
4. Access
De ahí el acrónimo de SEMMA.
Sistemas Big Data
Algoritmos en la minería de datos

Modelo SEMMA

Sample

Selección de un subconjunto de datos de un conjunto de gran tamaño

Identificamos las variables independientes (outcomes)

Y las variables dependientes (factors)

El subconjunto ha de ser representativo


Se ha de dividir entre entrenamiento y pruebas
Sistemas Big Data
Algoritmos en la minería de datos

Modelo SEMMA

Explore

En esta fase se detectan datos inexistentes “NAN,NULL”

Y se buscan relaciones entre los datos

Son claves los análisis univariable y multivariables

En esta fase se usa principalmente


Análisis mediante visualización para entender los datos
Sistemas Big Data
Algoritmos en la minería de datos

Modelo SEMMA

Modify

Se eliminan variables con poca contribución al análisis

Se aplica la lógica de negocio …

A las propiedades de los datos

En función de las requisitos del análisis


El resultado es una bbdd limpia para análisis
Sistemas Big Data
Algoritmos en la minería de datos

Modelo SEMMA

Model

En esta fase se emplean diferentes algoritmos

Con el fin de evaluar el rendimiento de cada uno

En función de los resultados esperados

Los modelos matemáticos son clave


Con el fin de obtener resultados más precisos
Sistemas Big Data
Algoritmos en la minería de datos

Modelo SEMMA

Assess

En esta fase el modelo matemático desarrollado

Es evaluado con los datos de prueba y validación

Re realiza la evaluación y la interpretación

De la información disponible
También se evalúan las limitaciones del modelo
Sistemas Big Data
¡PREGUNTA!

¿Qué es el modelo CRoss Industry Standard Process


for Data Mining (CRISP-DM)?
Sistemas Big Data
Algoritmos en la minería de datos

Modelo CRISP-DM

Publicado en 1999 con el fin de estandarizar el proceso de data mining

Se ha convertido en la metodología más extendida

El modelo CRISP-DM divide el proceso de minería de datos

… en seis etapas las cuales describen el ciclo de vida natural

…de la ciencia de datos


Sistemas Big Data
Algoritmos en la minería de datos

Modelo CRISP-DM

Etapas del modelo CRISP-DM

1. Business understanding – What does the business need?


2. Data understanding – What data do we have / need? Is it clean?
3. Data preparation – How do we organize the data for modeling?
4. Modeling – What modeling techniques should we apply?
5. Evaluation – Which model best meets the business objectives?
6. Deployment – How do stakeholders access the results?
2. Assess situation: Identificar los recursos disponibles, requisitos del proyecto, evaluar r
Sistemas Big Data
Algoritmos en la minería de datos

Etapas del modelo CRISP-DM.

I. Business Understanding
Busca conocer los objetivos y requisitos del proyecto
1. Determine business objectives: Desde el punto de vista del negocio, entender
que quiere el cliente
2. Assess situation: Identificar los recursos disponibles, requisitos del proyecto,
evaluar riesgos
3. Determine data mining goals: Determinar los criterios de éxito desde el punto
de vista técnico del data mining
4. Produce project plan: Seleccionar las tecnologías y herramientas y plan de
proyecto
Sistemas Big Data
Algoritmos en la minería de datos

Etapas del modelo CRISP-DM.

II. Data Understanding


Identifica, recolecta y analiza las bbdd que pueden conseguir el objetivos
1. Collect initial data: Adquiere y carga (si se precisa) los datos necesarios.
2. Describe data: Examina los datos superficialmente y documenta sus propiedades
(formato, núm. Registros, etc.)
3. Explore data: Examina los datos en profundidad y evalúa las relaciones entre ellos.
4. Verify data quality: Indentifica como de limpios/sucios están los datos y
documenta los problemas de calidad de estos.
Sistemas Big Data
Algoritmos en la minería de datos

Etapas del modelo CRISP-DM.

III. Data Preparation


Se ocupa de la preparación de los datos para el modelado final
1. Select data: Establece los datos que se usarán y documenta porqué se incluyen o no.
2. Clean data: En esta etapa se corrigen datos
3. Construct data: Generación de datos inferidos a partir de los dados. Mas corporal =
Peso/altura.
4. Integrate data: Enriquecer la bbdd con datos de fuentes terceras.
5. Format data: Formatear los datos si es necesario, (cadenas a números), para poder
realizar operaciones matemáticas.
Sistemas Big Data
Algoritmos en la minería de datos

Etapas del modelo CRISP-DM.

IV. Modeling
En esta fase se evaluarán varios modelos y diferentes técnicas de análisis
1. Select modeling techniques: Determinar que algoritmos se probarán (regresión,
random forest, etc.).
2. Generate test design: En esta etapa se corrigen datos
3. Build model: Ejecutar el model. Ejecutar el código/programa.
4. Assess model: Interpretar los resultados de los distintos modelos en función de
los requisitos de negocio, establecer las métricas (de éxito) conseguidas y probar
el diseño.
Sistemas Big Data
Algoritmos en la minería de datos

Etapas del modelo CRISP-DM.

V. Evaluation
Identifica el modelo que mejores resultados obtiene y los próximos pasos
1. Evaluate results: ¿Los modelos obtiene los resultados esperados? ¿Cuál es el más
apropiado para los requisites del negocio?.
2. Review process: Revisión del trabajo realizado. Resumir el trabajo realizado y
corregir aquello que lo precise.
3. Determine next steps: Basado en los resultados de los pasos anteriores; decidir la
puesta en producción, retocar el modelo o iniciar un nuevo proyecto.
Sistemas Big Data
Algoritmos en la minería de datos

Etapas del modelo CRISP-DM.

VI. Deployment
Puesta en producción del desarrollo. La dificultad puede ser grande.
1. Plan deployment: Desarrollo del plan de puesta en producción.
2. Plan monitoring and maintenance: Desarrollo de un plan de monitorización y
mantenimiento para evitar incidencias durante la operación del modelo.
3. Produce final report: Elaboración de un resumen del proyecto, el cual puede
incluir un presentación de los resultados del proceso de minado.
4. Review project: Se trata de una reflexión sobre las lecciones aprendidas durante
el desarrollo del proyecto.
Sistemas Big Data
¡PREGUNTA!

¿Qué es el modelo Knowledge


Discovery in Database (KDD)?
Sistemas Big Data
Algoritmos en la minería de datos

Modelo Knowledge Discovery in Database (KDD)

Desarrollado en 1989

El nombre Knowledge Discovery in Database (KDD)

Representa el proceso de recolección de datos y

… metódicamente, refinarlo hasta obtener información valiosa

KDD es un modelo de gestión del ciclo de vida

Que aspira a eliminar el “ruido” de la información concentrándose en lo que aporta valor


Sistemas Big Data
¡PREGUNTA!

¿Cuáles son los KDD Process Steps?


Sistemas Big Data
Algoritmos en la minería de datos

KDD Process Steps

Existen diferentes interpretaciones del modelo KDD

Acerca del número de pasos que componen el proceso

Varían entre 5 y 7 pero normalmente se acepta el número de 5.

1. Selection
2. Pre-processing
3. Transformation
4. Data Mining
5. Interpretation/Evaluation
Sistemas Big Data
Algoritmos en la minería de datos

KDD Process Steps

Selection

A partir de la bbdd recolectada

Se determinan los datos objetivo y variables

Que se usarán para evaluar los patrones encontrados


Sistemas Big Data
Algoritmos en la minería de datos

KDD Process Steps

Pre-processing

Este paso se refiere a la preparación y limpieza de la información

Se realizan procesos para la detección de …

Datos irrealistas (outliers)

Datos inexistentes (Nan, Null)

Etc.
Sistemas Big Data
Algoritmos en la minería de datos

KDD Process Steps

Transformation

En esta fase, el proceso se concentra en tansformar

La información preprocesada en utilizable (cadenas en números, fechas, etc.)

Esto se consigue mediante la reducción de alcance

Mediante la variabilidad de los datos

Ordenada, uniformizada en rangos, etc.


Sistemas Big Data
Algoritmos en la minería de datos

KDD Process Steps

Data Mining

El proceso de data mining se centra en

Recorrer los datos preparados y buscar patrones en estos.

Los patrones son representados en gráficos, tendencias, etc.

El modelo implementado incluye algoritmos

Clustering, regresión, etc.


Sistemas Big Data
Algoritmos en la minería de datos

KDD Process Steps

Interpretation/Evaluation

En esta fase, los resultados obtenidos

Son sometidos a interpretación

Los resultados se presentan de forma gráfica.


Sistemas Big Data

SEMMA vs KDD Process vs CRISP-DM


Sistemas Big Data
SEMMA vs KDD Process vs CRISP-DM
Sistemas Big Data
SEMMA vs KDD Process vs CRISP-DM

Xxxxxxxxxxx:

Xxxxxxxxx.

X xxxxx

Xxxxxxxxxxxxxxxx

Xxxxxxxxxxxxxxx
Sistemas Big Data

Cuestionario rápido
Sistemas Big Data
Cuestionario rápido

¿Respecto a la minería de datos, cuál de las siguientes no es correcta?


a) Es el proceso de descubrimiento de patrones de información valiosa en grandes volúmenes de
datos
b) Es el proceso de clasificación de grandes conjuntos de datos para encontrar información relevante
y aprovechable para una finalidad específica.
c) Es un proceso que consiste en el análisis de elevados volúmenes de datos que permiten asegurar
decisiones y predecir resultados.
d) Todas las anteriores son correctas
Sistemas Big Data
Cuestionario rápido

¿Respecto a la minería de datos, cuál de las siguientes no es correcta?

a) Detección de anomalías
b) Búsqueda de patrones
c) Encuentro de correlaciones entre variables
d) Todas las anteriores son correctas
Sistemas Big Data
Cuestionario rápido

¿La minería de datos, permite asegurar?

a) La toma de decisiones
b) La detección de tendencias
c) El descubrimiento de conocimiento en los datos
d) Todas las anteriores no son correctas
Sistemas Big Data

Resumen de la Clase
Sistemas Big Data
Resumen de la clase

Modelo SEMMA

Las 5 fases del modelo SEMMA

Modelo CRISP-DM

Seis fases del modelo CRISP-DM

Modelo KDD

KDD Process Steps


Sistemas Big Data

Avance de la próxima clase


Sistemas Big Data
Conceptos básicos de matemática discreta

Datos no estructurados: Fuentes, tipología.

Técnicas y procesos de extracción de la información de los datos.

Modelado, razonamiento, resolución de problemas relacionados con big data.


Sistemas Big Data ,..

¡ GRACIAS !

También podría gustarte