Está en la página 1de 17

Inteligencia de Negocios

Clase 2
Contenidos

• Introducción a la Minería de Datos


• Software
• Metodologías
• KDD
• Selección
• Preprocesamiento
• Transformación
• Técnicas de Minería de Datos
• Evaluación e Interpretación

Inteligencia de Negocios - Claudio Henríquez Berroeta


Introducción
• Minería de Datos
“La minería de Datos es la ciencia de extracción de información útil de
grandes conjuntos de datos o bases de datos.”
Mannila

Inteligencia de Negocios - Claudio Henríquez Berroeta


Software

Inteligencia de Negocios - Claudio Henríquez Berroeta


Weka
• Weka es una colección de algoritmos de máquinas de aprendizaje
para tareas de Minería de Datos.

• Pertenece al Machine Learning Group de la Universidad de Waikato,


Nueva Zelanda.

Inteligencia de Negocios - Claudio Henríquez Berroeta


Archivos de Weka
• Usa un formato de archivos ARFF, sin embargo, también se pueden usar
archivos de texto delimitados por comas CSV.
• El archivo ARFF contiene una cabecera que define el formato de los
atributos a considerar en el modelo, seguido por los datos que van
separados por coma y salto de línea por cada fila
• @relation
• @attribute
• NUMERIC
• STRING
• DATE
• Nominales entre llaves, separados por coma {valor1, valor 2,…}
• @data

Inteligencia de Negocios - Claudio Henríquez Berroeta


Metodologías
• CRISP-DM (IBM)
• Proceso de seis fases: comprensión del negocio, comprensión
de los datos, preparación de los datos, modelado, evaluación e
implantación.
• SEMMA (SAS)
• Proceso de selección, exploración y modelado de grandes
volúmenes de datos para descubrir patrones de negocio
desconocido
• Catalyst (P3TQ)
• Plantea la formulación de un modelo de negocio y un modelo de
explotación de información

Inteligencia de Negocios - Claudio Henríquez Berroeta


Uso de Metodologías

“Estudio comparativo de metodologías para minería de datos” [Moine, Haedo, Gordillo]

Inteligencia de Negocios - Claudio Henríquez Berroeta


Descubrimiento de Conocimiento en Bases de Datos (KDD)

“Knowledge Discovery in Databases (KDD) es considerado como el


proceso no trivial de la extracción de datos ocultos, previamente
desconocidos y potencialmente útiles.”

Inteligencia de Negocios - Claudio Henríquez Berroeta


Selección
• En esta etapa se escogen los conjuntos de datos a utilizar en el
análisis, es una selección a grandes rasgos donde se deben
incorporar todos los atributos que puedan influir en un resultado
final.
• Se deben eliminar todos los datos irrelevantes considerando el
entendimiento del negocio.
• Considerar datos individualizadores para estos efectos, como por
ejemplo: identificadores, direcciones.

Inteligencia de Negocios - Claudio Henríquez Berroeta


Preprocesamiento (1)
En esta etapa se considera la calidad de los datos, verificando la
integridad y la limpieza.

• Integración:

• Los datos, si bien corresponden a la misma información,


presentan formatos diferentes en los diferentes períodos de
tiempo, debido a modificaciones del instrumento de recolección
(formulario), de manera que deberán ser sometidos a un proceso
de integración y unificación de conceptos.

Inteligencia de Negocios - Claudio Henríquez Berroeta


Preprocesamiento (2)

• Limpieza:

• Este paso tiene como objetivo reducir el ruido y las


inconsistencias. Para ello, se seleccionará una muestra de los
datos, pudiendo de esta forma interpretar la validez de algún
valor para algún atributo y mejorar la calidad de los datos.

• Resulta interesante estudiar la cantidad de datos nulos y los


outliers (datos erróneos), con el fin de reducir las posibilidades
de error cuando sean procesados por el algoritmo.

Inteligencia de Negocios - Claudio Henríquez Berroeta


Transformación
• Consiste en la normalización de los datos. Este paso implica la
transformación del tipo de algunos atributos, en caso que fuera
necesario, teniendo presente que convertir el tipo de un atributo a
otro puede cambiar la semántica de dicho atributo. Este paso está
muy ligado al algoritmo que procesará los datos para obtener
conocimiento.
• Discretización:
• transformar valores numéricos a nominales (generación de
rangos)
• Creación:
• se pueden crear nuevos atributos a partir de la combinación de
otros, considerando su semántica (expresiones matemáticas,
agrupaciones).

Inteligencia de Negocios - Claudio Henríquez Berroeta


Transformación (muestreo)
• Reducción
• Consiste en la selección de una muestra representativa del total de los
datos, intentando eliminar carácterísticas redundantes.
• La creación de una sub muestra disminuirá la carga de procesamiento
de datos y por ende el tiempo de procesamiento de datos por parte de
los algoritmos.
• Se debe considerar en primera instancia la cantidad de registros basado
en la cantidad por elemento de cada clase, se debe equiparar utilizando
algún criterio, el cual puede ser el principio de Pareto (80/20), el que
describe el 80% de las consecuencias proviene del 20% de las causas.
• Formas
• Muestreo Probabilístico
• Muestreo mediante Cluster

Inteligencia de Negocios - Claudio Henríquez Berroeta


Técnicas de Minería de Datos
• En esta etapa se escoge la técnica de Minería de Datos adecuada a
la problemática a resolver.
• Se pueden diferenciar en principalmente en Descriptivas y
Predictivas
• Descriptivas
• Reglas de Asociación
• Clustering
• Predictivas
• Árboles de Decisión
• Redes Neuronales Artficiales
• Máquinas de Soporte Vectorial
• Clasificador Bayesiano

Inteligencia de Negocios - Claudio Henríquez Berroeta


Evaluación e Interpretación
• Corresponde a la etapa de análisis de los resultados obtenidos y su
correspondiente evaluación para ver si se han logrado los objetivos.

• Se debe diferenciar los resultados en términos del modelo y en


términos del negocio.

Inteligencia de Negocios - Claudio Henríquez Berroeta

También podría gustarte