Está en la página 1de 35

Data Mining …

Minería…

Caverna El Sauce, La Falda, Córdoba, 2017


Minería…

Caverna El Sauce, La Falda, Córdoba, 2017


Definiciones sobre Minería de Datos (MD)

MD es:
•una técnica que descubre relaciones previamente desconocidas en los datos.
•la práctica de buscar automáticamente en grandes almacenes de datos para
descubrir Patrones y tendencias que van más allá del simple análisis.
Definiciones sobre Minería de Datos (MD)

MD utiliza algoritmos matemáticos para segmentar los datos y predecir la probabilidad de


eventos basados en eventos pasados.
Definiciones sobre Minería de Datos (MD)

MD también es conocida como descubrimiento del conocimiento en Datos (KDD).


Definiciones sobre Minería de Datos (MD)

La minería de datos puede responder preguntas que no se pueden


resolver a través de consultas o reportes simples.

¿Cuánto valen los clientes?


¿Cuáles son los clientes que tienen probabilidad de abandonarnos?
¿Qué productos se venden en forma conjunta?
Definiciones sobre Minería de Datos (MD)

Las propiedades clave de MD son:

• Descubrimiento automático de patrones


• Predicción de resultados probables
• Agrupamiento
• Creación de información procesable
• Centrarse en grandes conjuntos de datos y bases de datos
Descubrimiento Automático

El proceso de MD se realiza mediante un Modelo que utiliza un algoritmo


para actuar sobre un conjunto de datos.

Los Modelos de MD se pueden utilizar para hacer minería en los datos sobre
los se los construyó y la mayoría de éstos son aplicables, en general, a nuevos
datos.

El proceso de aplicación de un Modelo a los nuevos datos se conoce como


Puntuación o Scoring.
Predicción

Muchas formas de minería de datos son predictivas. Por ejemplo, un modelo puede
predecir los ingresos basados en la educación de las personas o de otros factores
demográficos.

Las predicciones tienen una Probabilidad Asociada (¿Qué tan probable es que ésta
predicción sea verdadera?). Las probabilidades de predicción también se conocen
como Confianza (¿Qué tan seguro puedo ser de esta predicción?).

Algunas formas de minería predictiva de datos generan Reglas, que son condiciones
que implican un resultado dado. Por ejemplo, una Regla puede especificar que una
persona que tiene una licenciatura y vive en un cierto barrio es probable que tenga
un ingreso mayor que el promedio regional.

Las Reglas tienen un Apoyo (support) asociado (¿Qué porcentaje de la población


satisface la regla?).
Agrupamiento o Clustering

Otras formas de minería de datos identifican grupos naturales en los datos.


Por ejemplo, un modelo podría identificar el segmento de la población que
tiene un ingreso dentro de un rango especificado, que tiene un buen historial
de conducción y que alquila un automóvil nuevo cada año.
Información Accionable

La minería de datos puede derivar información procesable de


grandes volúmenes de datos.

Por ejemplo, un urbanista puede usar un modelo que predice los


ingresos basados en datos demográficos para desarrollar un plan
para vivienda de bajos ingresos.

Una agencia de arrendamiento de autos puede usar un modelo que


identifica segmentos de clientes para diseñar una promoción dirigida
a clientes de alto valor.
Minería de Datos y Estadísticas

Hay una gran cantidad de superposición entre la minería


de datos y las estadísticas. De hecho, la mayoría de las
técnicas utilizadas en la minería de datos pueden
colocarse en un marco estadístico. Sin embargo, las
técnicas de MD no son las mismas que las técnicas
estadísticas tradicionales.
Minería de Datos y Estadística

Los modelos estadísticos generalmente hacen suposiciones


fuertes sobre los datos y, sobre la base de esos supuestos,
hacen fuertes declaraciones sobre los resultados. Sin
embargo, si los supuestos son defectuosos, la validez del
modelo se vuelve cuestionable. Por el contrario, los
métodos de aprendizaje de máquina utilizados en la
minería de datos suelen hacer suposiciones débiles sobre
los datos.
Minería de Datos y Estadísticas

Como resultado, la MD generalmente no puede hacer


declaraciones tan fuertes sobre los resultados. Sin
embargo, la MD puede producir muy buenos resultados
independientemente de los datos. Los métodos
estadísticos tradicionales, en general, requieren una gran
interacción del usuario para validar la corrección de un
modelo.
Minería de Datos y Estadísticas

Los métodos estadísticos tradicionales, en general,


requieren una gran interacción del usuario para validar la
corrección de un modelo. Como resultado, los métodos
estadísticos pueden ser difíciles de automatizar. Los
métodos estadísticos se basan en probar hipótesis o
encontrar correlaciones basadas en muestras más
pequeñas y representativas de una población mayor.
Minería de Datos y Estadísticas

En MD el usuario no necesita “masajear” los datos para


garantizar que un método es válido para un conjunto de
datos dado.

Las técnicas de MD son más fáciles de automatizar que las


técnicas estadísticas tradicionales. La MD puede derivar
información procesable de grandes volúmenes de datos.
Minería de datos y OLAP

El procesamiento analítico en línea (OLAP por On Line Analytical Process)


se puede definir como un análisis datos multidimensionales.
OLAP y MD son actividades diferentes y complementarias.

OLAP soporta actividades tales como la sumarización de datos,


la asignación de costos, el análisis de series de tiempo y el análisis “Qué-pasa-si”.

Sin embargo, la mayoría de los sistemas OLAP no tienen capacidades de inferencia


inductiva más allá del soporte de pronósticos de series de tiempo.

La Inferencia Inductiva (II), es el proceso de llegar a una conclusión general a partir


de ejemplos específicos, es una característica típica de MD.

II se conoce como aprendizaje computacional o Machine Learning.

Los sistemas OLAP proporcionan una vista multidimensional de los datos,


incluido el soporte total para las jerarquías, tiempo y las definidas por el negocio.
Minería de datos y OLAP

Esta visión de los datos es una forma natural de analizar empresas y organizaciones.
La MD y OLAP pueden integrarse de varias maneras. OLAP se puede utilizar para analizar
los resultados de MD en diferentes niveles de granularidad.

MD puede ayudar a construir cubos más interesantes y útiles.

Por ejemplo, los resultados de la MD predictiva se pueden agregar como


medidas personalizadas a un cubo.

Dichas medidas pueden proporcionar información como "probable incumplimiento“


o "probabilidad de compra" para cada cliente.

El procesamiento OLAP puede agregar y sumarizar las probabilidades.


Minería de Datos y Almacén de Datos o Data Warehousing

Los datos pueden extraerse si se almacenan en archivos planos, hojas de


cálculo, tablas de bases de datos o algún otro formato de almacenamiento.

El criterio importante para los datos no es el formato de almacenamiento,


sino su aplicabilidad al problema a resolver. La limpieza y preparación de
datos apropiados son muy importantes para la MD, y un almacén de datos
puede facilitar estas actividades.

Sin embargo, un almacén de datos no sirve de nada si no contiene los datos


que necesita para resolver su problema.
¿Qué puede hacer y que no puede hacer la minería de datos?

La MD es una poderosa herramienta que puede ayudarle a encontrar


patrones y relaciones dentro de sus datos.

Pero la MD no funciona por sí sola. No elimina la necesidad de conocer


su negocio, entender sus datos o entender métodos analíticos.

MD descubre la información oculta en sus datos, pero no puede decir el


valor de la información a su organización.

Es posible que ya sea conocidos algunos patrones importantes como


resultado de trabajar con sus datos en el tiempo.

MD puede confirmar o calificar tales observaciones empíricas, además


de encontrar nuevos patrones que no son inmediatamente discernibles a
través de la simple observación.
¿Qué puede hacer y que no puede hacer la Minería de Datos?

Es importante recordar que las relaciones predictivas descubiertas a


través de MD NO son relaciones causales.

Por ejemplo, con MD podría determinarse que es probable que los


hombres con ingresos entre $ 50.000 y $ 65.000, suscriptores de ciertas
revistas compren un producto determinado.

Puede utilizar esta información para ayudarle a desarrollar una estrategia


de marketing, por ejemplo, publicar avisos en esa revista. Sin embargo,
no debe asumir que la población identificada a través con MD compra el
producto porque pertenece a esta población, el porqué no se puede
determinar con MD, por que produce «probabilidades» y no respuestas
exactas.

Es importante tener en cuenta que pueden ocurrir eventos raros, que


simplemente no ocurren muy a menudo.
Hacer las preguntas correctas y Comprensión de sus datos

La MD no descubre automáticamente información sin guía.

Los patrones que se encuentran a través de ella son muy diferentes


dependiendo de cómo se formula el problema.

Para obtener resultados significativos, debe aprender a hacer las


preguntas correctas.

Por ejemplo, en lugar de tratar de aprender a "mejorar la respuesta a


una solicitud de correo directo", puede intentar encontrar las
características de las personas que han respondido a sus solicitudes en el
pasado.
Entendiendo sus Datos

Para garantizar resultados significativos de MD, se deben comprender


sus datos.

Los algoritmos de MD son a menudo sensibles a las características


específicas de los datos:

valores atípicos (valores de datos muy diferentes de los valores típicos de


su base de datos),
columnas irrelevantes,
columnas que varían juntas (como edad y fecha de nacimiento) y
los datos a incluir o excluir.
Entendiendo sus Datos

Oracle Data Mining (ODM) puede realizar automáticamente gran parte


de la preparación de datos requerida por el algoritmo.

Sin embargo, parte de la preparación de datos suele ser específica para


el dominio o el problema de minería de datos. En cualquier caso, es
necesario comprender los datos que se utilizaron para construir el
modelo para interpretar correctamente los resultados cuando se aplica
el modelo.
El proceso de MD
Primera Fase, definir el problema
• Esta fase inicial de un proyecto de MD se centra en la comprensión de los objetivos
del proyecto y los requisitos.
• Una vez que haya especificado el problema desde una perspectiva de negocio,
puede formularlo como un problema de MD y desarrollar un plan de
implementación preliminar.
Por ejemplo, su problema comercial podría ser: "¿Cómo puedo vender más de mi
producto a los clientes?" Puede traducir esto en un problema de minería de datos
como: "¿Qué clientes tienen más probabilidades de comprar el producto?"
Un modelo que predice quién tiene más probabilidades de comprar el
producto debe basarse en datos que describen a los clientes que han comprado el
producto en el pasado.
Antes de construir el modelo, debe montar los datos que probablemente
contengan relaciones entre los clientes que han comprado el producto y los clientes
que no han comprado el producto. Los atributos del cliente pueden incluir edad,
número de hijos, años de residencia, propietarios / inquilinos, etc.
Primera Fase, definir el problema
• Un modelo que predice quién tiene más probabilidades de comprar el producto
debe basarse en datos que describen a los clientes que han comprado el producto
en el pasado.
• Antes de construir el modelo, debe montar los datos que probablemente
contengan relaciones entre los clientes que han comprado el producto y los
clientes que no han comprado el producto.
• Los atributos del cliente pueden incluir edad, número de hijos, años de residencia,
propietarios / inquilinos, etc.
Segunda Fase, Recopilación de datos,
preparación e ingeniería de funciones
• La fase de comprensión de datos involucra la recopilación de datos y la
exploración. A medida que eche un vistazo más de cerca a los datos, puede
determinar qué tan bien aborda el problema de negocio. Decide eliminar algunos
de los datos o agregar datos adicionales. Este es también el momento de
identificar problemas de calidad de datos y de buscar patrones en los datos. La
fase de preparación de datos cubre todas las tareas implicadas en la creación de la
tabla o vista que se utiliza para construir el modelo. Es probable que las tareas de
preparación de datos se realicen varias veces y no en un orden prescrito.
• Las tareas pueden incluir la selección de columnas y la creación de vistas, así como
la limpieza y transformación de datos. Por ejemplo, puede transformar una
columna DATE_OF_BIRTH en AGE; puede insertar el ingreso mediano en los casos
en que la columna INCOME es nula.
Segunda Fase, Recopilación de datos,
preparación e ingeniería de funciones
• Además, puede agregar nuevos atributos calculados en un esfuerzo para obtener
información más cercana a la superficie de los datos llamados a menudo Ingeniería
de funciones. Por ejemplo, en lugar de usar el importe de la compra, puede crear
un nuevo atributo: "Número de veces que la cantidad de compra supera los $ 500
en un período de 12 meses". Los clientes que frecuentemente realizan grandes
compras también pueden estar relacionados con clientes que responden o no
responden a una oferta.
• La preparación de los datos y la creación de las "características agregadas por la
ingeniería" que capturan el conocimiento del dominio, pueden mejorar
significativamente la información que se descubre a través de la MD.
• Permitir que el analista de datos realice estos ensamblajes de datos, preparación
de datos, transformaciones de datos e ingeniería de funciones dentro de la base
de datos Oracle es una distinción significativa para Oracle, ya que ODM es
compatible con la preparación automática de datos (ADP), que simplifica en gran
medida el proceso de preparación de datos
Tercera Fase, Construcción del modelo
y su evaluación.
• En esta fase, se seleccionan y aplican diversas técnicas de modelado y se calibran
los parámetros a valores óptimos.
• Si el algoritmo requiere transformaciones de datos, entonces necesita retroceder a
la fase anterior para implementarlas.
• En la construcción de modelos preliminares, a menudo tiene sentido trabajar con
un conjunto reducido de datos, ya que el conjunto de datos finales puede
contener miles o millones de filas.
Tercera Fase, Construcción del modelo
y su evaluación.
• En esta etapa del proyecto, es hora de evaluar hasta qué punto el modelo satisface
los objetivos de negocio originalmente declarados (en la primera fase).
• Si se supone que el modelo predice a los clientes que probablemente comprarán
un producto…
– ¿diferenciará suficientemente entre las dos clases?
– ¿Hay suficiente elevación? Lift en inglés, mide el grado en que las predicciones de un modelo de
clasificación son mejores predicciones generadas aleatoriamente.
– ¿Son aceptables los intercambios, canjes o negociaciones (trade-offs) mostrados en la matriz de
confusión?
– ¿Se puede mejorar el modelo agregando datos de texto?
– ¿Deberían incluirse datos transaccionales como las compras (datos de la cesta del mercado)?
– ¿Deberían incorporarse al modelo los costos asociados con falsos positivos o falsos negativos?
Cuarta Fase, Implementación del
Conocimiento.
• La implementación del conocimiento es el uso de la MD en un entorno de destino.
En la fase de despliegue, se puede derivar la información y la información útil de
los datos.
• La implementación puede implicar la puntuación (la aplicación de modelos a
nuevos datos), la extracción de detalles del modelo (por ejemplo, las reglas de un
árbol de decisiones) o la integración de modelos de minería de datos dentro de
aplicaciones, infraestructura de data warehouse o herramientas de consulta e
informes.
Cuarta Fase, Implementación del
Conocimiento.
• Debido a que Oracle Data Mining crea y aplica modelos de MD dentro de la base
Oracle, los resultados están inmediatamente disponibles. Las herramientas de
informes de BI y los cuadros de mando pueden mostrar fácilmente los resultados
de la minería de datos.
• Además, Oracle Data Mining admite la puntuación en tiempo real: Los datos se
pueden extraer y los resultados se devuelven dentro de una única transacción de
base de datos. Por ejemplo, un representante de ventas puede ejecutar un modelo
que predice la probabilidad de fraude en el contexto de una transacción de ventas
en línea.
Break!