Está en la página 1de 20

Data Mining …

Minería…

Caverna El Sauce, La Falda, Córdoba, 2017


Minería…

Caverna El Sauce, La Falda, Córdoba, 2017


Definiciones sobre Minería de Datos (MD)

MD es:
•una técnica que descubre relaciones previamente desconocidas en los datos.
•la práctica de buscar automáticamente en grandes almacenes de datos para
descubrir Patrones y tendencias que van más allá del simple análisis.
Definiciones sobre Minería de Datos (MD)

MD utiliza algoritmos matemáticos para segmentar los datos y predecir la probabilidad de


eventos basados en eventos pasados.
Definiciones sobre Minería de Datos (MD)

MD también es conocida como descubrimiento del conocimiento en Datos (KDD).


Definiciones sobre Minería de Datos (MD)

Las propiedades clave de MD son:

• Descubrimiento automático de patrones


• Predicción de resultados probables
• Creación de información procesable
• Centrarse en grandes conjuntos de datos y bases de datos
Definiciones sobre Minería de Datos (MD)

La minería de datos puede responder preguntas que no se pueden


resolver a través de consultas o reportes simples.

¿Cuánto valen los clientes?


¿Cuáles son los clientes que tienen probabilidad de abandonar?
¿Qué productos se venden en forma conjunta?
Descubrimiento Automático

El proceso de DM se realiza mediante un modelo que utiliza un


algoritmo para actuar sobre un conjunto de datos.

Los modelos de MD se pueden utilizar para extraer los datos en


los que se basan y la mayoría de los tipos de modelos son
aplicables a nuevos datos.

El proceso de aplicación de un modelo a los nuevos datos se


conoce como Puntuación o Scoring.
Predicción

Muchas formas de minería de datos son predictivas. Por ejemplo, un modelo puede
predecir los ingresos basados en la educación de las personas y otros factores demográficos.

Las predicciones tienen una probabilidad asociada (¿Qué tan probable es que ésta
predicción sea verdadera?). Las probabilidades de predicción también se conocen
como confianza (¿Qué tan seguro puedo ser de esta predicción?).

Algunas formas de minería predictiva de datos generan reglas, que son condiciones
que implican un resultado dado.
Por ejemplo, una regla puede especificar que una persona que tiene una licenciatura y
vive en un cierto barrio es probable que tenga un ingreso mayor que el promedio regional.

Las reglas tienen un apoyo (support) asociado …


(¿Qué porcentaje de la población satisface la regla?).
Agrupamiento o Clustering

Otras formas de minería de datos identifican grupos naturales en los datos.


Por ejemplo, un modelo podría identificar el segmento de la población que
tiene un ingreso dentro de un rango especificado, que tiene un buen historial
de conducción y que alquila un automóvil nuevo cada año.
Información Accionable

La minería de datos puede derivar información procesable de


grandes volúmenes de datos.

Por ejemplo, un urbanista puede usar un modelo que predice los


ingresos basados en datos demográficos para desarrollar un plan
para vivienda de bajos ingresos.

Una agencia de arrendamiento de autos puede usar un modelo que


identifica segmentos de clientes para diseñar una promoción dirigida
a clientes de alto valor.
Minería de Datos y Estadísticas

Hay una gran cantidad de superposición entre la minería


de datos y las estadísticas. De hecho, la mayoría de las
técnicas utilizadas en la minería de datos pueden
colocarse en un marco estadístico. Sin embargo, las
técnicas de MD no son las mismas que las técnicas
estadísticas tradicionales.
Minería de Datos y Estadísticas

Los modelos estadísticos generalmente hacen suposiciones


fuertes sobre los datos y, sobre la base de esos supuestos,
hacen fuertes declaraciones sobre los resultados. Sin
embargo, si los supuestos son defectuosos, la validez del
modelo se vuelve cuestionable. Por el contrario, los
métodos de aprendizaje de máquina utilizados en la
minería de datos suelen hacer suposiciones débiles sobre
los datos.
Minería de Datos y Estadísticas

Como resultado, la MD generalmente no puede hacer


declaraciones tan fuertes sobre los resultados. Sin
embargo, puede producir resultados muy buenos
independientemente de los datos. Los métodos
estadísticos tradicionales, en general, requieren una gran
interacción del usuario para validar la corrección de un
modelo.
Minería de Datos y Estadísticas

Como resultado, los métodos estadísticos pueden ser


difíciles de automatizar. Los métodos estadísticos se basan
en probar hipótesis o encontrar correlaciones basadas en
muestras más pequeñas y representativas de una
población mayor. Se requiere menos interacción del
usuario y menos conocimiento de los datos para la minería
de datos.
Minería de Datos y Estadísticas

El usuario no necesita “masajear” los datos para garantizar


que un método es válido para un conjunto de datos dado.

Las técnicas de MD son más fáciles de automatizar que las


técnicas estadísticas tradicionales. La MD puede derivar
información procesable de grandes volúmenes de datos.
Minería de datos y OLAP
Minería de Datos y Almacenamiento de Datos o Data Warehousing
¿Qué puede hacer y que no puede hacer la minería de datos?
Hacer las preguntas correctas y Comprensión de sus datos