Mineria de Datos

MINERIA DE DATOS
1. CONCEPTOS.-
El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar

grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un
determinado contexto.
Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un

repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de
algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye
algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretación que surge entre la información y ese
modelo represente un valor agregado, entonces nos referimos al conocimiento.
La idea de datamining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos
como data fishing, datamining o data archaeology con la idea de encontrar correlaciones sin una
hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal,
Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los
términos de data mining y KDD.
El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe
confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan
diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de
datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas
Comerciales de datamining muy poderosas que contienen un sinfín de utilerías que facilitan el
desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra
herramienta
2. Principales características y objetivos de la Minería de Datos
• Explorar los datos se encuentran en las profundidades de las bases de datos, como los
almacenes de datos, que algunas veces contienen información almacenada durante varios años.
• En algunos casos, los datos se consolidan en un almacén de datos y en Mercados
• El entorno de la minería de datos suele tener una arquitectura cliente servidor.
• Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado

en archivos corporativos o en registros públicos, archivados.
• El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación,
facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar
preguntas adhoc y obtener rápidamente respuestas.
• Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
• Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y

procesarse rápidamente.
• Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en
paralelo para la minería de datos.
• La minería de datos produce cinco tipos de información:
— Asociaciones.
— Secuencias.
— Clasificaciones.
— Agrupamientos.
— Pronósticos.
• Los mineros de datos usan varias herramientas y técnicas.
La minería de datos es un proceso que invierte la dinámica del método Científico en el siguiente
sentido:
En el método científico, primero se formula la hipótesis y luego se diseña el experimento para

coleccionar los datos que confirmen o refuten la hipótesis. Si esto se hace con la formalidad
adecuada (cuidando cuáles son las variables controladas y cuáles experimentales), se obtiene un
nuevo conocimiento.
En la minería de datos, se coleccionan los datos y se espera que de ellos emerjan hipótesis. Se
busca que los datos describan o indiquen por qué son como son. Luego entonces, se valida esa
hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero
experimentalmente inválida. De ahí que la minería de datos debe presentar un enfoque
exploratorio, y no confirmador. Usar la minería de datos para confirmar las hipótesis formuladas
puede ser peligroso, pues se está haciendo una inferencia poco válida.
VENTAJAS
En resumen, usar minería de datos para construir un modelo desde las bases de datos tiene las
siguientes ventajas.
 Los modelos son fáciles de entender.
Personas sin un back up importante de estadísticas (como un analista financiero o ejecutivos en

general) pueden interpretar el modelo y compararlo con sus propias ideas; recordemos que en la
organización de hoy, son los mismos ejecutivos los que deben “meter las manos” a las bases de
datos para obtener la información que necesitan. Así, el usuario gana más conocimientos sobre el
comportamiento de los clientes y puede (y debe) usar esta ventaja para optimizar el proceso de
negocios de la organización.
 Enormes bases de datos pueden ser analizadas.
Enormes bases de datos pueden ser analizadas mediante la tecnología de la minería de datos.
Estas Bases de datos pueden ser enormes tanto en largo como en ancho. Por ejemplo, para cada
cliente se puede tener cientos de atributos que contienen información detallada; y además tener
miles de registros de clientes.
 La minería de datos descubre información que no se esperaba obtener.
Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a
aparecer. En muchos estudios, se ha descubierto que combinaciones particulares de factores
entregan efectos inesperados que entregan valor a la compañía.
 Los Modelos Son Confiables
El modelo es probado y comprobado usando técnicas estadísticas antes de ser usado, luego las
predicciones que se obtienen por el modelo son válidas y confiables.
 Los modelos se construyen de manera rápida.
La minería de datos permite construir y generar modelos en sólo uno minutos u horas. El
modelado se torna mucho más fácil puesto que muchos algoritmos son probados y sólo el mejor
modelo es entregado al usuario.
Desventajas
 Dificultad de recopilación de los datos
Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo o la
necesidad de tecnología de elevado coste.
 El pre-procesamiento de datos puede llevar demasiado tiempo

 No está asegurada la obtención de un modelo válido
3. Fases de un Proyecto de Minería de Datos
Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos,
independientemente de la técnica específica de extracción de conocimiento usada.
El proceso de minería de datos pasa por las siguientes fases:
• Filtrado de datos.
• Selección de Variables.
• Extracción de Conocimiento.
• Interpretación y Evaluación.
Filtrado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, DataWarehouse...) nunca
es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería
sobre los datos en bruto. Mediante el pre-procesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se
obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o
se reducen el número de valores posibles (mediante redondeo, clustering,...).
Selección de variables
Aún después de haber sido pre-procesados, en la mayoría de los casos se tiene una cantidad
ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las
variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de
conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son básicamente dos:
• Aquellos basados en la elección de los mejores atributos del problema,
• Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de

distancia o heurísticos.
Algoritmos de Extracción de Conocimiento

Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que
representa patrones de comportamiento observados en los valores de las variables del problema o
relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez
para generar distintos modelos, aunque generalmente cada técnica obliga a un pre-procesado
diferente de los datos.
Interpretación y evaluación
Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones
que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel
que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos modelos.
4. TÉCNICAS DE MINERIA DE DATOS
REDES NEURONALES
Esta técnica de inteligencia artificial, en los últimos años se ha convertido en uno de los
instrumentos de uso frecuente para detectar categorías comunes en los datos, debido a que son
capaces de detectar y aprender complejos patrones, y características de los datos.
Una de las principales características de las redes neuronales, es que son capaces de trabajar con
datos incompletos e incluso paradójicos, que dependiendo del problema puede resultar una
ventaja o un inconveniente. Además esta técnica posee dos formas de aprendizaje: supervisado y
no supervisado.
ÁRBOLES DE DECISIÓN
Está técnica se encuentra dentro de una metodología de aprendizaje supervisado. Su
representación es en forma de árbol en donde cada nodo es una decisión, los cuales a su vez
generan reglas para la clasificación de un conjunto de datos.
Los árboles de decisión son fáciles de usar, admiten atributos discretos y continuos, tratan bien los
atributos no significativos y los valores faltantes. Su principal ventaja es la facilidad de
interpretación.
ALGORITMOS GÉNETICOS
Los algoritmos genéticos imitan la evolución de las especies mediante la mutación, reproducción y
selección, como también proporcionan programas y optimizaciones que pueden ser usadas en la
construcción y entrenamiento de otras estructuras como es el caso de las redes neuronales.
Además los algoritmos genéticos son inspirados en el principio de la supervivencia de los más
aptos.
CLUSTERING (Agrupamiento)
Agrupan datos dentro de un número de clases preestablecidas o no, partiendo de criterios de
distancia o similitud, de manera que las clases sean similares entre sí y distintas con las otras
clases. Su utilización ha proporcionado significativos resultados en lo que respecta a los
clasificadores o reconocedores de patrones, como en el modelado de sistemas. Este método
debido a su naturaleza flexible se puede combinar fácilmente con otro tipo de técnica de minería
de datos, dando como resultado un sistema híbrido.
Un problema relacionado con el análisis de cluster es la selección de factores en tareas de

clasificación, debido a que no todas las variables tienen la misma importancia a la hora de agrupar
los objetos. Otro problema de gran importancia y que actualmente despierta un gran interés es la
fusión de conocimiento, ya que existen múltiples fuentes de información sobre un mismo tema,
los cuales no utilizan una categorización homogénea de los objetos. Para poder solucionar estos
inconvenientes es necesario fusionar la información a la hora de recopilar, comparar o resumir los
datos.
APRENDIZAJE AUTOMÁTICO
Esta técnica de inteligencia artificial es utilizada para inferir conocimiento del resultado de la
aplicación de alguna de las otras técnicas antes mencionadas.
5. APLICACIONES
Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de administración
empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con
aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una
determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la
inversión, pero también reconocen que el número de modelos predictivos desarrollados puede
crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir
modelos separados para cada región y/o para cada tipo de cliente. También puede querer
determinar qué clientes van a ser rentables durante una ventana de tiempo (una quincena, un
mes, ...) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para
mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a
una minería de datos lo más automatizada posible.
Hábitos de compra en supermercados

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos
de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad
inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía
a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de
semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza
en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los
pañales para fomentar las ventas compulsivas.
Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como
la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes
aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente,
pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas
personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La
minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando
sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente,
se dieron de baja en el pasado.
Fraudes
Un caso análogo es el de la detección de transacciones de lavado de dinero o de fraude en el uso
de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los
contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir
patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las
legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
Recursos humanos
La minería de datos también puede ser útil para los departamentos de recursos humanos en la
identificación de las características de sus empleados de mayor éxito. La información obtenida
puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los
resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección
estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales
como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones
operativas, tales como desarrollo de planes de producción o gestión de mano de obra.
Comportamiento en Internet
También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo,
cuando son clientes potenciales— en una página de Internet. O la utilización de la información —
obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda adaptada
específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber
inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca
de los clientes que han comprado el primero.
Ciencia e Ingeniería
En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas
relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos son:

Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

MINERIA DE DATOS

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un

2. Principales características y objetivos de la Minería de Datos

• En algunos casos, los datos se consolidan en un almacén de datos y en Mercados

• El entorno de la minería de datos suele tener una arquitectura cliente servidor.

• Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado

• Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y

• La minería de datos produce cinco tipos de información:

• Los mineros de datos usan varias herramientas y técnicas.

En el método cientíﬁco, primero se formula la hipótesis y luego se diseña el experimento para

 Los modelos son fáciles de entender.

Personas sin un back up importante de estadísticas (como un analista financiero o ejecutivos en

 La minería de datos descubre información que no se esperaba obtener.

 Los Modelos Son Confiables

 Los modelos se construyen de manera rápida.

 Dificultad de recopilación de los datos

 El pre-procesamiento de datos puede llevar demasiado tiempo

3. Fases de un Proyecto de Minería de Datos

El proceso de minería de datos pasa por las siguientes fases:

Los métodos para la selección de características son básicamente dos:

• Aquellos basados en la elección de los mejores atributos del problema,

• Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de

Algoritmos de Extracción de Conocimiento

4. TÉCNICAS DE MINERIA DE DATOS

Un problema relacionado con el análisis de cluster es la selección de factores en tareas de

Hábitos de compra en supermercados

También podría gustarte