Está en la página 1de 9

Tendencias en minerías de datos 1

3.4.1 Definiciones y conceptos.


La revolución digital que se ha ido dando durante los últimos años, ha posibilitado que la
captura y el almacenamiento de datos tengan un coste casi nulo. En la actualidad, las
organizaciones pueden disponer de una cantidad enorme de datos almacenados y de los
cuales sería de gran ayuda poder sacar información útil.

Para poder tratar con estas cantidades de datos, las técnicas tradicionales de estadística
y las herramientas de gestión clásicas no sirven debido a que no están preparadas para
trabajar con tanta información, así que se necesitan nuevas herramientas.

De la necesidad de descubrir conocimiento a partir de los datos, sale el proceso de


Descubrimiento de Conocimiento en Bases de Datos o KDD (Knowledge Discovery in
Databases). Ese proceso puede ser definido como el proceso no trivial de identificar
patrones en los datos que sean válidos, que aporten información desconocida hasta el
momento, útiles y comprensibles. El KDD consta de tres partes bien diferenciadas:

1. Pre procesamiento de los datos.


2. Minería de Datos.
3. Post procesamiento de los resultados.

En el pre procesamiento de los datos se corrigen datos erróneos o incompletos, se


elimina el posible ruido que contengan los datos, etc...

En el post procesamiento, a partir de los resultados de la minería de datos, se pueden


preparar patrones y sacar conclusiones de los que se pueda extraer conocimiento, que es
el objetivo final del proceso de KDD.

El proceso más importante es el de Minería de Datos o DM (Data Mining). Una definición


formal de la DM sería: La minería de datos es el proceso automático para el
descubrimiento de información útil en grandes cantidades de datos. Este proceso es un
campo multidisciplinario, en el que se pretende predecir resultados y/o descubrir
relaciones entre los diferentes datos. Las diferentes tareas que puede realizar la DM son:

 Clasificación: Mediante la clasificación se busca encontrar un modelo que pueda


predecir el comportamiento de una variable a partir de sus características.
 Análisis de Asociaciones: Estas técnicas pretenden sacar patrones de las
relaciones que hay entre diferentes rasgos de los datos.
 Detección de Anomalías: El objetivo de la detección de anomalías es encontrar
aquellos elementos o características que son significativamente diferentes del
resto de los datos.

1
Fuente: http://santacruzramos.wikispaces.com/

1
Dentro de la clasificación, quizá la tarea más extendida, tenemos varios algoritmos que se
pueden utilizar:

 Árboles de decisión
 Basados en reglas
 Redes neuronales
 Basados en Clusters
 Redes Bayesianas

Algunas de las áreas que más se pueden beneficiar de la minería de datos son los
siguientes:

 Ámbitos financieros y de negocios: índices de producción y coste, marketing,


detección de fraudes, descubrir perfiles de clientes.
 Salud: modelos de diagnóstico a partir de información almacenada en hospitales,
gestión de tratamientos, comprobación de la adecuación de tratamientos.
 Sistemas informáticos: control del sistema y detección de ataques.
 Ciencia: observaciones astronómicas, genómica, análisis de datos biológicos.

3.4.2 Aplicaciones de la minería de datos.


En la actualidad existe una gran cantidad de aplicaciones, en áreas tales como:

Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de
administración empresarial basada en la relación con el cliente. En lugar de contactar con
el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas,
sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de
responder positivamente a una determinada oferta o promoción.

Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de
la inversión, pero también reconocen que el número de modelos predictivos desarrollados
puede crecer muy rápidamente.

En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría
construir modelos separados para cada región y/o para cada tipo de cliente. También
puede querer determinar que clientes van a ser rentables durante una ventana de tiempo
(una quincena, un mes, …) y sólo enviar las ofertas a las personas que es probable que
sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las
versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.

Hábitos de compra en supermercados


El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de
hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes
había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y
cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres

2
jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando
de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar
las ventas compulsivas.

Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias
—como la banca, las telecomunicaciones, etc. — existe un comprensible interés en
detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus
contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función
de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones
especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a
determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de
comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron
de baja en el pasado.

Fraudes
Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de
fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la
relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas
o ilegales suelen seguir patrones característicos que permiten, con cierto grado de
probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar
medidas rápidas frente a ellas.

3.4.3 Diseño de mineros de datos.


1. Selección del conjunto de datos, tanto en lo que se refiere a las variables
dependientes, como a las variables objetivo, como posiblemente al muestreo de
los registros disponibles.
2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas
de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
3. Transformación del conjunto de datos de entrada, se realizará de diversas formas
en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica
de minería de datos que mejor se adapte a los datos y al problema.
4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo
predictivo, de clasificación o segmentación.
5. Evaluar los resultados contrastándolos con un conjunto de datos previamente
reservado para validar la generalidad del modelo.

En este sentido cabe destacar los esfuerzos del Data Mining Group, que está
estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que
los modelos de minería de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales fabricantes de
sistemas de bases de datos y programas de análisis de la información hacen uso de este
estándar.

3
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información
contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones
han creado y alimentan bases de datos especialmente diseñadas para proyectos de
minería de datos en las que centralizan información potencialmente útil de todas sus
áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez
mayor la minería de datos desestructurados como información contenida en ficheros de
texto, en Internet, etc.

3.4.4 Obtención de información a través de patrones de búsqueda


Reconocimiento de patrones llamado también lectura de patrones, identificación de
figuras y reconocimiento de formas consiste en el reconocimiento de patrones de señales.
Los patrones se obtienen a partir de los procesos de segmentación, extracción de
características y descripción dónde cada objeto queda representado por una colección de
descriptores. El sistema de reconocimiento debe asignar a cada objeto su categoría o
clase (conjunto de entidades que comparten alguna característica que las diferencia del
resto). Para poder reconocer los patrones se siguen los siguientes procesos:

1. Adquisición de datos
2. Extracción de características
3. Toma de decisiones

El punto esencial del reconocimiento de patrones es la: se quiere clasificar una señal
dependiendo de sus características. Señales, características y clases pueden ser de
cualquiera forma, por ejemplo se puede clasificar imágenes digitales de letras en las
clases «A» a «Z» dependiendo de sus píxeles o se puede clasificar ruidos de cantos de
los pájaros en clases de órdenes aviares dependiendo de las frecuencias.

Modelo o patrón.
Un modelo es una descripción global del conjunto de datos. Toma una perspectiva
completa y total. En contraste un patrón es una propiedad local de los datos, tal vez sólo
la tienen ciertas instancias o atributos.

Reconocimiento de patrones
El reconocimiento de patrones, también llamado lectura de patrones, identificación de
figuras y reconocimiento de formas es el reconocimiento de patrones en señales. No sólo
es un campo de la informática sino un proceso fundamental que se encuentra en casi
todas las acciones humanas.

Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de voz, la


clasificación de documentos (por ejemplo spam/no spam), el reconocimiento de escritura
y el reconocimiento de caras humanas.

4
3.4.5 Técnicas y herramientas de la minería de datos.
Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la
estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se
aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

 Redes neuronales.- Son un paradigma de aprendizaje y procesamiento


automático inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal
son:
o El Perceptrón.
o El Perceptrón multicapa.
o Los Mapas Auto organizados, también conocidos como redes de Kohonen
 Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado
en el ámbito de la inteligencia artificial, dada una base de datos se construyen
estos diagramas de construcciones lógicas, muy similares a los sistemas de
predicción basados en reglas, que sirven para representar y categorizar una serie
de condiciones que suceden de forma sucesiva, para la resolución de un
problema. Ejemplos:
o Algoritmo ID3.
o Algoritmo C4.5.
 Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o
ecuación que se emplea en todos los diseños experimentales y en la regresión
para indicar los diferentes factores que modifican la variable de respuesta.
 Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de
vectores según criterios habitualmente de distancia; se tratará de disponer los
vectores de entrada de forma que estén más cercanos aquellos que tengan
características comunes.

Ejemplos:

1. Algoritmo K-means
2. Algoritmo K-medoids.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en
supervisados y no supervisados (Weiss y Indurkhya, 1998):

 Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)


desconocido a priori, a partir de otros conocidos.
 Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren
patrones y tendencias en los datos.

Ejemplo de SQL Server 2012

5
Microsoft SQL Server Analysis Services proporciona las siguientes herramientas que
puede utilizar para crear soluciones de minería de datos:

 El Asistente para minería de datos de Herramientas de datos de SQL Server


(SSDT) facilita la creación de estructuras y de modelos de minería de datos,
usando orígenes de datos relacionales o datos multidimensionales en cubos.
 En el asistente, elija los datos que desee utilizar y, a continuación, aplique técnicas
de minería de datos específicas, como agrupación en clústeres, redes neurales o
modelado de series temporales.
 SQL Server Management Studio y Herramientas de datos de SQL Server (SSDT)
disponen de visores de modelos para explorar los modelos de minería de datos
una vez creados. Puede examinar los modelos mediante visores adaptados a cada
algoritmo o analizar con mayor profundidad utilizando el visor de contenido del
modelo.
 El Generador de consultas de predicción se proporciona en SQL Server
Management Studio y Herramientas de datos de SQL Server (SSDT) para
ayudarle a crear consultas de predicción. También puede probar la exactitud de
los modelos respecto a un conjunto de datos de exclusión o datos externos, o
utilizar validación cruzada para evaluar la calidad del conjunto de datos.
 SQL Server Management Studio es la interfaz en la que administra las soluciones
de minería de datos implementadas en una instancia de Analysis Services. Puede
volver a procesar las estructuras y modelos para actualizar los datos que
contienen.
 SQL Server Integration Services contiene herramientas que puede utilizar para
limpiar datos, automatizar tareas como la creación de predicciones y actualización
de modelos y para crear soluciones de minería de datos de texto.

Las siguientes secciones proporcionan más información sobre las herramientas de


minería de datos de SQL Server.

Asistente para minería de datos


Utilice el Asistente para minería de datos para empezar a crear soluciones de minería de
datos. El asistente es rápido y sencillo, y le guía en el proceso de creación de una
estructura de minería de datos y un modelo inicial de minería de datos relacionado.
Asimismo, incluye las tareas necesarias para seleccionar un tipo de algoritmo y un origen
de datos, y para definir los datos del caso usados para el análisis.

Diseñador de minería de datos


Después de crear una estructura y modelo de minería de datos mediante el Asistente para
minería de datos, puede utilizar el Diseñador de minería de datos desde Herramientas de
datos de SQL Server (SSDT) o SQL Server Management Studio para trabajar con las
estructuras y modelos de minería de datos existentes.

El diseñador incluye herramientas para estas tareas:

6
 Modificar las propiedades de las estructuras de minería de datos, agregar
columnas y crear alias de columna, cambiar el método de discretización o la
distribución de valores esperada.
 Agregar nuevos modelos a una estructura existente; copiar modelos, cambiar las
propiedades o metadatos del modelo o definir filtros en un modelo de minería de
datos.
 Examinar los patrones y reglas que incluye el modelo; explorar asociaciones o
árboles de decisión. Obtener estadísticas detalladas sobre
Se proporcionan visores personalizados para cada tiempo del modelo, para
ayudarle a analizar sus datos y explorar los patrones que revela la minería de
datos.
 Validar modelos creando gráficos de elevación o analizando la curva de ganancia
de los modelos. Comparar modelos utilizando matrices de clasificación, o validar
un conjunto de datos y sus modelos utilizando la validación cruzada.
 Crear predicciones y consultas de contenido en los modelos de minería de datos
existentes. Compilar consultas únicas, o configurar consultas para generar
predicciones para tablas de datos externos completas.

SQL Server Management Studio


Después de crear e implementar los modelos de minería de datos en un servidor, puede
utilizar SQL Server Management Studio para administrar la base de datos Analysis
Services que hospeda los objetos de minería de datos. También puede seguir realizando
tareas que utilizan el modelo, como explorar modelos, procesar nuevos datos y crear
predicciones.

Management Studio también contiene editores de consultas que puede utilizar para
diseñar y ejecutar consultas de extensiones de minería de datos (DMX) o trabajar con
objetos de minería de datos utilizando XMLA.

Transformaciones y tareas de minería de datos en Integration Services


SQL Server Integration Services dispone de muchos componentes compatibles con la
minería de datos.

Algunas herramientas de Integration Services están diseñadas para ayudar a automatizar


tareas de datos comunes, incluida la predicción, la compilación de modelos y el
procesamiento. Por ejemplo:

 Crear un paquete de Integration Services que actualice automáticamente el


modelo cada vez que el conjunto de datos se actualice con nuevos clientes
 Realizar una segmentación personalizada o un muestreo personalizado de los
registros del caso.
 Generar automáticamente modelos pasados en parámetros.

Sin embargo, también puede utilizar la minería de datos en un flujo de trabajo de


paquetes, como una entrada a otros procesos. Por ejemplo:

7
 Usar valores de probabilidad generados por el modelo para ponderar las
puntuaciones de la minería de texto u otras tareas de clasificación.
 Generar automáticamente predicciones basadas en datos anteriores y utilizar esos
valores para evaluar la validez de nuevos datos.
 Usar la regresión logística para segmentar los clientes de entrada por riesgo.

3.4.6 Tendencias en minería de datos.


La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con
cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de
compra en línea, etc. Los más importantes de ellos son:

 La importancia que han cobrado los datos no estructurados (texto, páginas de


Internet, etc.).
 La necesidad de integrar los algoritmos y resultados obtenidos en sistemas
operacionales, portales de Internet, etc.
 La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo,
que frente a un fraude con una tarjeta de crédito).
 Los tiempos de respuesta. El gran volumen de datos que hay que procesar en
muchos casos para obtener un modelo válido es un inconveniente; esto implica
grandes cantidades de tiempo de proceso y hay problemas que requieren una
respuesta en tiempo real.

El interés que despierta la Minería de Datos para el análisis de la información


especialmente en el área comercial hace que se busquen nuevas aplicaciones basadas
en esta tecnología.

Algunas de las principales nuevas aplicaciones basadas en la Minería de Datos se


presentan a continuación.

 Minería de Textos
La Minería de Textos [Text Mining] surge ante el problema cada vez más
apremiante de extraer información automáticamente a partir de masas de textos.
Se trata así de extraer información de datos no estructurados: texto plano.

Existen varias aproximaciones a la representación de la información no estructurada


[HH96]:

 “Bag of Words”:
Cada palabra constituye una posición de un vector y el valor corresponde con el
número de veces que ha aparecido.
 N-gramas o frases:
Permite tener en cuenta el orden de las palabras. Trata mejor frases negativas “...
excepto...”, “... pero no....”, que tomarían en otro caso las palabras que le siguen
como relevantes.
 Representación relacional (primer orden):

8
Permite detectar patrones más complejos (si la palabra X está a la izquierda de la
palabra Y en la misma frase...).
 Categorías de conceptos.

Casi todos se enfrentan con el “vocabulary problem” [FUR87]: Tienen problemas con la
sinonimia, la polisemia, los lemas, etc. Un ejemplo de aplicación basada en Minería de
Textos es la generación automática de índices en documentos. Otras más complicadas
consistirían en escanear completamente un texto y mostrar un mapa en el que las partes
más relacionadas, o los documentos más relacionados se coloquen cerca unos de otros.
En este caso se trataría de analizar las palabras en el contexto en que se encuentren.

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con


cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de
compra en línea, etc. Los más importantes de ellos son:

 La importancia que han cobrado los datos no estructurados (texto, páginas de


Internet, etc.)
 La necesidad de integrar los algoritmos y resultados obtenidos en sistemas
operacionales, portales de Internet, etc.
 La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo,
que frente a un fraude con una tarjeta de crédito).
 Los tiempos de respuesta. El gran volumen de datos que hay que procesar en
muchos casos para obtener un modelo válido es un inconveniente; esto implica
grandes cantidades de tiempo de proceso y hay problemas que requieren una
respuesta en tiempo real.

También podría gustarte