Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para poder tratar con estas cantidades de datos, las técnicas tradicionales de estadística
y las herramientas de gestión clásicas no sirven debido a que no están preparadas para
trabajar con tanta información, así que se necesitan nuevas herramientas.
1
Fuente: http://santacruzramos.wikispaces.com/
1
Dentro de la clasificación, quizá la tarea más extendida, tenemos varios algoritmos que se
pueden utilizar:
Árboles de decisión
Basados en reglas
Redes neuronales
Basados en Clusters
Redes Bayesianas
Algunas de las áreas que más se pueden beneficiar de la minería de datos son los
siguientes:
Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de
administración empresarial basada en la relación con el cliente. En lugar de contactar con
el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas,
sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de
responder positivamente a una determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de
la inversión, pero también reconocen que el número de modelos predictivos desarrollados
puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría
construir modelos separados para cada región y/o para cada tipo de cliente. También
puede querer determinar que clientes van a ser rentables durante una ventana de tiempo
(una quincena, un mes, …) y sólo enviar las ofertas a las personas que es probable que
sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las
versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.
2
jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando
de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar
las ventas compulsivas.
Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias
—como la banca, las telecomunicaciones, etc. — existe un comprensible interés en
detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus
contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función
de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones
especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a
determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de
comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron
de baja en el pasado.
Fraudes
Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de
fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la
relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas
o ilegales suelen seguir patrones característicos que permiten, con cierto grado de
probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar
medidas rápidas frente a ellas.
En este sentido cabe destacar los esfuerzos del Data Mining Group, que está
estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que
los modelos de minería de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales fabricantes de
sistemas de bases de datos y programas de análisis de la información hacen uso de este
estándar.
3
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información
contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones
han creado y alimentan bases de datos especialmente diseñadas para proyectos de
minería de datos en las que centralizan información potencialmente útil de todas sus
áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez
mayor la minería de datos desestructurados como información contenida en ficheros de
texto, en Internet, etc.
1. Adquisición de datos
2. Extracción de características
3. Toma de decisiones
El punto esencial del reconocimiento de patrones es la: se quiere clasificar una señal
dependiendo de sus características. Señales, características y clases pueden ser de
cualquiera forma, por ejemplo se puede clasificar imágenes digitales de letras en las
clases «A» a «Z» dependiendo de sus píxeles o se puede clasificar ruidos de cantos de
los pájaros en clases de órdenes aviares dependiendo de las frecuencias.
Modelo o patrón.
Un modelo es una descripción global del conjunto de datos. Toma una perspectiva
completa y total. En contraste un patrón es una propiedad local de los datos, tal vez sólo
la tienen ciertas instancias o atributos.
Reconocimiento de patrones
El reconocimiento de patrones, también llamado lectura de patrones, identificación de
figuras y reconocimiento de formas es el reconocimiento de patrones en señales. No sólo
es un campo de la informática sino un proceso fundamental que se encuentra en casi
todas las acciones humanas.
4
3.4.5 Técnicas y herramientas de la minería de datos.
Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la
estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se
aplican sobre un conjunto de datos para obtener unos resultados.
Ejemplos:
1. Algoritmo K-means
2. Algoritmo K-medoids.
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en
supervisados y no supervisados (Weiss y Indurkhya, 1998):
5
Microsoft SQL Server Analysis Services proporciona las siguientes herramientas que
puede utilizar para crear soluciones de minería de datos:
6
Modificar las propiedades de las estructuras de minería de datos, agregar
columnas y crear alias de columna, cambiar el método de discretización o la
distribución de valores esperada.
Agregar nuevos modelos a una estructura existente; copiar modelos, cambiar las
propiedades o metadatos del modelo o definir filtros en un modelo de minería de
datos.
Examinar los patrones y reglas que incluye el modelo; explorar asociaciones o
árboles de decisión. Obtener estadísticas detalladas sobre
Se proporcionan visores personalizados para cada tiempo del modelo, para
ayudarle a analizar sus datos y explorar los patrones que revela la minería de
datos.
Validar modelos creando gráficos de elevación o analizando la curva de ganancia
de los modelos. Comparar modelos utilizando matrices de clasificación, o validar
un conjunto de datos y sus modelos utilizando la validación cruzada.
Crear predicciones y consultas de contenido en los modelos de minería de datos
existentes. Compilar consultas únicas, o configurar consultas para generar
predicciones para tablas de datos externos completas.
Management Studio también contiene editores de consultas que puede utilizar para
diseñar y ejecutar consultas de extensiones de minería de datos (DMX) o trabajar con
objetos de minería de datos utilizando XMLA.
7
Usar valores de probabilidad generados por el modelo para ponderar las
puntuaciones de la minería de texto u otras tareas de clasificación.
Generar automáticamente predicciones basadas en datos anteriores y utilizar esos
valores para evaluar la validez de nuevos datos.
Usar la regresión logística para segmentar los clientes de entrada por riesgo.
Minería de Textos
La Minería de Textos [Text Mining] surge ante el problema cada vez más
apremiante de extraer información automáticamente a partir de masas de textos.
Se trata así de extraer información de datos no estructurados: texto plano.
“Bag of Words”:
Cada palabra constituye una posición de un vector y el valor corresponde con el
número de veces que ha aparecido.
N-gramas o frases:
Permite tener en cuenta el orden de las palabras. Trata mejor frases negativas “...
excepto...”, “... pero no....”, que tomarían en otro caso las palabras que le siguen
como relevantes.
Representación relacional (primer orden):
8
Permite detectar patrones más complejos (si la palabra X está a la izquierda de la
palabra Y en la misma frase...).
Categorías de conceptos.
Casi todos se enfrentan con el “vocabulary problem” [FUR87]: Tienen problemas con la
sinonimia, la polisemia, los lemas, etc. Un ejemplo de aplicación basada en Minería de
Textos es la generación automática de índices en documentos. Otras más complicadas
consistirían en escanear completamente un texto y mostrar un mapa en el que las partes
más relacionadas, o los documentos más relacionados se coloquen cerca unos de otros.
En este caso se trataría de analizar las palabras en el contexto en que se encuentren.