Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Este tutorial le enseñará a crear diferentes tipos de modelos de minería de datos y a trabajar
con ellos.
Clústeres de Microsoft
El diseño de una aplicación de Business Intelligence en SQL Server comienza por la creación
en Business Intelligence Development Studio de un proyecto de SQL Server Analysis Services
(SSAS) basado en una plantilla de proyecto de Analysis Services. Después de crear un
proyecto de Analysis Services, tiene que definir uno o varios orígenes de datos. A continuación,
definirá una sola vista unificada de los metadatos denominada vista de origen de datos, a
partir de las tablas y vistas seleccionadas en los orígenes de datos.
En esta lección, creará un proyecto de Analysis Services, definirá un solo origen de datos y
agregará un subconjunto de tablas a una vista de origen de datos.
Cada proyecto de Microsoft SQL Server Analysis Services (SSAS) define el esquema para los
objetos de una base de datos de Analysis Services individual. La base de datos de Analysis
Services está definida por los modelos de minería de datos, los cubos OLAP y los objetos
complementarios que contiene
3. Haga clic en Nuevo para agregar una conexión a la base de datos AdventureWorks.
Una vista de origen de datos ofrece una abstracción del origen de datos. Esto le permite
modificar la estructura de los datos para que sean más significativos en el contexto del
proyecto. Mediante el uso de vistas de origen de datos, puede seleccionar las tablas
relacionadas con un proyecto concreto, establecer relaciones entre ellas e incorporar columnas
calculadas y vistas con nombre sin modificar el origen de datos original.
2. En la página de inicio del Asistente para vistas de origen de datos, haga clic en
Siguiente.
Si desea crear un nuevo origen de datos, haga clic en Nuevo origen de datos para
iniciar el Asistente para orígenes de datos.
4. En la página Seleccionar tablas y vistas, seleccione las tablas siguientes y, a
continuación, haga clic en la flecha derecha para incluirlas en la nueva vista de origen de
datos:
dbo.ProspectiveBuyer
dbo.vAssocSeqLineItems
dbo.vAssocSeqOrders
dbo.vTargetMail
dbo.vTimeSeries
Puede utilizar el Diseñador de vistas de origen de datos para cambiar la forma de ver los datos
en un origen de datos. Así, por ejemplo, puede cambiar el nombre de cualquier objeto por uno
que sea más significativo para el proyecto. El nombre del objeto no se modifica en el origen de
datos original, pero puede referirse al objeto dentro del proyecto utilizando este nombre más
descriptivo.
Para crear una cesta de mercado y escenarios de clústeres de secuencia, tiene que crear una
nueva relación de varios a uno entre las tablas vAssocSeqOrders y vAssocSeqLineItems.
Mediante esta relación, puede convertir vAssocSeqLineItems en una tabla anidada de
vAssocSeqOrders para crear modelos.
Ahora existirá una nueva relación de varios a uno entre las tablas vAssocSeqOrders y
vAssocSeqLineItems.
La base de datos de la empresa, Adventure Works DW, contiene una lista de clientes antiguos
y una lista de clientes nuevos potenciales.
En esta lección, creará un escenario de correo directo. Después de realizar las tareas de esta
lección, contará con los datos siguientes:
Un conjunto de modelos de minería de datos que sugerirá los clientes que tienen una
mayor probabilidad de serlo entre una lista de clientes potenciales.
Para realizar las tareas de esta lección, utilizará el Algoritmo Bayes naive de Microsoft, el
Algoritmo de árboles de decisión de Microsoft y el Algoritmo de clústeres de Microsoft.
Crear una estructura del modelo de minería de datos Targeted Mailing (tutorial de
minería de datos)
Crear una estructura del modelo de minería de datos Targeted Mailing (tutorial de
minería de datos)
El primer paso para crear un escenario de correo directo (Targeted Mailing) consiste en utilizar
el Asistente para minería de datos de Business Intelligence Development Studio con el fin de
crear una estructura de minería de datos y un modelo de minería de datos de árbol de
decisión.
2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.
3. En la página Seleccionar el método de definición, compruebe que la opción A partir
de una base de datos relacional o un almacén de datos se ha seleccionado y, a
continuación, haga clic en Siguiente.
En este tutorial, creará varios modelos basados en esta estructura inicial de minería de
datos. El primer modelo se creará junto con la estructura una vez que el asistente
finalice y se basará en el algoritmo de árboles de decisión de Microsoft.
Si la tabla de origen de la vista de origen de datos muestra una clave, el Asistente para
minería de datos elegirá automáticamente esa columna como clave para el modelo.
Al indicar que una columna es de predicción, se habilita el botón Sugerir. Si hace clic en
Sugerir, se abrirá el cuadro de diálogo Sugerir columnas relacionadas, que enumera
las columnas que están más ligadas a la columna de predicción.
11. Active las casillas de verificación Entrada que hay junto a las columnas siguientes:
Age
CommuteDistance
EnglishEducation
EnglishOccupation
FirstName
Gender
GeographyKey
HouseOwnerFlag
LastName
MaritalStatus
NumberCarsOwned
NumberChildrenAtHome
Region
TotalChildren
YearlyIncome
13. En la página Especificar el contenido y el tipo de datos de las columnas, haga clic
en Detectar.
14. Después de hacer clic en Detectar, compruebe que las entradas de las columnas Tipo
de contenido y Tipo de datos tengan la configuración especificada en la siguiente tabla.
La estructura de minería de datos que creó en la tarea anterior contiene un modelo de minería
de datos individual que se basa en el algoritmo de árboles de decisión de Microsoft. En esta
tarea, definirá dos modelos adicionales mediante la ficha Modelos de minería de datos del
Diseñador de minería de datos. En esta tarea, definirá un modelo Naive Bayes y un modelo
Clustering.
Observe que el diseñador muestra dos columnas: una para la estructura de minería de
datos y otra para el modelo de minería de datos inicial, que creó en la tarea anterior de
esta lección.
2. Haga clic con el botón secundario en la columna Estructura y seleccione Nuevo
modelo de minería de datos.
Aparece un modelo nuevo en la ficha Modelos de minería de datos del Diseñador de minería
de datos. Un modelo creado con el algoritmo de clústeres de Microsoft puede agrupar en
clúster y predecir atributos continuos y discretos. Aunque puede modificar el uso y las
propiedades de la columna para el modelo nuevo, en este tutorial no es necesario hacer
cambios en el modelo TM_Clustering.
1. En la ficha Modelos de minería de datos del Diseñador de minería de datos, haga clic
con el botón secundario en la columna Estructura y seleccione Nuevo modelo de
minería de datos.
Aparece un mensaje indicando que el algoritmo Bayes naive de Microsoft no admite las
columnas Age, Geography Key y Yearly Income, que son continuas. Para trabajar con
estas columnas en el modelo Bayes naive, debe discretizarlas. En este tutorial, se
omitirán las columnas.
Aparece un modelo nuevo en la ficha Modelos de minería de datos. Aunque puede modificar
el uso y las propiedades de la columna para todos los modelos de la ficha, en este tutorial, no
es necesario hacer cambios en el modelo TM_NaiveBayes.
1. Presione F5.
Se abre el cuadro de diálogo Progreso del proceso para mostrar información acerca del
procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo,
dependiendo del equipo.
3. Una vez que el procesamiento se haya completado, haga clic en Cerrar en los cuadros
de diálogo Progreso del proceso y Procesar estructura de minería de datos:
<Targeted Mailing>.
Una vez que se procesen los modelos de su proyecto, podrá verlos utilizando la ficha Visor de
modelos de minería de datos del Diseñador de minería de datos. Puede utilizar la lista
Modelos de minería de datos, ubicada en la parte superior de la ficha, para examinar los
modelos individuales en la estructura de minería de datos.
Las secciones siguientes describen cómo explorar los modelos de minería de datos en los
visores.
Árbol de decisión
En la ficha Árbol de decisión, puede examinar los tres modelos de árbol que componen un
modelo de minería de datos. Dado que el modelo de correo directo incluido en este proyecto
de tutorial contiene un único atributo de predicción (Bike Buyer), sólo hay un árbol para ver. Si
hubiera más árboles, podría utilizar el cuadro Árbol para elegir uno diferente.
De manera predeterminada, el Visor de árboles de Microsoft sólo muestra los primeros tres
niveles del árbol. Si el árbol contiene menos de tres niveles, el visor mostrará sólo los niveles
existentes. Puede ver más niveles utilizando el control deslizante Mostrar nivel o la lista
Expansión predeterminada.
La condición necesaria para alcanzar el nodo desde el nodo anterior. Puede ver la ruta
completa del nodo en la Leyenda de minería de datos o deteniendo el puntero sobre un
nodo para ver un recuadro informativo.
Red de dependencias
La ficha Red de dependencias muestra las relaciones entre los atributos que contribuyen a la
capacidad de predicción del modelo de minería de datos.
El nodo central para la red de dependencia, Bike Buyer, representa el atributo de predicción
del modelo de minería de datos. Cada nodo adyacente representa un atributo que afecta al
resultado del atributo de predicción. Puede utilizar el control deslizante situado en la parte
izquierda de la ficha para controlar la intensidad de los vínculos que se muestran. Si desplaza
el control deslizante hacia abajo, sólo se mostrarán los vínculos de mayor intensidad.
La ficha Diagrama del clúster permite explorar las relaciones entre los clústeres detectados
por el algoritmo. Las líneas entre los clústeres representan la "proximidad" y aparecen
sombreadas en función de la similitud entre los clústeres. El color de cada clúster representa la
frecuencia de la variable y el estado del clúster. Puede seleccionar la variable y el estado en los
cuadros Variable de sombreado y Estado de la parte superior del nodo. La variable
predeterminada es Llenado, pero puede cambiarla a cualquier atributo del modelo con el fin de
determinar los clústeres que contienen miembros con los atributos que desea. Si utiliza el
control deslizante situado en la parte izquierda de la red, puede filtrar los vínculos de menor
intensidad y encontrar los clústeres con las relaciones más próximas.
La ficha Perfiles del clúster proporciona una vista global del modelo TM_Clustering. Como
podrá ver en el visor, la ficha Perfiles del clúster contiene una columna por cada clúster del
modelo. La primera columna enumera los atributos asociados a un clúster como mínimo. El
resto del visor contiene la distribución de estados de un atributo por cada clúster. La
distribución de una variable discreta se muestra como una barra coloreada y el número
máximo de barras aparece en la lista Barras de histograma. Los atributos continuos se
muestran con un diagrama de rombo, que representa la desviación media y estándar en cada
clúster.
La ficha Características del clúster le permite examinar con más detalle las características
que forman un clúster. Por ejemplo, si utiliza la lista Clúster para mostrar el clúster 5 en el
escenario de este tutorial, podrá ver que las personas de este clúster, que son clientes que han
comprado una bicicleta en el pasado, tienden a compartir las mismas características: viajan
todos los días entre 0 y 1 millas, no tienen coche y están casados.
La ficha Distinción del clúster le permite explorar las características que diferencian a un
clúster de otro. Después de seleccionar dos clústeres de los cuadros Clúster 1 y Clúster 2, el
visor determinará las diferencias entre los clústeres y las mostrará según el orden de los
atributos que más distinguen a los clústeres.
Por ejemplo, compare el clúster 5 y el clúster 7 del modelo TM_Clustering. El clúster 5 contiene
la mayor densidad de compradores de bicicleta y el clúster 7 contiene la menor densidad. Las
personas del clúster 7 son normalmente de Norteamérica y son más jóvenes, entre 23 y 31
años, mientras que las personas del clúster 5 suelen ser de Europa y recorren una distancia
menor, entre 0 y 1 millas.
Red de dependencias
La ficha Red de dependencias funciona igual que la ficha del mismo nombre del Visor de
árboles de Microsoft. Cada nodo del visor representa un atributo y las líneas entre los nodos
representan relaciones. En el visor, puede ver todos los atributos que afectan al estado del
atributo de predicción, Bike Buyer.
A medida que baje el control deslizante, sólo permanecerán aquellos atributos que afecten en
mayor medida a la columna Bike Buyer. Al ajustar el control deslizante, puede ver que el
número de coches en propiedad es el factor que más determina si alguien es un comprador de
bicicleta.
La ficha Perfiles del atributo describe la forma en que los diferentes estados de los atributos
de entrada afectan al resultado del atributo de predicción.
Mediante la ficha Características del atributo, puede seleccionar un atributo y un valor para
ver la frecuencia con la que aparecen los valores de otros atributos en el caso de los valores
seleccionados.
En la lista Atributo, compruebe que Bike Buyer se haya seleccionado, y en la lista Valor,
seleccione 1. En el visor, podrá ver que las personas que viajan todos los días entre 0 y 1
millas para trabajar y que viven en Norteamérica son los que compran más bicicletas.
La ficha Distinción del atributo le permite examinar las relaciones entre dos valores
discretos del atributo de predicción seleccionado y otros valores del atributo. Dado que el
modelo TM_NaiveBayes sólo tiene dos estados, 1 y 0, no tiene que hacer ningún cambio en el
visor.
En el visor, podrá ver que las personas que no tienen un coche tienden a comprar bicicletas y
las personas que tienen dos coches no suelen comprar bicicletas.
Después de crear, procesar y explorar los modelos de minería de datos para el escenario de
correo directo, puede probar los modelos para determinar la precisión de las predicciones y
decidir si un modelo es mejor que otro.
Una vez que haya probado la precisión de los modelos de minería de datos y esté satisfecho
con los resultados, puede crear consultas de predicción de Extensiones de minería de datos
(DMX) por medio del Generador de consultas de predicción en la ficha Predicción de modelo
de minería de datos del Diseñador de minería de datos. El Generador de consultas de
predicción es similar al Generador de consultas de Access; ofrece operaciones de arrastrar y
colocar para crear las consultas. El Generador de consultas de predicción contiene las vistas
siguientes:
Diseño
Consulta
Resultado
Mediante las vistas Diseño y Consulta, puede crear y examinar una consulta. A continuación,
puede ejecutar la consulta y ver los resultados en la vista Resultado.
Crear la consulta
El primer paso para crear una consulta de predicción consiste en seleccionar una modelo de
minería de datos y una tabla de entrada.
Como analista de ventas de Adventure Works, se le ha solicitado una previsión de las ventas
de modelos individuales de bicicletas para el próximo año. En concreto, debe obtener los picos
en las ventas de bicicletas y determinar qué regiones lideran las ventas y cuáles van por
detrás. Además, debe determinar si las ventas de diferentes modelos varían en función de la
época del año.
Para hallar la información solicitada, en esta lección examinará los datos mensuales de la
empresa y dividirá las ventas en tres regiones: Europa, Norteamérica y el Pacífico.
Una vez que haya completado las tareas de esta lección, podrá responder a las preguntas
siguientes:
¿Cómo interactúan las ventas de los diferentes modelos de bicicleta a lo largo del año?
Para realizar las tareas de esta lección, utilizará el Algoritmo de serie temporal de Microsoft.
Crear una estructura del modelo de minería de datos Forecasting (tutorial de minería de
datos)
Ejemplo
El equipo de dirección de la empresa Adventure Works Cycle desea predecir las ventas
mensuales de bicicletas para el próximo año. La organización está especialmente interesada en
saber si las ventas de distintos modelos de bicicletas están relacionadas entre ellas, es decir, si
la venta de un modelo de bicicleta se puede utilizar para predecir la venta de otro modelo. Al
utilizar el algoritmo de serie temporal de Microsoft en los datos históricos de los últimos tres
años, la empresa puede crear un modelo de minería de datos que prevea la venta futura de
bicicletas. Además, la organización puede llevar a cabo predicciones cruzadas para ver si las
tendencias de venta de modelos individuales de bicicleta están relacionadas.
Puede definir los datos de entrada para el modelo de serie temporal de Microsoft de dos formas.
Para comprender el primer método, observe la siguiente tabla de escenarios de entrada:
La columna TimeID de la tabla contiene un identificador de tiempo e incluye dos entradas para
cada día. La columna Product define un producto de la base de datos. La columna Sales
describe los beneficios brutos del producto especificado para un día y la columna Volume
describe la cantidad del producto especificado que permanece en el almacén. En este caso, el
modelo contendría dos columnas de predicción: Sales y Volume.
Opcionalmente, los datos de entrada del modelo de serie temporal podrían defin irse como se
indica en esta tabla:
En esta tabla, las columnas Sales y Volume se dividen en dos columnas cada una, precedidas
por el nombre del producto. Como resultado, sólo existe una única entrada para cada día en la
columna TimeID. El modelo contendría cuatro columnas de predicción: A_Sales, A_Volume,
B_Sales y B_Volume.
Si bien ambos métodos para definir los datos de entrada provocan que se muestre la misma
información en el modelo, el formato de los escenarios de entrada cambia la forma en que se
define el modelo de minería de datos.
Usar el algoritmo
Un algoritmo de serie temporal requiere que la columna o columnas que se van a predecir
sean continuas. Sólo se permite una serie de escenarios para cada modelo.
Lag PredictTimeSeries
PredictNodeId PredictVariance
PredictStdev
Parámetro Descripción
Especifica el número mínimo de segmentos de tiempo
necesarios para generar una división en cada árbol de serie
MINIMUM_SUPPORT temporal.
Nota:
La sugerencia de periodicidad es muy sensible a la calidad del modelo. Si la sugerencia que
se proporciona es distinta de la periodicidad real, los resultados pueden verse afectados
negativamente.
Crear una estructura del modelo de minería de datos Forecasting (tutorial de minería
de datos)
El primer paso para crear modelos de minería de datos para un escenario de previsión de
ventas consiste en utilizar el Asistente para minería de datos y crear una estructura nueva de
minería de datos. En esta tarea, utilizará el asistente para crear una estructura de minería de
datos y el modelo inicial de minería de datos asociado. Ambos se basan en el algoritmo de
serie temporal de Microsoft.
2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.
2. Arrastre la columna Amount desde el panel Vista de origen de datos hasta la lista de
columnas de la estructura Forecasting.
La ficha Modelos de minería de datos enumera las columnas que la estructura de minería
de datos contiene en la columna Structure de la cuadrícula, así como las columnas que el
modelo contiene en una columna que tiene el nombre del modelo, en este caso Forecasting.
Haga clic en los nombres de las columnas o el nombre del modelo para hacer modificaciones.
Nota:
En la ficha Modelos de minería de datos, también puede crear modelos nuevos basados
en la misma estructura, además de ajustar el algoritmo y las propiedades de columna para
cada modelo. Debe procesar el modelo antes de que los cambios surtan efecto.
Aparecerá una lista que contiene las opciones Ignore, Input, Predict y PredictOnly.
2. Seleccione Predict.
En este tutorial, tendrá que ajustar el valor del parámetro PERIODICITY_HINT para el modelo
Forecasting. Este parámetro proporciona al algoritmo información sobre la frecuencia de
repetición de los datos. El patrón de datos de AdventureWorks DW se extrae mensualmente; la
periodicidad es anual. Por tanto, establezca el parámetro PERIODICITY_HINT en 12 para
indicar que un patrón se repite cada año.
Se abre el cuadro de diálogo Progreso del proceso para mostrar información acerca del
procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo,
dependiendo del equipo.
3. Una vez que el procesamiento se haya completado, haga clic en Cerrar en los cuadros
de diálogo Progreso del proceso y Procesar estructura de minería de datos:
Forecasting.
El algoritmo de serie temporal de Microsoft crea un modelo por cada serie diferente que exista
en el conjunto de datos. Por ejemplo, cada región del conjunto de datos incluye datos acerca
de las ventas relativas a un período de tiempo; por tanto, el algoritmo crea una serie temporal
independiente para cada región. Cada serie temporal incluye información sobre la cantidad de
ventas y el importe de ventas.
En esta tarea, explorará la serie temporal que describe las ventas en las regiones de Europa,
Norteamérica y el Pacífico.
1. En la lista Árbol de la ficha Árbol de decisión del visor, seleccione el modelo M200
Pacific: Amount.
Cada uno de los nodos de un árbol de decisión muestra tres extractos de información:
Un gráfico de rombo que representa el intervalo del atributo. El rombo está ubicado en
la media del nodo y el ancho del rombo representa la varianza del atributo en el nodo. Un
rombo más estrecho indica que el nodo puede crear una predicción de mayor calidad.
Ficha Gráficos
Mediante la ficha Gráficos del Visor de series temporales de Microsoft, puede examinar las
series temporales creadas por el algoritmo.
R750 Europe:Amount
R750 Pacific:Amount
La leyenda de la parte derecha del visor enumera las series seleccionadas en el cuadro de lista
desplegable e incluye una casilla de verificación para cada serie. Mediante la activación y
desactivación de las casillas de verificación de la leyenda, puede controlar las series
temporales que aparecen en el visor.
El gráfico muestra datos históricos y futuros. Los datos futuros aparecen sombreados para
diferenciarse de los históricos. Utilice la lista Pasos de predicción para controlar cuántos
pasos futuros de datos se mostrarán. Utilice la casilla de verificación Mostrar desviaciones
para agregar barras de error a las predicciones.
Como puede ver en el visor, las ventas totales de todas las regiones se incrementan
generalmente en diciembre, con un pico cada 12 meses. Las predicciones continúan esta
tendencia.
Lección 4: Crear el escenario de cesta de mercado
Antes de actualizar el sitio, necesitan crear un modelo de minería de datos que pueda predecir
los productos cuya adquisición podría interesar a los clientes, basándose en otros productos
que ya se encuentran en las cestas de la compra en línea de los clientes. Estas predicciones
también ayudarán al departamento de marketing a agrupar en el sitio Web aquellos artículos
que los clientes suelen comprar juntos.
Una vez que haya completado esta lección, obtendrá un modelo de minería de datos con el
que podrá predecir artículos adicionales que pueden aparecer en una cesta de la compra o que
un cliente podría querer agregar a la cesta de la compra. Asimismo, contará con un completo
modelo de minería de datos que muestra grupos de artículos de transacciones históricas del
cliente.
En esta lección, creará un escenario de cesta de mercado. Para realizar las tareas de esta
lección, utilizará el Algoritmo de asociación de Microsoft.
Crear una estructura del modelo de minería de datos Market Basket (tutorial de minería
de datos)
Crear una estructura del modelo de minería de datos Market Basket (tutorial de
minería de datos)
El primer paso para crear un escenario de cesta de mercado consiste en utilizar el Asistente
para minería de datos con el fin de crear una estructura nueva de minería de datos. En esta
tarea, utilizará el asistente para crear una estructura de minería de datos y el modelo inicial de
minería de datos asociado. Ambos se basan en el algoritmo de asociación de Microsoft.
2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.
3. En la página Seleccionar el método de definición, compruebe que la opción A partir
de una base de datos relacional o un almacén de datos se ha seleccionado y, a
continuación, haga clic en Siguiente.
10. En la página Especificar el contenido y el tipo de datos de las columnas, haga clic
en Siguiente.
Antes de procesar el modelo de minería de datos inicial que creó junto con la estructura de
minería de datos Association en la tarea anterior, debe cambiar los valores predeterminados
de dos de los parámetros: Support y Probability. Support define el porcentaje de escenarios en
los que una regla debe existir antes de que se considere válida. Probability define la
probabilidad de que una asociación se considere válida.
MINIMUM_PROBABILITY = 0.1
MINIMUM_SUPPORT = 0.01
También puede utilizar el cuadro Filtrar conjunto de elementos para filtrar conjuntos de
elementos mostrados en el visor. Por ejemplo, para ver sólo los conjuntos de elementos que
contienen información acerca de la bicicleta Mountain-200, escriba Mountain-200 en Filtrar
conjunto de elementos. Como podrá ver en el visor, sólo se muestran los conjuntos de
elementos que contienen la palabra "Mountain-200". Todos los conjuntos de elementos que
muestra el visor contienen información sobre las transacciones en las que se vendió una
bicicleta Mountain-200. Por ejemplo, el conjunto de elementos que contiene el valor 710 en la
columna Soporte indica que, de todas las transacciones, 710 personas que compraron la
bicicleta Mountain-200 también compraron el modelo Sport-100.
Ficha Reglas
La ficha Reglas muestra la siguiente información relacionada con las reglas que el algoritmo
encuentra.
Probabilidad
Importancia
Mide la utilidad de una regla; un valor elevado significa que la regla es mejor. Guiarse sólo
por la probabilidad puede conducir a error. Por ejemplo, si todas las transacciones
contienen un elemento x, la regla y predice que x tiene una probabilidad de 1, lo que
quiere decir que x siempre ocurrirá. Aunque la precisión de la regla es muy buena, no
transmite mucha información porque cada transacción contiene x con independencia de y.
Regla
Definición de la regla.
Al igual que con la ficha Conjuntos de datos, puede filtrar las reglas para mostrar sólo las
más interesantes. Por ejemplo, si desea ver sólo las reglas que incluyen la bicicleta Mountain-
200, escriba Mountain-200 en el cuadro Regla del filtro. A continuación, el visor mostrará
sólo las reglas que contengan la palabra "Mountain-200". Cada regla puede utilizarse para
predecir la presencia de un elemento de una transacción en función de la presencia de otros
elementos. Por ejemplo, la primera regla le dice que cuando alguien compra una bicicleta
Mountain-200 y una botella de agua, hay una probabilidad de 1 de que esta persona compre
también un soporte para botellas Mountain.
El control deslizante está asociado con la probabilidad de una regla. Muévalo arriba o abajo
para filtrar las asociaciones débiles. Por ejemplo, en el cuadro Mostrar, seleccione Mostrar
sólo el nombre del atributo y, a continuación, haga clic en el nodo Mountain Bottle Cage.
El visor muestra que el soporte para botellas Mountain (Mountain Bottle Cage) predice y, a su
vez, es predicho por la botella de agua y la bicicleta Mountain-200. Esto significa que estos
elementos aparecerán probablemente juntos en una transacción. En otras palabras, si un
cliente compra una bicicleta, es probable que también compre una botella de agua
Lección 5: Crear el escenario de clústeres de secuencia
El departamento de marketing de Adventure Works desea saber cómo se mueven los clientes
por el sitio Web de Adventure Works. La empresa cree que existe un patrón según el cual los
clientes incluyen productos en las cestas de la compra. El algoritmo de clústeres de secuencia
de Microsoft permite determinar las secuencias que los clientes siguen para agregar artículos a
las cestas. Posteriormente, esta información se puede utilizar para mejorar el flujo del sitio
Web y propiciar que los clientes adquieran productos adicionales.
Cuando complete las tareas de esta lección, obtendrá un modelo de minería de datos que le
permitirá predecir cuál será el siguiente artículo que los clientes incluirán en sus cestas de la
compra.
En esta lección, creará un escenario de clústeres de secuencia. Para realizar las tareas de esta
lección, utilizará el Algoritmo de clústeres de secuencia de Microsoft.
Crear una estructura del modelo de minería de datos Sequence Clustering (tutorial de
minería de datos)
Crear una estructura del modelo de minería de datos Sequence Clustering (tutorial
de minería de datos)
2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.
Se abre el cuadro de diálogo Progreso del proceso para mostrar información acerca del
procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo,
dependiendo del equipo.
3. Una vez que el procesamiento se haya completado, haga clic en Cerrar en los cuadros
de diálogo Progreso del proceso y Procesar estructura de minería de datos:
Sequence Clustering.
Una vez creado el modelo Sequence Clustering, puede explorarlo con el visor de clústeres de
secuencia de Microsoft, que se encuentra en la ficha Visor de modelos de minería de datos
del Diseñador de minería de datos. El Visor de clústeres de secuencia de Microsoft contiene
cinco fichas: Diagrama del clúster, Perfiles del clúster, Características del clúster,
Distinción del clúster y Transiciones de estado.
Ficha Diagrama del clúster
La ficha Diagrama del clúster muestra gráficamente los clústeres que el algoritmo detectó en
la base de datos. El diseño del diagrama, en donde clústeres similares se agrupan juntos,
representa las relaciones entre los clústeres. De forma predeterminada, el sombreado del color
del nodo representa la densidad de todos los escenarios del clúster (cuanto más oscuro sea el
nodo, más escenarios contiene). Puede cambiar el significado del sombreado de los nodos para
que represente un atributo y un estado. Por ejemplo, seleccione Model en la lista Variable de
sombreado y Cycling Cap en la lista Estado. El diagrama de clúster muestra que el clúster 9
contiene la mayor densidad de gorras de ciclismo (cycling cap).
Por ejemplo, el color celeste del clúster 3 representa la bicicleta Mountain-200. Su presencia
como primer color en la mayoría de las secuencias indica que es muy probable que el cliente
incluya la bicicleta Mountain-200 en la cesta de la compra en primer lugar.
Por ejemplo, utilice la ficha Distinción del clúster, ubicada en el visor, para comparar el
clúster 2 y el clúster 5 seleccionando clúster 2 en Clúster 1 y clúster 5 en Clúster 2. Un
cliente que compra un soporte para botellas para una bicicleta de montaña, tal y como indica
Mountain Bottle Cage en la columna Valores, es más probable que esté incluido en el
clúster 5; un cliente que compra una llanta, tal y como indica Touring Tire en la columna
Valores, es más probable que esté incluido en el clúster 2.