Está en la página 1de 33

Aprendizaje Minería de Datos

Este tutorial le enseñará a crear diferentes tipos de modelos de minería de datos y a trabajar
con ellos.

El tutorial está compuesto por las lecciones siguientes:

Lección 1: Preparar la base de datos de Analysis Services


En esta lección, aprenderá a crear una nueva base de datos de Analysis Services,
agregar un origen de datos y una vista de origen de datos, y preparar la nueva base de
datos que se va a utilizar para la minería de datos.

Lección 2: Crear un escenario de correo directo


En esta lección, aprenderá a crear los modelos de minería de datos que se pueden
utilizar como parte de un escenario de correo directo. Asimismo, aprenderá a explorar y
comparar modelos de minería de datos y a crear predicciones a partir de los modelos
creados mediante los algoritmos siguientes:

 Árboles de decisión de Microsoft 

 Clústeres de Microsoft 

 Bayes naive de Microsoft 

Lección 3: Crear el escenario de previsión


En esta lección, aprenderá a crear modelos de minería de datos que se pueden utilizar
como parte de un escenario de previsión. Asimismo, aprenderá a explorar los modelos
de minería de datos creados mediante el algoritmo de serie temporal de Microsoft.

Lección 4: Crear el escenario de cesta de mercado


En esta lección, aprenderá a crear modelos de minería de datos que se pueden utilizar
como parte de un escenario de cesta de mercado. Asimismo, aprenderá a explorar los
modelos de minería de datos creados mediante el algoritmo de asociación de Microsoft.

Lección 5: Crear el escenario de clústeres de secuencia


En esta lección, aprenderá a crear modelos de minería de datos que se pueden utilizar
como parte de un escenario de clústeres de secuencia. Asimismo, aprenderá a explorar
los modelos de minería de datos creados mediante el algoritmo de clústeres de
secuencia de Microsoft.
Lección 1: Preparar la base de datos de Analysis Services

El diseño de una aplicación de Business Intelligence en SQL Server comienza por la creación
en Business Intelligence Development Studio de un proyecto de SQL Server Analysis Services
(SSAS) basado en una plantilla de proyecto de Analysis Services. Después de crear un
proyecto de Analysis Services, tiene que definir uno o varios orígenes de datos. A continuación,
definirá una sola vista unificada de los metadatos denominada vista de origen de datos, a
partir de las tablas y vistas seleccionadas en los orígenes de datos.

En esta lección, creará un proyecto de Analysis Services, definirá un solo origen de datos y
agregará un subconjunto de tablas a una vista de origen de datos.

Esta lección incluye los temas siguientes:

 Crear un proyecto de Analysis Services (tutorial de minería de datos)

 Crear un origen de datos (tutorial de minería de datos)

 Crear una vista de origen de datos (tutorial de minería de datos)

 Modificar una vista de origen de datos (tutorial de minería de datos)

Crear un proyecto de Analysis Services (tutorial de minería de datos)

Cada proyecto de Microsoft SQL Server Analysis Services (SSAS) define el esquema para los
objetos de una base de datos de Analysis Services individual. La base de datos de Analysis
Services está definida por los modelos de minería de datos, los cubos OLAP y los objetos
complementarios que contiene

Para crear un proyecto de Analysis Services

1. Abra Business Intelligence Development Studio.

2. En el menú Archivo, seleccione Nuevo y haga clic en Proyecto.

3. Compruebe que Proyecto de Analysis Services está seleccionado en el panel


Plantillas.

4. En el cuadro Nombre, asigne el nombre AdventureWorks al proyecto nuevo.

5. Haga clic en Aceptar.

Crear un origen de datos (tutorial de minería de datos)

Un origen de datos es una conexión de datos que se guarda y administra en el proyecto y se


implementa en la base de datos Microsoft SQL Server Analysis Services (SSAS). El origen de
datos contiene el nombre del servidor y la base de datos donde residen los datos del origen,
además de otras propiedades de conexión necesarias.

Para crear un origen de datos

1. En el Explorador de soluciones, haga clic con el botón secundario en la carpeta


Orígenes de datos y seleccione Nuevo origen de datos.

Se abrirá el Asistente para orígenes de datos.


2. En la página de inicio del Asistente para orígenes de datos, haga clic en Siguiente.

3. Haga clic en Nuevo para agregar una conexión a la base de datos AdventureWorks.

Se abrirá el cuadro de diálogo Administrador de conexión.

4. En la lista Proveedor del Administrador de conexión, seleccione OLE DB


nativo\Microsoft OLE DB Provider for SQL Server.

5. En la lista Nombre del servidor, seleccione el servidor en el que se aloja


AdventureWorksDW. Proporcione sus credenciales.

Por ejemplo, seleccione localhost si la base de datos se aloja en el servidor local.

6. En la lista Seleccione o introduzca un nombre de base de datos, seleccione


AdventureWorksDW y, a continuación, haga clic en Aceptar.

7. Haga clic en Siguiente para ir a la página siguiente del asistente.

8. En la página Información de suplantación, seleccione Predeterminado y, a


continuación, haga clic en Siguiente.

9. Observe que en la página Finalización del asistente, el origen de datos tendrá el


nombre Adventure Works DW de forma predeterminada.

10. Haga clic en Finalizar.

El nuevo origen de datos, Adventure Works DW, aparecerá en la carpeta Orígenes de


datos del Explorador de soluciones.

Crear una vista de origen de datos (tutorial de minería de datos)

Una vista de origen de datos ofrece una abstracción del origen de datos. Esto le permite
modificar la estructura de los datos para que sean más significativos en el contexto del
proyecto. Mediante el uso de vistas de origen de datos, puede seleccionar las tablas
relacionadas con un proyecto concreto, establecer relaciones entre ellas e incorporar columnas
calculadas y vistas con nombre sin modificar el origen de datos original.

Para crear una vista de origen de datos

1. En el Explorador de soluciones, haga clic con el botón secundario en Vistas de origen


de datos y seleccione Nueva vista de origen de datos.

Se abrirá el Asistente para vistas de origen de datos.

2. En la página de inicio del Asistente para vistas de origen de datos, haga clic en
Siguiente.

3. En la página Seleccionar un origen de datos, el origen de datos Adventure Works


DW que se creó en la última tarea aparecerá seleccionado de forma predeterminada en
Orígenes de datos relacionales. Haga clic en Siguiente.

Si desea crear un nuevo origen de datos, haga clic en Nuevo origen de datos para
iniciar el Asistente para orígenes de datos.
4. En la página Seleccionar tablas y vistas, seleccione las tablas siguientes y, a
continuación, haga clic en la flecha derecha para incluirlas en la nueva vista de origen de
datos:

 dbo.ProspectiveBuyer

 dbo.vAssocSeqLineItems

 dbo.vAssocSeqOrders

 dbo.vTargetMail

 dbo.vTimeSeries

5. Haga clic en Siguiente.

6. En la página Finalizando el asistente, la vista de origen de datos tendrá el nombre


Adventure Works DW de forma predeterminada. Haga clic en Finalizar.

Se abrirá el Diseñador de vistas de origen de datos para mostrar la vista de origen de


datos Adventure Works DW.

Modificar una vista de origen de datos (tutorial de minería de datos)

Puede utilizar el Diseñador de vistas de origen de datos para cambiar la forma de ver los datos
en un origen de datos. Así, por ejemplo, puede cambiar el nombre de cualquier objeto por uno
que sea más significativo para el proyecto. El nombre del objeto no se modifica en el origen de
datos original, pero puede referirse al objeto dentro del proyecto utilizando este nombre más
descriptivo.

Para crear una cesta de mercado y escenarios de clústeres de secuencia, tiene que crear una
nueva relación de varios a uno entre las tablas vAssocSeqOrders y vAssocSeqLineItems.
Mediante esta relación, puede convertir vAssocSeqLineItems en una tabla anidada de
vAssocSeqOrders para crear modelos.

Para crear una nueva relación entre tablas

1. En en el panel de la vista de origen de datos del Diseñador de vistas de origen de


datos, seleccione la columna OrderNumber de la tabla vAssocSeqLineItems.

2. Arrastre la columna hasta la tabla vAssocSeqOrders y colóquela en la columna


OrderNumber.

Ahora existirá una nueva relación de varios a uno entre las tablas vAssocSeqOrders y
vAssocSeqLineItems.

Lección 2: Crear un escenario de correo directo


El departamento de marketing de Adventure Works desea aumentar las ventas dirigiendo una
campaña de correo directo a clientes específicos. Mediante el análisis de los atributos de
clientes conocidos, la empresa espera determinar los patrones que posteriormente se aplicarán
a clientes potenciales. La empresa pretende utilizar los patrones hallados para predecir qué
clientes potenciales tienen más probabilidades de comprar un producto.

Además, el departamento de marketing desea encontrar las posibles agrupaciones lógicas de


clientes que se encuentran en la base de datos, como, por ejemplo, aquellos que siguen
pautas demográficas y de compra similares.

La base de datos de la empresa, Adventure Works DW, contiene una lista de clientes antiguos
y una lista de clientes nuevos potenciales.

En esta lección, creará un escenario de correo directo. Después de realizar las tareas de esta
lección, contará con los datos siguientes:

 Un conjunto de modelos de minería de datos que sugerirá los clientes que tienen una
mayor probabilidad de serlo entre una lista de clientes potenciales.

 Una agrupación de clientes actuales.

Para realizar las tareas de esta lección, utilizará el Algoritmo Bayes naive de Microsoft, el
Algoritmo de árboles de decisión de Microsoft y el Algoritmo de clústeres de Microsoft.

Esta lección incluye los temas siguientes:

 Crear una estructura del modelo de minería de datos Targeted Mailing (tutorial de
minería de datos)

 Modificar el modelo Targeted Mailing (tutorial de minería de datos)

 Explorar los modelos Targeted Mailing (tutorial de minería de datos)

 Comprobar la precisión de los modelos de minería de datos (tutorial de minería de


datos)

 Crear predicciones (tutorial de minería de datos)

Crear una estructura del modelo de minería de datos Targeted Mailing (tutorial de
minería de datos)

El primer paso para crear un escenario de correo directo (Targeted Mailing) consiste en utilizar
el Asistente para minería de datos de Business Intelligence Development Studio con el fin de
crear una estructura de minería de datos y un modelo de minería de datos de árbol de
decisión.

Para crear una estructura de minería de datos para un escenario de correo


directo

1. En el Explorador de soluciones, haga clic con el botón secundario en Estructuras de


minería de datos y seleccione Nueva estructura de minería de datos.

Se abrirá el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.
3. En la página Seleccionar el método de definición, compruebe que la opción A partir
de una base de datos relacional o un almacén de datos se ha seleccionado y, a
continuación, haga clic en Siguiente.

4. En la página Seleccionar la técnica de minería de datos, en ¿Qué técnica de


minería de datos desea utilizar?, seleccione Árboles de decisión de Microsoft.

En este tutorial, creará varios modelos basados en esta estructura inicial de minería de
datos. El primer modelo se creará junto con la estructura una vez que el asistente
finalice y se basará en el algoritmo de árboles de decisión de Microsoft.

5. Haga clic en Siguiente.

6. En la página Seleccionar vista de origen de datos, observe que Adventure Works


DW se ha seleccionado de forma predeterminada. Haga clic en Explorar para ver las
tablas de la vista de origen de datos y, a continuación, haga clic en Cerrar para volver al
asistente.

7. Haga clic en Siguiente.

8. En la página Especificar tipos de tablas, active la casilla de verificación de la columna


Escenario, situada junto a la tabla vTargetMail; a continuación, haga clic en
Siguiente.

9. En la página Especificar los datos de entrenamiento, compruebe que la casilla de


verificación de la columna Clave junto a la columna CustomerKey está activada.

Si la tabla de origen de la vista de origen de datos muestra una clave, el Asistente para
minería de datos elegirá automáticamente esa columna como clave para el modelo.

10. Active las casillas de verificación Entrada y De predicción, situadas junto a la


columna BikeBuyer.

Al indicar que una columna es de predicción, se habilita el botón Sugerir. Si hace clic en
Sugerir, se abrirá el cuadro de diálogo Sugerir columnas relacionadas, que enumera
las columnas que están más ligadas a la columna de predicción.

El cuadro de diálogo Sugerir columnas relacionadas ordena los atributos según la


relación que tengan con el atributo de predicción. Las columnas cuyo valor es mayor que
0,05 se seleccionan automáticamente para ser incluidas en el modelo. Si las sugerencias
le parecen bien, haga clic en Aceptar para que las columnas seleccionadas se marquen
como columnas de entrada en el asistente. Para este tutorial, omita las sugerencias
haciendo clic en Cancelar.

11. Active las casillas de verificación Entrada que hay junto a las columnas siguientes:

 Age

 CommuteDistance

 EnglishEducation

 EnglishOccupation

 FirstName
 Gender

 GeographyKey

 HouseOwnerFlag

 LastName

 MaritalStatus

 NumberCarsOwned

 NumberChildrenAtHome

 Region

 TotalChildren

 YearlyIncome

Puede seleccionar varias columnas si mantiene presionada la tecla MAYÚS.

12. Haga clic en Siguiente.

13. En la página Especificar el contenido y el tipo de datos de las columnas, haga clic
en Detectar.

Un algoritmo ejecutará los datos numéricos de los ejemplos y determinará si las


columnas numéricas contienen valores continuos o discretos. Por ejemplo, una columna
puede contener información salarial como valores de sueldo actuales, que son continuos,
o bien integrales que representan rangos de sueldo codificados, como 1 = < $25.000; 2
= de $25.000 a $50.000, que son discretos.

14. Después de hacer clic en Detectar, compruebe que las entradas de las columnas Tipo
de contenido y Tipo de datos tengan la configuración especificada en la siguiente tabla.

Columna Tipo de contenido Tipo de datos


Age Continuous Long

BikeBuyer Discrete Long

CommuteDistance Discrete Text

CustomerKey Key Long

EnglishEducation Discrete Text

EnglishOccupation Discrete Text

FirstName Discrete Text

Gender Discrete Text


GeographyKey Discrete Text

HouseOwnerFlag Discrete Text

LastName Discrete Text

MaritalStatus Discrete Text

NumberCarsOwned Discrete Long

NumberChildrenAtHome Discrete Long

Region Discrete Text

TotalChildren Discrete Long

YearlyIncome Continuous Double

15. Haga clic en Siguiente.

16. En la página Finalización del asistente, en Nombre de la estructura de minería


de datos, escriba Targeted Mailing.

17. En Nombre del modelo de minería de datos, escriba TM_Decision_Tree.

18. Active la casilla de verificación Permitir obtención de detalles.

19. Haga clic en Finalizar.

Modificar el modelo Targeted Mailing (tutorial de minería de datos)

La estructura de minería de datos que creó en la tarea anterior contiene un modelo de minería
de datos individual que se basa en el algoritmo de árboles de decisión de Microsoft. En esta
tarea, definirá dos modelos adicionales mediante la ficha Modelos de minería de datos del
Diseñador de minería de datos. En esta tarea, definirá un modelo Naive Bayes y un modelo
Clustering.

Diseñador de minería de datos, Administrar modelos de minería de datos en el Diseñador de


minería de datos, Algoritmo de clústeres de Microsoft, Algoritmo Bayes naive de Microsoft

Crear un modelo Microsoft Clustering


Para crear un modelo de minería de datos de clúster

1. Cambie a la ficha Modelos de minería de datos del Diseñador de minería de datos en


Business Intelligence Development Studio.

Observe que el diseñador muestra dos columnas: una para la estructura de minería de
datos y otra para el modelo de minería de datos inicial, que creó en la tarea anterior de
esta lección.
2. Haga clic con el botón secundario en la columna Estructura y seleccione Nuevo
modelo de minería de datos.

Se abrirá el cuadro de diálogo Nuevo modelo de minería de datos.

3. En Nombre del modelo, escriba TM_Clustering.

4. En Nombre del algoritmo, seleccione Clústeres de Microsoft.

5. Haga clic en Aceptar.

Aparece un modelo nuevo en la ficha Modelos de minería de datos del Diseñador de minería
de datos. Un modelo creado con el algoritmo de clústeres de Microsoft puede agrupar en
clúster y predecir atributos continuos y discretos. Aunque puede modificar el uso y las
propiedades de la columna para el modelo nuevo, en este tutorial no es necesario hacer
cambios en el modelo TM_Clustering.

Crear un modelo Microsoft Naive Bayes


Para crear un modelo Bayes naive

1. En la ficha Modelos de minería de datos del Diseñador de minería de datos, haga clic
con el botón secundario en la columna Estructura y seleccione Nuevo modelo de
minería de datos.

Se abrirá el cuadro de diálogo Nuevo modelo de minería de datos.

2. En Nombre del modelo, escriba TM_NaiveBayes.

3. En Nombre del algoritmo, seleccione Bayes naive de Microsoft. Haga clic en


Aceptar.

Aparece un mensaje indicando que el algoritmo Bayes naive de Microsoft no admite las
columnas Age, Geography Key y Yearly Income, que son continuas. Para trabajar con
estas columnas en el modelo Bayes naive, debe discretizarlas. En este tutorial, se
omitirán las columnas.

4. Haga clic en Sí para confirmar el mensaje y continuar.

Aparece un modelo nuevo en la ficha Modelos de minería de datos. Aunque puede modificar
el uso y las propiedades de la columna para todos los modelos de la ficha, en este tutorial, no
es necesario hacer cambios en el modelo TM_NaiveBayes.

Procesar los modelos de minería de datos


Ahora que la estructura y los parámetros para los modelos de minería de datos se han
completado, puede implementar y procesar los modelos.

Para implementar el proyecto y procesar los modelos de minería de datos

1. Presione F5.

La base de datos Analysis Services se implementa en el equipo servidor y los modelos de


minería de datos se procesan.
Si la base de datos ya se ha implementado en el equipo servidor, puede procesar sólo los
modelos de minería de datos mediante el proceso siguiente.

Para procesar los modelos de minería de datos cuando el proyecto ya se ha


implementado

1. En el menú Modelo de minería de datos de BI Development Studio, haga clic en


Procesar estructura de minería de datos y todos los modelos.

Se abre el cuadro de diálogo Procesar estructura de minería de datos: <Targeted


Mailing>.

2. Haga clic en Ejecutar.

Se abre el cuadro de diálogo Progreso del proceso para mostrar información acerca del
procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo,
dependiendo del equipo.

3. Una vez que el procesamiento se haya completado, haga clic en Cerrar en los cuadros
de diálogo Progreso del proceso y Procesar estructura de minería de datos:
<Targeted Mailing>.

Explorar los modelos Targeted Mailing (tutorial de minería de datos)

Una vez que se procesen los modelos de su proyecto, podrá verlos utilizando la ficha Visor de
modelos de minería de datos del Diseñador de minería de datos. Puede utilizar la lista
Modelos de minería de datos, ubicada en la parte superior de la ficha, para examinar los
modelos individuales en la estructura de minería de datos.

Las secciones siguientes describen cómo explorar los modelos de minería de datos en los
visores.

 Modelo Microsoft Decision Tree

 Modelo Microsoft Clustering

 Modelo Microsoft Naive Bayes

Modelo Microsoft Decision Tree


Cuando cambie a la ficha Visor de modelos de minería de datos en el Diseñador de minería
de datos para el proyecto del tutorial Adventure Works DM, el diseñador se abre con el modelo
de minería de datos de correo directo (Targeted Mailing), que es el primero de la estructura.
Cada algoritmo utilizado para crear un modelo en Analysis Services aporta diferentes
resultados. Por tanto, Analysis Services ofrece un visor independiente para cada algoritmo.
Cuando se examina un modelo de minería de datos, el modelo se muestra en la ficha Visor de
modelos de minería de datos utilizando el visor apropiado para el modelo. En este caso,
para el modelo de árbol de decisión, se utiliza el Visor de árboles de Microsoft. Este visor
contiene dos fichas: Árbol de decisión y Red de dependencias.

Árbol de decisión

En la ficha Árbol de decisión, puede examinar los tres modelos de árbol que componen un
modelo de minería de datos. Dado que el modelo de correo directo incluido en este proyecto
de tutorial contiene un único atributo de predicción (Bike Buyer), sólo hay un árbol para ver. Si
hubiera más árboles, podría utilizar el cuadro Árbol para elegir uno diferente.

De manera predeterminada, el Visor de árboles de Microsoft sólo muestra los primeros tres
niveles del árbol. Si el árbol contiene menos de tres niveles, el visor mostrará sólo los niveles
existentes. Puede ver más niveles utilizando el control deslizante Mostrar nivel o la lista
Expansión predeterminada.

Para modificar el árbol

1. Deslice Mostrar nivel hasta 5.

2. Cambie la lista Fondo a 1.

Al cambiar la configuración de Fondo, podrá ver rápidamente el número de escenarios


para Bike Buyer que son igual a 1 y que existen en cada nodo. Cuanto más oscuro sea el
sombreado del nodo, más escenarios incluirá.

Cada nodo del árbol de decisión muestra la siguiente información:

 La condición necesaria para alcanzar el nodo desde el nodo anterior. Puede ver la ruta
completa del nodo en la Leyenda de minería de datos o deteniendo el puntero sobre un
nodo para ver un recuadro informativo.

 Un histograma que describe la distribución de estados de la columna de predicción por


orden de popularidad. Puede decidir cuántos estados aparecerán en el histograma
mediante el control Histogramas.

 La concentración de escenarios, si el estado del atributo de predicción se ha


especificado en el control Fondo.

Red de dependencias

La ficha Red de dependencias muestra las relaciones entre los atributos que contribuyen a la
capacidad de predicción del modelo de minería de datos.

El nodo central para la red de dependencia, Bike Buyer, representa el atributo de predicción
del modelo de minería de datos. Cada nodo adyacente representa un atributo que afecta al
resultado del atributo de predicción. Puede utilizar el control deslizante situado en la parte
izquierda de la ficha para controlar la intensidad de los vínculos que se muestran. Si desplaza
el control deslizante hacia abajo, sólo se mostrarán los vínculos de mayor intensidad.

Haga clic en un nodo de la red y, a continuación, consulte la leyenda de color situada en la


parte inferior de la ficha para ver cuáles son los nodos predichos por el nodo seleccionado o los
nodos que predicen al nodo seleccionado.

Modelo Microsoft Clustering


Utilice la lista Modelo de minería de datos de la parte superior de la ficha Visor de
modelos de minería de datos para cambiar al modelo TM_Clustering. El visor de este
modelo, el Visor de clústeres de Microsoft, contiene cuatro fichas: Diagrama del clúster,
Perfiles del clúster, Características del clúster y Distinción del clúster. De forma
predeterminada, el visor muestra la ficha Diagrama del clúster cuando se abre por primera
vez.
Diagrama del clúster

La ficha Diagrama del clúster permite explorar las relaciones entre los clústeres detectados
por el algoritmo. Las líneas entre los clústeres representan la "proximidad" y aparecen
sombreadas en función de la similitud entre los clústeres. El color de cada clúster representa la
frecuencia de la variable y el estado del clúster. Puede seleccionar la variable y el estado en los
cuadros Variable de sombreado y Estado de la parte superior del nodo. La variable
predeterminada es Llenado, pero puede cambiarla a cualquier atributo del modelo con el fin de
determinar los clústeres que contienen miembros con los atributos que desea. Si utiliza el
control deslizante situado en la parte izquierda de la red, puede filtrar los vínculos de menor
intensidad y encontrar los clústeres con las relaciones más próximas.

Por ejemplo, establezca Variable de sombreado en Bike Buyer y Estado en 1. Observará


que el clúster 5 es el que contiene la mayor densidad de compradores de bicicleta (Bike Buyer)
y que la relación más fuerte existe entre el clúster 4 y el clúster 7.

Perfiles del clúster

La ficha Perfiles del clúster proporciona una vista global del modelo TM_Clustering. Como
podrá ver en el visor, la ficha Perfiles del clúster contiene una columna por cada clúster del
modelo. La primera columna enumera los atributos asociados a un clúster como mínimo. El
resto del visor contiene la distribución de estados de un atributo por cada clúster. La
distribución de una variable discreta se muestra como una barra coloreada y el número
máximo de barras aparece en la lista Barras de histograma. Los atributos continuos se
muestran con un diagrama de rombo, que representa la desviación media y estándar en cada
clúster.

Características del clúster

La ficha Características del clúster le permite examinar con más detalle las características
que forman un clúster. Por ejemplo, si utiliza la lista Clúster para mostrar el clúster 5 en el
escenario de este tutorial, podrá ver que las personas de este clúster, que son clientes que han
comprado una bicicleta en el pasado, tienden a compartir las mismas características: viajan
todos los días entre 0 y 1 millas, no tienen coche y están casados.

Distinción del clúster

La ficha Distinción del clúster le permite explorar las características que diferencian a un
clúster de otro. Después de seleccionar dos clústeres de los cuadros Clúster 1 y Clúster 2, el
visor determinará las diferencias entre los clústeres y las mostrará según el orden de los
atributos que más distinguen a los clústeres.

Por ejemplo, compare el clúster 5 y el clúster 7 del modelo TM_Clustering. El clúster 5 contiene
la mayor densidad de compradores de bicicleta y el clúster 7 contiene la menor densidad. Las
personas del clúster 7 son normalmente de Norteamérica y son más jóvenes, entre 23 y 31
años, mientras que las personas del clúster 5 suelen ser de Europa y recorren una distancia
menor, entre 0 y 1 millas.

Modelo Microsoft Naive Bayes


Utilice la lista Modelo de minería de datos de la parte superior de la ficha Visor de
modelos de minería de datos para cambiar al modelo TM_NaiveBayes. El visor de este
modelo, el Visor Bayes naive de Microsoft, contiene cuatro fichas: Red de dependencias,
Perfiles del atributo, Características del atributo y Distinción del atributo.

Red de dependencias

La ficha Red de dependencias funciona igual que la ficha del mismo nombre del Visor de
árboles de Microsoft. Cada nodo del visor representa un atributo y las líneas entre los nodos
representan relaciones. En el visor, puede ver todos los atributos que afectan al estado del
atributo de predicción, Bike Buyer.

A medida que baje el control deslizante, sólo permanecerán aquellos atributos que afecten en
mayor medida a la columna Bike Buyer. Al ajustar el control deslizante, puede ver que el
número de coches en propiedad es el factor que más determina si alguien es un comprador de
bicicleta.

Perfiles del atributo

La ficha Perfiles del atributo describe la forma en que los diferentes estados de los atributos
de entrada afectan al resultado del atributo de predicción.

En el cuadro De predicción, compruebe que se ha seleccionado Bike Buyer. Los atributos


que afectan al estado de este atributo de predicción aparecen enumerados junto a los valores
de cada estado de los atributos de entrada y sus distribuciones en cada estado del atributo de
predicción.

Características del atributo

Mediante la ficha Características del atributo, puede seleccionar un atributo y un valor para
ver la frecuencia con la que aparecen los valores de otros atributos en el caso de los valores
seleccionados.

En la lista Atributo, compruebe que Bike Buyer se haya seleccionado, y en la lista Valor,
seleccione 1. En el visor, podrá ver que las personas que viajan todos los días entre 0 y 1
millas para trabajar y que viven en Norteamérica son los que compran más bicicletas.

Distinción del atributo

La ficha Distinción del atributo le permite examinar las relaciones entre dos valores
discretos del atributo de predicción seleccionado y otros valores del atributo. Dado que el
modelo TM_NaiveBayes sólo tiene dos estados, 1 y 0, no tiene que hacer ningún cambio en el
visor.

En el visor, podrá ver que las personas que no tienen un coche tienden a comprar bicicletas y
las personas que tienen dos coches no suelen comprar bicicletas.

Comprobar la precisión de los modelos de minería de datos (tutorial de minería de


datos)

Después de crear, procesar y explorar los modelos de minería de datos para el escenario de
correo directo, puede probar los modelos para determinar la precisión de las predicciones y
decidir si un modelo es mejor que otro.

En la ficha Gráfico de precisión de minería de datos del Diseñador de minería de datos,


puede calcular la precisión de las predicciones de cada modelo y comparar los resultados de
diferentes modelos. Este método de comparación se conoce como gráfico de elevación. La
ficha Gráfico de precisión de minería de datos utiliza datos de entrada, que son datos
separados del conjunto de datos original, para comparar las predicciones con un resultado
conocido. Posteriormente, los resultados de la comparación se ordenan y se representan en un
gráfico. En este gráfico también se representa un modelo ideal, es decir, un modelo teórico
que predice el resultado correcto el 100% de las veces. Puede comparar los resultados de los
modelos reales y el modelo ideal para ver el grado de precisión de las predicciones.

El gráfico de elevación es importante porque permite diferenciar modelos de una estructura


que son prácticamente idénticos y determinar cuál ofrece mejores predicciones. Asimismo, el
gráfico de elevación muestra qué tipo de algoritmo realiza las mejores predicciones en una
determinada situación.

Crear predicciones (tutorial de minería de datos)

Una vez que haya probado la precisión de los modelos de minería de datos y esté satisfecho
con los resultados, puede crear consultas de predicción de Extensiones de minería de datos
(DMX) por medio del Generador de consultas de predicción en la ficha Predicción de modelo
de minería de datos del Diseñador de minería de datos. El Generador de consultas de
predicción es similar al Generador de consultas de Access; ofrece operaciones de arrastrar y
colocar para crear las consultas. El Generador de consultas de predicción contiene las vistas
siguientes:

 Diseño

 Consulta

 Resultado

Mediante las vistas Diseño y Consulta, puede crear y examinar una consulta. A continuación,
puede ejecutar la consulta y ver los resultados en la vista Resultado.

Crear la consulta
El primer paso para crear una consulta de predicción consiste en seleccionar una modelo de
minería de datos y una tabla de entrada.

Para seleccionar un modelo de minería de datos y una tabla de entrada

1. En la ficha Predicción de modelo de minería de datos del Diseñador de minería de


datos, en el cuadro Modelo de minería de datos, haga clic en Seleccionar modelo.

Se abrirá el cuadro de diálogo Seleccionar modelo de minería de datos.

2. Desplácese por el árbol hasta la estructura Targeted Mailing, expándala, seleccione


TM_Decision_Tree y, a continuación, haga clic en Aceptar.

3. En el cuadro Seleccionar tabla(s) de entrada, haga clic en Seleccionar tabla de


escenarios.

Se abrirá el cuadro de diálogo Seleccionar tabla.

4. En la lista Origen de datos, compruebe que Adventure Works DW se haya


seleccionado.

5. En la lista Nombre de tabla o lista, seleccione la tabla ProspectiveBuyer y, a


continuación, haga clic en Aceptar.
Después de seleccionar la tabla de entrada, el Generador de consultas de predicción crea una
asignación predeterminada entre el modelo de minería de datos y la tabla de entrada, en
función de los nombres de las columnas.

Para crear una consulta de predicción

1. En la columna Origen de la cuadrícula de la ficha Predicción de modelo de minería


de datos, haga clic en la celda de la primera fila vacía y, a continuación, seleccione
ProspectiveBuyer.

2. En la fila ProspectiveBuyer de la columna Campo, compruebe que


ProspectAlternateKey se haya seleccionado.

De esta forma, se agregará un identificador único a la consulta de predicción para que


pueda identificar quién es más y menos probable que compre una bicicleta.

3. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación, seleccione,


modelo de minería de datos, TM_Decision_Tree.

4. En la fila TM_Decision_Tree de la columna Campo, compruebe que Bike Buyer se


haya seleccionado.

Esto determina que el modelo de árboles de decisión de Microsoft de la estructura de


correo directo se utilice para crear predicciones.

5. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación, seleccione


Función de predicción.

6. En la fila Función de predicción, de la columna Campo, seleccione


PredictProbability.

Las funciones de predicción proporcionan información acerca de cómo realiza las


predicciones el modelo. La función PredictProbability proporciona información acerca
de la corrección de la probabilidad de predicción. En la columna Criterios o argumento,
puede especificar parámetros para la función de predicción.

7. En la fila PredictProbability de la columna Criterios o argumentos, escriba


[TM_Decision_Tree].[Bike Buyer].

De esta forma, se especificará la columna de destino para la función PredictProbability.

Si hace clic en la primera herramienta de la barra de herramientas de la ficha Predicción de


modelo de minería de datos, en el botón Cambiar a vista de diseño de consulta /
Cambiar a vista de resultado de consulta, puede cambiar a la vista Consulta y examinar
el código DMX creado por el Generador de consultas de predicción. También puede ejecutar la
consulta, modificarla y ejecutar la consulta modificada. No obstante, la consulta modificada no
se mantiene si se cambia a la vista Diseño.

Ver los resultados


Puede ejecutar la consulta si hace clic en la flecha situada junto al botón Cambiar a vista de
diseño de consulta / Cambiar a vista de resultado de consulta (el primer botón de la
barra de herramientas) y, a continuación, selecciona Resultado.
Las columnas ProspectAlternateKey, BikeBuyer y Expression identifican a los clientes
potenciales, indican si son compradores de bicicletas y la probabilidad de que la predicción sea
correcta. Puede utilizar estos resultados para determinar a qué clientes potenciales debe
dirigirse en el correo.
Lección 3: Crear el escenario de previsión

Como analista de ventas de Adventure Works, se le ha solicitado una previsión de las ventas
de modelos individuales de bicicletas para el próximo año. En concreto, debe obtener los picos
en las ventas de bicicletas y determinar qué regiones lideran las ventas y cuáles van por
detrás. Además, debe determinar si las ventas de diferentes modelos varían en función de la
época del año.

Para hallar la información solicitada, en esta lección examinará los datos mensuales de la
empresa y dividirá las ventas en tres regiones: Europa, Norteamérica y el Pacífico.

Una vez que haya completado las tareas de esta lección, podrá responder a las preguntas
siguientes:

 ¿En qué época del año se produce un pico en las ventas?

 ¿Cómo interactúan las ventas de los diferentes modelos de bicicleta a lo largo del año?

 ¿Existe un patrón de ventas para las tres regiones?

Para realizar las tareas de esta lección, utilizará el Algoritmo de serie temporal de Microsoft.

Esta lección incluye los temas siguientes:

 Crear una estructura del modelo de minería de datos Forecasting (tutorial de minería de
datos)

 Modificar el modelo Forecasting (tutorial de minería de datos)

 Explorar el modelo Forecasting (tutorial de minería de datos)

Algoritmo de serie temporal de Microsoft

El algoritmo de serie temporal de Microsoft es un algoritmo de regresión que proporciona


Microsoft SQL Server Analysis Services (SSAS) para crear modelos de minería de datos y
predecir columnas continuas, como ventas de productos, en un escenario de predicción.
Mientras otros algoritmos de Microsoft crean modelos, como un modelo de árbol de decisión,
que dependen de que se reciban columnas de entrada para predecir la columna de predicción,
la predicción en un modelo de serie temporal sólo se basa en las tendencias que el algoritmo
deriva del conjunto de datos original mientras crea el modelo. El siguiente diagrama muestra
un modelo típico para predecir las ventas de un producto a lo largo del tiempo.
El modelo que se muestra en el diagrama consta de dos partes: información histórica, que
aparece en rojo, e información de predicción, que aparece en azul. Los datos en rojo
representan la información que el algoritmo utiliza para crear el modelo, mientras que los
datos en azul representan la previsión que realiza el modelo. La línea formada por la
combinación de los datos rojos y los azules se denomina serie. Cada modelo de previsión debe
contener una serie de escenarios, que es la columna que distingue entre los puntos de una
serie. Por ejemplo, dado que los datos del diagrama muestran la serie de ventas de bicicletas
históricas y previstas en un período de varios meses, la columna de la fecha es la serie de
escenarios.

Una característica importante del algoritmo de serie temporal de Microsoft es su capacidad


para llevar a cabo predicciones cruzadas. Esto significa que, si entrena el algoritmo con dos
series independientes pero relacionadas, puede utilizar el modelo generado para predecir el
resultado de una serie basándose en el comportamiento de la otra serie. Por ejemplo, las
ventas observadas de un producto pueden influir en las ventas previstas de otro producto.

Ejemplo
El equipo de dirección de la empresa Adventure Works Cycle desea predecir las ventas
mensuales de bicicletas para el próximo año. La organización está especialmente interesada en
saber si las ventas de distintos modelos de bicicletas están relacionadas entre ellas, es decir, si
la venta de un modelo de bicicleta se puede utilizar para predecir la venta de otro modelo. Al
utilizar el algoritmo de serie temporal de Microsoft en los datos históricos de los últimos tres
años, la empresa puede crear un modelo de minería de datos que prevea la venta futura de
bicicletas. Además, la organización puede llevar a cabo predicciones cruzadas para ver si las
tendencias de venta de modelos individuales de bicicleta están relacionadas.

Cómo funciona el algoritmo


El algoritmo de árboles de decisión de Microsoft entrena a un modelo mediante un árbol de
decisión con regresión automática. Cada modelo contiene una columna de clave temporal que
define los segmentos de tiempo que establecerá el modelo. El algoritmo relaciona un número
variable de elementos pasados con cada elemento actual que se predice.

Puede definir los datos de entrada para el modelo de serie temporal de Microsoft de dos formas.
Para comprender el primer método, observe la siguiente tabla de escenarios de entrada:

TimeID Product Sales Volume


1/2001 A 1000 600

2/2001 A 1100 500

1/2001 B 500 900

2/2001 B 300 890

La columna TimeID de la tabla contiene un identificador de tiempo e incluye dos entradas para
cada día. La columna Product define un producto de la base de datos. La columna Sales
describe los beneficios brutos del producto especificado para un día y la columna Volume
describe la cantidad del producto especificado que permanece en el almacén. En este caso, el
modelo contendría dos columnas de predicción: Sales y Volume.
Opcionalmente, los datos de entrada del modelo de serie temporal podrían defin irse como se
indica en esta tabla:

TimeID A_Sales A_Volume B_Sales B_Volume


1/2001 1000 600 500 900

2/2001 1100 500 300 890

En esta tabla, las columnas Sales y Volume se dividen en dos columnas cada una, precedidas
por el nombre del producto. Como resultado, sólo existe una única entrada para cada día en la
columna TimeID. El modelo contendría cuatro columnas de predicción: A_Sales, A_Volume,
B_Sales y B_Volume.

Si bien ambos métodos para definir los datos de entrada provocan que se muestre la misma
información en el modelo, el formato de los escenarios de entrada cambia la forma en que se
define el modelo de minería de datos.

Usar el algoritmo
Un algoritmo de serie temporal requiere que la columna o columnas que se van a predecir
sean continuas. Sólo se permite una serie de escenarios para cada modelo.

El algoritmo de serie temporal de Microsoft admite tipos de contenido de columna de entrada,


tipos de contenido de columna de predicción e indicadores de modelado específicos, que se indican
en esta tabla.

Tipos de contenido de columna de entrada Continuous, Key, Key Time y Table

Tipos de contenido de columna de predicción Continuous y Table

Indicadores de modelado NOT NULL y REGRESSOR

Todos los algoritmos de Microsoft admiten un conjunto común de funciones. No obstante, el


algoritmo de serie temporal de Microsoft admite funciones adicionales, que aparecen en la siguiente
tabla.

Lag PredictTimeSeries

PredictNodeId PredictVariance

PredictStdev

El algoritmo de serie temporal de Microsoft no admite el uso del lenguaje de marcado de


modelos de predicción (PMML) para crear modelos de minería de datos.
El algoritmo de serie temporal de Microsoft admite varios parámetros que afectan al rendimiento
y la precisión del modelo de minería de datos resultante. En la siguiente tabla se describen estos
parámetros.

Parámetro Descripción
Especifica el número mínimo de segmentos de tiempo
necesarios para generar una división en cada árbol de serie
MINIMUM_SUPPORT temporal.

El valor predeterminado es 10.

Controla el crecimiento del árbol de decisión. Al disminuir


este valor, aumentan las posibilidades de una división. Al
aumentar este valor, disminuyen las posibilidades de una
COMPLEXITY_PENALTY división.

El valor predeterminado es 0,1.

Proporciona una sugerencia al algoritmo en cuanto a la


periodicidad de los datos. Por ejemplo, si las ventas varían
anualmente y la unidad de medida de la serie son los meses,
la periodicidad será 12. Este parámetro toma el formato {n [,
PERIODICITY_HINT n]}, donde n es un número positivo. La n entre corchetes []
es opcional y puede repetirse con la frecuencia que sea
necesaria.

El valor predeterminado es {1}.

Especifica el método utilizado para llenar los espacios en los


datos históricos. De forma predeterminada, no se admiten los
MISSING_VALUE_SUBSTITUTIO espacios o bordes irreguales en los datos. Los siguientes
N métodos están disponibles para llenar espacios o bordes
irregulares: por valor anterior, por valor medio o por una
constante numérica específica.

Especifica un valor numérico entre 0 y 1 que se utiliza para


detectar la periodicidad. Cuando este valor es más cercano a
1 se favorece el descubrimiento de varios patrones casi
periódicos y la generación automática de sugerencias de
periodicidad. Un gran número de sugerencias de periodicidad
AUTO_DETECT_PERIODICITY puede aumentar el tiempo de entrenamiento de los modelos
y proporcionar modelos más precisos. Si el valor está más
próximo a 0, la periodicidad sólo se detecta en datos con una
periodicidad muy marcada.

El valor predeterminado es 0,6.

Especifica el número de modelos históricos que se generarán.


HISTORIC_MODEL_COUNT
El valor predeterminado es 1.

HISTORICAL_MODEL_GAP Especifica el intervalo temporal entre dos modelos históricos


consecutivos. Por ejemplo, si establece este valor en g, se
generarán modelos históricos para datos truncados por
segmentos temporales a intervalos de g, 2*g, 3*g, etc.

El valor predeterminado es 10.

Nota:
La sugerencia de periodicidad es muy sensible a la calidad del modelo. Si la sugerencia que
se proporciona es distinta de la periodicidad real, los resultados pueden verse afectados
negativamente.

Crear una estructura del modelo de minería de datos Forecasting (tutorial de minería
de datos)

El primer paso para crear modelos de minería de datos para un escenario de previsión de
ventas consiste en utilizar el Asistente para minería de datos y crear una estructura nueva de
minería de datos. En esta tarea, utilizará el asistente para crear una estructura de minería de
datos y el modelo inicial de minería de datos asociado. Ambos se basan en el algoritmo de
serie temporal de Microsoft.

Para crear una estructura de minería de datos de previsión

1. En el Explorador de soluciones de Business Intelligence Development Studio, haga clic


con el botón secundario en Estructuras de minería de datos y seleccione Nueva
estructura de minería de datos.

Se abrirá el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.

3. En la página Seleccionar el método de definición, compruebe que la opción A partir


de una base de datos relacional o un almacén de datos se ha seleccionado y, a
continuación, haga clic en Siguiente.

4. En la página Seleccionar la técnica de minería de datos, en ¿Qué técnica de


minería de datos desea utilizar?, seleccione Serie temporal de Microsoft y, a
continuación, haga clic en Siguiente.

Aparecerá la página Seleccionar vista de origen de datos. De forma predeterminada,


Adventure Works DW aparece seleccionada en Vistas de origen de datos disponibles.

5. Haga clic en Siguiente.

6. En la página Especificar tipos de tablas, active la casilla de verificación Escenario,


situada junto a la tabla vTimeSeries, y, a continuación, haga clic en Siguiente.

7. En la página Especificar los datos de entrenamiento, active las casillas de


verificación Clave situadas junto a las columnas TimeIndex y ModelRegion.

8. Active las casillas de verificación Entrada y De predicción, situadas junto a la


columna Quantity.

Esto indica que desea predecir esta columna.

9. Haga clic en Siguiente.


Aparecerá la página Especificar el contenido y el tipo de datos de las columnas. La
columna TimeIndex se designa automáticamente como una columna Key Time y la
columna ModelRegion se designa como columna de clave. Esto significa que se creará
un modelo de serie temporal separado por cada entrada única de la columna
ModelRegion. Los valores de la columna TimeIndex deben ser únicos entre los valores
individuales de la columna ModelRegion.

10. Haga clic en Siguiente.

11. En la página Finalizando el asistente, en Nombre de la estructura de minería de


datos, escriba Forecasting.

12. En Nombre del modelo de minería de datos, escriba Forecasting y, a continuación,


haga clic en Finalizar.

El Diseñador de minería de datos se abre para mostrar la estructura de minería de datos


Forecasting que acaba de crear.

Modificar el modelo Forecasting (tutorial de minería de datos)

La estructura de minería de datos que creó en la tarea anterior contiene un modelo de


previsión (Forecasting) individual. Antes de procesar y explorar el modelo, tiene que cambiar
su estructura ligeramente y modificar una de sus propiedades.

Modificar la estructura de minería de datos


Puede modificar la estructura de minería de datos utilizando la ficha Estructura de minería
de datos del Diseñador de minería de datos. Cuando creó el modelo con el Asistente para
minería de datos, utilizó tres columnas: TimeIndex, ModelRegion y Quantity. La tabla
Forecasting también contiene una columna Amount, que puede utilizar para calcular el
importe de las ventas. Mediante la ficha Estructura de minería de datos, puede agregar
esta columna desde la vista de origen de datos a la estructura de minería de datos.

Para agregar la columna Amount a la estructura de minería de datos


Forecasting

1. En la ficha Estructura de minería de datos del Diseñador de minería de datos,


ubicada en el panel Vista de origen de datos, seleccione la columna Amount en la
tabla vTimeSeries.

2. Arrastre la columna Amount desde el panel Vista de origen de datos hasta la lista de
columnas de la estructura Forecasting.

La columna Amount ahora forma parte de la estructura de minería de datos Forecasting.

Modificar el modelo de minería de datos


Dado que ha agregado una columna nueva a la estructura, debe definir la forma en que el
modelo utilizará la columna. Puede especificar cómo se utilizará la columna en la ficha
Modelos de minería de datos del Diseñador de minería de datos.

La ficha Modelos de minería de datos enumera las columnas que la estructura de minería
de datos contiene en la columna Structure de la cuadrícula, así como las columnas que el
modelo contiene en una columna que tiene el nombre del modelo, en este caso Forecasting.
Haga clic en los nombres de las columnas o el nombre del modelo para hacer modificaciones.

Nota:
En la ficha Modelos de minería de datos, también puede crear modelos nuevos basados
en la misma estructura, además de ajustar el algoritmo y las propiedades de columna para
cada modelo. Debe procesar el modelo antes de que los cambios surtan efecto.

En el modelo de minería de datos Forecasting, la columna Amount se utiliza como columna


de entrada y para hacer previsiones de ventas futuras. Por tanto, debe establecer las
propiedades de la columna de manera que se pueda utilizar como columna de entrada y de
predicción.

Para definir cómo se utilizará la columna Amount

1. En la columna Forecasting de la cuadrícula de la ficha Modelos de minería de datos,


haga clic en la celda correspondiente a la fila Amount.

Aparecerá una lista que contiene las opciones Ignore, Input, Predict y PredictOnly.

2. Seleccione Predict.

La columna Amount es ahora una columna de entrada y una columna de predicción.

También puede cambiar las propiedades de columnas individuales seleccionando la columna y


abriendo la ventana Propiedades. Para abrir la ventana Propiedades, haga clic con el botón
secundario en el nombre de la columna y, a continuación, seleccione Propiedades. Si cambia
una propiedad de la columna para un modelo individual, sólo podrá cambiar las propiedades
para ese modelo. No obstante, si cambia una propiedad dentro de la columna Structure, el
cambio afectará a todos los modelos asociados a la estructura.

Si selecciona la columna Forecasting, puede cambiar las propiedades y parámetros asociados


al modelo. El algoritmo de series temporales de Microsoft contiene varios parámetros que
afectan al modo de creación de un modelo.

En este tutorial, tendrá que ajustar el valor del parámetro PERIODICITY_HINT para el modelo
Forecasting. Este parámetro proporciona al algoritmo información sobre la frecuencia de
repetición de los datos. El patrón de datos de AdventureWorks DW se extrae mensualmente; la
periodicidad es anual. Por tanto, establezca el parámetro PERIODICITY_HINT en 12 para
indicar que un patrón se repite cada año.

Para cambiar el parámetro PERIODICITY_HINT

1. En la ficha Modelos de minería de datos, haga clic con el botón secundario en


Forecasting y seleccione Establecer parámetros de algoritmo.

Se abrirá la ventana Parámetros de algoritmo.

2. En la columna Valor, establezca PERIODICITY_HINT en {12} y, a continuación, haga


clic en Aceptar.

Procesar el modelo de minería de datos


Ahora que la estructura y los parámetros para el modelo de minería de datos se han
completado, puede procesar el modelo.
Para procesar el modelo de minería de datos

1. En el menú Modelo de minería de datos de BI Development Studio, seleccione


Procesar estructura de minería de datos y todos los modelos.

Se abre el cuadro de diálogo Procesar estructura de minería de datos: Forecasting.

2. Haga clic en Ejecutar.

Se abre el cuadro de diálogo Progreso del proceso para mostrar información acerca del
procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo,
dependiendo del equipo.

3. Una vez que el procesamiento se haya completado, haga clic en Cerrar en los cuadros
de diálogo Progreso del proceso y Procesar estructura de minería de datos:
Forecasting.

Explorar el modelo Forecasting (tutorial de minería de datos)

Después de crear el modelo de previsión (Forecasting), puede explorar los resultados


utilizando el Visor de series temporales de Microsoft, que se encuentra en la ficha Visor de
modelos de minería de datos del Diseñador de minería de datos. El Visor de series
temporales de Microsoft contiene dos fichas: Árbol de decisión y Gráficos.

El algoritmo de serie temporal de Microsoft crea un modelo por cada serie diferente que exista
en el conjunto de datos. Por ejemplo, cada región del conjunto de datos incluye datos acerca
de las ventas relativas a un período de tiempo; por tanto, el algoritmo crea una serie temporal
independiente para cada región. Cada serie temporal incluye información sobre la cantidad de
ventas y el importe de ventas.

En esta tarea, explorará la serie temporal que describe las ventas en las regiones de Europa,
Norteamérica y el Pacífico.

Ficha Árbol de decisión - Modelo


La ficha Árbol de decisión del Visor de series temporales de Microsoft del Diseñador de
minería de datos le permite ver el árbol de decisión que se creó al procesar el modelo.

Para ver el árbol de decisión

1. En la lista Árbol de la ficha Árbol de decisión del visor, seleccione el modelo M200
Pacific: Amount.

Cada uno de los nodos de un árbol de decisión muestra tres extractos de información:

 La concentración de escenarios para el estado del atributo de predicción que se ha


especificado en el control Fondo. Tanto la ventana Leyenda de minería de datos como
el recuadro informativo que aparece al detener el puntero sobre un objeto del árbol
proporcionan el número exacto de escenarios.

 La fórmula de regresión para el nodo.

 Un gráfico de rombo que representa el intervalo del atributo. El rombo está ubicado en
la media del nodo y el ancho del rombo representa la varianza del atributo en el nodo. Un
rombo más estrecho indica que el nodo puede crear una predicción de mayor calidad.
Ficha Gráficos
Mediante la ficha Gráficos del Visor de series temporales de Microsoft, puede examinar las
series temporales creadas por el algoritmo.

Para seleccionar una serie temporal

1. Cambie a la ficha Gráficos de la ficha Visor de modelos de minería de datos.

2. En el cuadro de lista desplegable situado a la derecha de la vista del gráfico, seleccione


las casillas de verificación de las series temporales siguientes:

 R750 Europe:Amount

 R750 North America:Amount

 R750 Pacific:Amount

3. Haga clic en Aceptar.

La leyenda de la parte derecha del visor enumera las series seleccionadas en el cuadro de lista
desplegable e incluye una casilla de verificación para cada serie. Mediante la activación y
desactivación de las casillas de verificación de la leyenda, puede controlar las series
temporales que aparecen en el visor.

El gráfico muestra datos históricos y futuros. Los datos futuros aparecen sombreados para
diferenciarse de los históricos. Utilice la lista Pasos de predicción para controlar cuántos
pasos futuros de datos se mostrarán. Utilice la casilla de verificación Mostrar desviaciones
para agregar barras de error a las predicciones.

Como puede ver en el visor, las ventas totales de todas las regiones se incrementan
generalmente en diciembre, con un pico cada 12 meses. Las predicciones continúan esta
tendencia.
Lección 4: Crear el escenario de cesta de mercado

El departamento de marketing de Adventure Works desea mejorar el sitio Web de la empresa


para promover las ventas cruzadas.

Antes de actualizar el sitio, necesitan crear un modelo de minería de datos que pueda predecir
los productos cuya adquisición podría interesar a los clientes, basándose en otros productos
que ya se encuentran en las cestas de la compra en línea de los clientes. Estas predicciones
también ayudarán al departamento de marketing a agrupar en el sitio Web aquellos artículos
que los clientes suelen comprar juntos.

Una vez que haya completado esta lección, obtendrá un modelo de minería de datos con el
que podrá predecir artículos adicionales que pueden aparecer en una cesta de la compra o que
un cliente podría querer agregar a la cesta de la compra. Asimismo, contará con un completo
modelo de minería de datos que muestra grupos de artículos de transacciones históricas del
cliente.

En esta lección, creará un escenario de cesta de mercado. Para realizar las tareas de esta
lección, utilizará el Algoritmo de asociación de Microsoft.

Esta lección incluye los temas siguientes:

 Crear una estructura del modelo de minería de datos Market Basket (tutorial de minería
de datos)

 Modificar el modelo Market Basket (tutorial de minería de datos)

 Explorar los modelos Market Basket (tutorial de minería de datos)

Crear una estructura del modelo de minería de datos Market Basket (tutorial de
minería de datos)

El primer paso para crear un escenario de cesta de mercado consiste en utilizar el Asistente
para minería de datos con el fin de crear una estructura nueva de minería de datos. En esta
tarea, utilizará el asistente para crear una estructura de minería de datos y el modelo inicial de
minería de datos asociado. Ambos se basan en el algoritmo de asociación de Microsoft.

Para crear una estructura de minería de datos de asociación

1. En el Explorador de soluciones de Business Intelligence Development Studio, haga clic


con el botón secundario en Estructuras de minería de datos y seleccione Nueva
estructura de minería de datos.

Se abrirá el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.
3. En la página Seleccionar el método de definición, compruebe que la opción A partir
de una base de datos relacional o un almacén de datos se ha seleccionado y, a
continuación, haga clic en Siguiente.

4. En la página Seleccionar la técnica de minería de datos, en ¿Qué técnica de


minería de datos desea utilizar?, seleccione Reglas de asociación de Microsoft y,
a continuación, haga clic en Siguiente.

Aparecerá la página Seleccionar vista de origen de datos. De forma predeterminada,


Adventure Works DW aparece seleccionada en Vistas de origen de datos disponibles.

5. Haga clic en Siguiente.

6. En la página Especificar tipos de tablas, active la casilla de verificación Escenario,


situada junto a la tabla vAssocSeqOrders, y la casilla de verificación Anidado, situada
junto a la tabla vAssocSeqLineItems; a continuación, haga clic en Siguiente.

7. En la página Especificar los datos de entrenamiento, desactive la casilla de


verificación Clave, situada junto a CustomerKey, y las casillas Clave y Entrada,
situadas junto a LineNumber.

De forma predeterminada, CustomerKey, OrderNumber y LineNumber se enumeran


como tipos de Clave. No obstante, en este tutorial, utilizará LineNumber como clave
única para los modelos Sequence Clustering de Microsoft; debe cambiar la configuración
predeterminada para el modelo de asociación.

8. Active las casillas de verificación Clave y De predicción, situadas junto a la columna


Model. La casilla Entrada se selecciona automáticamente.

9. Haga clic en Siguiente.

10. En la página Especificar el contenido y el tipo de datos de las columnas, haga clic
en Siguiente.

11. En la página Finalizando el asistente, en Nombre de la estructura de minería de


datos, escriba Association.

12. En Nombre del modelo de minería de datos, escriba Association y, a continuación,


haga clic en Finalizar.

El Diseñador de minería de datos se abre para mostrar la estructura de minería de datos


Association que acaba de crear.

Modificar el modelo Market Basket (tutorial de minería de datos)

Antes de procesar el modelo de minería de datos inicial que creó junto con la estructura de
minería de datos Association en la tarea anterior, debe cambiar los valores predeterminados
de dos de los parámetros: Support y Probability. Support define el porcentaje de escenarios en
los que una regla debe existir antes de que se considere válida. Probability define la
probabilidad de que una asociación se considere válida.

Para ajustar los parámetros del modelo Association

1. Abra la ficha Modelos de minería de datos del Diseñador de minería de datos.


2. Haga clic con el botón secundario en la columna Association de la cuadrícula del
diseñador y seleccione Establecer parámetros de algoritmo.

Se abrirá la ventana Parámetros de algoritmo.

3. En la columna Valor del cuadro de diálogo Parámetros de algoritmo, establezca los


parámetros siguientes:

MINIMUM_PROBABILITY = 0.1

MINIMUM_SUPPORT = 0.01

4. Haga clic en Aceptar.

Procesar el modelo de minería de datos


Ahora que ha definido la estructura y los parámetros para el modelo de minería de datos
Association, puede procesar el modelo.

Explorar los modelos Market Basket (tutorial de minería de datos)

Después de crear el modelo Association, puede explorarlo con el visor de asociación de


Microsoft, que se encuentra en la ficha Visor de modelos de minería de datos del
Diseñador de minería de datos. El visor de asociación de Microsoft contiene tres fichas:
Conjuntos de elementos, Reglas y Red de dependencias.

Ficha Conjuntos de elementos


La ficha Conjuntos de elementos muestra tres extractos de información importantes que se
relacionan con los conjuntos de elementos que el algoritmo de asociación de Microsoft detecta:
el soporte, que es el número de transacciones en las que tiene lugar el conjunto de elementos;
el tamaño, que es el número de elementos incluidos en el conjunto; y la composición real del
conjunto de elementos. Dependiendo de cómo se configuren los parámetros del algoritmo, éste
puede generar un número elevado de conjuntos de elementos. Mediante los controles situados
en la parte superior de la ficha Conjuntos de elementos, puede filtrar el visor para que
muestre sólo los conjuntos de elementos que tengan un tamaño y un soporte mínimo
especificos.

También puede utilizar el cuadro Filtrar conjunto de elementos para filtrar conjuntos de
elementos mostrados en el visor. Por ejemplo, para ver sólo los conjuntos de elementos que
contienen información acerca de la bicicleta Mountain-200, escriba Mountain-200 en Filtrar
conjunto de elementos. Como podrá ver en el visor, sólo se muestran los conjuntos de
elementos que contienen la palabra "Mountain-200". Todos los conjuntos de elementos que
muestra el visor contienen información sobre las transacciones en las que se vendió una
bicicleta Mountain-200. Por ejemplo, el conjunto de elementos que contiene el valor 710 en la
columna Soporte indica que, de todas las transacciones, 710 personas que compraron la
bicicleta Mountain-200 también compraron el modelo Sport-100.

Ficha Reglas
La ficha Reglas muestra la siguiente información relacionada con las reglas que el algoritmo
encuentra.
 Probabilidad

Posibilidad de que se produzca una regla.

 Importancia

Mide la utilidad de una regla; un valor elevado significa que la regla es mejor. Guiarse sólo
por la probabilidad puede conducir a error. Por ejemplo, si todas las transacciones
contienen un elemento x, la regla y predice que x tiene una probabilidad de 1, lo que
quiere decir que x siempre ocurrirá. Aunque la precisión de la regla es muy buena, no
transmite mucha información porque cada transacción contiene x con independencia de y.

 Regla

Definición de la regla.

Al igual que con la ficha Conjuntos de datos, puede filtrar las reglas para mostrar sólo las
más interesantes. Por ejemplo, si desea ver sólo las reglas que incluyen la bicicleta Mountain-
200, escriba Mountain-200 en el cuadro Regla del filtro. A continuación, el visor mostrará
sólo las reglas que contengan la palabra "Mountain-200". Cada regla puede utilizarse para
predecir la presencia de un elemento de una transacción en función de la presencia de otros
elementos. Por ejemplo, la primera regla le dice que cuando alguien compra una bicicleta
Mountain-200 y una botella de agua, hay una probabilidad de 1 de que esta persona compre
también un soporte para botellas Mountain.

Ficha Red de dependencias


Mediante la ficha Red de dependencias, puede examinar la interacción entre los diferentes
elementos del modelo. Cada nodo del visor representa un elemento; por ejemplo, el nodo
Mountain-200 = Existing indica que Mountain-200 existe en una transacción. Al seleccionar un
nodo, puede utilizar la leyenda de color de la parte inferior de la ficha para establecer los
elementos que determinan o son determinados por otros elementos del modelo.

El control deslizante está asociado con la probabilidad de una regla. Muévalo arriba o abajo
para filtrar las asociaciones débiles. Por ejemplo, en el cuadro Mostrar, seleccione Mostrar
sólo el nombre del atributo y, a continuación, haga clic en el nodo Mountain Bottle Cage.
El visor muestra que el soporte para botellas Mountain (Mountain Bottle Cage) predice y, a su
vez, es predicho por la botella de agua y la bicicleta Mountain-200. Esto significa que estos
elementos aparecerán probablemente juntos en una transacción. En otras palabras, si un
cliente compra una bicicleta, es probable que también compre una botella de agua
Lección 5: Crear el escenario de clústeres de secuencia

El departamento de marketing de Adventure Works desea saber cómo se mueven los clientes
por el sitio Web de Adventure Works. La empresa cree que existe un patrón según el cual los
clientes incluyen productos en las cestas de la compra. El algoritmo de clústeres de secuencia
de Microsoft permite determinar las secuencias que los clientes siguen para agregar artículos a
las cestas. Posteriormente, esta información se puede utilizar para mejorar el flujo del sitio
Web y propiciar que los clientes adquieran productos adicionales.

Cuando complete las tareas de esta lección, obtendrá un modelo de minería de datos que le
permitirá predecir cuál será el siguiente artículo que los clientes incluirán en sus cestas de la
compra.

En esta lección, creará un escenario de clústeres de secuencia. Para realizar las tareas de esta
lección, utilizará el Algoritmo de clústeres de secuencia de Microsoft.

Esta lección incluye los temas siguientes:

 Crear una estructura del modelo de minería de datos Sequence Clustering (tutorial de
minería de datos)

 Explorar los modelos Sequence Clustering (tutorial de minería de datos)

Crear una estructura del modelo de minería de datos Sequence Clustering (tutorial
de minería de datos)

El primer paso para crear un escenario de clústeres de secuencia consiste en utilizar el


Asistente para minería de datos con el fin de crear una estructura nueva de minería de datos.
En esta tarea, utilizará el asistente para crear una estructura de minería de datos y el modelo
inicial de minería de datos asociado. Ambos se basan en el algoritmo de clústeres de secuencia
de Microsoft.

Para crear un modelo de minería de datos de clústeres de secuencia

1. En el Explorador de soluciones de Business Intelligence Development Studio, haga clic


con el botón secundario en Estructuras de minería de datos y seleccione Nueva
estructura de minería de datos.

Se abrirá el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic en Siguiente.

3. En la página Seleccionar el método de definición, compruebe que la opción A partir


de una base de datos relacional o un almacén de datos se ha seleccionado y, a
continuación, haga clic en Siguiente.

4. En la página Seleccionar la técnica de minería de datos, en ¿Qué técnica de


minería de datos desea utilizar?, seleccione Clústeres de secuencia de Microsoft
y, a continuación, haga clic en Siguiente.

Aparecerá la página Seleccionar vista de origen de datos. De forma predeterminada,


Adventure Works DW aparece seleccionada en Vistas de origen de datos disponibles.

5. Haga clic en Siguiente.


6. En la página Especificar tipos de tablas, active la casilla de verificación Escenario,
situada junto a la tabla vAssocSeqOrders, y la casilla de verificación Anidado, situada
junto a la tabla vAssocSeqLineItems; a continuación, haga clic en Siguiente.

7. En la página Especificar los datos de entrenamiento, desactive la casilla de


verificación Clave situada junto a CustomerKey.

De forma predeterminada, OrderNumber y LineNumber se enumeran como tipos de


Clave. No cambie esta configuración.

8. Active las casillas de verificación Entrada y De predicción situadas junto a la columna


Model; a continuación, haga clic en Siguiente.

9. En la página Especificar el contenido y el tipo de datos de las columnas, haga clic


en Siguiente.

10. En la página Finalizando el asistente, en Nombre de la estructura de minería de


datos, escriba Sequence Clustering.

11. En Nombre del modelo de minería de datos, escriba Sequence Clustering y, a


continuación, haga clic en Finalizar.

El Diseñador de minería de datos se abre para mostrar la estructura de minería de datos


Sequence Clustering que acaba de crear.

Procesar el modelo de minería de datos


Antes de procesar el modelo de clústeres de secuencia, no es necesario hacer cambios ni a la
estructura ni al modelo de minería de datos en el Diseñador de minería de datos.

Para procesar el modelo de minería de datos

1. En el menú Modelo de minería de datos de Business Intelligence Development


Studio, seleccione Procesar estructura de minería de datos y todos los modelos.

Se abrirá el cuadro de diálogo Procesar estructura de minería de datos: Sequence


Clustering.

2. Haga clic en Ejecutar.

Se abre el cuadro de diálogo Progreso del proceso para mostrar información acerca del
procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo,
dependiendo del equipo.

3. Una vez que el procesamiento se haya completado, haga clic en Cerrar en los cuadros
de diálogo Progreso del proceso y Procesar estructura de minería de datos:
Sequence Clustering.

Explorar los modelos Sequence Clustering (tutorial de minería de datos)

Una vez creado el modelo Sequence Clustering, puede explorarlo con el visor de clústeres de
secuencia de Microsoft, que se encuentra en la ficha Visor de modelos de minería de datos
del Diseñador de minería de datos. El Visor de clústeres de secuencia de Microsoft contiene
cinco fichas: Diagrama del clúster, Perfiles del clúster, Características del clúster,
Distinción del clúster y Transiciones de estado.
Ficha Diagrama del clúster
La ficha Diagrama del clúster muestra gráficamente los clústeres que el algoritmo detectó en
la base de datos. El diseño del diagrama, en donde clústeres similares se agrupan juntos,
representa las relaciones entre los clústeres. De forma predeterminada, el sombreado del color
del nodo representa la densidad de todos los escenarios del clúster (cuanto más oscuro sea el
nodo, más escenarios contiene). Puede cambiar el significado del sombreado de los nodos para
que represente un atributo y un estado. Por ejemplo, seleccione Model en la lista Variable de
sombreado y Cycling Cap en la lista Estado. El diagrama de clúster muestra que el clúster 9
contiene la mayor densidad de gorras de ciclismo (cycling cap).

Ficha Perfiles del clúster


La ficha Perfiles del clúster muestra las secuencias que existen en cada clúster. Los clústeres
se enumeran en columnas individuales ubicadas a la derecha de la columna Estados.

En el visor, la fila Model.samples representa datos de secuencia y la fila Model describe la


distribución global de los elementos de un clúster. Las líneas de las secuencias de color de
cada celda de la fila Model.samples representan el comportamiento de un usuario
seleccionado aleatoriamente en el clúster. Cada color de un histograma de secuencia individual
representa un modelo de producto.

Por ejemplo, el color celeste del clúster 3 representa la bicicleta Mountain-200. Su presencia
como primer color en la mayoría de las secuencias indica que es muy probable que el cliente
incluya la bicicleta Mountain-200 en la cesta de la compra en primer lugar.

Ficha Características del clúster


La ficha Características del clúster resume las transiciones entre los estados de un clúster
mediante barras que describen la importancia del valor de atributo para el clúster
seleccionado. Por ejemplo, en el clúster 10, uno de los perfiles más importantes es que los
clientes tienden a incluir una llanta ML Mountain en la cesta de la compra en primer lugar.

Ficha Distinción del clúster


Mediante la ficha Distinción del clúster, puede comparar dos clústeres para determinar los
modelos que favorecen a cada uno de ellos. La ficha contiene cuatro columnas: Variables,
Valores, Clúster 1 y Clúster 2. Si el clúster favorece un modelo específico, aparecerá una
barra azul en las columnas Clúster 1 o Clúster 2 de la fila del modelo correspondiente en la
columna Variables. Cuanto más larga sea la barra azul, más favorecerá el modelo al clúster.

Por ejemplo, utilice la ficha Distinción del clúster, ubicada en el visor, para comparar el
clúster 2 y el clúster 5 seleccionando clúster 2 en Clúster 1 y clúster 5 en Clúster 2. Un
cliente que compra un soporte para botellas para una bicicleta de montaña, tal y como indica
Mountain Bottle Cage en la columna Valores, es más probable que esté incluido en el
clúster 5; un cliente que compra una llanta, tal y como indica Touring Tire en la columna
Valores, es más probable que esté incluido en el clúster 2.

Ficha Transiciones de estado


En la ficha Transiciones de estado, puede seleccionar un clúster y examinar sus transiciones
de estado. Cada nodo representa un estado del modelo como, por ejemplo, Mountain-200. Una
línea representa la transición entre estados y cada nodo se basa en la probabilidad de una
transición. El color de fondo representa la frecuencia del nodo dentro del clúster.

Por ejemplo, seleccione Clúster 3 en Clúster, seleccione el nodo Touring-3000 y desplace el


control deslizante Todos los vínculos hacia abajo varios espacios. Como podrá ver en el
visor, si un cliente incluye una llanta (Touring Tire) en la cesta de la compra, hay una
probabilidad de 0,63 (indicada por la flecha azul) de que a continuación incluya un tubo para
llantas (Touring Tire Tube) en la cesta y una probabilidad de 0,26 de que también incluya una
bicicleta Sport 100.

También podría gustarte