Está en la página 1de 171

MAESTRÍA EN CIENCIAS DE INGENIERÍA CON MENCIÓN EN

GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN Y


COMUNICACIÓN

PERÚ
Universidad Nacional de Huancavelica

TABLA DE CONTENIDOS

1. LOS SI Y LA TEORÍA DE DECISIONES 06

2. DATA MINING 21

3. EMPRESAS CON ESTRATEGIAS BASADAS EN DM 42

4. MODELOS DESCRIPTIVOS 59

5. ENTENDIMIENTO DEL NEGOCIO 88

6. ENTENDIMIENTO Y PREPARACIÓN DE LOS DATOS 97

7. CREACIÓN Y EVALUACIÓN DE MODELOS 124

8. ANÁLÍTICA DEL NEGOCIO PREDICTIVA 227

9. CREACIÓN Y USO DE MODELOS PREDICTIVOS 255

10. ANEXO A: ESTRUCTURA DEL INFORME FINAL 303

-1-
Universidad Nacional de Huancavelica

CREACIÓN Y EVALUACIÓN DE MODELOS

CREACIÓN DE MODELOS: MINERÍA DE DATOS

Modeling

Select
Modeling
Technique

Generate
Test
Design

Assess
Model

-126-
Universidad Nacional de Huancavelica

Esta fase es la más característica del KDD y, por esta razón, muchas veces se

utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es

producir nuevo conocimiento que pueda utilizar el usuario. Esto se realiza

construyendo un modelo basado en los datos recopilados para este efecto. El

modelo es una descripción de los patrones y relaciones entre los datos que

pueden usarse para hacer predicciones, para entender mejor los datos o para

explicar situaciones pasadas. Para ello es necesario tomar una serie de

decisiones antes de empezar el proceso:

 Determinar qué tipo de tarea de minería es el más apropiado. Por

ejemplo, podríamos usar la clasificación para predecir en una entidad

bancaria los clientes que dejarán de serlo.

 Elegir el tipo de técnica. Por ejemplo, para una tarea de clasificación

podríamos usar un árbol de decisión, porque queremos obtener un modelo

en forma de reglas.

 Elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de

modelo que estamos buscando. Esta elección es pertinente porque

existen muchos métodos para construir los modelos. Por ejemplo, para

crear árboles de decisión para clasificación podríamos usar CART o C5.0,

entre otros. En los capítulos siguientes se presentarán los métodos más

importantes para cada tipo de modelo.

-127-
Universidad Nacional de Huancavelica

4.1 ALGORITMOS DEL KDD

El algoritmo de DM es el mecanismo que crea modelos de minería de datos.

Para crear un modelo, un algoritmo analiza primero un conjunto de datos,

buscando patrones y tendencias específicos. Después, el algoritmo utiliza los

resultados de este análisis para definir los parámetros del modelo de minería

de datos.

El modelo de DM que crea un algoritmo puede tomar diversas formas,

incluyendo:

 Un conjunto de reglas que describen cómo se agrupan los productos en

una transacción.

 Un árbol de decisión que predice si un cliente determinado comprará un

producto.

 Un modelo matemático que predice las ventas.

 Un conjunto de clústeres que describe cómo se relacionan los escenarios

de un conjunto de datos.

Microsoft SQL Server 2017 Analysis Services (SSAS) proporciona varios

algoritmos que puede usar en las soluciones de DM. Estos algoritmos son un

subconjunto de todos los algoritmos que pueden utilizarse en DM. También

puede utilizar algoritmos de DM desarrollados por terceros que cumplan la

especificación OLE DB para DM. Para obtener más información sobre los

algoritmos de terceros, vea Algoritmos de complemento.

-128-
Universidad Nacional de Huancavelica

CASO DE ESTUDIO

Ventas y Entrega de Bicicletas en Adventure Works Bicycles


(Continuación …)

10. Escenarios de minería de datos

Las tendencias de la base de datos Adventure Works DW 2017 admiten los

siguientes escenarios de minería de datos:

 Targeted Mailing Campaign (Campaña de Correo Directo): admite el

escenario de un analista que aplica distintos algoritmos de minería de

datos a los datos de ventas por Internet (tabla

vTargetMail obtenida de la vista vDMPrep, la

cual se obtuvo de la tabla de hechos

FactInternetSales) y a clientes de Adventure

Works para determinar los atributos

demográficos de los clientes que ya han

comprado una bicicleta. Después, el analista puede aplicar el modelo de

minería de datos a una lista de clientes potenciales (tabla

ProspectiveBuyer) para determinar qué clientes tienen mayor

probabilidad de responder al correo directo en el que se promocionen las

bicicletas de Adventure Works.

-129-
Universidad Nacional de Huancavelica

 Forecasting: admite el escenario de un analista que investiga el

crecimiento de modelos de bicicletas por hora y región.

 Market Basket Analysis: admite el escenario de un programador que

crea una solución de Cesta de Mercado que sugiere un

producto en función de otros que ya existen en el carro

de compras de un cliente.

 Sequence Clustering: admite el escenario de un analista que investiga

la secuencia en la que los clientes colocan los artículos

en un carro de compras.

Estos escenarios y las tendencias del almacén de datos se muestran en

el presente ejemplo de Adventure Works DW 2017.

-130-
Universidad Nacional de Huancavelica

11. Crear una Estructura del modelo de minería de datos Targeted


Mailing

El primer paso para crear un escenario de Correo Directo (Targeted Mailing)

consiste en utilizar el Asistente para minería de datos de Business Intelligence

Development Studio con el fin de crear una estructura de minería de datos y

un modelo de minería de datos de Árbol de Decisión.

1. En el Explorador de soluciones, haga clic derecho en Estructuras de

minería de datos y seleccione Nueva estructura de minería de datos.

Se abrirá el Asistente para minería de datos.

2. En la página de inicio del Asistente para minería de datos, haga clic

en Siguiente.

3. En la página Seleccionar el método de definición, compruebe que la

opción A partir de una base de datos relacional o un almacén de

datos se ha seleccionado y, a continuación, haga clic en Siguiente.

4. En la página Crear la estructura de minería de datos, en ¿Qué técnica

de minería de datos desea utilizar?, seleccione Árboles de Decisión

de Microsoft.

Nota: Para mayor detalle sobre Árboles de Decisión de Microsoft revisar el

Anexo B.

-131-
Universidad Nacional de Huancavelica

En este tutorial, creará varios modelos basados en esta estructura inicial

de minería de datos. El primer modelo se creará junto con la estructura

una vez que el asistente finalice y se basará en el algoritmo de Árboles

de Decisión de Microsoft.

5. Haga clic en Siguiente.

6. En la página Seleccionar vista del origen de datos, en el panel Vistas

del origen de datos disponibles, seleccione Targeted Mailing. Puede

hacer clic en Examinar… para ver las tablas de la vista del origen de

datos y, a continuación, hacer clic en Cerrar para volver al asistente.

Haga clic en Siguiente.

7. En la página Especificar tipos de tablas, active la casilla de verificación

de la columna Escenario (Caso), situada junto a la tabla vTargetMail

para usarla como tabla de casos y; a continuación, haga clic en

Siguiente. Utilizará la tabla ProspectiveBuyer posteriormente para

pruebas; pásela por alto por ahora.

-132-
Universidad Nacional de Huancavelica

8. En la página Especificar los datos de aprendizaje, identificará al


menos una columna de predicción, una columna de clave y una columna

de entrada para el modelo. Active la casilla de la columna De predicción

en la fila BikeBuyer.

9. Haga clic en Sugerir para abrir el cuadro de diálogo Sugerir

columnas relacionadas.

-133-
Universidad Nacional de Huancavelica

El botón Sugerir está habilitado siempre que se haya seleccionado al


menos un atributo predecible. El cuadro de diálogo Sugerir columnas
relacionadas enumera en una lista las columnas más relacionadas
con la columna predecible y ordena los atributos por su correlación
con el atributo predecible. Las columnas con una correlación
significativa (con una confianza mayor del 95%) se seleccionan
automáticamente para incluirse en el modelo.

Revise las sugerencias y, a continuación, haga clic en Cancelar para


omitirlas.

10. Compruebe que la casilla de la columna Clave está seleccionada en

la fila CustomerKey.

11. Active las casillas de la columna Entrada en las filas siguientes. Puede

activar varias columnas resaltando un rango de celdas y presionando

CTRL mientras activa una casilla.

 Age
 CommuteDistance
 EnglishEducation
 EnglishOccupation
 Gender
 GeographyKey
 HouseOwnerFlag
 MaritalStatus
 NumberCarsOwned
 NumberChildrenAtHome
 Region
 TotalChildren
 YearlyIncome

-134-
Universidad Nacional de Huancavelica

12. En la columna izquierda de la página, active las casillas de las filas

siguientes.

 AddressLine1
 AddressLine2
 City
 DateFirstPurchase
 EmailAddress
 FirstName
 LastName
 StateProvinceName.

-135-
Universidad Nacional de Huancavelica

Asegúrese de que estas filas sólo tienen marcas en la columna

izquierda. Estas columnas se agregarán a la estructura pero no se

incluirán en el modelo. Sin embargo, una vez generado el modelo,

estarán disponibles para la obtención de detalles y las pruebas. Para

obtener más información acerca de la obtención de detalles, vea Usar la

obtención de detalles en los modelos y estructuras de minería (Analysis

Services - Minería de datos).

-136-
Universidad Nacional de Huancavelica

13. Haga clic en Siguiente.

-137-
Universidad Nacional de Huancavelica

12. Especificar el Tipo de Datos y el Tipo de Contenido

Ahora que ha seleccionado qué columnas utilizar para generar la

estructura y entrenar los modelos, realice los cambios necesarios en los

tipos de datos predeterminados y en los tipos de contenido que establece

el asistente.

1. En la página Especificar el contenido y el tipo de datos de las

columnas, haga clic en Detectar.

-138-
Universidad Nacional de Huancavelica

Un algoritmo ejecutará los datos numéricos de los ejemplos y

determinará si las columnas numéricas contienen valores continuos o

discretos. Por ejemplo, una columna puede contener información salarial

como valores de sueldo actuales, que son continuos, o bien integrales

que representan rangos de sueldo codificados, como 1 = < $25.000; 2 =

de $25.000 a $50.000, que son discretos.

2. Después de hacer clic en Detectar, compruebe que las entradas de las

columnas Tipo de contenido y Tipo de datos tengan la configuración

especificada en la siguiente tabla.

Columna Tipo de contenido Tipo de datos


Address Line1 Discrete Text

Address Line2 Discrete Text

Age Continuous Long

Bike Buyer Discrete Long

City Discrete Text

Commute Distance Discrete Text

CustomerKey Key Long

DateFirstPurchase Continuous Date

Email Address Discrete Text

English Education Discrete Text

English Occupation Discrete Text

FirstName Discrete Text

Gender Discrete Text

-139-
Universidad Nacional de Huancavelica

Geography Key Discrete Text

House Owner Flag Discrete Text

Last Name Discrete Text

Marital Status Discrete Text

Number Cars Owned Discrete Long

Number Children At Home Discrete Long

Region Discrete Text

StateProvinceName Discrete Text

Total Children Discrete Long

Yearly Income Continuous Double

Nota: Normalmente, el asistente detectará números y asignará un tipo

de datos numérico adecuado, pero hay varias situaciones en las que

podría desear tratar un número como texto. Por ejemplo, GeographyKey

se debería tratar como texto, porque no sería apropiado realizar

operaciones matemáticas en este identificador.

3. Haga clic en Siguiente.

-140-
Universidad Nacional de Huancavelica

4.2. GENERAR EL DISEÑO DE PRUEBA

Tarea Generar el diseño de prueba

Antes de construir un modelo, es necesario definir un procedimiento para

probar la calidad del modelo y la validez. Por ejemplo, en tareas de minería de

datos supervisadas como la clasificación, es común usar tasas de error como

medidas de calidad para modelos de minería de datos.

Además, se deben separar aleatoriamente los datos preparados en

conjuntos de datos de entrenamiento y comprobación independientes. El

conjunto de datos de entrenamiento se utiliza para generar el modelo y el

conjunto de datos de comprobación para comprobar la precisión del modelo

mediante la creación de consultas de predicción. Puede utilizar la

-141-
Universidad Nacional de Huancavelica

Transformación Muestreo de porcentaje de Integration Services para dividir el

conjunto de datos.

La transformación Muestreo de porcentaje crea un conjunto de datos

de muestra seleccionando un porcentaje de las filas de entrada de la

transformación. El conjunto de datos de muestra es una selección

aleatoria de filas de la entrada de transformación, de forma que la

muestra resultante sea representativa de la entrada.

Mediante esta transformación, puede dividir aleatoriamente un

conjunto de datos en dos conjuntos de datos: uno para entrenamiento

del modelo de minería de datos y otro para comprobación del modelo.

Puede especificar un valor de inicialización de muestreo para

modificar el comportamiento del generador de números aleatorios

utilizado por la transformación para seleccionar filas. Si se usa el mismo

valor de inicialización de muestreo, la transformación siempre creará la

misma salida de ejemplo. Si no se especifica un valor de inicialización, la

transformación utilizará el recuento de pasos del sistema operativo

para crear el número aleatorio.

Esta transformación es similar a la transformación Muestreo de

fila, que crea a conjunto de datos de ejemplo seleccionando un número

especificado de filas de entrada. Para obtener más información, vea

Transformación Muestreo de fila.

-142-
Universidad Nacional de Huancavelica

Por lo tanto, el diseño de prueba específica que el conjunto de datos

debería ser separado en el entrenamiento y en el conjunto de prueba (training

dataset). El modelo está construido sobre el conjunto de entrenamiento y su

calidad estimada sobre el conjunto de prueba (test dataset).

Salida Diseño de Prueba


Describir el plan intencionado para el entrenamiento, la prueba, y la evaluación

de los modelos. Un componente primario del plan determina cómo dividir un

conjunto de datos disponible en datos de entrenamiento, datos de prueba, y

conjunto de datos de validación.

-143-
Universidad Nacional de Huancavelica

CASO DE ESTUDIO

Ventas y Entrega de Bicicletas en Adventure Works (Continuación


…)

13. Especificar un Conjunto de Datos de Pruebas para la estructura

En las pantallas finales del Asistente para minería de datos dividirá los

datos en un conjunto de pruebas y en un conjunto de entrenamiento.

Después, denominará su estructura y habilitará la obtención de datos en

el modelo.

Para especificar el conjunto de pruebas


1. En la página Crear conjunto de pruebas, en Porcentaje de datos

para pruebas, deje el valor predeterminado 30.

2. En Número máximo de casos en el conjunto de datos de prueba,

escriba 1000.

3. Haga clic en Siguiente.


-144-
Universidad Nacional de Huancavelica

4.3. CONSTRUCCIÓN DEL MODELO

Tarea Construir el modelo

Correr la herramienta de modelado sobre el conjunto de datos listo para crear

uno o más modelos.

Salida Parámetros de ajuste

Con cualquier herramienta de modelado, hay a menudo un gran número de

parámetros que pueden ser ajustados. Listar los parámetros y sus valores

seleccionados, con la explicación (el razonamiento) para la elección.

-145-
Universidad Nacional de Huancavelica

Para denominar el modelo y la estructura, y especificar la obtención


de detalles
1. En la página Finalización del asistente, en Nombre de la estructura

de minería de datos, escriba Targeted Mailing.

2. En Nombre del modelo de minería de datos, escriba

TM_Decision_Tree.

3. Active la casilla Permitir obtención de detalles.

4. Revise el panel Vista previa. Observe que se muestran sólo las

columnas seleccionadas como Clave, Entrada o De predicción. Las

otras columnas que seleccionó (por ejemplo, AddressLine1) no se usan

para generar el modelo, pero estarán disponibles en la estructura

subyacente y se pueden consultar una vez procesado e implementado

el modelo.

-146-
Universidad Nacional de Huancavelica

5. Haga clic en Finalizar.

-147-
Universidad Nacional de Huancavelica

-148-
Universidad Nacional de Huancavelica
14. Agregar y Procesar los modelos

La estructura de minería de datos que creó en la sección anterior contiene un

modelo de minería de datos individual que se basa en el algoritmo de árboles

de decisión de Microsoft. Para identificar a los clientes para la distribución de

correo directo, creará dos modelos adicionales y, a continuación, procesará e

implementará los modelos.

En esta sección, creará un conjunto de modelos de minería de datos que

sugerirá los clientes que tienen una mayor probabilidad de serlo entre una lista

de clientes potenciales.

I. Agregar modelos nuevos a la estructura de Targeted Mailing

En esta tarea, usted definirá dos modelos adicionales mediante la pestaña

Modelos de minería de datos del Diseñador de minería de datos. Para crear los

modelos, se usarán el algoritmo de Clústeres y el algoritmo Bayes Naive de

Microsoft.

Estos dos algoritmos se han seleccionado debido a su capacidad de predecir

un valor discreto (por ejemplo, la compra de una bicicleta).

-149-
Universidad Nacional de Huancavelica
Crear un modelo Microsoft Clustering

1. Cambie a la ficha Modelos de minería de datos del Diseñador de

minería de datos en Microsoft Visual Studio.

2. Observe que el diseñador muestra dos columnas: una para la estructura

de minería de datos y otra para el modelo de minería de datos

TM_Decision_Tree, que creó en la tarea anterior.

-150-
Universidad Nacional de Huancavelica

3. Haga clic derecho en la columna Estructura y seleccione Nuevo

modelo de minería de datos.

Se abrirá el cuadro de diálogo Nuevo modelo de minería de datos.

4. En Nombre del modelo, escriba TM_Clustering.

5. En Nombre del algoritmo, seleccione Clústeres de Microsoft.

6. Haga clic en Aceptar.

Aparece un nuevo modelo en la ficha Modelos de minería de datos del

Diseñador de minería de datos. Este modelo, integrado con el algoritmo de


-151-
Universidad Nacional de Huancavelica
clústeres de Microsoft, agrupa los clientes con características similares en

clústeres y predice la compra de una bicicleta en cada clúster. Aunque puede

modificar el uso y las propiedades de la columna para el modelo nuevo, en

este tutorial no es necesario hacer cambios en el modelo TM_Clustering.

-152-
Universidad Nacional de Huancavelica
Crear un modelo Microsoft Naive Bayes

1. En la ficha Modelos de minería de datos del Diseñador de minería de

datos, haga clic derecho en la columna Estructura y seleccione Nuevo

modelo de minería de datos.

2. En el cuadro de diálogo Nuevo modelo de minería de datos, en

Nombre del modelo, escriba TM_NaiveBayes.

3. En Nombre del algoritmo, seleccione Bayes naive de Microsoft y

haga clic en Aceptar.

Aparece un mensaje que indica que el algoritmo Bayes naive de

Microsoft no admite las columnas Age y Yearly Income, que son

continuas.

4. Haga clic en Sí para confirmar el mensaje y continuar.

-153-
Universidad Nacional de Huancavelica
Aparece un nuevo modelo en la ficha Modelos de minería de datos. Aunque

puede modificar el uso y las propiedades de la columna para todos los modelos

de la ficha, en este tutorial, no es necesario hacer cambios en el modelo

TM_NaiveBayes.

II. Procesar los modelos de la estructura de distribución de Correo


Directo

Para poder examinar o trabajar con los modelos de minería de datos que ha

creado, se debe implementar el proyecto de Analysis Services y procesar la

estructura y los modelos de minería de datos. En la implementación se envía

el proyecto a un servidor y se crean en el servidor los objetos de ese proyecto.

El procesamiento es el paso, o la serie de pasos, que rellena los objetos de

Analysis Services con datos desde orígenes de datos relacionales. Los

modelos no se pueden utilizar hasta que se hayan implementado y procesado.

Para obtener más información

Procesar objetos de minería de datos

-154-
Universidad Nacional de Huancavelica

Procesar objetos de minería de datos

El procesamiento de una estructura o un modelo de minería de datos es

diferente del procesamiento de objetos OLAP como dimensiones y cubos. En el

procesamiento OLAP se crean cubos con agregaciones, en tanto que en el

procesamiento de minería de datos se crean datos de entrenamiento y se

ejecutan algoritmos de minería en esos datos.

Procesar Estructuras de minería de datos

Para controlar cómo se procesan los modelos dentro de la estructura de minería

de datos, puede procesar una estructura de minería de datos por separado de

sus modelos de minería de datos asociados. Primero, debe procesar la

estructura de minería de datos asociada y, después, puede seguir con el

procesamiento del modelo de minería de datos que le interesa. Puede procesar

una estructura de minería de datos mediante los menús y botones de las fichas

Modelos de minería de datos o Estructura de minería de datos del Editor de

minería de datos. En el cuadro de diálogo de procesamiento, seleccione una

opción de procesamiento y haga clic en Ejecutar.

Analysis Services escribe todos los datos de entrenamiento en el disco duro

local.

Procesar Modelos de minería de datos

Debe procesar los modelos de Analysis Services que ha definido antes de

empezar a trabajar con ellos. También debe volver a procesar los modelos de

minería de datos siempre que cambie la estructura del modelo de minería de

datos, actualice los datos de entrenamiento, cambie el modelo de minería de

datos existente o agregue un nuevo modelo de minería de datos a la estructura.

-155-
Universidad Nacional de Huancavelica
Asegurarse de la coherencia con HoldoutSeed

Al implementar un proyecto y procesar la estructura y los modelos, a las filas

individuales de la estructura de datos se les asigna de forma aleatoria el

conjunto de pruebas y entrenamiento a partir de un valor de inicialización del

número aleatorio. Normalmente, el valor de inicialización del número aleatorio

se calcula con los atributos de la estructura de datos. Teniendo en cuenta los

fines de este tutorial, para asegurarse de que los resultados son los mismos

que los descritos aquí, asignaremos arbitrariamente un valor de inicialización

de exclusión fijo de 12. El valor de inicialización de exclusión se utiliza para

inicializar el muestreo aleatorio y asegurarse de que los datos se dividen

aproximadamente de la misma manera para todas las estructuras de minería

de datos y sus modelos.

Este valor no afecta al número de casos del conjunto de entrenamiento;

sino que sirve para asegurarse de que la partición se puede repetir.

-156-
Universidad Nacional de Huancavelica
1. Haga clic en la pestaña Estructuras de minería de datos o Modelos

de minería de datos en el Diseñador de minería de datos de Business

Intelligence Development Studio.

Estructura de minería de datos Targeted Mailing aparece en elpanel

Propiedades.

2. Asegúrese de que el panel Propiedades está abierto presionando F4.

3. Asegúrese de que CacheMode está establecido en

KeepTrainingCases.

4. Escriba 12 en HoldoutSeed.

-157-
Universidad Nacional de Huancavelica
Implementar el proyecto y Procesar TODOS los modelos de minería de
datos

En el Diseñador de minería de datos, puede procesar una estructura de

minería de datos, un modelo de minería de datos específico que esté asociado

a una estructura de minería de datos, o bien procesar la estructura y todos los

modelos que estén asociados a esa estructura. Para esta tarea, procesaremos

la estructura y todos los modelos al mismo tiempo.

1. En el menú Modelo de minería de datos, seleccione Procesar

estructura de minería de datos y todos los modelos.

Si ha realizado cambios en la estructura, se le pedirá que genere e

implemente el proyecto antes de procesar los modelos. Haga clic en Sí.

2. En el cuadro de diálogo Procesar estructura de minería de datos -

-158-
Universidad Nacional de Huancavelica
Targeted Mailing, haga clic en Ejecutar.

Se abre el cuadro de diálogo Progreso del proceso para mostrar los

detalles del procesamiento del modelo. El procesamiento del modelo

podría tardar algún tiempo, según el equipo.

3. Haga clic en Cerrar en el cuadro de diálogo Progreso del proceso

cuando el procesamiento de los modelos se haya completado.

4. Haga clic en Cerrar en el cuadro de diálogo Procesando estructura de

minería de datos - Targeted Mailing.

-159-
Universidad Nacional de Huancavelica
15. Explorar los modelos Targeted Mailing

Una vez procesados los modelos en el proyecto, puede examinarse en

Business Intelligence Development Studio para buscar tendencias

interesantes. Como los resultados de los modelos de minería de datos son

complejos y pueden resultar difíciles de comprender sin formato, examinar los

datos visualmente suele ser la manera más fácil de entender las reglas y

relaciones que los algoritmos descubren en los datos. La exploración le

ayudará a entender también el comportamiento del modelo y a detectar qué

modelo se comporta mejor antes de implementarlo.

Cada modelo creado se muestra en la ficha Visor de modelos de

minería de datos en el Diseñador de minería de datos. Cada algoritmo

utilizado para crear un modelo en Analysis Services devuelve un tipo de

resultado diferente. Por consiguiente, Analysis Services proporciona un visor

independiente para cada algoritmo. También proporciona un visor genérico

que funciona con todos los tipos de modelo. El Visor de árbol de contenido

genérico muestra resultados detallados sobre el contenido del modelo, que

varía en función del algoritmo utilizado. Para obtener más información, vea Ver

los detalles del modelo con el Visor de árbol de contenido genérico de

Microsoft.

-160-
Universidad Nacional de Huancavelica
En esta sección se examina los mismos datos utilizando los tres

modelos. Cada tipo de modelo se basa en un algoritmo diferente y

proporciona visiones (resultados) diferentes de los datos:

 El modelo Árbol de Decisión indica los factores que influyen en la

compra de bicicletas.

 El modelo Agrupación en Clústeres agrupa los clientes por atributos,

como el comportamiento de compra de bicicletas y otros atributos

seleccionados.

 El modelo Bayes Naive le permite examinar las relaciones entre los

diferentes atributos.

Por último, el Visor de árbol de contenido genérico muestra la estructura

del modelo y proporciona datos más detallados como las fórmulas, los

patrones extraídos y un recuento de casos en un clúster o árbol determinado.

-161-
Universidad Nacional de Huancavelica
I. Explorar el modelo de Árbol de Decisión

Cuando cambie a la ficha Visor de modelos de minería de datos en el

Diseñador de minería de datos para el proyecto del tutorial Adventure Works

DM, el diseñador se abre con el modelo de minería de datos de correo directo

(Targeted Mailing), que es el primero de la estructura. Cada algoritmo utilizado

para crear un modelo en Analysis Services aporta diferentes resultados. Por

tanto, Analysis Services ofrece un visor independiente para cada algoritmo.

Cuando se examina un modelo de minería de datos, el modelo se muestra en

la ficha Visor de modelos de minería de datos utilizando el visor apropiado

para el modelo. En este caso, para el modelo de árbol de decisión, se utiliza

el Visor de árboles de Microsoft. Este visor contiene dos fichas: Árbol de

decisión y Red de dependencias.

-162-
Universidad Nacional de Huancavelica
Pestaña Árbol de Decisión

En la pestaña Árbol de decisión, puede ver árboles de decisión para cada

atributo de predicción del conjunto de datos.

En este caso, el modelo predice solo una columna, Bike Buyer, por lo que

solo hay un árbol para ver. Si hubiera más árboles, podría utilizar el

cuadro Árbol para elegir uno diferente.

Cuando se ve el modelo TM_Decision_Tree en el Visor de árbol de

decisión, puede ver los atributos más importantes en la parte izquierda del

gráfico. "Más importantes" significa que estos atributos son los que más

influyen en el resultado. Los atributos situados más abajo en el árbol (a la

derecha del gráfico) tienen menos efecto.

En este ejemplo, Number Cars Owned es el factor único más importante

para predecir la compra de bicicletas. El modelo agrupa los clientes por

Number Cars Owned y, a continuación, muestra el siguiente atributo más

importante para cada grupo de Number Cars Owned.

Explorar el modelo en la ficha Árbol de decisión

1. Seleccione la pestaña Visor de modelo de minería de datos en

Diseñador de minería de datos.

De forma predeterminada, el diseñador se abre en el primer modelo que

se agregó a la estructura (en este caso, TM_Decision_Tree).

-163-
Universidad Nacional de Huancavelica

2. Utilice los botones de lupa para ajustar el tamaño de presentación del

árbol.

De manera predeterminada, el Visor de árboles de Microsoft sólo

muestra los primeros tres niveles del árbol. Si el árbol contiene menos

de tres niveles, el visor mostrará sólo los niveles existentes. Puede ver

más niveles si utiliza el control deslizante Mostrar nivel o la lista

Expansión predeterminada.

3. Deslice Mostrar nivel hasta la cuarta barra.

-164-
Universidad Nacional de Huancavelica

-165-
Universidad Nacional de Huancavelica
4. Cambie el valor de la lista Fondo (Segundo plano) a 1.

Al cambiar la configuración de Fondo, podrá ver rápidamente el número

de casos de cada nodo que tienen el valor de destino de 1 para [Bike

Buyer]. Recuerde que en este escenario, cada caso representa un

cliente. El valor 1 indica que el cliente compró anteriormente una bicicleta

(rosa); el valor 0 indica que el cliente no ha comprado una bicicleta (azul).

Cuanto más oscuro sea el sombreado del nodo, mayor será el porcentaje

de casos del nodo que tienen el valor de destino.

5. Coloque el cursor sobre el nodo Todos. Se mostrará información sobre

herramientas con los siguientes datos:

-166-
Universidad Nacional de Huancavelica
 Número total de casos.

 Número de casos de personas que no han comprado bicicletas.

 Número de casos de personas que han comprado bicicletas.

 Número de casos con valores que faltan para [Bike Buyer].

También puede colocar el cursor sobre cualquier nodo del árbol para ver

la condición necesaria para alcanzar ese nodo desde el nodo anterior.

Esa misma información se puede ver también en la Leyenda de minería

de datos.

-167-
Universidad Nacional de Huancavelica

1. Haga clic en el nodo de Edad >= 48. El histograma se muestra como

una barra horizontal delgada a lo largo del nodo y representa la

distribución de los clientes con este intervalo de edad que anteriormente

compraron (rosa) o no compraron (azul) una bicicleta. El visor nos

muestra que es probable que los clientes con edades mayores o iguales

a 48 años sin automóvil compren una bicicleta. Si vamos un poco más

lejos, vemos que la probabilidad de comprar una bicicleta aumenta si el

cliente tiene una edad menor a 48 años.

Como habilitó la obtención de detalles cuando creó la estructura y el

modelo, puede recuperar información detallada de los casos del modelo y de

la estructura de minería de datos, incluidas las columnas que no se incluyeron

en el modelo de minería de datos (por ejemplo, emailAddress y FirstName).

-168-
Universidad Nacional de Huancavelica
Para obtener información detallada de los datos del caso

1. Haga clic derecho en un nodo y seleccione Obtener detalles y Sólo

columnas de modelos.

Los detalles de cada caso de entrenamiento se muestran en formato de

hoja de cálculo. Estos detalles proceden de la vista vTargetMail que

seleccionó como la tabla de casos al generar la estructura de minería de

datos.

2. Haga clic con el botón secundario en un nodo y seleccione Obtener

detalles y Columnas de modelo y estructura.

Se muestra la misma hoja de cálculo con las columnas de estructura

anexadas al final.

-169-
Universidad Nacional de Huancavelica
Pestaña Red de Dependencias

La ficha Red de Dependencias muestra las relaciones entre los atributos que

contribuyen a la capacidad de predicción del modelo de minería de datos.

Para explorar el modelo en la ficha Red de dependencias

1. Haga clic en el nodo Bike Buyer para identificar sus dependencias.

El nodo central de la red de dependencias, Bike Buyer, representa el

atributo de predicción del modelo de minería de datos. El sombreado

rosa indica que todos los atributos influyen en la compra de bicicletas.

Cada nodo adyacente representa un atributo que afecta al resultado

del atributo de predicción.

-170-
Universidad Nacional de Huancavelica

-171-
Universidad Nacional de Huancavelica

2. Ajuste el control deslizante Todos los vínculos para identificar el atributo

más influyente.

Conforme baja el control deslizante, sólo permanecen los atributos que

afectan en mayor medida a la columna [Bike Buyer]. Ajustando el control

deslizante, descubrirá que Year Income y Number Cars Owned son los

factores más importantes para predecir si alguien ha comprado una

bicicleta.

Haga clic en un nodo de la red y, a continuación, consulte la leyenda

de color situada en la parte inferior de la ficha para ver cuáles son los

nodos predichos por el nodo seleccionado o los nodos que predicen al

nodo seleccionado.

-172-
Universidad Nacional de Huancavelica
II. Explorar el modelo de Agrupación en Clústeres

El algoritmo de clústeres Microsoft agrupa los casos en clústeres que

contienen características similares. Estas agrupaciones son útiles para la

exploración de datos, la identificación de anomalías en los datos y la creación

de predicciones.

El Visor de clústeres de Microsoft ofrece las siguientes pestañas para la

exploración de modelos de minería de datos de Agrupación en Clústeres:

 Diagrama del clúster

 Perfiles del clúster

 Características del clúster

 Distinción del clúster

-173-
Universidad Nacional de Huancavelica
Pestaña Diagrama del Clúster

La ficha Diagrama del clúster permite explorar las relaciones entre los

clústeres detectados por el algoritmo. Las líneas entre los clústeres

representan la "proximidad" y aparecen sombreadas en función de la similitud

entre los clústeres. El color de cada clúster representa la frecuencia de la

variable y el estado del clúster. Puede seleccionar la variable y el estado en

los cuadros Variable de sombreado y Estado de la parte superior del nodo.

Para explorar el modelo en la ficha Diagrama del clúster

1. Use la lista Modelo de minería de datos de la parte superior de la

pestaña Visor de modelos de minería de datos para cambiar al modelo

TM_Clustering.

2. En la lista Visor, seleccione Visor de clústeres de Microsoft.

3. En el cuadro Variable de sombreado, seleccione Bike Buyer.

La variable predeterminada es Población, pero puede cambiarla a

cualquier atributo del modelo con el fin de determinar los clústeres que

contienen miembros con los atributos que desea.

-174-
Universidad Nacional de Huancavelica

-175-
Universidad Nacional de Huancavelica
4. Seleccione 1 en el cuadro Estado para explorar esos casos donde se

compró una bicicleta.

La leyenda Densidad describe la densidad del par de estados del

atributo que se selecciona en Variable de sombreado y Estado. En este

ejemplo se indica que el clúster con el sombreado más oscuro tiene el

porcentaje superior de compradores de bicicleta.

5. Pause su mouse sobre el clúster con el sombreado más oscuro.

Una información sobre herramientas muestra el porcentaje de casos que

tienen el atributo, Bike Buyer = 1.

6. Elija el clúster con mayor densidad, haga clic con el botón secundario en

él, seleccione Cambiar nombre de clúster y escriba Bike Buyers High

para una identificación posterior. Haga clic en Aceptar.

-176-
Universidad Nacional de Huancavelica
7. Busque el clúster que tiene el sombreado más ligero (y la densidad más

baja). Haga clic con el botón secundario en el clúster, seleccione

Cambiar nombre de clúster y escriba Bike Buyers Low. Haga clic en

Aceptar.

8. Haga clic en el clúster Bike Buyers High y arrástrelo hacia una área del

panel que le dará una vista clara de sus conexiones a los otros clústeres.

Al seleccionar un clúster, se resaltan las líneas que conectan este clúster

con otros para que pueda ver todas las relaciones existentes para el

mismo. Cuando el clúster no está seleccionado, puede saber por la

oscuridad de las líneas la intensidad de las relaciones entre todos los

clústeres del diagrama. Si el sombreado es claro o inexistente, los

clústeres no son muy similares.

-177-
Universidad Nacional de Huancavelica
9. Use el control deslizante situado en la parte izquierda de la red para filtrar

los vínculos de menor intensidad y encontrar los clústeres con las

relaciones más próximas. El departamento comercial de Adventure

Works Cycles podría desear combinar los clústeres similares al

determinar el mejor método para entregar el envío de correo directo.

-178-
Universidad Nacional de Huancavelica
Pestaña Perfiles del Clúster

La ficha Perfiles del Clúster proporciona una vista global del modelo

TM_Clustering. Como podrá ver en el visor, la ficha Perfiles del clúster

contiene una columna por cada clúster del modelo. La primera columna

enumera los atributos asociados a un clúster. La segunda columna muestra

los estados de cada variable. El resto de columnas muestran los estados de

un atributo para cada clúster. La distribución de una variable discreta se

muestra como una barra coloreada y el número máximo de barras aparece en

la lista Barras de histograma. Los atributos continuos se muestran con un

diagrama de rombo, que representa la desviación media y estándar en cada

clúster.

Para explorar el modelo en la ficha Perfiles del Clúster

1. Establezca las barras Histograma en 5.

En nuestro modelo, 5 es el número máximo de estados para cualquier

variable.

2. Si la Leyenda de minería de datos bloquea la presentación de los

Perfiles del atributo, retírela.

-179-
Universidad Nacional de Huancavelica

3. Seleccione la columna Bike Buyers High y arrástrela hacia la derecha

de la columna Población.

4. Seleccione la columna Bike Buyers Low y arrástrela a la derecha de la

columna Bike Buyers High.

5. Haga clic en la columna Bike Buyers High.

La columna Variables está ordenada por orden de importancia para ese

clúster. Desplácese por la columna y revise las características del clúster

Bike Buyer High. Por ejemplo, es muy probable que en todas ellas la

característica común sea que la distancia al trabajo sea corta.

6. Haga doble clic en la celda Age en la columna Bike Buyers High.

Leyenda de minería de datos muestra una vista más detallada donde

se puede ver el intervalo de edad de esos clientes y su edad media.

7. Haga clic derecho en la columna Bike Buyers Low y seleccione Ocultar

columna.
-180-
Universidad Nacional de Huancavelica

-181-
Universidad Nacional de Huancavelica
Pestaña Características del Clúster

La ficha Características del clúster le permite examinar con más detalle las

características que forman un clúster. En lugar de comparar las características

de todos los clústeres (como en la pestaña Perfiles del clúster), puede explorar

un clúster a la vez.

Por ejemplo, si selecciona Bike Buyers High en la lista Clúster puede ver las

características de los clientes en este clúster. Se ve que son los clientes que

más han comprado una bicicleta en el pasado, tienden a compartir las mismas

características: son de North America, viajan todos los días de 0 a 1 millas, no

tienen coche, no tienen niños en casa y están casados.

-182-
Universidad Nacional de Huancavelica
Aunque la presentación es diferente del visor Perfiles del clúster, los resultados

son los mismos.

A menos que establezca un valor inicial para holdoutseed, los

resultados variarán cada vez que procese el modelo. Para obtener

más información, vea Elemento HoldoutSeed

Ejemplo 2, si muestra el clúster Bike Buyers Low en el escenario de este

tutorial, podrá ver que son los clientes que menos han comprado una bicicleta

en el pasado: viven en North América, viajan todos los días de 5 a 10 millas,

tienen 2 coches, no tienen niños en casa y no están casados.

-183-
Universidad Nacional de Huancavelica
Pestaña Distinción del Clúster

La ficha Distinción del clúster le permite explorar las características que

diferencian a un clúster de otro. Después de seleccionar dos clústeres, uno de

la lista Clúster 1 y otro de la lista Clúster 2, el visor determinará las diferencias

entre los clústeres y las mostrará según el orden de los atributos que más

distinguen a los clústeres.

Para explorar el modelo en la ficha Diagrama del clúster

1. En el cuadro Clúster 1, seleccione Bike Buyers High.

2. En el cuadro Clúster 2, seleccione Bike Buyers Low.

3. Haga clic en Variables para ordenar alfabéticamente.

Algunas de las diferencias sustanciales entre clientes de los clústeres

Bike Buyers Low y Bike Buyers High son la posesión de un vehículo,

la edad, la educación y la distancia al trabajo.

-184-
Universidad Nacional de Huancavelica

-185-
Universidad Nacional de Huancavelica
Otro ejemplo, compare el clúster 3 y el clúster 9 del modelo

TM_Clustering. El clúster 3 contiene mayor densidad de compradores de

bicicleta y el clúster 9 contiene menor densidad. Las personas del clúster 3

tiene ingresos anuales entre US$ 10000-56000 y son menores, entre 32 y 57

años, mientras que las personas del clúster 3 no tienen carros propios y

recorren una distancia menor, entre 0 y 1 millas los del clúster 9 tienen 4 hijos

y recorren una distancia superior a 10 millas.

-186-
Universidad Nacional de Huancavelica
III. Explorar el Modelo Microsoft Naive Bayes

Utilice la lista Modelo de minería de datos de la parte superior de la ficha

Visor de modelos de minería de datos para cambiar al modelo

TM_NaiveBayes. El visor de este modelo, el Visor Bayes naive de Microsoft,

contiene cuatro fichas:

 Red de Dependencias,

 Perfiles del Atributo,

 Características del Atributo y

 Distinción del Atributo.

Para obtener más información acerca de cómo utilizar el Visor Bayes

naive de Microsoft, vea Ver un modelo de minería de datos con el Visor Bayes

naive de Microsoft.

-187-
Universidad Nacional de Huancavelica
Pestaña Red de Dependencias

La ficha Red de dependencias funciona igual que la ficha del mismo nombre

del Visor de Árboles de Microsoft. Cada nodo del visor representa un atributo

y las líneas entre los nodos representan relaciones. En el visor, puede ver

todos los atributos que afectan al estado del atributo de predicción, Bike Buyer.

Para explorar el modelo en la pestaña Red de Dependencias

1. Use la lista Modelo de minería de datos de la parte superior de la

pestaña Visor de modelos de minería de datos para cambiar al modelo

TM_NaiveBayes.

2. Use la lista Visor para cambiar a Visor Bayes naive de Microsoft.

3. Haga clic en el nodo Bike Buyer para identificar sus dependencias.

El sombreado rosa indica que todos los atributos influyen en la compra

de bicicletas.

4. Ajuste el control deslizante para identificar el atributo más influyente.

A medida que baja el control deslizante, solamente permanecen los

atributos que afectan en mayor medida a la columna [Bike Buyer]. Si

ajusta el control deslizante, puede detectar que algunos de los atributos

más influyentes son el número de automóviles que se posee, la distancia

al lugar de trabajo y el número total de hijos.

-188-
Universidad Nacional de Huancavelica

-189-
Universidad Nacional de Huancavelica
Pestaña Perfiles del Atributo

La ficha Perfiles del atributo describe la forma en que los diferentes estados

de los atributos de entrada afectan al resultado del atributo de predicción.

Para explorar el modelo en la ficha Perfiles del atributo

1. En el cuadro Predicción, compruebe que se ha seleccionado Bike Buyer.

2. Si la Leyenda de minería de datos está bloqueando la presentación de los

Perfiles del atributo, retírela.

3. En el cuadro de barras Histograma, seleccione 5.

En nuestro modelo, 5 es el número máximo de estados para cualquier

variable.

Los atributos que afectan al estado de este atributo de predicción aparecen

enumerados junto a los valores de cada estado de los atributos de entrada

y sus distribuciones en cada estado del atributo de predicción.

4. En la columna Atributos, busque Number Cars Owned. Observe las

diferencias en los histogramas de los compradores de bicicletas (la columna

con la etiqueta 1) y los no compradores (la columna con la etiqueta 0). Una

persona que no tenga automóvil o que tenga uno tiene mucha más

probabilidad de comprar una bicicleta.

5. Haga doble clic en la celda Number Cars Owned en la columna de

comprador de bicicletas (la columna con la etiqueta 1).

La Leyenda de minería de datos muestra una vista más detallada.

-190-
Universidad Nacional de Huancavelica
Pestaña Características del Atributo

Mediante la ficha Características del atributo, puede seleccionar un atributo

y un valor para ver la frecuencia con la que aparecen los valores de otros

atributos en el caso de los valores seleccionados.

Para explorar el modelo en la ficha Características del Atributo

1. En la lista Atributo, compruebe que Bike Buyer está seleccionado.

2. Establezca el Valor en 1.

En el visor, verá que los clientes que no tienen ningún hijo conviviendo

con ellos, una distancia corta al trabajo y que viven en la región de

Norteamérica tienen más probabilidad de comprar una bicicleta.

-191-
Universidad Nacional de Huancavelica
Pestaña Distinción del Atributo

La ficha Distinción del atributo le permite examinar las relaciones entre dos

valores discretos del atributo de predicción seleccionado y otros valores del

atributo. Dado que el modelo TM_NaiveBayes sólo tiene dos estados, 1 y 0,

no tiene que hacer ningún cambio en el visor.

En el visor, podrá ver que las personas que no tienen un coche tienden a

comprar bicicletas y las personas que tienen dos coches no suelen comprar

bicicletas.

-192-
Universidad Nacional de Huancavelica

4.4. EVALUACIÓN DEL MODELO

Tarea Evaluar el modelo

El modelo ahora debería ser evaluado para asegurar que se encontró criterios

de éxito de la minería de datos y aprobar los criterios de prueba deseados.

Esto es una evaluación puramente técnica basada en el resultado de las tareas

modelado.

Salida Evaluación del modelo

Resumir los resultados de esta tarea, listar las calidades de los modelos

generados (por ejemplo, en términos de exactitud), y el nivel de su calidad en

relación a cada otro.

-193-
Universidad Nacional de Huancavelica

EVALUACIÓN DEL MODELO

Evaluation

Evaluate
Results

Review
Process

Ajustar parámetros para producir mejores modelos.

Los pasos de evaluación previa tratan con factores como la exactitud y la

generalidad del modelo. Este paso evalúa el grado en que el modelo

encuentra los objetivos de negocio, y procura determinar si hay alguna razón

de negocio por qué este modelo sería deficiente. Acá se compara resultados

con los criterios de evaluación definidos al principio del proyecto.

-194-
Universidad Nacional de Huancavelica
Un buen modo de definir las salidas totales de un proyecto de KDD es

usar la ecuación: RESULTADOS = MODELOS + CONCLUSIONES.

En esta ecuación, definimos que la salida total del proyecto de KDD no es

solamente los modelos (aunque ellos sean importantes) pero también las

conclusiones, las que definimos como algo (aparte del modelo) que es

importante en la búsqueda de los objetivos del negocio o importante para

arribar a nuevas preguntas, las líneas de aproximación, o los efectos

negativos (por ejemplo, los problemas de calidad de datos descubierto por

el uso de la minería de datos).

Nota: Aunque el modelo esté directamente conectado a las preguntas del

negocio, las conclusiones no necesariamente están relacionadas con

cualquiera de las preguntas u objetivos, mientras ellos son importantes

para el promotor del proyecto.

-195-
Universidad Nacional de Huancavelica
No se debe implementar un modelo en un entorno de producción sin

comprobar primero si el modelo funciona correctamente. Además, puede que

haya creado varios modelos y deba decidir cuál funciona mejor. Si ninguno de

los modelos que ha creado en el paso Generar modelos funciona

correctamente, puede que deba volver a un paso anterior del proceso y volver

a definir el problema o volver a investigar los datos del conjunto de datos

original.

Puede explorar las tendencias y patrones que los algoritmos descubren

mediante los Visores del Diseñador de minería de datos del Data Tools de

Visual Studio. También puede comprobar si los modelos crean predicciones

correctamente mediante herramientas del diseñador como el Gráfico de

Elevación y la Matriz de Clasificación. Estas herramientas requieren los datos

de comprobación que separó del conjunto de datos original en el paso de

generación del modelo.

-196-
Universidad Nacional de Huancavelica

CASO DE ESTUDIO

Ventas y Entrega de Bicicletas en Adventure Works (Continuación


…)

16. Evaluar los modelos de Targeted Mailing

Después de crear, procesar y explorar los modelos de minería de datos para

el escenario de Correo Directo, puede probar los modelos para determinar la

precisión de las predicciones y decidir si un modelo es mejor que otro. La

validación es un paso importante del proceso de DM. Es importante conocer

cómo se comportan con datos reales los modelos de DM de distribución de

correo directo antes de implementarlos en un entorno de producción.

SQL Server Analysis Services proporciona diversas maneras de

determinar si los modelos de minería de datos son precisos.

 Puede utilizar gráficos para representar visualmente la precisión de un

modelo de minería de datos: un Gráfico de Elevación compara la

exactitud de las predicciones de cada modelo. Un gráfico de beneficios

muestra el aumento teórico en las ganancias asociadas a la utilización de

cada modelo. Un gráfico de dispersión compara los valores reales con los

valores previstos y se utiliza para los modelos de regresión u otros

modelos que predicen atributos continuos utilizando entradas continuas.

-197-
Universidad Nacional de Huancavelica
 Puede utilizar una Matriz de Clasificación para tabular las predicciones

precisas y las predicciones inexactas.

 Puede utilizar la Validación Cruzada para validar estadísticamente la

confiabilidad de un modelo de minería de datos.

Según el tipo de gráfico que elija, puede seguir configurando las opciones,

examinar el gráfico o copiarlo en el Portapapeles y trabajar con los datos en

Excel.

Nota Los gráficos y sus definiciones no se guardan. Si cierra la ventana que

contiene un gráfico, debe volverlo a crear.

Gráfico de Elevación

Después de configurar las opciones para los modelos y los datos de prueba,

haga clic en la ficha Gráfico de elevación para ver

los resultados. También puede copiar el gráfico en

el Portapapeles o ver detalles de puntos de datos o

líneas de tendencia individuales en la Leyenda de

minería de datos.

-198-
Universidad Nacional de Huancavelica
Gráfico de Beneficios

Después de configurar las opciones de los modelos y los datos de prueba,

haga clic en la ficha Gráfico de elevación, seleccione Gráfico de beneficios

en la lista Tipo de gráfico para establecer las

opciones del gráfico de beneficios y, a

continuación, haga clic en Aceptar para ver los

resultados. Puede utilizar el cuadro de diálogo

Configuración del gráfico de beneficios tantas

veces como desee para probar opciones de costo

diferentes y volver a mostrar el gráfico. La Leyenda de minería de datos

contiene información detallada sobre las ventajas estimadas de cada modelo.

También puede copiar el gráfico y el contenido de la Leyenda de minería de

datos en el Portapapeles para trabajar con ellos en Excel.

Gráfico de Dispersión

Si ha seleccionado el tipo adecuado de modelo, al hacer clic en la ficha

Gráfico de elevación, el tipo de gráfico se establece automáticamente en

Gráfico de dispersión y se muestra un

gráfico de dispersión. No se puede realizar

ninguna otra configuración. También puede

copiar el gráfico en el Portapapeles y pegarlo

como un gráfico en Excel u otra aplicación.

-199-
Universidad Nacional de Huancavelica
Matriz de Clasificación

En una matriz de clasificación, utilice la ficha Selección de entrada para elegir

los modelos y los datos de prueba y, a continuación, haga clic en la ficha Matriz

de clasificación para ver los resultados. El contenido de una matriz de

clasificación es el mismo para todos los tipos de modelo y no se puede

configurar. También puede copiar los datos del gráfico en el Portapapeles y, a

continuación, trabajar con ellos en Excel.

Informe de Validación Cruzada

En un informe de validación cruzada, después de seleccionar una estructura

o un modelo de minería de datos en el Explorador de soluciones, haga clic en

la ficha Validación cruzada, configure todas las opciones pertinentes y, a

continuación, haga clic Obtener resultados para generar el informe. No se

puede realizar ninguna otra configuración. El formato del informe de validación

cruzada es el mismo para todos los tipos de modelo y no se puede configurar.

Sin embargo, el contenido del informe difiere según sea el tipo de modelo que

se esté analizando y el tipo de datos del atributo de predicción. También puede

copiar los resultados del informe en el Portapapeles y trabajar con ellos en

Excel.

-200-
Universidad Nacional de Huancavelica

Ficha Gráfico de Elevación


Muestra una representación gráfica del cambio en la elevación que provoca

un modelo de DM. Por ejemplo, el departamento de marketing de Adventure

Works Cycles desea crear una campaña de distribución de correo directo.

Por las campañas anteriores, saben que el índice de respuesta típico es de

un 10 %. Tienen una lista de 10.000 clientes potenciales almacenada en una

tabla de la base de datos. Por lo tanto, según el índice típico de respuesta,

pueden esperar que respondan 1.000 clientes potenciales.

Sin embargo, el dinero presupuestado para el proyecto no es suficiente

para llegar a los 10.000 clientes de la base de datos. Basándose en el

presupuesto, pueden permitirse enviar publicidad por correo a sólo 5.000

clientes. El departamento de marketing tiene dos opciones:

 Seleccionar aleatoriamente 5.000 clientes como objetivo

 Usar un modelo de minería de datos para dirigirse a los 5.000 clientes

con mayores probabilidades de respuesta

Si la compañía selecciona de forma aleatoria 5.000 clientes, pueden

esperar recibir sólo 500 respuestas, según la tasa de respuesta típica. La

línea aleatoria del gráfico de elevación representa esta situación. Sin

embargo, si el departamento de marketing usa un modelo de DM para dirigir

la distribución de correo, puede esperar un mayor índice de respuesta ya

que se orienta a los clientes que tienen más probabilidades de responder. Si

el modelo es perfecto, significa que el modelo crea predicciones infalibles y

que la empresa podría esperar recibir 1.000 respuestas mediante una

-201-
Universidad Nacional de Huancavelica

distribución de correo de los 1.000 clientes potenciales que recomienda el

modelo. La línea ideal del gráfico de elevación representa esta situación. La

realidad es que el modelo de DM probablemente se sitúa entre estos dos

extremos, entre una estimación aleatoria y una predicción perfecta.

Cualquier mejora en la estimación aleatoria se considera una elevación.

Gráfico de Elevación
Puede crear dos tipos de gráficos de elevación: uno en el que se especifique

un valor de destino para la columna de predicción y otro en el que no se

especifique el valor. Cuando pasa de la ficha Selección de entrada a la ficha

Gráfico de elevación, el gráfico se actualiza para reflejar los cambios

realizados en las asignaciones de columnas o en otras configuraciones.

Gráfico de elevación CON valor de destino

El gráfico siguiente muestra un gráfico de elevación para el modelo

Targeted Mailing que se crea en Tutorial básico de minería de datos. En

este gráfico, el atributo de destino es [Bike Buyer] y el valor de destino es

1, lo que significa que el cliente compró una bicicleta o que es probable que

lo haga. El gráfico de elevación muestra así la mejora que el modelo

proporciona al identificar a los clientes que es probable que compren una

bicicleta.

-202-
Universidad Nacional de Huancavelica

Además del modelo básico, el gráfico incluye un modelo relacionado

filtrado para orientarse a clientes concretos. Puede agregar varios

modelos a un gráfico de elevación, siempre que los modelos tengan todos el

mismo atributo de predicción.

El eje X del gráfico representa el porcentaje del conjunto de datos

de prueba que se usa para comparar las predicciones. El eje Y del gráfico

representa el porcentaje de valores de predicción.

La línea recta diagonal, mostrada aquí en azul claro (/), aparece en

cada gráfico. Representa los resultados de la estimación aleatoria y es la

línea base con la cual evaluar la elevación. Con cada modelo que agrega a un

gráfico de elevación, obtiene dos líneas adicionales: una muestra los

resultados ideales para los datos de entrenamiento establecidos, si

pudiera crear un modelo que siempre predijera perfectamente; y la

-203-
Universidad Nacional de Huancavelica

segunda línea muestra la elevación real, o mejora en los resultados, para el

modelo.

En este ejemplo, la línea ideal para el modelo se muestra en azul

marino (/) y la línea para la elevación real en amarillo. Puede deducir del

gráfico que la línea ideal alcanza el máximo cerca al 40%, lo que significa

que si tuviera un modelo perfecto, podría llegar al 100% de los clientes de

destino enviando correo únicamente al 40% de la población total. La

elevación real para el modelo filtrado al destinarse al 40 % de la población

está entre el 60 y el 70%, lo que significa que se podría llegar al 60 ó 70 %

de los clientes de destino enviando correo al 40 % de la población total de

clientes.

La Leyenda de minería de datos contiene los valores reales de

cualquier punto de las curvas. Puede cambiar el lugar que se mide haciendo

clic en la barra gris vertical y moviéndola (o clic a sus costados). En el

gráfico, la línea gris se ha movido al 30 %, porque se trata del punto donde

tanto el modelo filtrado como el modelo sin filtrar parecen ser más

eficientes, y después de este punto la cantidad de elevación decae.

La Leyenda de minería de datos también contiene puntuaciones y

estadísticas que ayudan a interpretar el gráfico. Estos resultados

representan la exactitud del modelo en la línea gris, que en este escenario

se determina para incluir el 30 % de los casos de prueba totales.

Población Probabilidad
Serie, Modelo Puntuación
de destino de predicción
Correo destinado a todos 0.71 47.40% 61.38%
Correo destinado a menores
0.85 51.81% 46.62%
de 30

-204-
Universidad Nacional de Huancavelica

Modelo de estimación
31.00%
aleatoria
Modelo ideal para: correo
62.48%
destinado a todos
Modelo ideal para: correo
65.28%
destinado a menores de 30

En estos resultados puede ver que, cuando se mide en el 30 % de

todos los casos, el modelo general (correo destinado a todos) puede

predecir el comportamiento de compra de bicicletas en el 47,40% de la

Población de Destino. En otras palabras, si enviara correo directo sólo al

30% de los clientes de la base de datos, podría llegar a algo menos de la

mitad de los destinatarios pretendidos. Si utilizara el modelo filtrado,

podría llegar aproximadamente al 51.81 % de los clientes de destino.

El valor de Probabilidad de predicción representa el umbral necesario

para incluir un cliente entre los casos "con probabilidad de comprar". Para

cada caso, el modelo calcula la exactitud de cada predicción y almacena ese

valor, que puede utilizar para filtrar o elegir clientes. Por ejemplo, para

identificar los clientes del modelo básico que son compradores probables,

utilizaría una consulta para recuperar los casos con una probabilidad de

predicción de al menos el 61.3 %. Para obtener los clientes de destino del

modelo filtrado, crearía una consulta que recuperara los casos que

cumplieran todos los criterios: la edad y un valor de PredictProbability de

al menos el 46.6 %.

Es interesante comparar los modelos. El modelo filtrado parece

capturar más clientes potenciales, pero al elegir a los clientes con una

-205-
Universidad Nacional de Huancavelica

puntuación de probabilidad de predicción del 46.62 %, también tiene una

posibilidad del 53.38 % de enviar correo a alguien que no va a comprar una

bicicleta. Por consiguiente, si estuviera decidiendo qué modelo es mejor,

sería conveniente equilibrar la mayor precisión y el menor tamaño de

destino del modelo filtrado con respecto a la capacidad de selección del

modelo básico.

El valor de Puntuación ayuda a comparar los modelos calculando la

efectividad del modelo a través de una población normalizada. Una mayor

puntuación es mejor, de modo que en este caso podría decidir que

seleccionar a los clientes menores de 30 años es la estrategia más

eficiente, a pesar de la menor probabilidad de predicción.

Gráfico de elevación para un modelo SIN valor de destino

Si no especifica el estado de la columna de predicción, puede crear el tipo

de gráfico que se muestra en el diagrama siguiente. Este gráfico muestra

el modo en que el modelo se comporta para todos los estados del atributo

de predicción. Por ejemplo, este gráfico le indicaría hasta qué punto el

modelo predice bien tanto a los clientes que es probable que compren una

bicicleta como a los que es probable que no la compren.

-206-
Universidad Nacional de Huancavelica

El eje X es el mismo que en el gráfico con la columna de predicción

especificada, pero ahora el eje Y representa el porcentaje de predicciones

correctas. Por consiguiente, la línea ideal es la línea diagonal (/), que

muestra que en el 50 % de los datos, el modelo predice correctamente el

50 % de los casos, el máximo que se puede esperar.

Puede hacer clic en el gráfico para mover la barra gris vertical y la

Leyenda de minería de datos muestra el porcentaje de casos total y el

porcentaje de casos que se predijeron correctamente. Por ejemplo, si

coloca la barra deslizante gris en la marca del 50 por ciento, la Leyenda de

minería de datos muestra las puntuaciones de precisión siguientes. Estas

cifras se basan en el modelo TM_Decision Tree creado en el Tutorial

básico de minería de datos.

Población Probabilidad
Serie, Modelo Puntuación
correcta de predicción
TM_Decision_Tree 0.79 47.50% 73.35%
Modelo ideal 50.00%

-207-
Universidad Nacional de Huancavelica

En esta tabla se indica que, en el 50 % de la población, el modelo que

creó predice correctamente el 47.5 % de los casos. Podría considerar a

éste un modelo bastante preciso. Sin embargo, recuerde que este modelo

determinado predice todos los valores del atributo de predicción. Por

consiguiente, el modelo podría ser preciso para predecir que el 90 % de los

clientes no comprarán una bicicleta.

Nota

La exactitud de la predicción para todos los valores discretos del

atributo de predicción se muestra en una única línea. Si desea ver

las líneas de exactitud de la predicción para cualquier valor

individual del atributo de predicción, debe crear un gráfico de

elevación independiente para ese valor.

-208-
Universidad Nacional de Huancavelica
En Resumen:

La ficha Gráfico de precisión de minería de datos utiliza datos de entrada,

que son datos separados del conjunto de datos original, para comparar las

predicciones con un resultado conocido. Posteriormente, los resultados de la

comparación se ordenan y se representan en un gráfico. En este gráfico

también se representa un modelo ideal, es decir, un modelo teórico que

predice el resultado correcto el 100% de las veces. Puede comparar los

resultados de los modelos reales y el modelo ideal para ver el grado de

precisión de las predicciones. Para obtener más información acerca del

funcionamiento de los gráficos de elevación, vea Gráfico de elevación.

El gráfico de elevación es importante porque permite diferenciar

modelos de una estructura que son prácticamente idénticos y determinar cuál

ofrece mejores predicciones. Asimismo, el gráfico de elevación muestra qué

tipo de algoritmo realiza las mejores predicciones en una determinada

situación.

Esta lección incluye las tareas siguientes:

1. Probar la exactitud con gráficos de mejora respecto al modelo predictivo

2. Probar un modelo filtrado

-209-
Universidad Nacional de Huancavelica
I. Probar la Exactitud con Gráficos de mejora respecto al modelo
predictivo

En la ficha Gráfico de precisión de minería de datos del Diseñador de

minería de datos, puede calcular la precisión de las predicciones de sus

modelos y comparar los resultados de diferentes modelos. Este método de

comparación se conoce como gráfico de mejora respecto al modelo predictivo.

Normalmente, la exactitud de la predicción de un modelo de minería de datos

se cuantifica mediante la mejora respecto al modelo predictivo o la exactitud

de la clasificación. En este tutorial utilizaremos solamente el gráfico de mejora

respecto al modelo predictivo.

En este tema, realizará las tareas siguientes:

 Elegir Conjunto de datos de entrada

 Seleccionar modelos, columnas de predicción y valores

-210-
Universidad Nacional de Huancavelica
Seleccionar el Conjunto de datos

El primer paso a la hora de probar la precisión de los modelos de minería de

datos consiste en seleccionar el origen de datos que usará para realizar las

pruebas. Probará la exactitud de los modelos con sus datos de prueba y, a

continuación, los utilizará con datos externos.

1. Cambie a la pestaña Gráfico de precisión de minería de datos del

Diseñador de minería de datos de Microsoft Visual Studio y seleccione

la pestaña Selección de entrada.

2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo

en un gráfico de precisión, seleccione Usar casos de prueba de

estructura de minería de datos para probar los modelos utilizando los

datos de prueba que apartó cuando creó la estructura de minería de

datos.

-211-
Universidad Nacional de Huancavelica
Seleccionar Modelos, Columnas de predicción y Valores

El siguiente paso consiste en seleccionar los modelos que desea incluir en el

gráfico de mejora respecto al modelo predictivo, la columna de predicción con

la que va a comparar los modelos y el valor que se va a predecir.

Las columnas del modelo de minería de datos que se enumeran en


la lista Nombre de columna de predicción se limitan a las columnas
cuyo tipo de uso se ha establecido en Predict o Predict Only, y su
tipo de contenido es Discrete o Discretized.

1. En la ficha Selección de entrada del Diseñador de minería de datos, en

Seleccione las columnas del modelo de minería de datos de

predicción que se mostrarán en el gráfico de elevación, active la casilla

correspondiente a Sincronizar valores y columnas de predicción.

2. En la columna Mostrar, seleccione cada uno de los modelos.

De forma predeterminada, todos los modelos de la estructura de minería de

datos aparecen seleccionados. Puede decidir no incluir un modelo

específico, pero para este tutorial deje todos los modelos seleccionados.

3. En la columna Nombre de columna de predicción, compruebe que Bike

Buyer está seleccionado para cada modelo.

4. En la columna Valor de predicción, seleccione 1. El mismo valor se rellena

automáticamente para cada modelo que tiene la misma columna de

predicción.

-212-
Universidad Nacional de Huancavelica

5. Seleccione la pestaña Gráfico de Elevación respecto al modelo

predictivo para mostrar el gráfico de mejora.

Puede ver dos tipos de gráficos en la ficha Gráfico de elevación de la

ficha Gráfico de precisión de minería de datos del Diseñador de

minería de datos: un gráfico de elevación y un gráfico de beneficios. Un

gráfico de elevación compara la precisión de las predicciones de cada

modelo, en tanto que un gráfico de beneficios muestra el incremento

teórico que se asocia con el uso de cada modelo.

Use la lista Tipo de gráfico para seleccionar el tipo de gráfico que

desea. Cuando selecciona Gráfico de beneficios en la lista, se abre

automáticamente el cuadro de diálogo Configuración del gráfico de

beneficios. (Este cuadro de diálogo también se abre cuando se hace clic

en Configuración). Puede usar este cuadro de diálogo para configurar los

parámetros que definen el gráfico de beneficios.

-213-
Universidad Nacional de Huancavelica

En un gráfico de elevación, sólo pueden compararse los modelos de

minería de datos que contienen atributos de predicción. La ficha Gráfico

de precisión de minería de datos no puede utilizarse con los modelos

de serie temporal o con los modelos que tienen atributos de predicción

continuos.

Cuando haga clic en la pestaña, se ejecutará una consulta de predicción en

el servidor y en la base de datos para la estructura de minería de datos y la

tabla de entrada o los datos de prueba. Los resultados se trazan en el

gráfico.

Al escribir un Valor de predicción, el gráfico de mejora respecto al

modelo predictivo traza un modelo de suposición aleatorio así como un

modelo ideal. Los modelos de minería de datos que creó se situarán entre

estos dos extremos, entre una suposición aleatoria y una predicción

perfecta. Cualquier mejora en la suposición aleatoria se considera una

mejora respecto al modelo predictivo.

-214-
Universidad Nacional de Huancavelica

-215-
Universidad Nacional de Huancavelica
6. Utilice la leyenda para buscar las líneas coloreadas que representan el

modelo ideal y el modelo de estimación aleatoria.

Observará que el modelo TM_Decision_Tree proporciona la mayor mejora

respecto al modelo predictivo, superando tanto al modelo de Agrupación en

Clústeres como al de Bayes Naive.

Para obtener una explicación detallada de un gráfico de mejora respecto

al modelo predictivo similar al creado en esta lección, vea Gráfico de elevación.

Gráfico de Beneficios
Un gráfico de beneficios muestra el incremento estimado de beneficios que

se asocia con el uso de un modelo de minería de datos para determinar con

qué clientes debe ponerse en contacto una empresa en un escenario de

negocios. El eje Y del gráfico representa el beneficio, en tanto que el eje X

representa el porcentaje de la población con la que la empresa se ha puesto

en contacto. Un gráfico de beneficios típico muestra un incremento en los

beneficios hasta un determinado punto, después del cual los beneficios

disminuyen a medida que crece la población con la que se entra en contacto.

Use la lista Tipo de gráfico para mostrar el gráfico de beneficios.

Cuando selecciona Gráfico de beneficios, se abre el cuadro de diálogo

Configuración del gráfico de beneficios. Puede usar este cuadro de diálogo

para configurar los parámetros que definen el gráfico de beneficios. En la

siguiente lista se describen los parámetros que puede configurar.

-216-
Universidad Nacional de Huancavelica

Población

El número de escenarios del conjunto de datos que se utiliza para crear

el gráfico de elevación. Por ejemplo, el número de clientes potenciales.

Costo fijo

El costo fijo asociado con el problema de la empresa. Si se calculase

para una solución de correo directo, el costo no dependería de

variables como el número de llamadas telefónicas o el número de envíos

de correo promocional.

Costo individual

Los costos adicionales al costo fijo y que se pueden asociar con cada

contacto con el cliente. Por ejemplo, el correo promocional o las

llamadas de teléfono.

Ingresos por individuo

La cantidad de ingresos asociados con cada venta realizada con éxito.

También puede abrir el cuadro de diálogo Configuración del gráfico de

beneficios haciendo clic en Configuración en la ficha Gráfico de beneficios.

El gráfico de beneficios contiene una línea vertical gris que puede

desplazar haciendo clic en una ubicación del gráfico. La Leyenda de minería

de datos muestra una puntuación, la población correcta y la probabilidad de

predicción que se asocian con la ubicación de la línea gris en el gráfico. Si

selecciona el punto máximo de beneficios en el gráfico utilizando la línea

gris, puede usar el valor de probabilidad de predicción para determinar un

umbral de probabilidad para el contacto con un cliente.

-217-
Universidad Nacional de Huancavelica

Por ejemplo, si el pico de la curva de beneficios está en el 55 % de la

población y la probabilidad de predicción asociada es del 20 %, esto indica

que para conseguir los máximos beneficios sólo debe ponerse en contacto

con aquellos clientes cuya respuesta se predice con una posibilidad del 20%

o superior.

-218-
Universidad Nacional de Huancavelica
II. Probar un Modelo Filtrado

Ahora que ha determinado que el modelo TM_Decision_Tree es el más

preciso, debería evaluarlo en el contexto de la campaña de distribución de

Correo Directo de Adventure Works Cycles. El departamento de marketing

desea saber si hay alguna diferencia entre las características de los

compradores y las compradoras de bicicletas. Esta información les ayudará a

decidir qué revistas utilizar para los anuncios y qué productos ofrecer en sus

campañas.

En esta lección, crearemos un modelo que se filtra por el género. A

continuación, puede realizar fácilmente una copia de ese modelo y cambiar la

condición de filtro para generar un nuevo modelo basado en el género.

Para obtener más información sobre los filtros, vea Crear filtros para modelos

de minería de datos.

Usar Filtros

El filtrado permite crear con facilidad modelos basados en subconjuntos de

datos. El filtro se aplica sólo al modelo y no cambia el origen de datos

subyacente. Para obtener información sobre cómo aplicar filtros a tablas

anidadas, vea Tutorial intermedio de minería de datos .

Filtros en Tablas de casos


Primero realizará una copia del modelo TM_Decision_Tree.

-219-
Universidad Nacional de Huancavelica
Copiar el modelo del árbol de decisión

1. En Microsoft Visual Studio, en el Explorador de soluciones, seleccione

BasicBusinessAnalytics.

2. Haga clic en la ficha Modelos de minería de datos.

1. Haga clic derecho en el modelo TM_Decision_Tree y seleccione Nuevo

modelo de minería de datos.

2. En el campo Nombre del modelo, escriba TM_Decision_Tree_Male.

3. Haga clic en Aceptar.

Luego, cree un filtro para seleccionar los clientes para el modelo basados

en su género.

-220-
Universidad Nacional de Huancavelica
Crear un filtro de casos en un modelo de minería de datos

1. Haga clic derecho en el modelo de minería de datos

TM_Decision_Tree_Male para abrir el menú contextual.

O bien

Seleccione el modelo. En el menú Minería de datos, seleccione

Establecer filtro de modelos.

2. En el cuadro de diálogo Filtro del modelo, haga clic en la fila superior de

la cuadrícula en el cuadro de texto Columna de la estructura de minería

de datos.

La lista desplegable muestra sólo los nombres de las columnas de esa

tabla.

3. En el cuadro de texto Columna de la estructura de minería de datos,

seleccione Gender.

El icono en la parte izquierda del cuadro de texto cambia para indicar que

el elemento seleccionado es una tabla o una columna.

-221-
Universidad Nacional de Huancavelica
4. Haga clic en el cuadro de texto Operador y seleccione el operador igual (=)

en la lista.

5. Haga clic en el cuadro de texto Valor y escriba M.

6. Haga clic en la siguiente fila de la cuadrícula.

7. Haga clic en Aceptar para cerrar el filtro del modelo.

El filtro se muestra en la ventana Propiedades. Como alternativa, puede

iniciar el cuadro de diálogo Filtro del modelo de la ventana Propiedades.

8. Repita los pasos anteriores, pero esta vez asigne al modelo el nombre

TM_Decision_Tree_Female y escriba F en el cuadro de texto Valor.

Ahora tiene dos modelos nuevos que se muestran en la ficha Modelos de

minería de datos.

-222-
Universidad Nacional de Huancavelica
Procesar los modelos filtrados

Los modelos no se pueden utilizar hasta que se hayan implementado y

procesado. Para obtener más información acerca de los modelos de

procesamiento, vea Procesar los modelos de la estructura de distribución de

correo directo.

Procesar el modelo filtrado

1. Hacer clic derecho en el modelo TM_Decision_Tree_Male yseleccione

Procesar estructura de minería de datos y todos los modelos.

1. Haga clic en Ejecutar para procesar los nuevos modelos.

2. Una vez completado el procesamiento, haga clic en Cerrar en ambas

ventanas de procesamiento.

-223-
Universidad Nacional de Huancavelica
Evaluar los resultados

Vea los resultados y evalúe la exactitud de los modelos filtrados de la misma

manera que hizo con los tres modelos anteriores. Para obtener más

información, vea:

Explorar el modelo de árbol de decisión

Probar la exactitud con gráficos de mejora respecto al modelo predictivo

Explorar los modelos filtrados

1. Seleccione la ficha Visor de modelo de minería de datos en Diseñador

de minería de datos.

2. En el cuadro Modelo de minería de datos, seleccione

TM_Decision_Tree_Male.

3. Deslice Mostrar nivel hasta 3.

4. Cambie el valor de la lista Fondo (Segundo plano) por 1.

-224-
Universidad Nacional de Huancavelica
5. Coloque el cursor sobre el nodo con la etiqueta Todos para ver el número

de compradores de bicicleta con respecto a los no compradores.

6. Repita los pasos 1 al 5 con TM_Decision_Tree_Female.

7. Explore los resultados para TM_Decision_Tree y los modelos filtrados por

el género. Si se comparan todos los compradores de bicicletas, los

compradores masculinos y femeninos comparten algunas de las mismas

características de los compradores de bicicletas sin filtrar, pero los tres

también presentan diferencias interesantes. Ésta es información útil que

Adventure Works Cycles puede utilizar para desarrollar su campaña de

marketing.

Probar la mejora en la predicción de los modelos filtrados

1. Cambie a la pestaña Gráfico de precisión de minería de datos del

Diseñador de minería de datos de Microsoft Visual Studio y seleccione la

pestaña Selección de entrada.

2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo en

un gráfico de precisión, seleccione Usar casos de prueba de estructura

de minería de datos.

3. En la pestaña Selección de entrada del Diseñador de minería de datos,

en Seleccione las columnas del modelo de minería de datos de

predicción que se mostrarán en el gráfico de elevación, active la casilla

correspondiente a Sincronizar valores y columnas de predicción.

-225-
Universidad Nacional de Huancavelica
4. En la columna Nombre de columna de predicción, compruebe que Bike

Buyer está seleccionado para cada modelo.

5. En la columna Mostrar, seleccione cada uno de los modelos.

6. En la columna Valor de predicción, seleccione 1.

7. Seleccione la pestaña Gráfico de mejora (elevación) respecto al modelo

predictivo para mostrar el gráfico de mejora.

Observará ahora que los tres modelos de árbol de decisión proporcionan

una mejora significativa respecto al modelo de predicción de suposición

aleatoria, además de superar a los modelos de Clústeres y Bayes Naive.

-226-
Universidad Nacional de Huancavelica

-227-
Universidad Nacional de Huancavelica

TERCERA UNIDAD

 PREDICTIVE BUSINESS ANALYTICS AND DECISION MANAGEMENT


 MODELOS PREDICTIVOS
 La Clasificación
 La Regresión

 CREACIÓN Y USO DE MODELOS


 Lección 1: Generar un pronóstico con Árboles de Decisión
 Lección 2: Generar un pronóstico con Series de Tiempo

-228-
Universidad Nacional de Huancavelica

ANALÍTICA DEL NEGOCIO PREDICTIVA Y GESTIÓN


DE DECISIONES

La Analítica del Negocio y su amplificador, Analítica de Negocios Predictiva,

son un medio para tomar decisiones más inteligentes.

Las decisiones pueden ser segmentadas en

tres capas:

1. Decisiones Estratégicas son pocas en

número, pero pueden tener grandes

impactos. Por ejemplo, debemos adquirir

una empresa o salir del mercado?

2. Decisiones Tácticas implican controlar con impactos moderados. Por

ejemplo, debemos modificar nuestra cadena de suministros?

3. Decisiones Operativas se producen a diario, incluso cada hora, y con

frecuencia afectan a una sola transacción o cliente. Por ejemplo, ¿qué

cantidad debería ofrecerse a este cliente o ¿Debo hacer este préstamo

bancario?

-229-
Universidad Nacional de Huancavelica

WHAT IF ... YOU CAN

¿Tiene curiosidad de por qué las siguientes preguntas no se han resuelto?

Con la Analítica de Negocios Predictiva, puede ser!

 ¿Por qué los semáforos de tráfico no pueden ser más flexibles basados

en sensores de calle que monitorean la presencia, la ubicación

y la velocidad de los vehículos? Entonces no tendría que

esperar en un semáforo en rojo cuando no hay tráfico.

 ¿Por qué no puede el call center rutear su llamada telefónica entrante a

un representante especializado de un call center en función de su número

de teléfono y de las llamadas anteriores? Y una vez

conectado, ¿por qué no ese representante ofrecer sus

productos en base a sus reglas o sugerencias para

maximizar su experiencia con el cliente? Entonces puede conseguir una

solución más rápida y mejor a su llamada.

 ¿Por qué no pueden los dentistas y médicos sincronizar tiempos de

agenda de citas de pacientes para reducir el tiempo que muchas personas

desperdician sentados en las salas de espera?

Entonces podría llegar justo antes de su

tratamiento.

-230-
Universidad Nacional de Huancavelica

 ¿Por qué no pueden los gerentes de control de pasaportes del aeropuerto

regular el número de agentes en sincronización con

las llegadas de vuelos internacionales? Entonces

no tendría que esperar en largas colas.

 ¿Por qué no pueden los proveedores de agua, gas y servicios eléctricos

a residencias proveer monitoreo e informes instantáneos

de manera que los hogares pueden determinar qué

aparatos o eventos (por ejemplo, tomando duchas)

consumen relativamente más o menos energía? Entonces los hogares

podrían ajustar su comportamiento de uso para administrar mejor el costo

y consumo de energía.

 ¿Por qué no la nevera y despensa de su casa hacen un seguimiento

utilizando microchips y lectores de códigos de barras de lo que compró y

la tasa de uso? Entonces podría reponer mejor sus suministros de

alimentos cuando vaya de compras.

-231-
Universidad Nacional de Huancavelica

EL MODELO DE LA ANALÍTICA DE NEGOCIOS PREDICTIVA

La toma de decisiones puede ser puramente empírica y desapasionada, pero

quienes toman las decisiones no lo son. La toma de decisiones favorece a

aquellos que son creativos e intuitivos.

Hoy, más que nunca, las empresas están esperanzadas

en poseer el talento, herramientas, procesos y capacidades

que les permitan implementar y utilizar continuamente el

análisis del rendimiento para obtener una perspectiva para

impulsar las decisiones y acciones comerciales. Más y más organizaciones

están buscando mejores procesos y herramientas para garantizar que las

personas adecuadas tengan la información correcta en el momento adecuado,

para tomar decisiones más inteligentes.

La Analítica de Negocios Predictiva (PBA) es un proceso que refleja

una capacidad de la organización para mejorar la toma de decisiones

gerenciales a través de muchas áreas de desempeño centrales.

PBA se basa en el análisis de los datos que tienen un vínculo fuerte y

trazable a los resultados financieros y el desempeño operativo del negocio.

Los conductores del negocio pueden ser financieros u operativos; también

pueden ser externos o internos.

-232-
Universidad Nacional de Huancavelica

BPA se refiere al proceso de uso de modelos predictivos para dar a las

empresas una ventaja competitiva y es utilizado por empresas de alto

rendimiento para mejorar su rentabilidad.

Una encuesta a más de 400 líderes financieros encontró que las

empresas de alto rendimiento eran 43 % más eficientes en el uso de alertas,

pronósticos basados en minería de datos. Esto les permitió gestionar por

excepción y ser proactivos, en lugar de ser reactivos a los problemas y

oportunidades.

La minería de datos, a veces referido como el análisis predictivo, se centra

en los comportamientos y patrones del consumidor. La inteligencia de

negocios está consultando y

presentando informes. Estas

capacidades, tales como consultas,

reportes, procesamiento analítico

en línea (OLAP), y las herramientas

de alerta sólo responden a

preguntas como: qué pasó, ¿cuántos, con qué frecuencia, dónde está el

problema y qué medidas son necesarias?.

PBA puede responder a preguntas como por qué ocurre esto, qué pasa si

estas tendencias continúan, qué sucederá después? y qué es lo mejor que le

puede pasar?.

-233-
Universidad Nacional de Huancavelica

LA PREDICCIÓN PASA A LA ACCIÓN

A mediados de los 90, un ambicioso investigador de posdoctorado, John Elder,

invirtió los ahorros de vida en un sistema predictivo para el mercado de valores

que él mismo había diseñado: Blackbox trading.

El concurso de televisión "Jeopardy!" entregó un premio de más de 1

millón de euros en un duelo entre hombre y máquina que puso de manifiesto

el llamativo progreso en la predicción de las respuestas a las preguntas (IBM

invirtió mucho más dinero aún en lograr esta victoria). (Ver Video)

Blackbox trading, permite tomar decisiones financieras de manera

automática, es el Santo Grial de la toma de decisiones basadas en datos. Es

una "caja negra" (black box) en la que se introducen por un lado las

condiciones financieras actuales del entorno y por otro salen las decisiones

que nos indican si debemos comprar, mantener o vender acciones.

-234-
Universidad Nacional de Huancavelica

PUESTA EN MARCHA DE PBA

Cada aplicación de la AP viene definida por:

1. Qué se predice. El tipo de comportamiento (por ejemplo, la acción, el

evento o suceso) a predecir para cada persona, acción bursátil u otro

tipo de elemento.

2. Qué se hace al respecto. Las decisiones que se toman a partir de la

predicción; la acción que realiza la organización en respuesta o en base

a cada predicción.

La lista de áreas de aplicación es muy amplia y también la lista de

ejemplos. Se ha distribuido esta larga lista en las Tablas 11,12,13 y 14.

Contienen ejemplos de predicción: precios de acciones, riesgos, deudas,

accidentes, donaciones, clics, cancelaciones, problemas de salud, ingresos

hospitalarios, fraudes, evasiones de impuestos, delitos, errores de

funcionamiento, combustibles, apagones, aprobaciones de prestaciones

sociales, pensamientos, intenciones, respuestas, opiniones, mentiras, notas,

abandono escolar, amistad, enamoramientos, embarazos, divorcios, trabajos,

clientes perdidos, victorias, votos y mucho más.

-235-
Universidad Nacional de Huancavelica

Tabla 11. AP sobre Marketing, Publicidad y la Web.

Qué se
Organizaciones Ejemplo y Resultados
Predice
Tarjeta de crédito PREMIER: Redujo los costos en
correos publicitarios en más de 9 millones de euros.
Banco First Tenessee: Redujo los costos en correos
publicitarios en un 20 % y aumentó las respuestas en un
3.1 % con un beneficio del 600 % respecto a lo invertido
en AP.
Target: Aumentó sus ingresos de un 15 a un 30 % con
los modelos predictivos.
Harbor Sweets: Identificaron mediante analítica a los
clientes que ya no compraban para intentar recuperarlos,
con una impresionante tasa de respuesta del 40 %.
Fingerhut: Redujeron la publicidad directa en un 20 %
mediante la selección de objetivos, lo que les hizo ahorrar
unos 2.3 millones de euros cada año, incrementando de
Compras, para este modo sus ganancias.
hacer Vermont Country Store: Una mayor precisión en la
marketing selección de objetivos para el envío de sus catálogos les
dirigido proporcionó unos ingresos 11 veces superiores a la
inversión necesaria para ello.
Harrah's Las Vegas: Este casino predice cuánto se va a
gastar un cliente a largo plazo (en toda su vida).
Cox Communications: Aumentó la tasa de respuesta a
sus correos directos en más del triple prediciendo la
propensión a comprar.
Empresa de gestión de fondos de inversión: Identificó
a los clientes que tenían cinco veces más probabilidades
que la media de realizar inversiones adicionales.
Supermercado de UK: Puede predecir la fecha exacta
en que volverán los clientes y la cantidad que se gastarán
con un margen de 8 euros, para un 19 % de los clientes.
Elie Tahari: Predice la demanda para productos de moda
femenina.

-236-
Universidad Nacional de Huancavelica

Tarjeta de crédito PREMIER: Evitó la marcha de una


cantidad de clientes que le habrían supuesto más de 6
millones de euros.
FedEx: Predice qué clientes se irán con la competencia
con una precisión de ente el 65 y el 90 %.
Optus (Australia): Identificó a los clientes de telefonía
móvil que tenían 10 veces más probabilidades que la
media de darse de baja en el servicio.
Cancelacione
s, para intentar Telenor (Noruega): Redujo las bajas de los clientes en
conservar la un 36 % y obtuvo aumento de la rentabilidad sobre la
clientela inversión, multiplicándola por 11.
2degrees (Nueva Zelanda): Identificó a los clientes de
telefonía móvil que tenían 12 veces más probabilidades
que la media de darse de baja en el servicio.
Lloyds TSB: Aumentó sus beneficios anuales en 9,3
millones de euros mejorando el modelado predictivo de
las bajas de clientes.
Reed Elsevier: Obtuvo un aumento de 16 puntos en el
porcentaje de renovaciones de una revista.
El spam que Google: Redujo el predominio y el porcentaje de falsos
se enviará a la positivos en spam, pasando de una cantidad apreciable
carpeta de en 2004 hasta una insignificante en la actualidad.
spam
Canciones y Investigadores: Emplean el aprendizaje automático para
películas de predecir qué películas se convertirán en éxitos de
éxito Hollywood y qué canciones entrarán en las listas.

-237-
Universidad Nacional de Huancavelica

Tabla 12. AP sobre Riesgo Financiero y Seguros.

Qué se
Organizaciones Ejemplo y Resultados
Predice
Allstate: Con una competición de modelos predictivos
El daño realizada en 2012 triplicó la precisión en la predicción
corporal en los de los daños corporales, basándose únicamente en las
accidentes de características del vehículo asegurado. Se estima que
coche esto podría suponer para la compañía más de 30
millones de euros al año.
Fondo de seguro de accidentes: Determina los
Lesiones síntomas médicos secundarios (como la obesidad y la
graves en el diabetes) a partir de las hojas de reclamación de
puesto de indemnizaciones de los trabajadores. Estos síntomas
trabajo predicen las lesiones que supondrán un alto costo para
que, por ejemplo, se puedan establecer medidas
preventivas para estos trabajadores.
Reclamacione Principal proveedor internacional de líneas de seguro
s a las comercial: Los modelos predictivos redujeron el
compañías de porcentaje de pérdidas en medio punto, contribuyendo a
seguros un ahorro de casi 39 millones de euros.
Compañías de seguros de vida: Predicen la edad de
la muerte para tomar decisiones sobre la aprobación de
políticas y de precios.
Muerte Una de las cinco principales empresas de seguros de
salud de los EE.UU.: La predicción de la muerte no está
dentro del campo habitual de los seguros de vida.
Consulte la tabla sobre salud que se incluye más
adelante para conocer la naturaleza de este trabajo.
Chase: Generó cientos de millones de euros con
Pago modelos predictivos que preveían qué propietarios
anticipado de iban a refinanciar sus hipotecas y por tanto llevarse
hipotecas todos los ingresos por el cobro de intereses futuros a
un banco de la competencia.

-238-
Universidad Nacional de Huancavelica

Tabla 13. AP sobre Lucha Contra el Crimen y Detección de Fraudes.

Qué se
Organizaciones Ejemplo y Resultados
Predice
Fraudes: Servicio Postal de los EE.UU.: Clasifica de manera
Contratos del predictiva los casos de contratos sospechosos, como
gobierno aquellos en los que puede haber conspiraciones o tratos
preferentes, para poder dirigir las investigaciones.
Citizens Bank: Predijo qué cheques son fraudulentos,
Cheques con la suficiente precisión como para reducir las pérdidas
por fraude en un 20 %.
Compañía de seguros de EE.UU. de más de 30.000
millones de euros: Clasificando de manera predictiva
las reclamaciones sospechosas, los auditores pudieron
Reclamaciones encontrar 6,5 veces más fraudes con el mismo número
al seguro del de investigaciones.
automóvil Seguros Aviva: Mejoró la detección de reclamaciones
automovilísticas fraudulentas que incluían daños
corporales, y que ascendían a casi 600.000 euros al
mes.
Hewlett-Packard: Ahorró más de 50 millones de euros
Reclamaciones en cinco años detectando reclamaciones en garantía
en garantía fraudulentas enviadas por los partners de HP y sus
servicios técnicos.

Reclamaciones Servicio postal de EE.UU.: Empleando métodos


de los analíticos, predijo qué reclamaciones de compensación y
trabajadores pagos a los trabajadores no tenían justificación,
contribuyendo a ahorrar 7,3 millones de euros.
Maryland: Utiliza modelos predictivos para detectar qué
Asesinatos reclusos tienen más riesgo de ser víctimas o autores de
asesinatos.

-239-
Universidad Nacional de Huancavelica

Chicago, Los Angeles, Memphis (TN), Richmond


Delincuencia (VA), Santa Cruz (CA) y Vineland (NJ): Envían a la
callejera policía a patrullar aquellas zonas en las que se predicen
más crímenes.
Fuerzas armadas de tos EE.UU.: Dirigieron y
financiaron investigaciones para predecir analíticamente
Ataques los ataques terroristas y las actividades de grupos
terroristas armados opositores basándose en factores como
arrestos relevantes, juicios, el apoyo económico recibido
y la situación política contextual.
La
reincidencia
para poder Oregon y Pensilvania: Los jueces y las juntas de
decidir entre tratamiento consultan modelos predictivos como ayuda
conceder la para decidir quién permanece en prisión y por cuánto
libertad tiempo.
condicional o
enviar a prisión

Si se resolverá Departamento de Policía de Chicago: Descubrió que


un crimen las características de un homicidio y su víctima servían
para predecir si éste se podía resolver.

-240-
Universidad Nacional de Huancavelica

Tabla 14. AP sobre Equipos y Empleados — RRHH.

Qué se
Predice
Organizaciones Ejemplo y Resultados

Hewlett-Packard: Los modelos predictivos generan


una puntuación de "riesgo de fuga" para cada uno de
sus casi 350.000 empleados de todo el mundo para
que los jefes puedan intervenir anticipadamente
siempre que sea posible y hacer los planes
La marcha de apropiados en caso contrario. Se estima que de esta
trabajadores manera han identificado un posible ahorro potencial
de unos 230 millones de euros.
Wikipedia: Predice cuáles de sus 750.000 editores,
que realizan voluntariamente 139 millones de
correcciones al año y crean 8.000 nuevos artículos al
día, dejarán de realizar su labor.
Investigadores de la universidad: Mostraron que los
perfiles de Facebook predecían el rendimiento laboral.
Las evaluaciones del rendimiento se corresponden con
los atributos personales recopilados de los perfiles de
Facebook, como la curiosidad, la "agradabilidad" y la
El rendimiento meticulosidad.
laboral Fuerzas Especiales de los EE.UU.: Predicen qué
candidatos tendrán éxito en estos trabajos tan
especializados, en los que hay que invertir años de
entrenamiento. Los factores claves de la predicción son
el valor (un mejor predictor que el coeficiente intelectual)
y la capacidad de hacer más de 80 flexiones.

Solicitudes de Careerbuilder: Predice los puestos para los que se


empleo presentarán los demandantes de empleo para poder
dirigir mejor los trabajo,. recomendados.

-241-
Universidad Nacional de Huancavelica

Dentro de esta larga lista, la aplicación por antonomasia para los negocios

es el marketing masivo:

Aplicación de AP: Selección de objetivos para el marketing directo.

1. Qué se predice. Qué clientes responderán al contacto establecido.

2. Qué se hace al respecto. Contactar con los clientes que es más

probable que respondan.

Ejemplo: Imagine que tiene una empresa con una lista de correo de un millón

de candidatos. Enviar un correo a cada uno de ellos le cuesta 1.50 euros y 1

de cada 100 comprará su producto (es decir, 10.000 responderán). Decide

correr el riesgo y enviar su publicidad a la lista completa.

Si obtiene 170 euros por cada respuesta positiva, se embolsará:

beneficio total = ingresos - costo = (170 * 10.000) - (1.50 * un millón) euros

Sale un beneficio de 200.000 euros.

¿Le parece bien? A mí no. La AP puede aprender a mejorarlo.

-242-
Universidad Nacional de Huancavelica

ELEMENTAL: EL PODER DE LA OBSERVACIÓN

La predicción resulta de la observación astuta: Lo que se conoce de cada

individuo proporciona un conjunto de pistas acerca de lo que podría hacer a

continuación. La probabilidad de que un usuario

haga clic en un determinado anuncio depende

de todo tipo de elementos, incluyendo su año

escolar actual, su género, el dominio de su

correo electrónico (Hotmail, Yahoo!, Gmail,

etc.), sus notas en literatura frente a las de matemáticas (para saber si se trata

de una persona más comunicadora o calculadora), etc. El sitio Web recopiló

abundante información sobre sus usuarios.

Para averiguar para qué subvenciones y becas podrían ser candidato, el

usuario respondía decenas de cuestiones sobre su rendimiento escolar, sus

intereses académicos, sus actividades extraescolares, en qué le gustaría

especializarse y la titulación de sus padres, entre otros. Por tanto, la tabla de

datos a procesar era larga (para 50 millones de ejemplos) y también ancha, en

la que cada fila contenía toda la información conocida sobre el usuario.

-243-
Universidad Nacional de Huancavelica

El dispositivo que hace las predicciones, que sabe cómo debe considerar

todos estos factores y darles forma de una única predicción para el individuo

es:

Modelo predictivo: Mecanismo que predice un comportamiento de

un individuo, como un clic, una compra, una muerte o una mentira.

Toma como datos de entrada las características del individuo y

genera como salida una puntuación predictiva. Cuanto mayor sea la

puntación, más probable será que el individuo exhiba el

comportamiento predicho.

Un modelo predictivo puntúa a un individuo, como muestra la figura.

Características Modelo Puntuación


de un individuo predictivo predictiva

-244-
Universidad Nacional de Huancavelica

Los modelos predictivos son el medio a través del cual se procesan los

atributos de un individuo para obtener una predicción. Existen muchas

maneras de hacer esto. Una es ponderar cada característica y sumarlas todas

después. Esto es lo que se denomina un modelo lineal, que normalmente se

considera bastante simple y limitado.

Otros modelos se componen de reglas, como en este ejemplo:

SI el individuo
está aún en secundaria
Y
espera graduarse en la universidad dentro de tres años
Y
muestra cierto interés militar
Y
no ha visto aún este anuncio
ENTONCES la probabilidad de hacer clic en el anuncio del Art Institute es
del 13,5 %.

-245-
Universidad Nacional de Huancavelica

Hay varios tipos de modelo que compiten por hacer la predicción más

precisa. Los modelos que combinan un puñado de reglas como el que

acabamos de ver son de los más simples. Podemos complicar más los

cálculos del problema de la predicción, utilizando fórmulas complejas que

predicen con más eficacia. Pero todos los modelos predictivos comparten el

mismo objetivo: tener en cuenta los distintos factores de un individuo para

obtener una única puntuación predictiva para dicho individuo. Esta puntuación

se utiliza después para tomar una decisión en la organización.

Antes de utilizar un modelo, debemos construirlo. Este modelo se

construye mediante el aprendizaje automático, como muestra la figura 18.

Datos Aprendizaje automático Modelo predictivo

Figura 18. El aprendizaje automático transforma los datos en un modelo


predictivo.

-246-
Universidad Nacional de Huancavelica

El aprendizaje automático tritura los datos para crear el modelo. El modelo

es el producto de esta tecnología del aprendizaje, que es realmente lo que se

aprende en sí. Por este motivo, al

aprendizaje automático también se le llama

modelado predictivo.

El modelado predictivo genera todo el

modelo desde cero. Todos los cálculos,

valoraciones o reglas las crea automáticamente el ordenador. Esta

automatización es el medio que utiliza la AP para desplegar su poder

predictivo.

El científico de datos transforma estos para crear su modelo,

traduciéndolo a un lenguaje informático estándar y se lo envía por correo

electrónico a un ingeniero para que le dé forma. Un ejecutivo exultante nos da

una prima extra. Todos contentos.

-247-
Universidad Nacional de Huancavelica

HP PREDICE LA FUGA DE SUS EMPLEADOS

En 2011, dos de los mejores científicos de Hewlett-Packard rompieron los

esquemas al escrutar matemáticamente la lealtad de cada uno de sus más de

330.0 compañeros. Gitali Halder y Anindya

Dey desarrollaron modelos predictivos que

identificaban los empleados en "riesgo de fuga",

aquellos que tenían más probabilidades de dejar

sus trabajos.

Por ejemplo, una empresa multinacional deseaba reducir la tasa de bajas

en el servicio de atención al cliente en su call center de Barcelona. La gente

iba a trabajar allí sólo para pasar el verano en esta bonita ciudad y comunicar

su marcha tras ello. Les interesaba identificar por adelantado a estos

solicitantes de empleo.

Para tales fines, las organizaciones hacen un uso de la AP que prediga el

comportamiento de su propio equipo.

Aplicación de la AP: Evitar la marcha de empleados

1. Qué se predice. Qué empleados van a dejar la empresa.

2. Qué se hace al respecto. Los administradores tienen en cuenta las

predicciones sobre las personas supervisadas, a discreción.

-248-
Universidad Nacional de Huancavelica

HP ha recopilado un enorme conjunto de datos de prueba para utilizarlo

como material de aprendizaje para la AP. Ha extraído datos de los empleados

correspondientes a dos años, como salarios,

aumentos, calificaciones de trabajos y rotaciones

en los puestos. Después agregaron cuáles de estos

empleados había dejado su trabajo. De este modo,

HP se preparó para aprender de las experiencias

pasadas con el fin de predecir una gema de

incalculable valor: qué combinaciones de factores

determinan el tipo de empleado que más probabilidades tiene de abandonar

su trabajo.

"Estoy sorprendida. Con una experiencia tan amplia en

analítica predictiva debería haber sabido que no le vamos a

contratar".

-249-
Universidad Nacional de Huancavelica

MODELOS PREDICTIVOS
¿QUÉ ES UN MODELO PREDICTIVO?

Un modelo predictivo es simplemente una función matemática que puede

aprender la correlación entre un conjunto de datos de entrada, normalmente

empaquetadas en un registro, y una variable de respuesta o de destino.

Nos referimos a este aprendizaje como supervisado , ya que, durante el

entrenamiento, los datos son presentados a un modelo predictivo con los datos

de entrada y la salida o el resultado deseado. El entrenamiento se repite hasta

que el modelo aprende la función de correlación entre las entradas dadas y las

salidas deseadas. Ejemplos de técnicas predictivas utilizando aprendizaje

supervisado incluyen: redes neurales de retropropagación, y árboles de

decisión.

Los modelos descriptivos, vistos anteriormente, utilizan aprendizaje no

supervisado. En este caso, sólo se presentan los datos de entrada. Su tarea

es entonces descubrir cómo se relacionan los distintos registros de datos de

entrada unos con otros. La agrupación en clúster es el tipo de modelos

predictivos más utilizado, que utiliza aprendizaje no supervisado.

-250-
Universidad Nacional de Huancavelica

Los Modelos Predictivos de DM presentan una serie de TAREAS. A

continuación se describen las principales:

LA CLASIFICACIÓN

La clasificación es quizá la tarea más utilizada. En ella, cada instancia (o

registro de la base de datos) pertenece a una clase, la cual se indica mediante

el valor de un atributo. Este atributo puede tomar diferentes valores discretos,

cada uno de los cuales corresponde a una clase. El resto de los atributos de

la instancia (los relevantes a la clase) se utilizan para predecir la clase. El

objetivo es predecir la clase de nuevas instancias de las que se desconoce la

clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de

precisión de la clasificación de las nuevas instancias, la cual se calcula como

el cociente entre las predicciones correctas y el número total de predicciones

(correctas e incorrectas).

-251-
Universidad Nacional de Huancavelica

Técnicas

 Reglas de Clasificación

 Árboles de Decisión

 Análisis de discriminante

 Redes neuronales

 La K más cercana

 Razonamiento basado en casos

 Algoritmos genéticos.

Aplicaciones: Calificación de crédito (credit scoring), reconocimiento de

imágenes y patrones, diagnóstico médico, detección de fallos en aplicaciones

industriales, clasificar tendencias de mercados financieros, ...

-252-
Universidad Nacional de Huancavelica

El Proceso

Algoritmo
de
aprendizaje

Inducción

Aprender
modelo

Modelo
Conjunto de
entrenamiento Aplicar
modelo

Deducción

Conjunto de prueba

 Se ha de disponer de un conjunto de entrenamiento en el que todos los

registros estén clasificados.

 Se tiene siempre un número limitado de clases.

 Determinar la pertenencia de un objeto a una cierta clase específica.

 Encontrar la mejor función que discrimine este fenómeno.

 Aplicar la función encontrada a nuevos objetos.

-253-
Universidad Nacional de Huancavelica

Reglas de Clasificación

Etapa 1: Aprendizaje o Construcción del Modelo

Etapa 2: Pruebas

-254-
Universidad Nacional de Huancavelica

Etapa 3: Evaluación del Modelo

Ejemplo simple: En EE.UU. los maestros clasifican a los estudiantes en

A, B, C, D o F según sus notas. Utilizando simplemente límites (60, 70,

80, 90) las siguientes clasificaciones son posibles:

90 <= nota A

80 <= nota <= 90 B

70 <= nota <= 80 C

60 <= nota < 70 D

Nota < 60 F

-255-
Universidad Nacional de Huancavelica

Ejemplo 2. Consideremos un oftalmólogo que desea disponer de un

sistema que le sirva para determinar la conveniencia o no de

recomendar la cirugía ocular a sus pacientes. Para ello dispone de una

base de datos de sus antiguos pacientes clasificados en operados

satisfactoriamente o no en función del tipo de problema que padecían

(miopía y su grado, o astigmatismo) y de su edad. El modelo encontrado

se utiliza para clasificar nuevos pacientes, es decir, para decidir si es

conveniente operarlos o no.

Tipo de Resultado de
Edad …
Problema la Operación
Ok
Ok
No

-256-
Universidad Nacional de Huancavelica

Ejemplo 3: Deserción de Clientes. Se desea crear un modelo predictivo

que pueda saber quién de sus clientes tiene más probabilidades de

desertar. Primero se revisa los datos históricos para buscar data que pueda

utilizar para compilar un modelo. Al observar la base de datos, puede

compilar una lista de registros relacionados con los clientes existentes y

con los clintes que ya desertaron. Puede incluir: el número de quejas en los

últimos 6 meses, el número de tiquets de soporte abiertos en las últimas 4

semanas, con qué frecuencia y cuánto dinero gastó el cliente comprando

mercancía o servicios (online o en la tienda) e información genérica como la

edad, el género y datos demográficos. La Figura 19 muestra dos de estos

clientes juntos con la data obtenida para cada uno de ellos. El cliente 1 es

un cliente existente y parece estar satisfecho. Sin embargo, el cliente 2

ha desertado.

Figura 19. Dos clientes y sus data de entrada.

-257-
Universidad Nacional de Huancavelica

En un tipo de escenario de aprendizaje supervisado, como se muestra

en la Figura 20 , se presenta todos los datos de los clientes a una técnica

predictiva durante el entrenamiento. En este caso, la entrada se comprende

de una muestra de la data que obtuvo (relacionados con la satisfacción,

datos demográficos, etc.) para los clientes así como el resultado asociado.

El resultado le dice al modelo predictivo si el registro de datos representa

a un cliente que desertó o que no desertó. El razonamiento aquí es que el

modelo puede aprender las diferencias, o los patrones, entre dos grupos:

los clientes satisfechos existentes y los clientes que han desertado.

Figura 20. Datos de cliente como entrada y la salida es presentada a un modelo


predictivo durante el entrenamiento.

Después que se crea el modelo predictivo, se necesita validarlo. La

validación intenta responder: "¿funciona?" y de ser así, "¿qué tan precisa

es?". Si la respuesta a la primer pregunta es un sí y la respuesta a la

segunda pregunta es altamente preciso, entonces se sabe que el modelo

funciona y que puede generalizar bien. Todo lo que necesita ahora es

ponerlo disponible para la ejecución. Para eso, necesita ser desplegado

operacionalmente.

-258-
Universidad Nacional de Huancavelica

Después de la implementación, podemos utilizar el modelo de deserción

para supervisar toda la actividad de clientes existentes. Un buen modelo

predictivo puede generalizar su conocimiento para calcular el riesgo de

deserción aún para clientes que nunca ha conocido antes. La Figura

21 muestra los datos para uno de estos clientes, identificado como cliente

3, siendo presentado al modelo de deserción. Si el modelo percibe que un

patrón de deserción está surgiendo para un cliente particular,

incrementará su riesgo o salida hasta que exista una decisión empresarial

para atenderlo. Cuando ese cliente particular se encuentre de nuevo

satisfecho con sus productos y servicios, el riesgo disminuirá, ya que el

patrón de deserción ya no es detectado.

Figura 21. Modelo de deserción para puntuar clientes nuevos y existentes.

-259-
Universidad Nacional de Huancavelica

Ejemplo 4: Análisis de Créditos Bancarios

Un banco por Internet desea obtener reglas para predecir qué personas

de las que ya recibieron su crédito no lo devolverán. La entidad bancaria

cuenta con los datos correspondientes a los créditos concedidos con

anterioridad a sus clientes (monto del crédito, duración en años...) y otros

datos personales como el salario del cliente, si posee casa propia, etc.

Algunos registros de clientes de esta base de datos se muestran en la

Tabla 15.

Tabla 15. Datos para un análisis de riesgo en créditos bancarios.

D-crédito C-crédito Salario Casa Cuentas Devuelve


IDC •••
(años) (euros) (euros) propia morosas crédito
101 15 60.000 2.200 sí 2 ... no
102 2 30.000 3.500 sí 0 ... sí
103 9 9.000 1.700 sí 1 ... no
104 15 18.000 1.900 no 0 ... sí
105 10 24.000 2.100 no 1 ... no
... ... ... ... ... ... ... …

-260-
Universidad Nacional de Huancavelica

A partir de estos datos, las técnicas de DM podrían sintetizar algunas

reglas, como por ejemplo:

SI Cuentas-Morosas > 0 ENTONCES Devuelve-crédito = no

SI Cuentas-Morosas = 0 Y [(Salario > 2.500) O (D-crédito > 10)]

ENTONCES Devuelve-crédito = sí

El banco podría entonces utilizar estas reglas para determinar las

acciones a realizar en el trámite de los créditos: si se concede o no el

crédito solicitado, si es necesario pedir avales especiales, etc.

-261-
Universidad Nacional de Huancavelica

Árboles de Decisión

Los árboles de clasificación son uno de los más utilizados en el aprendizaje

automático. Su rapidez a la hora de la clasificación, su fácil implementación,

etc. son factores que influyen en su propagación.

Son un método de clasificación supervisada, formados por una variable

dependiente (clase), cuyo objetivo es averiguar dicha clase para casos

nuevos. El modelo obtenido puede servir para clasificar casos cuyas clases se

desconozcan o, simplemente, para comprender mejor la información de la que

disponemos.

Los algoritmos más conocidos que se aplican son: el algoritmo CART, el

IDE3, el C4.5 que es el sucesor del IDE3, el J4.8 que es una implementación

del C4.5, entre otros. Todos estos algoritmos siguen ayudando gracias a sus

nuevas versiones.

Se utilizan para:

 Asignar “scores” a los datos.

 Explorar datos.

 Hacer clasificaciones y predicciones.

 Comprender que variables son más importantes.

-262-
Universidad Nacional de Huancavelica

Ejemplo 1: Compra de Productos

Ejemplo 2: Desempeño de las Ciudades

Ciudades
producto no
está bien

Ciudades
producto
está bien

-263-
Universidad Nacional de Huancavelica

Ventajas y Desventajas de los Árboles de Decisión

Ventajas

 Fácil de entender.

 Resultados se adaptan bien a reglas de negocios.

 No se requieren suposiciones acerca de los datos.

 Variables “input” pueden ser continuas y categóricas.

Desventajas

 Algunos algoritmos sólo pueden tratar variables “target” binarias.

 Otros algoritmos pueden tratar variables “target” con más de dos valores

pero no funcionan bien cuando el número de casos de entrenamiento es

pequeño por clase.

 Son costosos en términos computacionales.

-264-
Universidad Nacional de Huancavelica

LA REGRESIÓN

La regresión es también una tarea predictiva que consiste en aprender una

función real que asigna a cada instancia un valor real. Ésta es la principal

diferencia respecto a la clasificación; el valor a predecir es numérico. El

objetivo en este caso es minimizar el error (generalmente el error cuadrático

medio) entre el valor predicho y el valor real.

Hablamos de modelo de regresión cuando la variable de respuesta y las

variables explicativas son todas cuantitativas. Si sólo disponemos de una

variable explicativa hablamos de regresión simple, mientras que si

disponemos de varias variables explicativas se trata de un problema de

regresión múltiple.

Para visualizar la relación entre la variable de respuesta y una variable

explicativa, obtendremos el diagrama bivariante entre ambas variables. La

forma de dicho diagrama aporta información sobre el tipo de relación entre la

variable de respuesta y la variable explicativa, esto es la función r.

-265-
Universidad Nacional de Huancavelica

Pasos para Elaborar un modelo de regresión

Se pueden establecer básicamente dos pasos:

Paso 1. Estimar los parámetros del modelo de regresión. Este proceso es

llamado ajuste del modelo a los datos.

Paso 2. El siguiente paso es chequear que tan bueno es el modelo ajustado.

El resultado de este chequeo puede indicar si el modelo es razonable o si el

ajuste original debe ser modificado.

-266-
Universidad Nacional de Huancavelica

REGRESIÓN LINEAL

La función de regresión más simple es la lineal, esto es, cada variable

explicativa participa de forma aditiva y constante para todo el dominio

observado. Por tanto, el modelo de regresión lineal se escribe:

Uno de los métodos más comunes de

solución, es el de mínimos cuadrados

que consiste en ajustar los parámetros

del modelo de manera que la suma de

los cuadrados de los errores sea

mínima.

-267-
Universidad Nacional de Huancavelica

Regresión Lineal Simple

En el caso más sencillo, regresión lineal simple, la ecuación

nos da una estimación de y, siendo el error que se comete,

En este caso a y b se eligen de manera que,

sea mínimo

-268-
Universidad Nacional de Huancavelica

Regresión Lineal Múltiple

La regresión lineal múltiple se basa en obtener una relación lineal entre un

conjunto de variables independientes X1,..,Xn con una variable dependiente Y,

es decir:

Y = b0 + b1X1 + b2X2 + b3X3 + ··· + bnXn.

El éxito de determinar una correlación lineal múltiple es que exista una

correlación lineal simple de cada variable independiente con la variable

dependiente.

-269-
Universidad Nacional de Huancavelica

REGRESIÓN NO LINEAL

El método de mínimos cuadrados permite obtener la mejor recta de ajuste a

los datos en el caso de la regresión lineal.

Sin embargo, no siempre existe una relación lineal entre la variable

dependiente e independiente y muchos modelos no son lineales en los

parámetros, impidiendo el uso del método de mínimos cuadrados.

En algunos casos es posible aplicar transformaciones para expresar los

datos en una forma compatible con la regresión lineal. Este es el caso del

modelo exponencial y de potencias.

-270-
Universidad Nacional de Huancavelica

Regresión No Lineal-Simple

La regresión lineal no siempre da buenos resultados, porque a veces la

relación entre Y y X no es lineal sino que exhibe algún grado de curvatura. La

estimación directa de los parámetros de funciones no-lineales es un proceso

bastante complicado. No obstante, a veces se pueden aplicar las técnicas de

regresión lineal por medio de transformaciones de las variables originales.

-271-
Universidad Nacional de Huancavelica

-272-
Universidad Nacional de Huancavelica

Regresión No Lineal-Múltiple

Ejemplo 1: Determinar las Ventas de un producto

Una gran cadena de tiendas de electrodomésticos desea optimizar el

funcionamiento de su almacén manteniendo un stock de cada producto

suficiente para poder servir rápidamente el material adquirido por sus

clientes. Para ello, la empresa dispone de las ventas efectuadas cada mes

del último año de cada producto, tal y como se refleja en la Tabla 16.

Tabla 16. Ventas mensuales durante el último año.

Producto mes-12 ... mes-4 mes-3 mes-2 mes-1

televisor plano 30' Phlipis 20 ... 52 14 139 74


vídeo-dvd-recorder Miesens 11 ... 43 32 26 59
discman mp3 LG 50 ... 61 14 5 28
frigorífico no frost Jazzussi 21 27 1 49
microondas con grill Sanson 14 27 2 25 12
…. …. …. ... ... ... ….

Esta información permite a la empresa generar un modelo para

predecir cuáles van a ser las ventas de cada producto en el siguiente mes

en función de las ventas realizadas en los meses anteriores, y efectuar así

los pedidos necesarios a sus proveedores para disponer del stock necesario

para hacer frente a esas ventas.

-273-
Universidad Nacional de Huancavelica

PROCESO DE PREDICTIVE BUSINESS ANALYTICS

Se presentan las 6 fases del proceso, que son similares al proceso de

Descriptive Business Analytics. Las 3 primeras fases ya se ejecutaron en el

caso desarrollado para Descriptive DM, por eso en este proyecto de Predictive

Analytics lo iniciamos desde la etapa 2:

CREACIÓN DE MODELOS: MINERÍA DE DATOS

Modeling

Seleccionar
Técnica de
Modelamiento

-274-
Universidad Nacional de Huancavelica

CREAR Y TRABAJAR CON PREDICCIONES CON DM

Ha entrenado, probado y explorado los modelos de minería de datos que creó.

Ahora está en disposición de utilizar los modelos con el objeto de identificar a

los destinatarios de la campaña de distribución de correo directo de Adventure

Works Cycles. En esta lección creará una consulta para predecir qué clientes

potenciales tienen más probabilidad de comprar una bicicleta. También

recuperará la probabilidad de que la predicción sea correcta para poder decidir

si se debe presentar o no la recomendación al departamento de marketing.

Cuando haya identificado a los clientes potenciales con una probabilidad

alta de comprar una bicicleta, obtendrá detalles de los casos del modelo de

minería de datos para recuperar los nombres y la información de contacto

correspondiente.

En esta sección se incluyen los temas siguientes:

 Crear predicciones

 Obtener detalles en los datos de estructura

-275-
Universidad Nacional de Huancavelica

CASO DE ESTUDIO

Caso 1: Ventas y Entrega de Bicicletas en Adventure Works

Organización en estudio

Recordemos: Adventure Works Bicycles, Inc. es una gran empresa

multinacional mayorista ficticia que fabrica y vende bicicletas; y que compra y

vende ropa y accesorios de ciclismo a minoristas de todo el país.

-276-
Universidad Nacional de Huancavelica

I. Crear Predicciones

Una vez que haya probado la precisión de los modelos de minería de datos y

esté satisfecho con los resultados, puede crear consultas de predicción de

Extensiones de minería de datos (DMX) por medio del Generador de consultas

de predicción en la ficha Predicción de modelo de minería de datos del

Diseñador de minería de datos.

El Generador de consultas de predicción tiene tres vistas:

 Diseño

 Consulta

 Resultado

Mediante las vistas Diseño y Consulta, puede crear y examinar una

consulta. A continuación, puede ejecutar la consulta y ver los resultados en la

vista Resultado.

Para obtener más información acerca de cómo utilizar el Generador de

consultas de predicción, vea Crear consultas de predicción DMX.

Crear la consulta: seleccionar un modelo de minería de datos y una tabla


de entrada

1. En la pestaña Predicción de modelo de minería de datos del Diseñador

de minería de datos, en el cuadro Modelo de minería de datos, haga clic

en Seleccionar modelo.

-277-
Universidad Nacional de Huancavelica

2. En el cuadro de diálogo Seleccionar modelo

de minería de datos, navegue por el árbol

hasta la estructura Targeted Mailing,

expándala, seleccione TM_Decision_Tree y, a

continuación, haga clic en Aceptar.

3. En el cuadro Seleccionar tabla(s) de entrada, haga clic en Seleccionar

tabla de casos.

4. En el cuadro de diálogo Seleccionar tabla, en la lista Origen de datos,

seleccione Adventure Works DW2017 (o Targeted Mailing).

-278-
Universidad Nacional de Huancavelica

5. En la lista Nombre de tabla o vista, seleccione la tabla ProspectiveBuyer

(dbo) y, a continuación, haga clic en Aceptar.

La tabla ProspectiveBuyer se parece mucho a la tabla de casos

vTargetMail.

-279-
Universidad Nacional de Huancavelica

Asignar Las Columnas de la estructura a las columnas de la tabla de


entrada

Después de seleccionar la tabla de entrada, el Generador de consultas de

predicción crea una asignación predeterminada entre el modelo de minería de

datos y la tabla de entrada, en función de los nombres de las columnas. Al

menos una columna de la estructura debe coincidir con una columna de los

datos externos.

Importante
Los datos que usa para determinar la precisión de los modelos

deben contener una columna que se puede asignar a la columna de

predicción.

1. Haga clic derecho en las líneas que conectan la ventana Modelo de

minería de datos a la ventana Seleccionar tabla de entrada y seleccione

Modificar conexiones.

Observe que no todas las columnas están asignadas. Agregaremos las

asignaciones para varias Columnas de tabla.

-280-
Universidad Nacional de Huancavelica

2. En Columna de la tabla, haga clic en la celda Bike Buyer y seleccione

ProspectiveBuyer.Unknown en el cuadro desplegable.

De esta forma se asigna la columna de predicción, [Bike Buyer], a una

columna de la tabla de entrada.

3. Haga clic en Aceptar.

4. En el Explorador de soluciones, haga clic derecho en la vista del origen

de datos Targeted Mailing y seleccione Ver Diseñador.

-281-
Universidad Nacional de Huancavelica

5. Haga clic derecho en el título de la tabla ProspectiveBuyer y seleccione

Nuevo cálculo con nombre.

6. En el cuadro de nombre Columna, escriba calcAge.

7. En Descripción, escriba Calcular la edad en función de la fecha de

nacimiento.

8. En el cuadro Expresión, escriba DATEDIFF(yyyy,[BirthDate],getdate()) y

haga clic en Aceptar.

-282-
Universidad Nacional de Huancavelica

La tabla de entrada no tiene ninguna columna Age correspondiente.

Esta expresión calculará la edad del cliente a partir de la columna de fecha

de nacimiento de la tabla de entrada. Puesto que Age se identificó como la

columna más influyente para predecir la compra de una bicicleta, debe

existir en el modelo y en la tabla de entrada.

9. En el Diseñador de minería de datos, seleccione la pestaña Predicción de

modelo de minería de datos y vuelva a abrir la ventana Modificar

conexiones (haciendo clic derecho en las lineas de conexión).

Advertencia

Si no ve la columna en la lista, puede que tenga que actualizar la

definición de la vista del origen de datos que se ha cargado en el

diseñador. Para ello, en el menú Archivo, seleccione Guardar todo

y luego cierre y abra de nuevo el proyecto en el diseñador.

-283-
Universidad Nacional de Huancavelica

10. En Columna de la tabla, haga clic en la celda Edad y seleccione

ProspectiveBuyer.calcAge en el cuadro desplegable.

11. Haga clic en Aceptar.

-284-
Universidad Nacional de Huancavelica

Diseñar la consulta de predicción


1. El primer botón de la barra de herramientas de la ficha Predicción de

modelo de minería de datos es el botón Cambiar a vista de diseño de

consulta / Cambiar a vista de resultado / Cambiar a vista de consulta.

Haga clic en la flecha abajo en este botón y seleccione Diseño.

2. En la cuadrícula de la ficha Predicción de modelo de minería de datos,

haga clic en la celda de la primera fila vacía de la columna Origen y, a

continuación, seleccione Función de predicción.

De esta forma, se especificará la columna de destino para la función

PredictProbability. Para obtener más información acerca de las funciones,

vea Referencia de funciones de Extensiones de minería de datos (DMX).

3. En la fila Función de predicción, de la columna Campo, seleccione

PredictProbability.

-285-
Universidad Nacional de Huancavelica

4. En la ventana Modelo de minería de datos anterior, seleccione y arrastre

[Bike Buyer] a la celda Criterios o argumento.

Cuando lo coloca, [TM_Decision_Tree].[Bike Buyer] aparece en la celda

Criterios o argumento.

5. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación,

seleccione TM_Decision_Tree (o Modelo de mineria de…).

6. En la fila TM_Decision_Tree, en la columna Campo, seleccione Bike

Buyer.

7. En la fila TM_Decision_Tree, en la columna Criterios o argumento,

escriba = 1.

8. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación,

seleccione Table ProspectiveBuyer.

-286-
Universidad Nacional de Huancavelica

9. En la fila ProspectiveBuyer, en la columna Campo, seleccione

ProspectiveBuyerKey.

De esta forma, se agregará un identificador único a la consulta de

predicción para que pueda identificar quién es más y menos probable que

compre una bicicleta.

10. Agregue cinco filas más a la cuadrícula. Para cada fila, seleccione

ProspectiveBuyer como Origen y, a continuación, agregue las columnas

siguientes en las celdas Campo:

 calcAge
 LastName • FirstName
 AddressLine1 • City • StateProvinceCode

Finalmente, ejecute la consulta y examine los resultados.

-287-
Universidad Nacional de Huancavelica

Para ejecutar la consulta y ver los resultados

1. En la ficha Predicción de modelo de minería de datos, seleccione el


botón Resultado.

2. Una vez que la consulta se ejecute y se muestren los resultados, puede


revisarlos.

-288-
Universidad Nacional de Huancavelica

La ficha Predicción de modelo de minería de datos muestra información

de contacto para los clientes potenciales que son probables compradores

de bicicletas. La columna Expresión indica la probabilidad de que la

predicción sea correcta. Puede utilizar estos resultados para determinar a

qué clientes potenciales debe dirigirse en el correo.

3. Haga clic en el botón Guardar para guardar los resultados.

II. Usar la obtención de detalles en datos de estructura

Adventure Works Cycles está enviando un formulario a los clientes potenciales

de entre 40 y 56 años de edad como parte de su campaña de publicidad. El

departamento de marketing ha decidido que les gustaría enviar también el

formulario a los clientes que compraron bicicletas de Adventure Works Cycles

hace más de cinco años. En esta lección, identificará los clientes con compras

de bicicletas anteriores y recuperará su información de contacto. Esta

información no está incluida en el modelo, pero se incluye en la estructura.

Para recuperar la información de contacto, primero se asegurará de que la

obtención de detalles está habilitada para la estructura y, a continuación, la

utilizará para revelar los nombres y direcciones de los clientes con compras de

bicicletas anteriores.

Para obtener información sobre cómo obtener detalles a través de los

casos de modelo, vea Usar la obtención de detalles en datos de estructura

(Tutorial básico de minería de datos).

-289-
Universidad Nacional de Huancavelica

Habilitar la obtención de detalles en un modelo de minería de datos


1. En Microsoft Visual Studio, en la pestaña Modelos de minería de datos

del Diseñador de minería de datos, haga clic derecho en el modelo

TM_Decision_Tree y seleccione Propiedades.

2. En las ventanas Propiedades, haga clic en AllowDrillThroughy seleccione

True.

3. En la pestaña Modelos de minería de datos, haga clic derecho en el modelo

y seleccione Procesar modelo.

4. Haga clic en Ejecutar...

5. Haga clic en Cerrar/ Cerrar.

-290-
Universidad Nacional de Huancavelica

Para obtener más información, vea Usar la obtención de detalles en los

modelos y estructuras de minería (Analysis Services - Minería de datos)

Ver los datos de obtención de detalles de un modelo de minería de datos


1. En el Diseñador de minería de datos, haga clic en la ficha Visor de modelo

de minería de datos.

2. Seleccione el modelo TM_Decision_Tree en la lista Modelo de minería de datos.

3. Cambie el valor de la lista Fondo por 1.

4. Seleccione el visor de árboles de Microsoft en la lista Visor y haga clic

derecho en el nodo Age >= 40 y <56.

5. Seleccione Obtener detalles, después seleccione Columnas de modelo y

estructura para abrir la ventana Obtener detalles.

6. Desplácese a la columna Structure.Date First Purchase para ver la fecha de

compra de las bicicletas anteriores.

-291-
Universidad Nacional de Huancavelica

7. Para copiar los datos en el Portapapeles, haga clic con el botón secundario

en cualquier fila de la tabla y seleccione Copiar todo. Esto se puede llevar a

Excel.

Con ello, ha completado el Tutorial básico de minería de datos. Ahora

que conoce más las herramientas de minería de datos, recomendamos que

también complete el Tutorial intermedio de minería de datos, que demuestra

cómo crear modelos de pronóstico, análisis de la cesta de compras y clústeres

de secuencias.

-292-
Universidad Nacional de Huancavelica

ANEXO A:

ESTRUCTURA DEL INFORME DE DATA MINING

1. Índice
2. Introducción
CAPÍTULO I: GENERALIDADES
3. Objetivos del Trabajo de Aplicación
4. Integrantes: Nombre, e-Mail
CAPÍTULO II: DESCRIPTIVE ANALYTICS
5. Fase 1: Entendimiento del Negocio
6. Descripción de la Empresa Diversificada
7. Organigrama Actual
8. Identificación del Proceso Crítico
9. Flujograma del Proceso
10. Objetivos de Data Mining
11. Fase 2: Entendimiento de los Datos
12. Recopilación inicial de datos: OLTP y Data Mart
13. Descripción de los datos: Tablas y Vistas
14. Fase 3: Preparación de los Datos
15. Selección y Limpieza de los datos.
16. Fase 4: Modelamiento
17. Selección de la técnica de modelado.
18. Construcción de los modelos Descriptivos.
19. Evaluación del modelo.
20. Fase 5: Evaluación del Modelo
21. Evaluación de resultados.
22. Revisar el proceso.
23. Fase 6: Utilización del Modelo (Conocimiento)
24. Planificación de despliegue.
CAPÍTULO III: PREDICTIVE ANALYTICS
25. Fase 4: Modelamiento
26. Selección de la técnica de modelado.
27. Construcción de los modelos Predictivos.
28. Evaluación de los modelos.
29. Fase 5: Evaluación del Modelo
-303-
Universidad Nacional de Huancavelica

30. Evaluación de resultados.


31. Fase 6: Utilización del Modelo (Conocimiento)
32. Planificación de despliegue.

33. Conclusiones
34. Recomendaciones
35. Bibliografía
36. Apéndices (si es necesario)

Nota : Se presentará el trabajo y a la vez debe prepararse demostrativos


sobre la instalación y uso de su aplicativo.
 La fecha de presentación y sustentación será coordinada
oportunamente.
 En el Informe Final deberá considerar la siguiente estructura:
 INFORME FINAL: WORD, BIZAGI, EXCEL
 MODELOS: CARPETAS CON PROYECTOS.

-304-

También podría gustarte