Gestión Del Conocimiento - Parte 2

MAESTRÍA EN CIENCIAS DE INGENIERÍA CON MENCIÓN EN
GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN Y

COMUNICACIÓN
PERÚ
Universidad Nacional de Huancavelica
TABLA DE CONTENIDOS
1. LOS SI Y LA TEORÍA DE DECISIONES 06
2. DATA MINING 21
3. EMPRESAS CON ESTRATEGIAS BASADAS EN DM 42
4. MODELOS DESCRIPTIVOS 59
5. ENTENDIMIENTO DEL NEGOCIO 88
6. ENTENDIMIENTO Y PREPARACIÓN DE LOS DATOS 97
7. CREACIÓN Y EVALUACIÓN DE MODELOS 124
8. ANÁLÍTICA DEL NEGOCIO PREDICTIVA 227
9. CREACIÓN Y USO DE MODELOS PREDICTIVOS 255
10. ANEXO A: ESTRUCTURA DEL INFORME FINAL 303
-1-
CREACIÓN Y EVALUACIÓN DE MODELOS
CREACIÓN DE MODELOS: MINERÍA DE DATOS
Modeling
Select
Modeling
Technique
Generate
Test
Design
Assess
Model
-126-
Esta fase es la más característica del KDD y, por esta razón, muchas veces se
utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es
producir nuevo conocimiento que pueda utilizar el usuario. Esto se realiza
construyendo un modelo basado en los datos recopilados para este efecto. El
modelo es una descripción de los patrones y relaciones entre los datos que
pueden usarse para hacer predicciones, para entender mejor los datos o para
explicar situaciones pasadas. Para ello es necesario tomar una serie de
decisiones antes de empezar el proceso:
 Determinar qué tipo de tarea de minería es el más apropiado. Por
ejemplo, podríamos usar la clasificación para predecir en una entidad
bancaria los clientes que dejarán de serlo.
 Elegir el tipo de técnica. Por ejemplo, para una tarea de clasificación
podríamos usar un árbol de decisión, porque queremos obtener un modelo
en forma de reglas.
 Elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de
modelo que estamos buscando. Esta elección es pertinente porque
existen muchos métodos para construir los modelos. Por ejemplo, para
crear árboles de decisión para clasificación podríamos usar CART o C5.0,
entre otros. En los capítulos siguientes se presentarán los métodos más
importantes para cada tipo de modelo.
-127-
4.1 ALGORITMOS DEL KDD
El algoritmo de DM es el mecanismo que crea modelos de minería de datos.
Para crear un modelo, un algoritmo analiza primero un conjunto de datos,
buscando patrones y tendencias específicos. Después, el algoritmo utiliza los
resultados de este análisis para definir los parámetros del modelo de minería
de datos.
El modelo de DM que crea un algoritmo puede tomar diversas formas,
incluyendo:
 Un conjunto de reglas que describen cómo se agrupan los productos en
una transacción.
 Un árbol de decisión que predice si un cliente determinado comprará un
producto.
 Un modelo matemático que predice las ventas.
 Un conjunto de clústeres que describe cómo se relacionan los escenarios
de un conjunto de datos.
Microsoft SQL Server 2017 Analysis Services (SSAS) proporciona varios
algoritmos que puede usar en las soluciones de DM. Estos algoritmos son un
subconjunto de todos los algoritmos que pueden utilizarse en DM. También
puede utilizar algoritmos de DM desarrollados por terceros que cumplan la
especificación OLE DB para DM. Para obtener más información sobre los
algoritmos de terceros, vea Algoritmos de complemento.
-128-
CASO DE ESTUDIO
Ventas y Entrega de Bicicletas en Adventure Works Bicycles

(Continuación …)
10. Escenarios de minería de datos
Las tendencias de la base de datos Adventure Works DW 2017 admiten los
siguientes escenarios de minería de datos:
 Targeted Mailing Campaign (Campaña de Correo Directo): admite el
escenario de un analista que aplica distintos algoritmos de minería de
datos a los datos de ventas por Internet (tabla
vTargetMail obtenida de la vista vDMPrep, la
cual se obtuvo de la tabla de hechos
FactInternetSales) y a clientes de Adventure
Works para determinar los atributos
demográficos de los clientes que ya han
comprado una bicicleta. Después, el analista puede aplicar el modelo de
minería de datos a una lista de clientes potenciales (tabla
ProspectiveBuyer) para determinar qué clientes tienen mayor
probabilidad de responder al correo directo en el que se promocionen las
bicicletas de Adventure Works.
-129-
 Forecasting: admite el escenario de un analista que investiga el
crecimiento de modelos de bicicletas por hora y región.
 Market Basket Analysis: admite el escenario de un programador que
crea una solución de Cesta de Mercado que sugiere un
producto en función de otros que ya existen en el carro
de compras de un cliente.
 Sequence Clustering: admite el escenario de un analista que investiga
la secuencia en la que los clientes colocan los artículos
en un carro de compras.
Estos escenarios y las tendencias del almacén de datos se muestran en
el presente ejemplo de Adventure Works DW 2017.
-130-
11. Crear una Estructura del modelo de minería de datos Targeted

Mailing
El primer paso para crear un escenario de Correo Directo (Targeted Mailing)
consiste en utilizar el Asistente para minería de datos de Business Intelligence
Development Studio con el fin de crear una estructura de minería de datos y
un modelo de minería de datos de Árbol de Decisión.
1. En el Explorador de soluciones, haga clic derecho en Estructuras de
minería de datos y seleccione Nueva estructura de minería de datos.
Se abrirá el Asistente para minería de datos.
2. En la página de inicio del Asistente para minería de datos, haga clic
en Siguiente.
3. En la página Seleccionar el método de definición, compruebe que la
opción A partir de una base de datos relacional o un almacén de
datos se ha seleccionado y, a continuación, haga clic en Siguiente.
4. En la página Crear la estructura de minería de datos, en ¿Qué técnica
de minería de datos desea utilizar?, seleccione Árboles de Decisión
de Microsoft.
Nota: Para mayor detalle sobre Árboles de Decisión de Microsoft revisar el
Anexo B.
-131-
En este tutorial, creará varios modelos basados en esta estructura inicial
de minería de datos. El primer modelo se creará junto con la estructura
una vez que el asistente finalice y se basará en el algoritmo de Árboles
de Decisión de Microsoft.
5. Haga clic en Siguiente.
6. En la página Seleccionar vista del origen de datos, en el panel Vistas
del origen de datos disponibles, seleccione Targeted Mailing. Puede
hacer clic en Examinar… para ver las tablas de la vista del origen de
datos y, a continuación, hacer clic en Cerrar para volver al asistente.
Haga clic en Siguiente.
7. En la página Especificar tipos de tablas, active la casilla de verificación
de la columna Escenario (Caso), situada junto a la tabla vTargetMail
para usarla como tabla de casos y; a continuación, haga clic en
Siguiente. Utilizará la tabla ProspectiveBuyer posteriormente para
pruebas; pásela por alto por ahora.
-132-
8. En la página Especificar los datos de aprendizaje, identificará al

menos una columna de predicción, una columna de clave y una columna
de entrada para el modelo. Active la casilla de la columna De predicción
en la fila BikeBuyer.
9. Haga clic en Sugerir para abrir el cuadro de diálogo Sugerir
columnas relacionadas.
-133-
El botón Sugerir está habilitado siempre que se haya seleccionado al

menos un atributo predecible. El cuadro de diálogo Sugerir columnas
relacionadas enumera en una lista las columnas más relacionadas
con la columna predecible y ordena los atributos por su correlación
con el atributo predecible. Las columnas con una correlación
significativa (con una confianza mayor del 95%) se seleccionan
automáticamente para incluirse en el modelo.
Revise las sugerencias y, a continuación, haga clic en Cancelar para

omitirlas.
10. Compruebe que la casilla de la columna Clave está seleccionada en
la fila CustomerKey.
11. Active las casillas de la columna Entrada en las filas siguientes. Puede
activar varias columnas resaltando un rango de celdas y presionando
CTRL mientras activa una casilla.
 Age
 CommuteDistance
 EnglishEducation
 EnglishOccupation
 Gender
 GeographyKey
 HouseOwnerFlag
 MaritalStatus
 NumberCarsOwned
 NumberChildrenAtHome
 Region
 TotalChildren
 YearlyIncome
-134-
12. En la columna izquierda de la página, active las casillas de las filas
siguientes.
 AddressLine1
 AddressLine2
 City
 DateFirstPurchase
 EmailAddress
 FirstName
 LastName
 StateProvinceName.
-135-
Asegúrese de que estas filas sólo tienen marcas en la columna
izquierda. Estas columnas se agregarán a la estructura pero no se
incluirán en el modelo. Sin embargo, una vez generado el modelo,
estarán disponibles para la obtención de detalles y las pruebas. Para
obtener más información acerca de la obtención de detalles, vea Usar la
obtención de detalles en los modelos y estructuras de minería (Analysis
Services - Minería de datos).
-136-
-137-
12. Especificar el Tipo de Datos y el Tipo de Contenido
Ahora que ha seleccionado qué columnas utilizar para generar la
estructura y entrenar los modelos, realice los cambios necesarios en los
tipos de datos predeterminados y en los tipos de contenido que establece
el asistente.
1. En la página Especificar el contenido y el tipo de datos de las
columnas, haga clic en Detectar.
-138-
Un algoritmo ejecutará los datos numéricos de los ejemplos y
determinará si las columnas numéricas contienen valores continuos o
discretos. Por ejemplo, una columna puede contener información salarial
como valores de sueldo actuales, que son continuos, o bien integrales
que representan rangos de sueldo codificados, como 1 = < $25.000; 2 =
de $25.000 a $50.000, que son discretos.
2. Después de hacer clic en Detectar, compruebe que las entradas de las
columnas Tipo de contenido y Tipo de datos tengan la configuración
especificada en la siguiente tabla.
Columna Tipo de contenido Tipo de datos

Address Line1 Discrete Text
Address Line2 Discrete Text
Age Continuous Long
Bike Buyer Discrete Long
City Discrete Text
Commute Distance Discrete Text
CustomerKey Key Long
DateFirstPurchase Continuous Date
Email Address Discrete Text
English Education Discrete Text
English Occupation Discrete Text
FirstName Discrete Text
Gender Discrete Text
-139-
Geography Key Discrete Text
House Owner Flag Discrete Text
Last Name Discrete Text
Marital Status Discrete Text
Number Cars Owned Discrete Long
Number Children At Home Discrete Long
Region Discrete Text
StateProvinceName Discrete Text
Total Children Discrete Long
Yearly Income Continuous Double
Nota: Normalmente, el asistente detectará números y asignará un tipo
de datos numérico adecuado, pero hay varias situaciones en las que
podría desear tratar un número como texto. Por ejemplo, GeographyKey
se debería tratar como texto, porque no sería apropiado realizar
operaciones matemáticas en este identificador.
-140-
4.2. GENERAR EL DISEÑO DE PRUEBA
Tarea Generar el diseño de prueba
Antes de construir un modelo, es necesario definir un procedimiento para
probar la calidad del modelo y la validez. Por ejemplo, en tareas de minería de
datos supervisadas como la clasificación, es común usar tasas de error como
medidas de calidad para modelos de minería de datos.
Además, se deben separar aleatoriamente los datos preparados en
conjuntos de datos de entrenamiento y comprobación independientes. El
conjunto de datos de entrenamiento se utiliza para generar el modelo y el
conjunto de datos de comprobación para comprobar la precisión del modelo
mediante la creación de consultas de predicción. Puede utilizar la
-141-
Transformación Muestreo de porcentaje de Integration Services para dividir el
conjunto de datos.
La transformación Muestreo de porcentaje crea un conjunto de datos
de muestra seleccionando un porcentaje de las filas de entrada de la
transformación. El conjunto de datos de muestra es una selección
aleatoria de filas de la entrada de transformación, de forma que la
muestra resultante sea representativa de la entrada.
Mediante esta transformación, puede dividir aleatoriamente un
conjunto de datos en dos conjuntos de datos: uno para entrenamiento
del modelo de minería de datos y otro para comprobación del modelo.
Puede especificar un valor de inicialización de muestreo para
modificar el comportamiento del generador de números aleatorios
utilizado por la transformación para seleccionar filas. Si se usa el mismo
valor de inicialización de muestreo, la transformación siempre creará la
misma salida de ejemplo. Si no se especifica un valor de inicialización, la
transformación utilizará el recuento de pasos del sistema operativo
para crear el número aleatorio.
Esta transformación es similar a la transformación Muestreo de
fila, que crea a conjunto de datos de ejemplo seleccionando un número
especificado de filas de entrada. Para obtener más información, vea
Transformación Muestreo de fila.
-142-
Por lo tanto, el diseño de prueba específica que el conjunto de datos
debería ser separado en el entrenamiento y en el conjunto de prueba (training
dataset). El modelo está construido sobre el conjunto de entrenamiento y su
calidad estimada sobre el conjunto de prueba (test dataset).
Salida Diseño de Prueba

Describir el plan intencionado para el entrenamiento, la prueba, y la evaluación
de los modelos. Un componente primario del plan determina cómo dividir un
conjunto de datos disponible en datos de entrenamiento, datos de prueba, y
conjunto de datos de validación.
-143-
CASO DE ESTUDIO
Ventas y Entrega de Bicicletas en Adventure Works (Continuación

…)
13. Especificar un Conjunto de Datos de Pruebas para la estructura
En las pantallas finales del Asistente para minería de datos dividirá los
datos en un conjunto de pruebas y en un conjunto de entrenamiento.
Después, denominará su estructura y habilitará la obtención de datos en
el modelo.
Para especificar el conjunto de pruebas

1. En la página Crear conjunto de pruebas, en Porcentaje de datos
para pruebas, deje el valor predeterminado 30.
2. En Número máximo de casos en el conjunto de datos de prueba,
escriba 1000.

-144-
4.3. CONSTRUCCIÓN DEL MODELO
Tarea Construir el modelo
Correr la herramienta de modelado sobre el conjunto de datos listo para crear
uno o más modelos.
Salida Parámetros de ajuste
Con cualquier herramienta de modelado, hay a menudo un gran número de
parámetros que pueden ser ajustados. Listar los parámetros y sus valores
seleccionados, con la explicación (el razonamiento) para la elección.
-145-
Para denominar el modelo y la estructura, y especificar la obtención

de detalles
1. En la página Finalización del asistente, en Nombre de la estructura
de minería de datos, escriba Targeted Mailing.
2. En Nombre del modelo de minería de datos, escriba
TM_Decision_Tree.
3. Active la casilla Permitir obtención de detalles.
4. Revise el panel Vista previa. Observe que se muestran sólo las
columnas seleccionadas como Clave, Entrada o De predicción. Las
otras columnas que seleccionó (por ejemplo, AddressLine1) no se usan
para generar el modelo, pero estarán disponibles en la estructura
subyacente y se pueden consultar una vez procesado e implementado
el modelo.
-146-
5. Haga clic en Finalizar.
-147-
-148-
14. Agregar y Procesar los modelos
La estructura de minería de datos que creó en la sección anterior contiene un
modelo de minería de datos individual que se basa en el algoritmo de árboles
de decisión de Microsoft. Para identificar a los clientes para la distribución de
correo directo, creará dos modelos adicionales y, a continuación, procesará e
implementará los modelos.
En esta sección, creará un conjunto de modelos de minería de datos que
sugerirá los clientes que tienen una mayor probabilidad de serlo entre una lista
de clientes potenciales.
I. Agregar modelos nuevos a la estructura de Targeted Mailing
En esta tarea, usted definirá dos modelos adicionales mediante la pestaña
Modelos de minería de datos del Diseñador de minería de datos. Para crear los
modelos, se usarán el algoritmo de Clústeres y el algoritmo Bayes Naive de
Microsoft.
Estos dos algoritmos se han seleccionado debido a su capacidad de predecir
un valor discreto (por ejemplo, la compra de una bicicleta).
-149-
Crear un modelo Microsoft Clustering
1. Cambie a la ficha Modelos de minería de datos del Diseñador de
minería de datos en Microsoft Visual Studio.
2. Observe que el diseñador muestra dos columnas: una para la estructura
de minería de datos y otra para el modelo de minería de datos
TM_Decision_Tree, que creó en la tarea anterior.
-150-
3. Haga clic derecho en la columna Estructura y seleccione Nuevo
modelo de minería de datos.
Se abrirá el cuadro de diálogo Nuevo modelo de minería de datos.
4. En Nombre del modelo, escriba TM_Clustering.
5. En Nombre del algoritmo, seleccione Clústeres de Microsoft.
6. Haga clic en Aceptar.
Aparece un nuevo modelo en la ficha Modelos de minería de datos del
Diseñador de minería de datos. Este modelo, integrado con el algoritmo de

-151-
clústeres de Microsoft, agrupa los clientes con características similares en
clústeres y predice la compra de una bicicleta en cada clúster. Aunque puede
modificar el uso y las propiedades de la columna para el modelo nuevo, en
este tutorial no es necesario hacer cambios en el modelo TM_Clustering.
-152-
Crear un modelo Microsoft Naive Bayes
1. En la ficha Modelos de minería de datos del Diseñador de minería de
datos, haga clic derecho en la columna Estructura y seleccione Nuevo
2. En el cuadro de diálogo Nuevo modelo de minería de datos, en
Nombre del modelo, escriba TM_NaiveBayes.
3. En Nombre del algoritmo, seleccione Bayes naive de Microsoft y
haga clic en Aceptar.
Aparece un mensaje que indica que el algoritmo Bayes naive de
Microsoft no admite las columnas Age y Yearly Income, que son
continuas.
4. Haga clic en Sí para confirmar el mensaje y continuar.
-153-
Aparece un nuevo modelo en la ficha Modelos de minería de datos. Aunque
puede modificar el uso y las propiedades de la columna para todos los modelos
de la ficha, en este tutorial, no es necesario hacer cambios en el modelo
TM_NaiveBayes.
II. Procesar los modelos de la estructura de distribución de Correo

Directo
Para poder examinar o trabajar con los modelos de minería de datos que ha
creado, se debe implementar el proyecto de Analysis Services y procesar la
estructura y los modelos de minería de datos. En la implementación se envía
el proyecto a un servidor y se crean en el servidor los objetos de ese proyecto.
El procesamiento es el paso, o la serie de pasos, que rellena los objetos de
Analysis Services con datos desde orígenes de datos relacionales. Los
modelos no se pueden utilizar hasta que se hayan implementado y procesado.
Para obtener más información
Procesar objetos de minería de datos
-154-
Procesar objetos de minería de datos
El procesamiento de una estructura o un modelo de minería de datos es
diferente del procesamiento de objetos OLAP como dimensiones y cubos. En el
procesamiento OLAP se crean cubos con agregaciones, en tanto que en el
procesamiento de minería de datos se crean datos de entrenamiento y se
ejecutan algoritmos de minería en esos datos.
Procesar Estructuras de minería de datos
Para controlar cómo se procesan los modelos dentro de la estructura de minería
de datos, puede procesar una estructura de minería de datos por separado de
sus modelos de minería de datos asociados. Primero, debe procesar la
estructura de minería de datos asociada y, después, puede seguir con el
procesamiento del modelo de minería de datos que le interesa. Puede procesar
una estructura de minería de datos mediante los menús y botones de las fichas
Modelos de minería de datos o Estructura de minería de datos del Editor de
minería de datos. En el cuadro de diálogo de procesamiento, seleccione una
opción de procesamiento y haga clic en Ejecutar.
Analysis Services escribe todos los datos de entrenamiento en el disco duro
local.
Procesar Modelos de minería de datos
Debe procesar los modelos de Analysis Services que ha definido antes de
empezar a trabajar con ellos. También debe volver a procesar los modelos de
minería de datos siempre que cambie la estructura del modelo de minería de
datos, actualice los datos de entrenamiento, cambie el modelo de minería de
datos existente o agregue un nuevo modelo de minería de datos a la estructura.
-155-
Asegurarse de la coherencia con HoldoutSeed
Al implementar un proyecto y procesar la estructura y los modelos, a las filas
individuales de la estructura de datos se les asigna de forma aleatoria el
conjunto de pruebas y entrenamiento a partir de un valor de inicialización del
número aleatorio. Normalmente, el valor de inicialización del número aleatorio
se calcula con los atributos de la estructura de datos. Teniendo en cuenta los
fines de este tutorial, para asegurarse de que los resultados son los mismos
que los descritos aquí, asignaremos arbitrariamente un valor de inicialización
de exclusión fijo de 12. El valor de inicialización de exclusión se utiliza para
inicializar el muestreo aleatorio y asegurarse de que los datos se dividen
aproximadamente de la misma manera para todas las estructuras de minería
de datos y sus modelos.
Este valor no afecta al número de casos del conjunto de entrenamiento;
sino que sirve para asegurarse de que la partición se puede repetir.
-156-
1. Haga clic en la pestaña Estructuras de minería de datos o Modelos
de minería de datos en el Diseñador de minería de datos de Business
Intelligence Development Studio.
Estructura de minería de datos Targeted Mailing aparece en elpanel
Propiedades.
2. Asegúrese de que el panel Propiedades está abierto presionando F4.
3. Asegúrese de que CacheMode está establecido en
KeepTrainingCases.
4. Escriba 12 en HoldoutSeed.
-157-
Implementar el proyecto y Procesar TODOS los modelos de minería de
datos
En el Diseñador de minería de datos, puede procesar una estructura de
minería de datos, un modelo de minería de datos específico que esté asociado
a una estructura de minería de datos, o bien procesar la estructura y todos los
modelos que estén asociados a esa estructura. Para esta tarea, procesaremos
la estructura y todos los modelos al mismo tiempo.
1. En el menú Modelo de minería de datos, seleccione Procesar
estructura de minería de datos y todos los modelos.
Si ha realizado cambios en la estructura, se le pedirá que genere e
implemente el proyecto antes de procesar los modelos. Haga clic en Sí.
2. En el cuadro de diálogo Procesar estructura de minería de datos -
-158-
Targeted Mailing, haga clic en Ejecutar.
Se abre el cuadro de diálogo Progreso del proceso para mostrar los
detalles del procesamiento del modelo. El procesamiento del modelo
podría tardar algún tiempo, según el equipo.
3. Haga clic en Cerrar en el cuadro de diálogo Progreso del proceso
cuando el procesamiento de los modelos se haya completado.
4. Haga clic en Cerrar en el cuadro de diálogo Procesando estructura de
minería de datos - Targeted Mailing.
-159-
15. Explorar los modelos Targeted Mailing
Una vez procesados los modelos en el proyecto, puede examinarse en
Business Intelligence Development Studio para buscar tendencias
interesantes. Como los resultados de los modelos de minería de datos son
complejos y pueden resultar difíciles de comprender sin formato, examinar los
datos visualmente suele ser la manera más fácil de entender las reglas y
relaciones que los algoritmos descubren en los datos. La exploración le
ayudará a entender también el comportamiento del modelo y a detectar qué
modelo se comporta mejor antes de implementarlo.
Cada modelo creado se muestra en la ficha Visor de modelos de
minería de datos en el Diseñador de minería de datos. Cada algoritmo
utilizado para crear un modelo en Analysis Services devuelve un tipo de
resultado diferente. Por consiguiente, Analysis Services proporciona un visor
independiente para cada algoritmo. También proporciona un visor genérico
que funciona con todos los tipos de modelo. El Visor de árbol de contenido
genérico muestra resultados detallados sobre el contenido del modelo, que
varía en función del algoritmo utilizado. Para obtener más información, vea Ver
los detalles del modelo con el Visor de árbol de contenido genérico de
Microsoft.
-160-
En esta sección se examina los mismos datos utilizando los tres
modelos. Cada tipo de modelo se basa en un algoritmo diferente y
proporciona visiones (resultados) diferentes de los datos:
 El modelo Árbol de Decisión indica los factores que influyen en la
compra de bicicletas.
 El modelo Agrupación en Clústeres agrupa los clientes por atributos,
como el comportamiento de compra de bicicletas y otros atributos
seleccionados.
 El modelo Bayes Naive le permite examinar las relaciones entre los
diferentes atributos.
Por último, el Visor de árbol de contenido genérico muestra la estructura
del modelo y proporciona datos más detallados como las fórmulas, los
patrones extraídos y un recuento de casos en un clúster o árbol determinado.
-161-
I. Explorar el modelo de Árbol de Decisión
Cuando cambie a la ficha Visor de modelos de minería de datos en el
Diseñador de minería de datos para el proyecto del tutorial Adventure Works
DM, el diseñador se abre con el modelo de minería de datos de correo directo
(Targeted Mailing), que es el primero de la estructura. Cada algoritmo utilizado
para crear un modelo en Analysis Services aporta diferentes resultados. Por
tanto, Analysis Services ofrece un visor independiente para cada algoritmo.
Cuando se examina un modelo de minería de datos, el modelo se muestra en
la ficha Visor de modelos de minería de datos utilizando el visor apropiado
para el modelo. En este caso, para el modelo de árbol de decisión, se utiliza
el Visor de árboles de Microsoft. Este visor contiene dos fichas: Árbol de
decisión y Red de dependencias.
-162-
Pestaña Árbol de Decisión
En la pestaña Árbol de decisión, puede ver árboles de decisión para cada
atributo de predicción del conjunto de datos.
En este caso, el modelo predice solo una columna, Bike Buyer, por lo que
solo hay un árbol para ver. Si hubiera más árboles, podría utilizar el
cuadro Árbol para elegir uno diferente.
Cuando se ve el modelo TM_Decision_Tree en el Visor de árbol de
decisión, puede ver los atributos más importantes en la parte izquierda del
gráfico. "Más importantes" significa que estos atributos son los que más
influyen en el resultado. Los atributos situados más abajo en el árbol (a la
derecha del gráfico) tienen menos efecto.
En este ejemplo, Number Cars Owned es el factor único más importante
para predecir la compra de bicicletas. El modelo agrupa los clientes por
Number Cars Owned y, a continuación, muestra el siguiente atributo más
importante para cada grupo de Number Cars Owned.
Explorar el modelo en la ficha Árbol de decisión
1. Seleccione la pestaña Visor de modelo de minería de datos en
Diseñador de minería de datos.
De forma predeterminada, el diseñador se abre en el primer modelo que
se agregó a la estructura (en este caso, TM_Decision_Tree).
-163-
2. Utilice los botones de lupa para ajustar el tamaño de presentación del
árbol.
De manera predeterminada, el Visor de árboles de Microsoft sólo
muestra los primeros tres niveles del árbol. Si el árbol contiene menos
de tres niveles, el visor mostrará sólo los niveles existentes. Puede ver
más niveles si utiliza el control deslizante Mostrar nivel o la lista
Expansión predeterminada.
3. Deslice Mostrar nivel hasta la cuarta barra.
-164-
-165-
4. Cambie el valor de la lista Fondo (Segundo plano) a 1.
Al cambiar la configuración de Fondo, podrá ver rápidamente el número
de casos de cada nodo que tienen el valor de destino de 1 para [Bike
Buyer]. Recuerde que en este escenario, cada caso representa un
cliente. El valor 1 indica que el cliente compró anteriormente una bicicleta
(rosa); el valor 0 indica que el cliente no ha comprado una bicicleta (azul).
Cuanto más oscuro sea el sombreado del nodo, mayor será el porcentaje
de casos del nodo que tienen el valor de destino.
5. Coloque el cursor sobre el nodo Todos. Se mostrará información sobre
herramientas con los siguientes datos:
-166-
 Número total de casos.
 Número de casos de personas que no han comprado bicicletas.
 Número de casos de personas que han comprado bicicletas.
 Número de casos con valores que faltan para [Bike Buyer].
También puede colocar el cursor sobre cualquier nodo del árbol para ver
la condición necesaria para alcanzar ese nodo desde el nodo anterior.
Esa misma información se puede ver también en la Leyenda de minería
de datos.
-167-
1. Haga clic en el nodo de Edad >= 48. El histograma se muestra como
una barra horizontal delgada a lo largo del nodo y representa la
distribución de los clientes con este intervalo de edad que anteriormente
compraron (rosa) o no compraron (azul) una bicicleta. El visor nos
muestra que es probable que los clientes con edades mayores o iguales
a 48 años sin automóvil compren una bicicleta. Si vamos un poco más
lejos, vemos que la probabilidad de comprar una bicicleta aumenta si el
cliente tiene una edad menor a 48 años.
Como habilitó la obtención de detalles cuando creó la estructura y el
modelo, puede recuperar información detallada de los casos del modelo y de
la estructura de minería de datos, incluidas las columnas que no se incluyeron
en el modelo de minería de datos (por ejemplo, emailAddress y FirstName).
-168-
Para obtener información detallada de los datos del caso
1. Haga clic derecho en un nodo y seleccione Obtener detalles y Sólo
columnas de modelos.
Los detalles de cada caso de entrenamiento se muestran en formato de
hoja de cálculo. Estos detalles proceden de la vista vTargetMail que
seleccionó como la tabla de casos al generar la estructura de minería de
datos.
2. Haga clic con el botón secundario en un nodo y seleccione Obtener
detalles y Columnas de modelo y estructura.
Se muestra la misma hoja de cálculo con las columnas de estructura
anexadas al final.
-169-
Pestaña Red de Dependencias
La ficha Red de Dependencias muestra las relaciones entre los atributos que
contribuyen a la capacidad de predicción del modelo de minería de datos.
Para explorar el modelo en la ficha Red de dependencias
1. Haga clic en el nodo Bike Buyer para identificar sus dependencias.
El nodo central de la red de dependencias, Bike Buyer, representa el
atributo de predicción del modelo de minería de datos. El sombreado
rosa indica que todos los atributos influyen en la compra de bicicletas.
Cada nodo adyacente representa un atributo que afecta al resultado
del atributo de predicción.
-170-
-171-
2. Ajuste el control deslizante Todos los vínculos para identificar el atributo
más influyente.
Conforme baja el control deslizante, sólo permanecen los atributos que
afectan en mayor medida a la columna [Bike Buyer]. Ajustando el control
deslizante, descubrirá que Year Income y Number Cars Owned son los
factores más importantes para predecir si alguien ha comprado una
bicicleta.
Haga clic en un nodo de la red y, a continuación, consulte la leyenda
de color situada en la parte inferior de la ficha para ver cuáles son los
nodos predichos por el nodo seleccionado o los nodos que predicen al
nodo seleccionado.
-172-
II. Explorar el modelo de Agrupación en Clústeres
El algoritmo de clústeres Microsoft agrupa los casos en clústeres que
contienen características similares. Estas agrupaciones son útiles para la
exploración de datos, la identificación de anomalías en los datos y la creación
de predicciones.
El Visor de clústeres de Microsoft ofrece las siguientes pestañas para la
exploración de modelos de minería de datos de Agrupación en Clústeres:
 Diagrama del clúster
 Perfiles del clúster
 Características del clúster
 Distinción del clúster
-173-
Pestaña Diagrama del Clúster
La ficha Diagrama del clúster permite explorar las relaciones entre los
clústeres detectados por el algoritmo. Las líneas entre los clústeres
representan la "proximidad" y aparecen sombreadas en función de la similitud
entre los clústeres. El color de cada clúster representa la frecuencia de la
variable y el estado del clúster. Puede seleccionar la variable y el estado en
los cuadros Variable de sombreado y Estado de la parte superior del nodo.
Para explorar el modelo en la ficha Diagrama del clúster
1. Use la lista Modelo de minería de datos de la parte superior de la
pestaña Visor de modelos de minería de datos para cambiar al modelo
TM_Clustering.
2. En la lista Visor, seleccione Visor de clústeres de Microsoft.
3. En el cuadro Variable de sombreado, seleccione Bike Buyer.
La variable predeterminada es Población, pero puede cambiarla a
cualquier atributo del modelo con el fin de determinar los clústeres que
contienen miembros con los atributos que desea.
-174-
-175-
4. Seleccione 1 en el cuadro Estado para explorar esos casos donde se
compró una bicicleta.
La leyenda Densidad describe la densidad del par de estados del
atributo que se selecciona en Variable de sombreado y Estado. En este
ejemplo se indica que el clúster con el sombreado más oscuro tiene el
porcentaje superior de compradores de bicicleta.
5. Pause su mouse sobre el clúster con el sombreado más oscuro.
Una información sobre herramientas muestra el porcentaje de casos que
tienen el atributo, Bike Buyer = 1.
6. Elija el clúster con mayor densidad, haga clic con el botón secundario en
él, seleccione Cambiar nombre de clúster y escriba Bike Buyers High
para una identificación posterior. Haga clic en Aceptar.
-176-
7. Busque el clúster que tiene el sombreado más ligero (y la densidad más
baja). Haga clic con el botón secundario en el clúster, seleccione
Cambiar nombre de clúster y escriba Bike Buyers Low. Haga clic en
Aceptar.
8. Haga clic en el clúster Bike Buyers High y arrástrelo hacia una área del
panel que le dará una vista clara de sus conexiones a los otros clústeres.
Al seleccionar un clúster, se resaltan las líneas que conectan este clúster
con otros para que pueda ver todas las relaciones existentes para el
mismo. Cuando el clúster no está seleccionado, puede saber por la
oscuridad de las líneas la intensidad de las relaciones entre todos los
clústeres del diagrama. Si el sombreado es claro o inexistente, los
clústeres no son muy similares.
-177-
9. Use el control deslizante situado en la parte izquierda de la red para filtrar
los vínculos de menor intensidad y encontrar los clústeres con las
relaciones más próximas. El departamento comercial de Adventure
Works Cycles podría desear combinar los clústeres similares al
determinar el mejor método para entregar el envío de correo directo.
-178-
Pestaña Perfiles del Clúster
La ficha Perfiles del Clúster proporciona una vista global del modelo
TM_Clustering. Como podrá ver en el visor, la ficha Perfiles del clúster
contiene una columna por cada clúster del modelo. La primera columna
enumera los atributos asociados a un clúster. La segunda columna muestra
los estados de cada variable. El resto de columnas muestran los estados de
un atributo para cada clúster. La distribución de una variable discreta se
muestra como una barra coloreada y el número máximo de barras aparece en
la lista Barras de histograma. Los atributos continuos se muestran con un
diagrama de rombo, que representa la desviación media y estándar en cada
clúster.
Para explorar el modelo en la ficha Perfiles del Clúster
1. Establezca las barras Histograma en 5.
En nuestro modelo, 5 es el número máximo de estados para cualquier
variable.
2. Si la Leyenda de minería de datos bloquea la presentación de los
Perfiles del atributo, retírela.
-179-
3. Seleccione la columna Bike Buyers High y arrástrela hacia la derecha
de la columna Población.
4. Seleccione la columna Bike Buyers Low y arrástrela a la derecha de la
columna Bike Buyers High.
5. Haga clic en la columna Bike Buyers High.
La columna Variables está ordenada por orden de importancia para ese
clúster. Desplácese por la columna y revise las características del clúster
Bike Buyer High. Por ejemplo, es muy probable que en todas ellas la
característica común sea que la distancia al trabajo sea corta.
6. Haga doble clic en la celda Age en la columna Bike Buyers High.
Leyenda de minería de datos muestra una vista más detallada donde
se puede ver el intervalo de edad de esos clientes y su edad media.
7. Haga clic derecho en la columna Bike Buyers Low y seleccione Ocultar
columna.
-180-
-181-
Pestaña Características del Clúster
La ficha Características del clúster le permite examinar con más detalle las
características que forman un clúster. En lugar de comparar las características
de todos los clústeres (como en la pestaña Perfiles del clúster), puede explorar
un clúster a la vez.
Por ejemplo, si selecciona Bike Buyers High en la lista Clúster puede ver las
características de los clientes en este clúster. Se ve que son los clientes que
más han comprado una bicicleta en el pasado, tienden a compartir las mismas
características: son de North America, viajan todos los días de 0 a 1 millas, no
tienen coche, no tienen niños en casa y están casados.
-182-
Aunque la presentación es diferente del visor Perfiles del clúster, los resultados
son los mismos.
A menos que establezca un valor inicial para holdoutseed, los
resultados variarán cada vez que procese el modelo. Para obtener
más información, vea Elemento HoldoutSeed
Ejemplo 2, si muestra el clúster Bike Buyers Low en el escenario de este
tutorial, podrá ver que son los clientes que menos han comprado una bicicleta
en el pasado: viven en North América, viajan todos los días de 5 a 10 millas,
tienen 2 coches, no tienen niños en casa y no están casados.
-183-
Pestaña Distinción del Clúster
La ficha Distinción del clúster le permite explorar las características que
diferencian a un clúster de otro. Después de seleccionar dos clústeres, uno de
la lista Clúster 1 y otro de la lista Clúster 2, el visor determinará las diferencias
entre los clústeres y las mostrará según el orden de los atributos que más
distinguen a los clústeres.
Para explorar el modelo en la ficha Diagrama del clúster
1. En el cuadro Clúster 1, seleccione Bike Buyers High.
2. En el cuadro Clúster 2, seleccione Bike Buyers Low.
3. Haga clic en Variables para ordenar alfabéticamente.
Algunas de las diferencias sustanciales entre clientes de los clústeres
Bike Buyers Low y Bike Buyers High son la posesión de un vehículo,
la edad, la educación y la distancia al trabajo.
-184-
-185-
Otro ejemplo, compare el clúster 3 y el clúster 9 del modelo
TM_Clustering. El clúster 3 contiene mayor densidad de compradores de
bicicleta y el clúster 9 contiene menor densidad. Las personas del clúster 3
tiene ingresos anuales entre US$ 10000-56000 y son menores, entre 32 y 57
años, mientras que las personas del clúster 3 no tienen carros propios y
recorren una distancia menor, entre 0 y 1 millas los del clúster 9 tienen 4 hijos
y recorren una distancia superior a 10 millas.
-186-
III. Explorar el Modelo Microsoft Naive Bayes
Utilice la lista Modelo de minería de datos de la parte superior de la ficha
Visor de modelos de minería de datos para cambiar al modelo
TM_NaiveBayes. El visor de este modelo, el Visor Bayes naive de Microsoft,
contiene cuatro fichas:
 Red de Dependencias,
 Perfiles del Atributo,
 Características del Atributo y
 Distinción del Atributo.
Para obtener más información acerca de cómo utilizar el Visor Bayes
naive de Microsoft, vea Ver un modelo de minería de datos con el Visor Bayes
naive de Microsoft.
-187-
Pestaña Red de Dependencias
La ficha Red de dependencias funciona igual que la ficha del mismo nombre
del Visor de Árboles de Microsoft. Cada nodo del visor representa un atributo
y las líneas entre los nodos representan relaciones. En el visor, puede ver
todos los atributos que afectan al estado del atributo de predicción, Bike Buyer.
Para explorar el modelo en la pestaña Red de Dependencias
1. Use la lista Modelo de minería de datos de la parte superior de la
pestaña Visor de modelos de minería de datos para cambiar al modelo
TM_NaiveBayes.
2. Use la lista Visor para cambiar a Visor Bayes naive de Microsoft.
3. Haga clic en el nodo Bike Buyer para identificar sus dependencias.
El sombreado rosa indica que todos los atributos influyen en la compra
de bicicletas.
4. Ajuste el control deslizante para identificar el atributo más influyente.
A medida que baja el control deslizante, solamente permanecen los
atributos que afectan en mayor medida a la columna [Bike Buyer]. Si
ajusta el control deslizante, puede detectar que algunos de los atributos
más influyentes son el número de automóviles que se posee, la distancia
al lugar de trabajo y el número total de hijos.
-188-
-189-
Pestaña Perfiles del Atributo
La ficha Perfiles del atributo describe la forma en que los diferentes estados
de los atributos de entrada afectan al resultado del atributo de predicción.
Para explorar el modelo en la ficha Perfiles del atributo
1. En el cuadro Predicción, compruebe que se ha seleccionado Bike Buyer.
2. Si la Leyenda de minería de datos está bloqueando la presentación de los
Perfiles del atributo, retírela.
3. En el cuadro de barras Histograma, seleccione 5.
En nuestro modelo, 5 es el número máximo de estados para cualquier
variable.
Los atributos que afectan al estado de este atributo de predicción aparecen
enumerados junto a los valores de cada estado de los atributos de entrada
y sus distribuciones en cada estado del atributo de predicción.
4. En la columna Atributos, busque Number Cars Owned. Observe las
diferencias en los histogramas de los compradores de bicicletas (la columna
con la etiqueta 1) y los no compradores (la columna con la etiqueta 0). Una
persona que no tenga automóvil o que tenga uno tiene mucha más
probabilidad de comprar una bicicleta.
5. Haga doble clic en la celda Number Cars Owned en la columna de
comprador de bicicletas (la columna con la etiqueta 1).
La Leyenda de minería de datos muestra una vista más detallada.
-190-
Pestaña Características del Atributo
Mediante la ficha Características del atributo, puede seleccionar un atributo
y un valor para ver la frecuencia con la que aparecen los valores de otros
atributos en el caso de los valores seleccionados.
Para explorar el modelo en la ficha Características del Atributo
1. En la lista Atributo, compruebe que Bike Buyer está seleccionado.
2. Establezca el Valor en 1.
En el visor, verá que los clientes que no tienen ningún hijo conviviendo
con ellos, una distancia corta al trabajo y que viven en la región de
Norteamérica tienen más probabilidad de comprar una bicicleta.
-191-
Pestaña Distinción del Atributo
La ficha Distinción del atributo le permite examinar las relaciones entre dos
valores discretos del atributo de predicción seleccionado y otros valores del
atributo. Dado que el modelo TM_NaiveBayes sólo tiene dos estados, 1 y 0,
no tiene que hacer ningún cambio en el visor.
En el visor, podrá ver que las personas que no tienen un coche tienden a
comprar bicicletas y las personas que tienen dos coches no suelen comprar
bicicletas.
-192-
4.4. EVALUACIÓN DEL MODELO
Tarea Evaluar el modelo
El modelo ahora debería ser evaluado para asegurar que se encontró criterios
de éxito de la minería de datos y aprobar los criterios de prueba deseados.
Esto es una evaluación puramente técnica basada en el resultado de las tareas
modelado.
Salida Evaluación del modelo
Resumir los resultados de esta tarea, listar las calidades de los modelos
generados (por ejemplo, en términos de exactitud), y el nivel de su calidad en
relación a cada otro.
-193-
EVALUACIÓN DEL MODELO
Evaluation
Evaluate
Results
Review
Process
Ajustar parámetros para producir mejores modelos.
Los pasos de evaluación previa tratan con factores como la exactitud y la
generalidad del modelo. Este paso evalúa el grado en que el modelo
encuentra los objetivos de negocio, y procura determinar si hay alguna razón
de negocio por qué este modelo sería deficiente. Acá se compara resultados
con los criterios de evaluación definidos al principio del proyecto.
-194-
Un buen modo de definir las salidas totales de un proyecto de KDD es
usar la ecuación: RESULTADOS = MODELOS + CONCLUSIONES.
En esta ecuación, definimos que la salida total del proyecto de KDD no es
solamente los modelos (aunque ellos sean importantes) pero también las
conclusiones, las que definimos como algo (aparte del modelo) que es
importante en la búsqueda de los objetivos del negocio o importante para
arribar a nuevas preguntas, las líneas de aproximación, o los efectos
negativos (por ejemplo, los problemas de calidad de datos descubierto por
el uso de la minería de datos).
Nota: Aunque el modelo esté directamente conectado a las preguntas del
negocio, las conclusiones no necesariamente están relacionadas con
cualquiera de las preguntas u objetivos, mientras ellos son importantes
para el promotor del proyecto.
-195-
No se debe implementar un modelo en un entorno de producción sin
comprobar primero si el modelo funciona correctamente. Además, puede que
haya creado varios modelos y deba decidir cuál funciona mejor. Si ninguno de
los modelos que ha creado en el paso Generar modelos funciona
correctamente, puede que deba volver a un paso anterior del proceso y volver
a definir el problema o volver a investigar los datos del conjunto de datos
original.
Puede explorar las tendencias y patrones que los algoritmos descubren
mediante los Visores del Diseñador de minería de datos del Data Tools de
Visual Studio. También puede comprobar si los modelos crean predicciones
correctamente mediante herramientas del diseñador como el Gráfico de
Elevación y la Matriz de Clasificación. Estas herramientas requieren los datos
de comprobación que separó del conjunto de datos original en el paso de
generación del modelo.
-196-
CASO DE ESTUDIO
Ventas y Entrega de Bicicletas en Adventure Works (Continuación

…)
16. Evaluar los modelos de Targeted Mailing
Después de crear, procesar y explorar los modelos de minería de datos para
el escenario de Correo Directo, puede probar los modelos para determinar la
precisión de las predicciones y decidir si un modelo es mejor que otro. La
validación es un paso importante del proceso de DM. Es importante conocer
cómo se comportan con datos reales los modelos de DM de distribución de
correo directo antes de implementarlos en un entorno de producción.
SQL Server Analysis Services proporciona diversas maneras de
determinar si los modelos de minería de datos son precisos.
 Puede utilizar gráficos para representar visualmente la precisión de un
modelo de minería de datos: un Gráfico de Elevación compara la
exactitud de las predicciones de cada modelo. Un gráfico de beneficios
muestra el aumento teórico en las ganancias asociadas a la utilización de
cada modelo. Un gráfico de dispersión compara los valores reales con los
valores previstos y se utiliza para los modelos de regresión u otros
modelos que predicen atributos continuos utilizando entradas continuas.
-197-
 Puede utilizar una Matriz de Clasificación para tabular las predicciones
precisas y las predicciones inexactas.
 Puede utilizar la Validación Cruzada para validar estadísticamente la
confiabilidad de un modelo de minería de datos.
Según el tipo de gráfico que elija, puede seguir configurando las opciones,
examinar el gráfico o copiarlo en el Portapapeles y trabajar con los datos en
Excel.
Nota Los gráficos y sus definiciones no se guardan. Si cierra la ventana que
contiene un gráfico, debe volverlo a crear.
Gráfico de Elevación
Después de configurar las opciones para los modelos y los datos de prueba,
haga clic en la ficha Gráfico de elevación para ver
los resultados. También puede copiar el gráfico en
el Portapapeles o ver detalles de puntos de datos o
líneas de tendencia individuales en la Leyenda de
minería de datos.
-198-
Gráfico de Beneficios
Después de configurar las opciones de los modelos y los datos de prueba,
haga clic en la ficha Gráfico de elevación, seleccione Gráfico de beneficios
en la lista Tipo de gráfico para establecer las
opciones del gráfico de beneficios y, a
continuación, haga clic en Aceptar para ver los
resultados. Puede utilizar el cuadro de diálogo
Configuración del gráfico de beneficios tantas
veces como desee para probar opciones de costo
diferentes y volver a mostrar el gráfico. La Leyenda de minería de datos
contiene información detallada sobre las ventajas estimadas de cada modelo.
También puede copiar el gráfico y el contenido de la Leyenda de minería de
datos en el Portapapeles para trabajar con ellos en Excel.
Gráfico de Dispersión
Si ha seleccionado el tipo adecuado de modelo, al hacer clic en la ficha
Gráfico de elevación, el tipo de gráfico se establece automáticamente en
Gráfico de dispersión y se muestra un
gráfico de dispersión. No se puede realizar
ninguna otra configuración. También puede
copiar el gráfico en el Portapapeles y pegarlo
como un gráfico en Excel u otra aplicación.
-199-
Matriz de Clasificación
En una matriz de clasificación, utilice la ficha Selección de entrada para elegir
los modelos y los datos de prueba y, a continuación, haga clic en la ficha Matriz
de clasificación para ver los resultados. El contenido de una matriz de
clasificación es el mismo para todos los tipos de modelo y no se puede
configurar. También puede copiar los datos del gráfico en el Portapapeles y, a
continuación, trabajar con ellos en Excel.
Informe de Validación Cruzada
En un informe de validación cruzada, después de seleccionar una estructura
o un modelo de minería de datos en el Explorador de soluciones, haga clic en
la ficha Validación cruzada, configure todas las opciones pertinentes y, a
continuación, haga clic Obtener resultados para generar el informe. No se
puede realizar ninguna otra configuración. El formato del informe de validación
cruzada es el mismo para todos los tipos de modelo y no se puede configurar.
Sin embargo, el contenido del informe difiere según sea el tipo de modelo que
se esté analizando y el tipo de datos del atributo de predicción. También puede
copiar los resultados del informe en el Portapapeles y trabajar con ellos en
Excel.
-200-
Ficha Gráfico de Elevación

Muestra una representación gráfica del cambio en la elevación que provoca
un modelo de DM. Por ejemplo, el departamento de marketing de Adventure
Works Cycles desea crear una campaña de distribución de correo directo.
Por las campañas anteriores, saben que el índice de respuesta típico es de
un 10 %. Tienen una lista de 10.000 clientes potenciales almacenada en una
tabla de la base de datos. Por lo tanto, según el índice típico de respuesta,
pueden esperar que respondan 1.000 clientes potenciales.
Sin embargo, el dinero presupuestado para el proyecto no es suficiente
para llegar a los 10.000 clientes de la base de datos. Basándose en el
presupuesto, pueden permitirse enviar publicidad por correo a sólo 5.000
clientes. El departamento de marketing tiene dos opciones:
 Seleccionar aleatoriamente 5.000 clientes como objetivo
 Usar un modelo de minería de datos para dirigirse a los 5.000 clientes
con mayores probabilidades de respuesta
Si la compañía selecciona de forma aleatoria 5.000 clientes, pueden
esperar recibir sólo 500 respuestas, según la tasa de respuesta típica. La
línea aleatoria del gráfico de elevación representa esta situación. Sin
embargo, si el departamento de marketing usa un modelo de DM para dirigir
la distribución de correo, puede esperar un mayor índice de respuesta ya
que se orienta a los clientes que tienen más probabilidades de responder. Si
el modelo es perfecto, significa que el modelo crea predicciones infalibles y
que la empresa podría esperar recibir 1.000 respuestas mediante una
-201-
distribución de correo de los 1.000 clientes potenciales que recomienda el
modelo. La línea ideal del gráfico de elevación representa esta situación. La
realidad es que el modelo de DM probablemente se sitúa entre estos dos
extremos, entre una estimación aleatoria y una predicción perfecta.
Cualquier mejora en la estimación aleatoria se considera una elevación.
Gráfico de Elevación
Puede crear dos tipos de gráficos de elevación: uno en el que se especifique
un valor de destino para la columna de predicción y otro en el que no se
especifique el valor. Cuando pasa de la ficha Selección de entrada a la ficha
Gráfico de elevación, el gráfico se actualiza para reflejar los cambios
realizados en las asignaciones de columnas o en otras configuraciones.
Gráfico de elevación CON valor de destino
El gráfico siguiente muestra un gráfico de elevación para el modelo
Targeted Mailing que se crea en Tutorial básico de minería de datos. En
este gráfico, el atributo de destino es [Bike Buyer] y el valor de destino es
1, lo que significa que el cliente compró una bicicleta o que es probable que
lo haga. El gráfico de elevación muestra así la mejora que el modelo
proporciona al identificar a los clientes que es probable que compren una
bicicleta.
-202-
Además del modelo básico, el gráfico incluye un modelo relacionado
filtrado para orientarse a clientes concretos. Puede agregar varios
modelos a un gráfico de elevación, siempre que los modelos tengan todos el
mismo atributo de predicción.
El eje X del gráfico representa el porcentaje del conjunto de datos
de prueba que se usa para comparar las predicciones. El eje Y del gráfico
representa el porcentaje de valores de predicción.
La línea recta diagonal, mostrada aquí en azul claro (/), aparece en
cada gráfico. Representa los resultados de la estimación aleatoria y es la
línea base con la cual evaluar la elevación. Con cada modelo que agrega a un
gráfico de elevación, obtiene dos líneas adicionales: una muestra los
resultados ideales para los datos de entrenamiento establecidos, si
pudiera crear un modelo que siempre predijera perfectamente; y la
-203-
segunda línea muestra la elevación real, o mejora en los resultados, para el
modelo.
En este ejemplo, la línea ideal para el modelo se muestra en azul
marino (/) y la línea para la elevación real en amarillo. Puede deducir del
gráfico que la línea ideal alcanza el máximo cerca al 40%, lo que significa
que si tuviera un modelo perfecto, podría llegar al 100% de los clientes de
destino enviando correo únicamente al 40% de la población total. La
elevación real para el modelo filtrado al destinarse al 40 % de la población
está entre el 60 y el 70%, lo que significa que se podría llegar al 60 ó 70 %
de los clientes de destino enviando correo al 40 % de la población total de
clientes.
La Leyenda de minería de datos contiene los valores reales de
cualquier punto de las curvas. Puede cambiar el lugar que se mide haciendo
clic en la barra gris vertical y moviéndola (o clic a sus costados). En el
gráfico, la línea gris se ha movido al 30 %, porque se trata del punto donde
tanto el modelo filtrado como el modelo sin filtrar parecen ser más
eficientes, y después de este punto la cantidad de elevación decae.
La Leyenda de minería de datos también contiene puntuaciones y
estadísticas que ayudan a interpretar el gráfico. Estos resultados
representan la exactitud del modelo en la línea gris, que en este escenario
se determina para incluir el 30 % de los casos de prueba totales.
Población Probabilidad
Serie, Modelo Puntuación
de destino de predicción
Correo destinado a todos 0.71 47.40% 61.38%
Correo destinado a menores
0.85 51.81% 46.62%
de 30
-204-
Modelo de estimación
31.00%
aleatoria
Modelo ideal para: correo
62.48%
destinado a todos
Modelo ideal para: correo
65.28%
destinado a menores de 30
En estos resultados puede ver que, cuando se mide en el 30 % de
todos los casos, el modelo general (correo destinado a todos) puede
predecir el comportamiento de compra de bicicletas en el 47,40% de la
Población de Destino. En otras palabras, si enviara correo directo sólo al
30% de los clientes de la base de datos, podría llegar a algo menos de la
mitad de los destinatarios pretendidos. Si utilizara el modelo filtrado,
podría llegar aproximadamente al 51.81 % de los clientes de destino.
El valor de Probabilidad de predicción representa el umbral necesario
para incluir un cliente entre los casos "con probabilidad de comprar". Para
cada caso, el modelo calcula la exactitud de cada predicción y almacena ese
valor, que puede utilizar para filtrar o elegir clientes. Por ejemplo, para
identificar los clientes del modelo básico que son compradores probables,
utilizaría una consulta para recuperar los casos con una probabilidad de
predicción de al menos el 61.3 %. Para obtener los clientes de destino del
modelo filtrado, crearía una consulta que recuperara los casos que
cumplieran todos los criterios: la edad y un valor de PredictProbability de
al menos el 46.6 %.
Es interesante comparar los modelos. El modelo filtrado parece
capturar más clientes potenciales, pero al elegir a los clientes con una
-205-
puntuación de probabilidad de predicción del 46.62 %, también tiene una
posibilidad del 53.38 % de enviar correo a alguien que no va a comprar una
bicicleta. Por consiguiente, si estuviera decidiendo qué modelo es mejor,
sería conveniente equilibrar la mayor precisión y el menor tamaño de
destino del modelo filtrado con respecto a la capacidad de selección del
modelo básico.
El valor de Puntuación ayuda a comparar los modelos calculando la
efectividad del modelo a través de una población normalizada. Una mayor
puntuación es mejor, de modo que en este caso podría decidir que
seleccionar a los clientes menores de 30 años es la estrategia más
eficiente, a pesar de la menor probabilidad de predicción.
Gráfico de elevación para un modelo SIN valor de destino
Si no especifica el estado de la columna de predicción, puede crear el tipo
de gráfico que se muestra en el diagrama siguiente. Este gráfico muestra
el modo en que el modelo se comporta para todos los estados del atributo
de predicción. Por ejemplo, este gráfico le indicaría hasta qué punto el
modelo predice bien tanto a los clientes que es probable que compren una
bicicleta como a los que es probable que no la compren.
-206-
El eje X es el mismo que en el gráfico con la columna de predicción
especificada, pero ahora el eje Y representa el porcentaje de predicciones
correctas. Por consiguiente, la línea ideal es la línea diagonal (/), que
muestra que en el 50 % de los datos, el modelo predice correctamente el
50 % de los casos, el máximo que se puede esperar.
Puede hacer clic en el gráfico para mover la barra gris vertical y la
Leyenda de minería de datos muestra el porcentaje de casos total y el
porcentaje de casos que se predijeron correctamente. Por ejemplo, si
coloca la barra deslizante gris en la marca del 50 por ciento, la Leyenda de
minería de datos muestra las puntuaciones de precisión siguientes. Estas
cifras se basan en el modelo TM_Decision Tree creado en el Tutorial
básico de minería de datos.
Población Probabilidad
Serie, Modelo Puntuación
correcta de predicción
TM_Decision_Tree 0.79 47.50% 73.35%
Modelo ideal 50.00%
-207-
En esta tabla se indica que, en el 50 % de la población, el modelo que
creó predice correctamente el 47.5 % de los casos. Podría considerar a
éste un modelo bastante preciso. Sin embargo, recuerde que este modelo
determinado predice todos los valores del atributo de predicción. Por
consiguiente, el modelo podría ser preciso para predecir que el 90 % de los
clientes no comprarán una bicicleta.
Nota
La exactitud de la predicción para todos los valores discretos del
atributo de predicción se muestra en una única línea. Si desea ver
las líneas de exactitud de la predicción para cualquier valor
individual del atributo de predicción, debe crear un gráfico de
elevación independiente para ese valor.
-208-
En Resumen:
La ficha Gráfico de precisión de minería de datos utiliza datos de entrada,
que son datos separados del conjunto de datos original, para comparar las
predicciones con un resultado conocido. Posteriormente, los resultados de la
comparación se ordenan y se representan en un gráfico. En este gráfico
también se representa un modelo ideal, es decir, un modelo teórico que
predice el resultado correcto el 100% de las veces. Puede comparar los
resultados de los modelos reales y el modelo ideal para ver el grado de
precisión de las predicciones. Para obtener más información acerca del
funcionamiento de los gráficos de elevación, vea Gráfico de elevación.
El gráfico de elevación es importante porque permite diferenciar
modelos de una estructura que son prácticamente idénticos y determinar cuál
ofrece mejores predicciones. Asimismo, el gráfico de elevación muestra qué
tipo de algoritmo realiza las mejores predicciones en una determinada
situación.
Esta lección incluye las tareas siguientes:
1. Probar la exactitud con gráficos de mejora respecto al modelo predictivo
2. Probar un modelo filtrado
-209-
I. Probar la Exactitud con Gráficos de mejora respecto al modelo
predictivo
En la ficha Gráfico de precisión de minería de datos del Diseñador de
minería de datos, puede calcular la precisión de las predicciones de sus
modelos y comparar los resultados de diferentes modelos. Este método de
comparación se conoce como gráfico de mejora respecto al modelo predictivo.
Normalmente, la exactitud de la predicción de un modelo de minería de datos
se cuantifica mediante la mejora respecto al modelo predictivo o la exactitud
de la clasificación. En este tutorial utilizaremos solamente el gráfico de mejora
respecto al modelo predictivo.
En este tema, realizará las tareas siguientes:
 Elegir Conjunto de datos de entrada
 Seleccionar modelos, columnas de predicción y valores
-210-
Seleccionar el Conjunto de datos
El primer paso a la hora de probar la precisión de los modelos de minería de
datos consiste en seleccionar el origen de datos que usará para realizar las
pruebas. Probará la exactitud de los modelos con sus datos de prueba y, a
continuación, los utilizará con datos externos.
1. Cambie a la pestaña Gráfico de precisión de minería de datos del
Diseñador de minería de datos de Microsoft Visual Studio y seleccione
la pestaña Selección de entrada.
2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo
en un gráfico de precisión, seleccione Usar casos de prueba de
estructura de minería de datos para probar los modelos utilizando los
datos de prueba que apartó cuando creó la estructura de minería de
datos.
-211-
Seleccionar Modelos, Columnas de predicción y Valores
El siguiente paso consiste en seleccionar los modelos que desea incluir en el
gráfico de mejora respecto al modelo predictivo, la columna de predicción con
la que va a comparar los modelos y el valor que se va a predecir.
Las columnas del modelo de minería de datos que se enumeran en

la lista Nombre de columna de predicción se limitan a las columnas
cuyo tipo de uso se ha establecido en Predict o Predict Only, y su
tipo de contenido es Discrete o Discretized.
1. En la ficha Selección de entrada del Diseñador de minería de datos, en
Seleccione las columnas del modelo de minería de datos de
predicción que se mostrarán en el gráfico de elevación, active la casilla
correspondiente a Sincronizar valores y columnas de predicción.
2. En la columna Mostrar, seleccione cada uno de los modelos.
De forma predeterminada, todos los modelos de la estructura de minería de
datos aparecen seleccionados. Puede decidir no incluir un modelo
específico, pero para este tutorial deje todos los modelos seleccionados.
3. En la columna Nombre de columna de predicción, compruebe que Bike
Buyer está seleccionado para cada modelo.
4. En la columna Valor de predicción, seleccione 1. El mismo valor se rellena
automáticamente para cada modelo que tiene la misma columna de
predicción.
-212-
5. Seleccione la pestaña Gráfico de Elevación respecto al modelo
predictivo para mostrar el gráfico de mejora.
Puede ver dos tipos de gráficos en la ficha Gráfico de elevación de la
ficha Gráfico de precisión de minería de datos del Diseñador de
minería de datos: un gráfico de elevación y un gráfico de beneficios. Un
gráfico de elevación compara la precisión de las predicciones de cada
modelo, en tanto que un gráfico de beneficios muestra el incremento
teórico que se asocia con el uso de cada modelo.
Use la lista Tipo de gráfico para seleccionar el tipo de gráfico que
desea. Cuando selecciona Gráfico de beneficios en la lista, se abre
automáticamente el cuadro de diálogo Configuración del gráfico de
beneficios. (Este cuadro de diálogo también se abre cuando se hace clic
en Configuración). Puede usar este cuadro de diálogo para configurar los
parámetros que definen el gráfico de beneficios.
-213-
En un gráfico de elevación, sólo pueden compararse los modelos de
minería de datos que contienen atributos de predicción. La ficha Gráfico
de precisión de minería de datos no puede utilizarse con los modelos
de serie temporal o con los modelos que tienen atributos de predicción
continuos.
Cuando haga clic en la pestaña, se ejecutará una consulta de predicción en
el servidor y en la base de datos para la estructura de minería de datos y la
tabla de entrada o los datos de prueba. Los resultados se trazan en el
gráfico.
Al escribir un Valor de predicción, el gráfico de mejora respecto al
modelo predictivo traza un modelo de suposición aleatorio así como un
modelo ideal. Los modelos de minería de datos que creó se situarán entre
estos dos extremos, entre una suposición aleatoria y una predicción
perfecta. Cualquier mejora en la suposición aleatoria se considera una
mejora respecto al modelo predictivo.
-214-
-215-
6. Utilice la leyenda para buscar las líneas coloreadas que representan el
modelo ideal y el modelo de estimación aleatoria.
Observará que el modelo TM_Decision_Tree proporciona la mayor mejora
respecto al modelo predictivo, superando tanto al modelo de Agrupación en
Clústeres como al de Bayes Naive.
Para obtener una explicación detallada de un gráfico de mejora respecto
al modelo predictivo similar al creado en esta lección, vea Gráfico de elevación.
Gráfico de Beneficios
Un gráfico de beneficios muestra el incremento estimado de beneficios que
se asocia con el uso de un modelo de minería de datos para determinar con
qué clientes debe ponerse en contacto una empresa en un escenario de
negocios. El eje Y del gráfico representa el beneficio, en tanto que el eje X
representa el porcentaje de la población con la que la empresa se ha puesto
en contacto. Un gráfico de beneficios típico muestra un incremento en los
beneficios hasta un determinado punto, después del cual los beneficios
disminuyen a medida que crece la población con la que se entra en contacto.
Use la lista Tipo de gráfico para mostrar el gráfico de beneficios.
Cuando selecciona Gráfico de beneficios, se abre el cuadro de diálogo
Configuración del gráfico de beneficios. Puede usar este cuadro de diálogo
para configurar los parámetros que definen el gráfico de beneficios. En la
siguiente lista se describen los parámetros que puede configurar.
-216-
Población
El número de escenarios del conjunto de datos que se utiliza para crear
el gráfico de elevación. Por ejemplo, el número de clientes potenciales.
Costo fijo
El costo fijo asociado con el problema de la empresa. Si se calculase
para una solución de correo directo, el costo no dependería de
variables como el número de llamadas telefónicas o el número de envíos
de correo promocional.
Costo individual
Los costos adicionales al costo fijo y que se pueden asociar con cada
contacto con el cliente. Por ejemplo, el correo promocional o las
llamadas de teléfono.
Ingresos por individuo
La cantidad de ingresos asociados con cada venta realizada con éxito.
También puede abrir el cuadro de diálogo Configuración del gráfico de
beneficios haciendo clic en Configuración en la ficha Gráfico de beneficios.
El gráfico de beneficios contiene una línea vertical gris que puede
desplazar haciendo clic en una ubicación del gráfico. La Leyenda de minería
de datos muestra una puntuación, la población correcta y la probabilidad de
predicción que se asocian con la ubicación de la línea gris en el gráfico. Si
selecciona el punto máximo de beneficios en el gráfico utilizando la línea
gris, puede usar el valor de probabilidad de predicción para determinar un
umbral de probabilidad para el contacto con un cliente.
-217-
Por ejemplo, si el pico de la curva de beneficios está en el 55 % de la
población y la probabilidad de predicción asociada es del 20 %, esto indica
que para conseguir los máximos beneficios sólo debe ponerse en contacto
con aquellos clientes cuya respuesta se predice con una posibilidad del 20%
o superior.
-218-
II. Probar un Modelo Filtrado
Ahora que ha determinado que el modelo TM_Decision_Tree es el más
preciso, debería evaluarlo en el contexto de la campaña de distribución de
Correo Directo de Adventure Works Cycles. El departamento de marketing
desea saber si hay alguna diferencia entre las características de los
compradores y las compradoras de bicicletas. Esta información les ayudará a
decidir qué revistas utilizar para los anuncios y qué productos ofrecer en sus
campañas.
En esta lección, crearemos un modelo que se filtra por el género. A
continuación, puede realizar fácilmente una copia de ese modelo y cambiar la
condición de filtro para generar un nuevo modelo basado en el género.
Para obtener más información sobre los filtros, vea Crear filtros para modelos
de minería de datos.
Usar Filtros
El filtrado permite crear con facilidad modelos basados en subconjuntos de
datos. El filtro se aplica sólo al modelo y no cambia el origen de datos
subyacente. Para obtener información sobre cómo aplicar filtros a tablas
anidadas, vea Tutorial intermedio de minería de datos .
Filtros en Tablas de casos

Primero realizará una copia del modelo TM_Decision_Tree.
-219-
Copiar el modelo del árbol de decisión
1. En Microsoft Visual Studio, en el Explorador de soluciones, seleccione
BasicBusinessAnalytics.
2. Haga clic en la ficha Modelos de minería de datos.
1. Haga clic derecho en el modelo TM_Decision_Tree y seleccione Nuevo
2. En el campo Nombre del modelo, escriba TM_Decision_Tree_Male.
Luego, cree un filtro para seleccionar los clientes para el modelo basados
en su género.
-220-
Crear un filtro de casos en un modelo de minería de datos
1. Haga clic derecho en el modelo de minería de datos
TM_Decision_Tree_Male para abrir el menú contextual.
O bien
Seleccione el modelo. En el menú Minería de datos, seleccione
Establecer filtro de modelos.
2. En el cuadro de diálogo Filtro del modelo, haga clic en la fila superior de
la cuadrícula en el cuadro de texto Columna de la estructura de minería
de datos.
La lista desplegable muestra sólo los nombres de las columnas de esa
tabla.
3. En el cuadro de texto Columna de la estructura de minería de datos,
seleccione Gender.
El icono en la parte izquierda del cuadro de texto cambia para indicar que
el elemento seleccionado es una tabla o una columna.
-221-
4. Haga clic en el cuadro de texto Operador y seleccione el operador igual (=)
en la lista.
5. Haga clic en el cuadro de texto Valor y escriba M.
6. Haga clic en la siguiente fila de la cuadrícula.
7. Haga clic en Aceptar para cerrar el filtro del modelo.
El filtro se muestra en la ventana Propiedades. Como alternativa, puede
iniciar el cuadro de diálogo Filtro del modelo de la ventana Propiedades.
8. Repita los pasos anteriores, pero esta vez asigne al modelo el nombre
TM_Decision_Tree_Female y escriba F en el cuadro de texto Valor.
Ahora tiene dos modelos nuevos que se muestran en la ficha Modelos de
minería de datos.
-222-
Procesar los modelos filtrados
Los modelos no se pueden utilizar hasta que se hayan implementado y
procesado. Para obtener más información acerca de los modelos de
procesamiento, vea Procesar los modelos de la estructura de distribución de
correo directo.
Procesar el modelo filtrado
1. Hacer clic derecho en el modelo TM_Decision_Tree_Male yseleccione
Procesar estructura de minería de datos y todos los modelos.
1. Haga clic en Ejecutar para procesar los nuevos modelos.
2. Una vez completado el procesamiento, haga clic en Cerrar en ambas
ventanas de procesamiento.
-223-
Evaluar los resultados
Vea los resultados y evalúe la exactitud de los modelos filtrados de la misma
manera que hizo con los tres modelos anteriores. Para obtener más
información, vea:
Explorar el modelo de árbol de decisión
Probar la exactitud con gráficos de mejora respecto al modelo predictivo
Explorar los modelos filtrados
1. Seleccione la ficha Visor de modelo de minería de datos en Diseñador
2. En el cuadro Modelo de minería de datos, seleccione
TM_Decision_Tree_Male.
3. Deslice Mostrar nivel hasta 3.
4. Cambie el valor de la lista Fondo (Segundo plano) por 1.
-224-
5. Coloque el cursor sobre el nodo con la etiqueta Todos para ver el número
de compradores de bicicleta con respecto a los no compradores.
6. Repita los pasos 1 al 5 con TM_Decision_Tree_Female.
7. Explore los resultados para TM_Decision_Tree y los modelos filtrados por
el género. Si se comparan todos los compradores de bicicletas, los
compradores masculinos y femeninos comparten algunas de las mismas
características de los compradores de bicicletas sin filtrar, pero los tres
también presentan diferencias interesantes. Ésta es información útil que
Adventure Works Cycles puede utilizar para desarrollar su campaña de
marketing.
Probar la mejora en la predicción de los modelos filtrados
1. Cambie a la pestaña Gráfico de precisión de minería de datos del
Diseñador de minería de datos de Microsoft Visual Studio y seleccione la
pestaña Selección de entrada.
2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo en
un gráfico de precisión, seleccione Usar casos de prueba de estructura
3. En la pestaña Selección de entrada del Diseñador de minería de datos,
en Seleccione las columnas del modelo de minería de datos de
predicción que se mostrarán en el gráfico de elevación, active la casilla
correspondiente a Sincronizar valores y columnas de predicción.
-225-
4. En la columna Nombre de columna de predicción, compruebe que Bike
Buyer está seleccionado para cada modelo.
5. En la columna Mostrar, seleccione cada uno de los modelos.
6. En la columna Valor de predicción, seleccione 1.
7. Seleccione la pestaña Gráfico de mejora (elevación) respecto al modelo
predictivo para mostrar el gráfico de mejora.
Observará ahora que los tres modelos de árbol de decisión proporcionan
una mejora significativa respecto al modelo de predicción de suposición
aleatoria, además de superar a los modelos de Clústeres y Bayes Naive.
-226-
-227-
TERCERA UNIDAD
 PREDICTIVE BUSINESS ANALYTICS AND DECISION MANAGEMENT

 MODELOS PREDICTIVOS
 La Clasificación
 La Regresión
 CREACIÓN Y USO DE MODELOS

 Lección 1: Generar un pronóstico con Árboles de Decisión
 Lección 2: Generar un pronóstico con Series de Tiempo
-228-
ANALÍTICA DEL NEGOCIO PREDICTIVA Y GESTIÓN

DE DECISIONES
La Analítica del Negocio y su amplificador, Analítica de Negocios Predictiva,
son un medio para tomar decisiones más inteligentes.
Las decisiones pueden ser segmentadas en
tres capas:
1. Decisiones Estratégicas son pocas en
número, pero pueden tener grandes
impactos. Por ejemplo, debemos adquirir
una empresa o salir del mercado?
2. Decisiones Tácticas implican controlar con impactos moderados. Por
ejemplo, debemos modificar nuestra cadena de suministros?
3. Decisiones Operativas se producen a diario, incluso cada hora, y con
frecuencia afectan a una sola transacción o cliente. Por ejemplo, ¿qué
cantidad debería ofrecerse a este cliente o ¿Debo hacer este préstamo
bancario?
-229-
WHAT IF ... YOU CAN
¿Tiene curiosidad de por qué las siguientes preguntas no se han resuelto?
Con la Analítica de Negocios Predictiva, puede ser!
 ¿Por qué los semáforos de tráfico no pueden ser más flexibles basados
en sensores de calle que monitorean la presencia, la ubicación
y la velocidad de los vehículos? Entonces no tendría que
esperar en un semáforo en rojo cuando no hay tráfico.
 ¿Por qué no puede el call center rutear su llamada telefónica entrante a
un representante especializado de un call center en función de su número
de teléfono y de las llamadas anteriores? Y una vez
conectado, ¿por qué no ese representante ofrecer sus
productos en base a sus reglas o sugerencias para
maximizar su experiencia con el cliente? Entonces puede conseguir una
solución más rápida y mejor a su llamada.
 ¿Por qué no pueden los dentistas y médicos sincronizar tiempos de
agenda de citas de pacientes para reducir el tiempo que muchas personas
desperdician sentados en las salas de espera?
Entonces podría llegar justo antes de su
tratamiento.
-230-
 ¿Por qué no pueden los gerentes de control de pasaportes del aeropuerto
regular el número de agentes en sincronización con
las llegadas de vuelos internacionales? Entonces
no tendría que esperar en largas colas.
 ¿Por qué no pueden los proveedores de agua, gas y servicios eléctricos
a residencias proveer monitoreo e informes instantáneos
de manera que los hogares pueden determinar qué
aparatos o eventos (por ejemplo, tomando duchas)
consumen relativamente más o menos energía? Entonces los hogares
podrían ajustar su comportamiento de uso para administrar mejor el costo
y consumo de energía.
 ¿Por qué no la nevera y despensa de su casa hacen un seguimiento
utilizando microchips y lectores de códigos de barras de lo que compró y
la tasa de uso? Entonces podría reponer mejor sus suministros de
alimentos cuando vaya de compras.
-231-
EL MODELO DE LA ANALÍTICA DE NEGOCIOS PREDICTIVA
La toma de decisiones puede ser puramente empírica y desapasionada, pero
quienes toman las decisiones no lo son. La toma de decisiones favorece a
aquellos que son creativos e intuitivos.
Hoy, más que nunca, las empresas están esperanzadas
en poseer el talento, herramientas, procesos y capacidades
que les permitan implementar y utilizar continuamente el
análisis del rendimiento para obtener una perspectiva para
impulsar las decisiones y acciones comerciales. Más y más organizaciones
están buscando mejores procesos y herramientas para garantizar que las
personas adecuadas tengan la información correcta en el momento adecuado,
para tomar decisiones más inteligentes.
La Analítica de Negocios Predictiva (PBA) es un proceso que refleja
una capacidad de la organización para mejorar la toma de decisiones
gerenciales a través de muchas áreas de desempeño centrales.
PBA se basa en el análisis de los datos que tienen un vínculo fuerte y
trazable a los resultados financieros y el desempeño operativo del negocio.
Los conductores del negocio pueden ser financieros u operativos; también
pueden ser externos o internos.
-232-
BPA se refiere al proceso de uso de modelos predictivos para dar a las
empresas una ventaja competitiva y es utilizado por empresas de alto
rendimiento para mejorar su rentabilidad.
Una encuesta a más de 400 líderes financieros encontró que las
empresas de alto rendimiento eran 43 % más eficientes en el uso de alertas,
pronósticos basados en minería de datos. Esto les permitió gestionar por
excepción y ser proactivos, en lugar de ser reactivos a los problemas y
oportunidades.
La minería de datos, a veces referido como el análisis predictivo, se centra
en los comportamientos y patrones del consumidor. La inteligencia de
negocios está consultando y
presentando informes. Estas
capacidades, tales como consultas,
reportes, procesamiento analítico
en línea (OLAP), y las herramientas
de alerta sólo responden a
preguntas como: qué pasó, ¿cuántos, con qué frecuencia, dónde está el
problema y qué medidas son necesarias?.
PBA puede responder a preguntas como por qué ocurre esto, qué pasa si
estas tendencias continúan, qué sucederá después? y qué es lo mejor que le
puede pasar?.
-233-
LA PREDICCIÓN PASA A LA ACCIÓN
A mediados de los 90, un ambicioso investigador de posdoctorado, John Elder,
invirtió los ahorros de vida en un sistema predictivo para el mercado de valores
que él mismo había diseñado: Blackbox trading.
El concurso de televisión "Jeopardy!" entregó un premio de más de 1
millón de euros en un duelo entre hombre y máquina que puso de manifiesto
el llamativo progreso en la predicción de las respuestas a las preguntas (IBM
invirtió mucho más dinero aún en lograr esta victoria). (Ver Video)
Blackbox trading, permite tomar decisiones financieras de manera
automática, es el Santo Grial de la toma de decisiones basadas en datos. Es
una "caja negra" (black box) en la que se introducen por un lado las
condiciones financieras actuales del entorno y por otro salen las decisiones
que nos indican si debemos comprar, mantener o vender acciones.
-234-
PUESTA EN MARCHA DE PBA
Cada aplicación de la AP viene definida por:
1. Qué se predice. El tipo de comportamiento (por ejemplo, la acción, el
evento o suceso) a predecir para cada persona, acción bursátil u otro
tipo de elemento.
2. Qué se hace al respecto. Las decisiones que se toman a partir de la
predicción; la acción que realiza la organización en respuesta o en base
a cada predicción.
La lista de áreas de aplicación es muy amplia y también la lista de
ejemplos. Se ha distribuido esta larga lista en las Tablas 11,12,13 y 14.
Contienen ejemplos de predicción: precios de acciones, riesgos, deudas,
accidentes, donaciones, clics, cancelaciones, problemas de salud, ingresos
hospitalarios, fraudes, evasiones de impuestos, delitos, errores de
funcionamiento, combustibles, apagones, aprobaciones de prestaciones
sociales, pensamientos, intenciones, respuestas, opiniones, mentiras, notas,
abandono escolar, amistad, enamoramientos, embarazos, divorcios, trabajos,
clientes perdidos, victorias, votos y mucho más.
-235-
Tabla 11. AP sobre Marketing, Publicidad y la Web.
Qué se
Organizaciones Ejemplo y Resultados
Predice
Tarjeta de crédito PREMIER: Redujo los costos en
correos publicitarios en más de 9 millones de euros.
Banco First Tenessee: Redujo los costos en correos
publicitarios en un 20 % y aumentó las respuestas en un
3.1 % con un beneficio del 600 % respecto a lo invertido
en AP.
Target: Aumentó sus ingresos de un 15 a un 30 % con
los modelos predictivos.
Harbor Sweets: Identificaron mediante analítica a los
clientes que ya no compraban para intentar recuperarlos,
con una impresionante tasa de respuesta del 40 %.
Fingerhut: Redujeron la publicidad directa en un 20 %
mediante la selección de objetivos, lo que les hizo ahorrar
unos 2.3 millones de euros cada año, incrementando de
Compras, para este modo sus ganancias.
hacer Vermont Country Store: Una mayor precisión en la
marketing selección de objetivos para el envío de sus catálogos les
dirigido proporcionó unos ingresos 11 veces superiores a la
inversión necesaria para ello.
Harrah's Las Vegas: Este casino predice cuánto se va a
gastar un cliente a largo plazo (en toda su vida).
Cox Communications: Aumentó la tasa de respuesta a
sus correos directos en más del triple prediciendo la
propensión a comprar.
Empresa de gestión de fondos de inversión: Identificó
a los clientes que tenían cinco veces más probabilidades
que la media de realizar inversiones adicionales.
Supermercado de UK: Puede predecir la fecha exacta
en que volverán los clientes y la cantidad que se gastarán
con un margen de 8 euros, para un 19 % de los clientes.
Elie Tahari: Predice la demanda para productos de moda
femenina.
-236-
Tarjeta de crédito PREMIER: Evitó la marcha de una

cantidad de clientes que le habrían supuesto más de 6
millones de euros.
FedEx: Predice qué clientes se irán con la competencia
con una precisión de ente el 65 y el 90 %.
Optus (Australia): Identificó a los clientes de telefonía
móvil que tenían 10 veces más probabilidades que la
media de darse de baja en el servicio.
Cancelacione
s, para intentar Telenor (Noruega): Redujo las bajas de los clientes en
conservar la un 36 % y obtuvo aumento de la rentabilidad sobre la
clientela inversión, multiplicándola por 11.
2degrees (Nueva Zelanda): Identificó a los clientes de
telefonía móvil que tenían 12 veces más probabilidades
que la media de darse de baja en el servicio.
Lloyds TSB: Aumentó sus beneficios anuales en 9,3
millones de euros mejorando el modelado predictivo de
las bajas de clientes.
Reed Elsevier: Obtuvo un aumento de 16 puntos en el
porcentaje de renovaciones de una revista.
El spam que Google: Redujo el predominio y el porcentaje de falsos
se enviará a la positivos en spam, pasando de una cantidad apreciable
carpeta de en 2004 hasta una insignificante en la actualidad.
spam
Canciones y Investigadores: Emplean el aprendizaje automático para
películas de predecir qué películas se convertirán en éxitos de
éxito Hollywood y qué canciones entrarán en las listas.
-237-
Tabla 12. AP sobre Riesgo Financiero y Seguros.
Qué se
Predice
Allstate: Con una competición de modelos predictivos
El daño realizada en 2012 triplicó la precisión en la predicción
corporal en los de los daños corporales, basándose únicamente en las
accidentes de características del vehículo asegurado. Se estima que
coche esto podría suponer para la compañía más de 30
millones de euros al año.
Fondo de seguro de accidentes: Determina los
Lesiones síntomas médicos secundarios (como la obesidad y la
graves en el diabetes) a partir de las hojas de reclamación de
puesto de indemnizaciones de los trabajadores. Estos síntomas
trabajo predicen las lesiones que supondrán un alto costo para
que, por ejemplo, se puedan establecer medidas
preventivas para estos trabajadores.
Reclamacione Principal proveedor internacional de líneas de seguro
s a las comercial: Los modelos predictivos redujeron el
compañías de porcentaje de pérdidas en medio punto, contribuyendo a
seguros un ahorro de casi 39 millones de euros.
Compañías de seguros de vida: Predicen la edad de
la muerte para tomar decisiones sobre la aprobación de
políticas y de precios.
Muerte Una de las cinco principales empresas de seguros de
salud de los EE.UU.: La predicción de la muerte no está
dentro del campo habitual de los seguros de vida.
Consulte la tabla sobre salud que se incluye más
adelante para conocer la naturaleza de este trabajo.
Chase: Generó cientos de millones de euros con
Pago modelos predictivos que preveían qué propietarios
anticipado de iban a refinanciar sus hipotecas y por tanto llevarse
hipotecas todos los ingresos por el cobro de intereses futuros a
un banco de la competencia.
-238-
Tabla 13. AP sobre Lucha Contra el Crimen y Detección de Fraudes.
Qué se
Predice
Fraudes: Servicio Postal de los EE.UU.: Clasifica de manera
Contratos del predictiva los casos de contratos sospechosos, como
gobierno aquellos en los que puede haber conspiraciones o tratos
preferentes, para poder dirigir las investigaciones.
Citizens Bank: Predijo qué cheques son fraudulentos,
Cheques con la suficiente precisión como para reducir las pérdidas
por fraude en un 20 %.
Compañía de seguros de EE.UU. de más de 30.000
millones de euros: Clasificando de manera predictiva
las reclamaciones sospechosas, los auditores pudieron
Reclamaciones encontrar 6,5 veces más fraudes con el mismo número
al seguro del de investigaciones.
automóvil Seguros Aviva: Mejoró la detección de reclamaciones
automovilísticas fraudulentas que incluían daños
corporales, y que ascendían a casi 600.000 euros al
mes.
Hewlett-Packard: Ahorró más de 50 millones de euros
Reclamaciones en cinco años detectando reclamaciones en garantía
en garantía fraudulentas enviadas por los partners de HP y sus
servicios técnicos.
Reclamaciones Servicio postal de EE.UU.: Empleando métodos

de los analíticos, predijo qué reclamaciones de compensación y
trabajadores pagos a los trabajadores no tenían justificación,
contribuyendo a ahorrar 7,3 millones de euros.
Maryland: Utiliza modelos predictivos para detectar qué
Asesinatos reclusos tienen más riesgo de ser víctimas o autores de
asesinatos.
-239-
Chicago, Los Angeles, Memphis (TN), Richmond

Delincuencia (VA), Santa Cruz (CA) y Vineland (NJ): Envían a la
callejera policía a patrullar aquellas zonas en las que se predicen
más crímenes.
Fuerzas armadas de tos EE.UU.: Dirigieron y
financiaron investigaciones para predecir analíticamente
Ataques los ataques terroristas y las actividades de grupos
terroristas armados opositores basándose en factores como
arrestos relevantes, juicios, el apoyo económico recibido
y la situación política contextual.
La
reincidencia
para poder Oregon y Pensilvania: Los jueces y las juntas de
decidir entre tratamiento consultan modelos predictivos como ayuda
conceder la para decidir quién permanece en prisión y por cuánto
libertad tiempo.
condicional o
enviar a prisión
Si se resolverá Departamento de Policía de Chicago: Descubrió que

un crimen las características de un homicidio y su víctima servían
para predecir si éste se podía resolver.
-240-
Tabla 14. AP sobre Equipos y Empleados — RRHH.
Qué se
Predice
Hewlett-Packard: Los modelos predictivos generan

una puntuación de "riesgo de fuga" para cada uno de
sus casi 350.000 empleados de todo el mundo para
que los jefes puedan intervenir anticipadamente
siempre que sea posible y hacer los planes
La marcha de apropiados en caso contrario. Se estima que de esta
trabajadores manera han identificado un posible ahorro potencial
de unos 230 millones de euros.
Wikipedia: Predice cuáles de sus 750.000 editores,
que realizan voluntariamente 139 millones de
correcciones al año y crean 8.000 nuevos artículos al
día, dejarán de realizar su labor.
Investigadores de la universidad: Mostraron que los
perfiles de Facebook predecían el rendimiento laboral.
Las evaluaciones del rendimiento se corresponden con
los atributos personales recopilados de los perfiles de
Facebook, como la curiosidad, la "agradabilidad" y la
El rendimiento meticulosidad.
laboral Fuerzas Especiales de los EE.UU.: Predicen qué
candidatos tendrán éxito en estos trabajos tan
especializados, en los que hay que invertir años de
entrenamiento. Los factores claves de la predicción son
el valor (un mejor predictor que el coeficiente intelectual)
y la capacidad de hacer más de 80 flexiones.
Solicitudes de Careerbuilder: Predice los puestos para los que se

empleo presentarán los demandantes de empleo para poder
dirigir mejor los trabajo,. recomendados.
-241-
Dentro de esta larga lista, la aplicación por antonomasia para los negocios
es el marketing masivo:
Aplicación de AP: Selección de objetivos para el marketing directo.
1. Qué se predice. Qué clientes responderán al contacto establecido.
2. Qué se hace al respecto. Contactar con los clientes que es más
probable que respondan.
Ejemplo: Imagine que tiene una empresa con una lista de correo de un millón
de candidatos. Enviar un correo a cada uno de ellos le cuesta 1.50 euros y 1
de cada 100 comprará su producto (es decir, 10.000 responderán). Decide
correr el riesgo y enviar su publicidad a la lista completa.
Si obtiene 170 euros por cada respuesta positiva, se embolsará:
beneficio total = ingresos - costo = (170 * 10.000) - (1.50 * un millón) euros
Sale un beneficio de 200.000 euros.
¿Le parece bien? A mí no. La AP puede aprender a mejorarlo.
-242-
ELEMENTAL: EL PODER DE LA OBSERVACIÓN
La predicción resulta de la observación astuta: Lo que se conoce de cada
individuo proporciona un conjunto de pistas acerca de lo que podría hacer a
continuación. La probabilidad de que un usuario
haga clic en un determinado anuncio depende
de todo tipo de elementos, incluyendo su año
escolar actual, su género, el dominio de su
correo electrónico (Hotmail, Yahoo!, Gmail,
etc.), sus notas en literatura frente a las de matemáticas (para saber si se trata
de una persona más comunicadora o calculadora), etc. El sitio Web recopiló
abundante información sobre sus usuarios.
Para averiguar para qué subvenciones y becas podrían ser candidato, el
usuario respondía decenas de cuestiones sobre su rendimiento escolar, sus
intereses académicos, sus actividades extraescolares, en qué le gustaría
especializarse y la titulación de sus padres, entre otros. Por tanto, la tabla de
datos a procesar era larga (para 50 millones de ejemplos) y también ancha, en
la que cada fila contenía toda la información conocida sobre el usuario.
-243-
El dispositivo que hace las predicciones, que sabe cómo debe considerar
todos estos factores y darles forma de una única predicción para el individuo
es:
Modelo predictivo: Mecanismo que predice un comportamiento de
un individuo, como un clic, una compra, una muerte o una mentira.
Toma como datos de entrada las características del individuo y
genera como salida una puntuación predictiva. Cuanto mayor sea la
puntación, más probable será que el individuo exhiba el
comportamiento predicho.
Un modelo predictivo puntúa a un individuo, como muestra la figura.
Características Modelo Puntuación

de un individuo predictivo predictiva
-244-
Los modelos predictivos son el medio a través del cual se procesan los
atributos de un individuo para obtener una predicción. Existen muchas
maneras de hacer esto. Una es ponderar cada característica y sumarlas todas
después. Esto es lo que se denomina un modelo lineal, que normalmente se
considera bastante simple y limitado.
Otros modelos se componen de reglas, como en este ejemplo:
SI el individuo
está aún en secundaria
Y
espera graduarse en la universidad dentro de tres años
Y
muestra cierto interés militar
Y
no ha visto aún este anuncio
ENTONCES la probabilidad de hacer clic en el anuncio del Art Institute es
del 13,5 %.
-245-
Hay varios tipos de modelo que compiten por hacer la predicción más
precisa. Los modelos que combinan un puñado de reglas como el que
acabamos de ver son de los más simples. Podemos complicar más los
cálculos del problema de la predicción, utilizando fórmulas complejas que
predicen con más eficacia. Pero todos los modelos predictivos comparten el
mismo objetivo: tener en cuenta los distintos factores de un individuo para
obtener una única puntuación predictiva para dicho individuo. Esta puntuación
se utiliza después para tomar una decisión en la organización.
Antes de utilizar un modelo, debemos construirlo. Este modelo se
construye mediante el aprendizaje automático, como muestra la figura 18.
Datos Aprendizaje automático Modelo predictivo
Figura 18. El aprendizaje automático transforma los datos en un modelo

predictivo.
-246-
El aprendizaje automático tritura los datos para crear el modelo. El modelo
es el producto de esta tecnología del aprendizaje, que es realmente lo que se
aprende en sí. Por este motivo, al
aprendizaje automático también se le llama
modelado predictivo.
El modelado predictivo genera todo el
modelo desde cero. Todos los cálculos,
valoraciones o reglas las crea automáticamente el ordenador. Esta
automatización es el medio que utiliza la AP para desplegar su poder
predictivo.
El científico de datos transforma estos para crear su modelo,
traduciéndolo a un lenguaje informático estándar y se lo envía por correo
electrónico a un ingeniero para que le dé forma. Un ejecutivo exultante nos da
una prima extra. Todos contentos.
-247-
HP PREDICE LA FUGA DE SUS EMPLEADOS
En 2011, dos de los mejores científicos de Hewlett-Packard rompieron los
esquemas al escrutar matemáticamente la lealtad de cada uno de sus más de
330.0 compañeros. Gitali Halder y Anindya
Dey desarrollaron modelos predictivos que
identificaban los empleados en "riesgo de fuga",
aquellos que tenían más probabilidades de dejar
sus trabajos.
Por ejemplo, una empresa multinacional deseaba reducir la tasa de bajas
en el servicio de atención al cliente en su call center de Barcelona. La gente
iba a trabajar allí sólo para pasar el verano en esta bonita ciudad y comunicar
su marcha tras ello. Les interesaba identificar por adelantado a estos
solicitantes de empleo.
Para tales fines, las organizaciones hacen un uso de la AP que prediga el
comportamiento de su propio equipo.
Aplicación de la AP: Evitar la marcha de empleados
1. Qué se predice. Qué empleados van a dejar la empresa.
2. Qué se hace al respecto. Los administradores tienen en cuenta las
predicciones sobre las personas supervisadas, a discreción.
-248-
HP ha recopilado un enorme conjunto de datos de prueba para utilizarlo
como material de aprendizaje para la AP. Ha extraído datos de los empleados
correspondientes a dos años, como salarios,
aumentos, calificaciones de trabajos y rotaciones
en los puestos. Después agregaron cuáles de estos
empleados había dejado su trabajo. De este modo,
HP se preparó para aprender de las experiencias
pasadas con el fin de predecir una gema de
incalculable valor: qué combinaciones de factores
determinan el tipo de empleado que más probabilidades tiene de abandonar
su trabajo.
"Estoy sorprendida. Con una experiencia tan amplia en
analítica predictiva debería haber sabido que no le vamos a
contratar".
-249-
MODELOS PREDICTIVOS
¿QUÉ ES UN MODELO PREDICTIVO?
Un modelo predictivo es simplemente una función matemática que puede
aprender la correlación entre un conjunto de datos de entrada, normalmente
empaquetadas en un registro, y una variable de respuesta o de destino.
Nos referimos a este aprendizaje como supervisado , ya que, durante el
entrenamiento, los datos son presentados a un modelo predictivo con los datos
de entrada y la salida o el resultado deseado. El entrenamiento se repite hasta
que el modelo aprende la función de correlación entre las entradas dadas y las
salidas deseadas. Ejemplos de técnicas predictivas utilizando aprendizaje
supervisado incluyen: redes neurales de retropropagación, y árboles de
decisión.
Los modelos descriptivos, vistos anteriormente, utilizan aprendizaje no
supervisado. En este caso, sólo se presentan los datos de entrada. Su tarea
es entonces descubrir cómo se relacionan los distintos registros de datos de
entrada unos con otros. La agrupación en clúster es el tipo de modelos
predictivos más utilizado, que utiliza aprendizaje no supervisado.
-250-
Los Modelos Predictivos de DM presentan una serie de TAREAS. A
continuación se describen las principales:
LA CLASIFICACIÓN
La clasificación es quizá la tarea más utilizada. En ella, cada instancia (o
registro de la base de datos) pertenece a una clase, la cual se indica mediante
el valor de un atributo. Este atributo puede tomar diferentes valores discretos,
cada uno de los cuales corresponde a una clase. El resto de los atributos de
la instancia (los relevantes a la clase) se utilizan para predecir la clase. El
objetivo es predecir la clase de nuevas instancias de las que se desconoce la
clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de
precisión de la clasificación de las nuevas instancias, la cual se calcula como
el cociente entre las predicciones correctas y el número total de predicciones
(correctas e incorrectas).
-251-
Técnicas
 Reglas de Clasificación
 Árboles de Decisión
 Análisis de discriminante
 Redes neuronales
 La K más cercana
 Razonamiento basado en casos
 Algoritmos genéticos.
Aplicaciones: Calificación de crédito (credit scoring), reconocimiento de
imágenes y patrones, diagnóstico médico, detección de fallos en aplicaciones
industriales, clasificar tendencias de mercados financieros, ...
-252-
El Proceso
Algoritmo
de
aprendizaje
Inducción
Aprender
modelo
Modelo
Conjunto de
entrenamiento Aplicar
modelo
Deducción
Conjunto de prueba
 Se ha de disponer de un conjunto de entrenamiento en el que todos los
registros estén clasificados.
 Se tiene siempre un número limitado de clases.
 Determinar la pertenencia de un objeto a una cierta clase específica.
 Encontrar la mejor función que discrimine este fenómeno.
 Aplicar la función encontrada a nuevos objetos.
-253-
Reglas de Clasificación
Etapa 1: Aprendizaje o Construcción del Modelo
Etapa 2: Pruebas
-254-
Etapa 3: Evaluación del Modelo
Ejemplo simple: En EE.UU. los maestros clasifican a los estudiantes en
A, B, C, D o F según sus notas. Utilizando simplemente límites (60, 70,
80, 90) las siguientes clasificaciones son posibles:
90 <= nota A
80 <= nota <= 90 B
70 <= nota <= 80 C
60 <= nota < 70 D
Nota < 60 F
-255-
Ejemplo 2. Consideremos un oftalmólogo que desea disponer de un
sistema que le sirva para determinar la conveniencia o no de
recomendar la cirugía ocular a sus pacientes. Para ello dispone de una
base de datos de sus antiguos pacientes clasificados en operados
satisfactoriamente o no en función del tipo de problema que padecían
(miopía y su grado, o astigmatismo) y de su edad. El modelo encontrado
se utiliza para clasificar nuevos pacientes, es decir, para decidir si es
conveniente operarlos o no.
Tipo de Resultado de
Edad …
Problema la Operación
Ok
Ok
No
-256-
Ejemplo 3: Deserción de Clientes. Se desea crear un modelo predictivo
que pueda saber quién de sus clientes tiene más probabilidades de
desertar. Primero se revisa los datos históricos para buscar data que pueda
utilizar para compilar un modelo. Al observar la base de datos, puede
compilar una lista de registros relacionados con los clientes existentes y
con los clintes que ya desertaron. Puede incluir: el número de quejas en los
últimos 6 meses, el número de tiquets de soporte abiertos en las últimas 4
semanas, con qué frecuencia y cuánto dinero gastó el cliente comprando
mercancía o servicios (online o en la tienda) e información genérica como la
edad, el género y datos demográficos. La Figura 19 muestra dos de estos
clientes juntos con la data obtenida para cada uno de ellos. El cliente 1 es
un cliente existente y parece estar satisfecho. Sin embargo, el cliente 2
ha desertado.
Figura 19. Dos clientes y sus data de entrada.
-257-
En un tipo de escenario de aprendizaje supervisado, como se muestra
en la Figura 20 , se presenta todos los datos de los clientes a una técnica
predictiva durante el entrenamiento. En este caso, la entrada se comprende
de una muestra de la data que obtuvo (relacionados con la satisfacción,
datos demográficos, etc.) para los clientes así como el resultado asociado.
El resultado le dice al modelo predictivo si el registro de datos representa
a un cliente que desertó o que no desertó. El razonamiento aquí es que el
modelo puede aprender las diferencias, o los patrones, entre dos grupos:
los clientes satisfechos existentes y los clientes que han desertado.
Figura 20. Datos de cliente como entrada y la salida es presentada a un modelo

predictivo durante el entrenamiento.
Después que se crea el modelo predictivo, se necesita validarlo. La
validación intenta responder: "¿funciona?" y de ser así, "¿qué tan precisa
es?". Si la respuesta a la primer pregunta es un sí y la respuesta a la
segunda pregunta es altamente preciso, entonces se sabe que el modelo
funciona y que puede generalizar bien. Todo lo que necesita ahora es
ponerlo disponible para la ejecución. Para eso, necesita ser desplegado
operacionalmente.
-258-
Después de la implementación, podemos utilizar el modelo de deserción
para supervisar toda la actividad de clientes existentes. Un buen modelo
predictivo puede generalizar su conocimiento para calcular el riesgo de
deserción aún para clientes que nunca ha conocido antes. La Figura
21 muestra los datos para uno de estos clientes, identificado como cliente
3, siendo presentado al modelo de deserción. Si el modelo percibe que un
patrón de deserción está surgiendo para un cliente particular,
incrementará su riesgo o salida hasta que exista una decisión empresarial
para atenderlo. Cuando ese cliente particular se encuentre de nuevo
satisfecho con sus productos y servicios, el riesgo disminuirá, ya que el
patrón de deserción ya no es detectado.
Figura 21. Modelo de deserción para puntuar clientes nuevos y existentes.
-259-
Ejemplo 4: Análisis de Créditos Bancarios
Un banco por Internet desea obtener reglas para predecir qué personas
de las que ya recibieron su crédito no lo devolverán. La entidad bancaria
cuenta con los datos correspondientes a los créditos concedidos con
anterioridad a sus clientes (monto del crédito, duración en años...) y otros
datos personales como el salario del cliente, si posee casa propia, etc.
Algunos registros de clientes de esta base de datos se muestran en la
Tabla 15.
Tabla 15. Datos para un análisis de riesgo en créditos bancarios.
D-crédito C-crédito Salario Casa Cuentas Devuelve

IDC •••
(años) (euros) (euros) propia morosas crédito
101 15 60.000 2.200 sí 2 ... no
102 2 30.000 3.500 sí 0 ... sí
103 9 9.000 1.700 sí 1 ... no
104 15 18.000 1.900 no 0 ... sí
105 10 24.000 2.100 no 1 ... no
... ... ... ... ... ... ... …
-260-
A partir de estos datos, las técnicas de DM podrían sintetizar algunas
reglas, como por ejemplo:
SI Cuentas-Morosas > 0 ENTONCES Devuelve-crédito = no
SI Cuentas-Morosas = 0 Y [(Salario > 2.500) O (D-crédito > 10)]
ENTONCES Devuelve-crédito = sí
El banco podría entonces utilizar estas reglas para determinar las
acciones a realizar en el trámite de los créditos: si se concede o no el
crédito solicitado, si es necesario pedir avales especiales, etc.
-261-
Árboles de Decisión
Los árboles de clasificación son uno de los más utilizados en el aprendizaje
automático. Su rapidez a la hora de la clasificación, su fácil implementación,
etc. son factores que influyen en su propagación.
Son un método de clasificación supervisada, formados por una variable
dependiente (clase), cuyo objetivo es averiguar dicha clase para casos
nuevos. El modelo obtenido puede servir para clasificar casos cuyas clases se
desconozcan o, simplemente, para comprender mejor la información de la que
disponemos.
Los algoritmos más conocidos que se aplican son: el algoritmo CART, el
IDE3, el C4.5 que es el sucesor del IDE3, el J4.8 que es una implementación
del C4.5, entre otros. Todos estos algoritmos siguen ayudando gracias a sus
nuevas versiones.
Se utilizan para:
 Asignar “scores” a los datos.
 Explorar datos.
 Hacer clasificaciones y predicciones.
 Comprender que variables son más importantes.
-262-
Ejemplo 1: Compra de Productos
Ejemplo 2: Desempeño de las Ciudades
Ciudades
producto no
está bien
Ciudades
producto
está bien
-263-
Ventajas y Desventajas de los Árboles de Decisión
Ventajas
 Fácil de entender.
 Resultados se adaptan bien a reglas de negocios.
 No se requieren suposiciones acerca de los datos.
 Variables “input” pueden ser continuas y categóricas.
Desventajas
 Algunos algoritmos sólo pueden tratar variables “target” binarias.
 Otros algoritmos pueden tratar variables “target” con más de dos valores
pero no funcionan bien cuando el número de casos de entrenamiento es
pequeño por clase.
 Son costosos en términos computacionales.
-264-
LA REGRESIÓN
La regresión es también una tarea predictiva que consiste en aprender una
función real que asigna a cada instancia un valor real. Ésta es la principal
diferencia respecto a la clasificación; el valor a predecir es numérico. El
objetivo en este caso es minimizar el error (generalmente el error cuadrático
medio) entre el valor predicho y el valor real.
Hablamos de modelo de regresión cuando la variable de respuesta y las
variables explicativas son todas cuantitativas. Si sólo disponemos de una
variable explicativa hablamos de regresión simple, mientras que si
disponemos de varias variables explicativas se trata de un problema de
regresión múltiple.
Para visualizar la relación entre la variable de respuesta y una variable
explicativa, obtendremos el diagrama bivariante entre ambas variables. La
forma de dicho diagrama aporta información sobre el tipo de relación entre la
variable de respuesta y la variable explicativa, esto es la función r.
-265-
Pasos para Elaborar un modelo de regresión
Se pueden establecer básicamente dos pasos:
Paso 1. Estimar los parámetros del modelo de regresión. Este proceso es
llamado ajuste del modelo a los datos.
Paso 2. El siguiente paso es chequear que tan bueno es el modelo ajustado.
El resultado de este chequeo puede indicar si el modelo es razonable o si el
ajuste original debe ser modificado.
-266-
REGRESIÓN LINEAL
La función de regresión más simple es la lineal, esto es, cada variable
explicativa participa de forma aditiva y constante para todo el dominio
observado. Por tanto, el modelo de regresión lineal se escribe:
Uno de los métodos más comunes de
solución, es el de mínimos cuadrados
que consiste en ajustar los parámetros
del modelo de manera que la suma de
los cuadrados de los errores sea
mínima.
-267-
Regresión Lineal Simple
En el caso más sencillo, regresión lineal simple, la ecuación
nos da una estimación de y, siendo el error que se comete,
En este caso a y b se eligen de manera que,
sea mínimo
-268-
Regresión Lineal Múltiple
La regresión lineal múltiple se basa en obtener una relación lineal entre un
conjunto de variables independientes X1,..,Xn con una variable dependiente Y,
es decir:
Y = b0 + b1X1 + b2X2 + b3X3 + ··· + bnXn.
El éxito de determinar una correlación lineal múltiple es que exista una
correlación lineal simple de cada variable independiente con la variable
dependiente.
-269-
REGRESIÓN NO LINEAL
El método de mínimos cuadrados permite obtener la mejor recta de ajuste a
los datos en el caso de la regresión lineal.
Sin embargo, no siempre existe una relación lineal entre la variable
dependiente e independiente y muchos modelos no son lineales en los
parámetros, impidiendo el uso del método de mínimos cuadrados.
En algunos casos es posible aplicar transformaciones para expresar los
datos en una forma compatible con la regresión lineal. Este es el caso del
modelo exponencial y de potencias.
-270-
Regresión No Lineal-Simple
La regresión lineal no siempre da buenos resultados, porque a veces la
relación entre Y y X no es lineal sino que exhibe algún grado de curvatura. La
estimación directa de los parámetros de funciones no-lineales es un proceso
bastante complicado. No obstante, a veces se pueden aplicar las técnicas de
regresión lineal por medio de transformaciones de las variables originales.
-271-
-272-
Regresión No Lineal-Múltiple
Ejemplo 1: Determinar las Ventas de un producto
Una gran cadena de tiendas de electrodomésticos desea optimizar el
funcionamiento de su almacén manteniendo un stock de cada producto
suficiente para poder servir rápidamente el material adquirido por sus
clientes. Para ello, la empresa dispone de las ventas efectuadas cada mes
del último año de cada producto, tal y como se refleja en la Tabla 16.
Tabla 16. Ventas mensuales durante el último año.
Producto mes-12 ... mes-4 mes-3 mes-2 mes-1
televisor plano 30' Phlipis 20 ... 52 14 139 74

vídeo-dvd-recorder Miesens 11 ... 43 32 26 59
discman mp3 LG 50 ... 61 14 5 28
frigorífico no frost Jazzussi 21 27 1 49
microondas con grill Sanson 14 27 2 25 12
…. …. …. ... ... ... ….
Esta información permite a la empresa generar un modelo para
predecir cuáles van a ser las ventas de cada producto en el siguiente mes
en función de las ventas realizadas en los meses anteriores, y efectuar así
los pedidos necesarios a sus proveedores para disponer del stock necesario
para hacer frente a esas ventas.
-273-
PROCESO DE PREDICTIVE BUSINESS ANALYTICS
Se presentan las 6 fases del proceso, que son similares al proceso de
Descriptive Business Analytics. Las 3 primeras fases ya se ejecutaron en el
caso desarrollado para Descriptive DM, por eso en este proyecto de Predictive
Analytics lo iniciamos desde la etapa 2:
CREACIÓN DE MODELOS: MINERÍA DE DATOS
Modeling
Seleccionar
Técnica de
Modelamiento
-274-
CREAR Y TRABAJAR CON PREDICCIONES CON DM
Ha entrenado, probado y explorado los modelos de minería de datos que creó.
Ahora está en disposición de utilizar los modelos con el objeto de identificar a
los destinatarios de la campaña de distribución de correo directo de Adventure
Works Cycles. En esta lección creará una consulta para predecir qué clientes
potenciales tienen más probabilidad de comprar una bicicleta. También
recuperará la probabilidad de que la predicción sea correcta para poder decidir
si se debe presentar o no la recomendación al departamento de marketing.
Cuando haya identificado a los clientes potenciales con una probabilidad
alta de comprar una bicicleta, obtendrá detalles de los casos del modelo de
minería de datos para recuperar los nombres y la información de contacto
correspondiente.
En esta sección se incluyen los temas siguientes:
 Crear predicciones
 Obtener detalles en los datos de estructura
-275-
CASO DE ESTUDIO
Caso 1: Ventas y Entrega de Bicicletas en Adventure Works
Organización en estudio
Recordemos: Adventure Works Bicycles, Inc. es una gran empresa
multinacional mayorista ficticia que fabrica y vende bicicletas; y que compra y
vende ropa y accesorios de ciclismo a minoristas de todo el país.
-276-
I. Crear Predicciones
Una vez que haya probado la precisión de los modelos de minería de datos y
esté satisfecho con los resultados, puede crear consultas de predicción de
Extensiones de minería de datos (DMX) por medio del Generador de consultas
de predicción en la ficha Predicción de modelo de minería de datos del
Diseñador de minería de datos.
El Generador de consultas de predicción tiene tres vistas:
 Diseño
 Consulta
 Resultado
Mediante las vistas Diseño y Consulta, puede crear y examinar una
consulta. A continuación, puede ejecutar la consulta y ver los resultados en la
vista Resultado.
Para obtener más información acerca de cómo utilizar el Generador de
consultas de predicción, vea Crear consultas de predicción DMX.
Crear la consulta: seleccionar un modelo de minería de datos y una tabla

de entrada
1. En la pestaña Predicción de modelo de minería de datos del Diseñador
de minería de datos, en el cuadro Modelo de minería de datos, haga clic
en Seleccionar modelo.
-277-
2. En el cuadro de diálogo Seleccionar modelo
de minería de datos, navegue por el árbol
hasta la estructura Targeted Mailing,
expándala, seleccione TM_Decision_Tree y, a
continuación, haga clic en Aceptar.
3. En el cuadro Seleccionar tabla(s) de entrada, haga clic en Seleccionar
tabla de casos.
4. En el cuadro de diálogo Seleccionar tabla, en la lista Origen de datos,
seleccione Adventure Works DW2017 (o Targeted Mailing).
-278-
5. En la lista Nombre de tabla o vista, seleccione la tabla ProspectiveBuyer
(dbo) y, a continuación, haga clic en Aceptar.
La tabla ProspectiveBuyer se parece mucho a la tabla de casos
vTargetMail.
-279-
Asignar Las Columnas de la estructura a las columnas de la tabla de

entrada
Después de seleccionar la tabla de entrada, el Generador de consultas de
predicción crea una asignación predeterminada entre el modelo de minería de
datos y la tabla de entrada, en función de los nombres de las columnas. Al
menos una columna de la estructura debe coincidir con una columna de los
datos externos.
Importante
Los datos que usa para determinar la precisión de los modelos
deben contener una columna que se puede asignar a la columna de
predicción.
1. Haga clic derecho en las líneas que conectan la ventana Modelo de
minería de datos a la ventana Seleccionar tabla de entrada y seleccione
Modificar conexiones.
Observe que no todas las columnas están asignadas. Agregaremos las
asignaciones para varias Columnas de tabla.
-280-
2. En Columna de la tabla, haga clic en la celda Bike Buyer y seleccione
ProspectiveBuyer.Unknown en el cuadro desplegable.
De esta forma se asigna la columna de predicción, [Bike Buyer], a una
columna de la tabla de entrada.
4. En el Explorador de soluciones, haga clic derecho en la vista del origen
de datos Targeted Mailing y seleccione Ver Diseñador.
-281-
5. Haga clic derecho en el título de la tabla ProspectiveBuyer y seleccione
Nuevo cálculo con nombre.
6. En el cuadro de nombre Columna, escriba calcAge.
7. En Descripción, escriba Calcular la edad en función de la fecha de
nacimiento.
8. En el cuadro Expresión, escriba DATEDIFF(yyyy,[BirthDate],getdate()) y
haga clic en Aceptar.
-282-
La tabla de entrada no tiene ninguna columna Age correspondiente.
Esta expresión calculará la edad del cliente a partir de la columna de fecha
de nacimiento de la tabla de entrada. Puesto que Age se identificó como la
columna más influyente para predecir la compra de una bicicleta, debe
existir en el modelo y en la tabla de entrada.
9. En el Diseñador de minería de datos, seleccione la pestaña Predicción de
modelo de minería de datos y vuelva a abrir la ventana Modificar
conexiones (haciendo clic derecho en las lineas de conexión).
Advertencia
Si no ve la columna en la lista, puede que tenga que actualizar la
definición de la vista del origen de datos que se ha cargado en el
diseñador. Para ello, en el menú Archivo, seleccione Guardar todo
y luego cierre y abra de nuevo el proyecto en el diseñador.
-283-
10. En Columna de la tabla, haga clic en la celda Edad y seleccione
ProspectiveBuyer.calcAge en el cuadro desplegable.
-284-
Diseñar la consulta de predicción

1. El primer botón de la barra de herramientas de la ficha Predicción de
modelo de minería de datos es el botón Cambiar a vista de diseño de
consulta / Cambiar a vista de resultado / Cambiar a vista de consulta.
Haga clic en la flecha abajo en este botón y seleccione Diseño.
2. En la cuadrícula de la ficha Predicción de modelo de minería de datos,
haga clic en la celda de la primera fila vacía de la columna Origen y, a
continuación, seleccione Función de predicción.
De esta forma, se especificará la columna de destino para la función
PredictProbability. Para obtener más información acerca de las funciones,
vea Referencia de funciones de Extensiones de minería de datos (DMX).
3. En la fila Función de predicción, de la columna Campo, seleccione
PredictProbability.
-285-
4. En la ventana Modelo de minería de datos anterior, seleccione y arrastre
[Bike Buyer] a la celda Criterios o argumento.
Cuando lo coloca, [TM_Decision_Tree].[Bike Buyer] aparece en la celda
Criterios o argumento.
5. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación,
seleccione TM_Decision_Tree (o Modelo de mineria de…).
6. En la fila TM_Decision_Tree, en la columna Campo, seleccione Bike
Buyer.
7. En la fila TM_Decision_Tree, en la columna Criterios o argumento,
escriba = 1.
8. Haga clic en la siguiente fila vacía de la columna Origen y, a continuación,
seleccione Table ProspectiveBuyer.
-286-
9. En la fila ProspectiveBuyer, en la columna Campo, seleccione
ProspectiveBuyerKey.
De esta forma, se agregará un identificador único a la consulta de
predicción para que pueda identificar quién es más y menos probable que
compre una bicicleta.
10. Agregue cinco filas más a la cuadrícula. Para cada fila, seleccione
ProspectiveBuyer como Origen y, a continuación, agregue las columnas
siguientes en las celdas Campo:
 calcAge
 LastName • FirstName
 AddressLine1 • City • StateProvinceCode
Finalmente, ejecute la consulta y examine los resultados.
-287-
Para ejecutar la consulta y ver los resultados
1. En la ficha Predicción de modelo de minería de datos, seleccione el

botón Resultado.
2. Una vez que la consulta se ejecute y se muestren los resultados, puede

revisarlos.
-288-
La ficha Predicción de modelo de minería de datos muestra información
de contacto para los clientes potenciales que son probables compradores
de bicicletas. La columna Expresión indica la probabilidad de que la
predicción sea correcta. Puede utilizar estos resultados para determinar a
qué clientes potenciales debe dirigirse en el correo.
3. Haga clic en el botón Guardar para guardar los resultados.
II. Usar la obtención de detalles en datos de estructura
Adventure Works Cycles está enviando un formulario a los clientes potenciales
de entre 40 y 56 años de edad como parte de su campaña de publicidad. El
departamento de marketing ha decidido que les gustaría enviar también el
formulario a los clientes que compraron bicicletas de Adventure Works Cycles
hace más de cinco años. En esta lección, identificará los clientes con compras
de bicicletas anteriores y recuperará su información de contacto. Esta
información no está incluida en el modelo, pero se incluye en la estructura.
Para recuperar la información de contacto, primero se asegurará de que la
obtención de detalles está habilitada para la estructura y, a continuación, la
utilizará para revelar los nombres y direcciones de los clientes con compras de
bicicletas anteriores.
Para obtener información sobre cómo obtener detalles a través de los
casos de modelo, vea Usar la obtención de detalles en datos de estructura
(Tutorial básico de minería de datos).
-289-
Habilitar la obtención de detalles en un modelo de minería de datos

1. En Microsoft Visual Studio, en la pestaña Modelos de minería de datos
del Diseñador de minería de datos, haga clic derecho en el modelo
TM_Decision_Tree y seleccione Propiedades.
2. En las ventanas Propiedades, haga clic en AllowDrillThroughy seleccione
True.
3. En la pestaña Modelos de minería de datos, haga clic derecho en el modelo
y seleccione Procesar modelo.
4. Haga clic en Ejecutar...
5. Haga clic en Cerrar/ Cerrar.
-290-
Para obtener más información, vea Usar la obtención de detalles en los
modelos y estructuras de minería (Analysis Services - Minería de datos)
Ver los datos de obtención de detalles de un modelo de minería de datos

1. En el Diseñador de minería de datos, haga clic en la ficha Visor de modelo
2. Seleccione el modelo TM_Decision_Tree en la lista Modelo de minería de datos.
3. Cambie el valor de la lista Fondo por 1.
4. Seleccione el visor de árboles de Microsoft en la lista Visor y haga clic
derecho en el nodo Age >= 40 y <56.
5. Seleccione Obtener detalles, después seleccione Columnas de modelo y
estructura para abrir la ventana Obtener detalles.
6. Desplácese a la columna Structure.Date First Purchase para ver la fecha de
compra de las bicicletas anteriores.
-291-
7. Para copiar los datos en el Portapapeles, haga clic con el botón secundario
en cualquier fila de la tabla y seleccione Copiar todo. Esto se puede llevar a
Excel.
Con ello, ha completado el Tutorial básico de minería de datos. Ahora
que conoce más las herramientas de minería de datos, recomendamos que
también complete el Tutorial intermedio de minería de datos, que demuestra
cómo crear modelos de pronóstico, análisis de la cesta de compras y clústeres
de secuencias.
-292-
ANEXO A:
ESTRUCTURA DEL INFORME DE DATA MINING
1. Índice
2. Introducción
CAPÍTULO I: GENERALIDADES
3. Objetivos del Trabajo de Aplicación
4. Integrantes: Nombre, e-Mail
CAPÍTULO II: DESCRIPTIVE ANALYTICS
5. Fase 1: Entendimiento del Negocio
6. Descripción de la Empresa Diversificada
7. Organigrama Actual
8. Identificación del Proceso Crítico
9. Flujograma del Proceso
10. Objetivos de Data Mining
11. Fase 2: Entendimiento de los Datos
12. Recopilación inicial de datos: OLTP y Data Mart
13. Descripción de los datos: Tablas y Vistas
14. Fase 3: Preparación de los Datos
15. Selección y Limpieza de los datos.
16. Fase 4: Modelamiento
17. Selección de la técnica de modelado.
18. Construcción de los modelos Descriptivos.
19. Evaluación del modelo.
20. Fase 5: Evaluación del Modelo
21. Evaluación de resultados.
22. Revisar el proceso.
23. Fase 6: Utilización del Modelo (Conocimiento)
24. Planificación de despliegue.
CAPÍTULO III: PREDICTIVE ANALYTICS
25. Fase 4: Modelamiento
26. Selección de la técnica de modelado.
27. Construcción de los modelos Predictivos.
28. Evaluación de los modelos.
29. Fase 5: Evaluación del Modelo
-303-
30. Evaluación de resultados.

31. Fase 6: Utilización del Modelo (Conocimiento)
32. Planificación de despliegue.
33. Conclusiones
34. Recomendaciones
35. Bibliografía
36. Apéndices (si es necesario)
Nota : Se presentará el trabajo y a la vez debe prepararse demostrativos

sobre la instalación y uso de su aplicativo.
 La fecha de presentación y sustentación será coordinada
oportunamente.
 En el Informe Final deberá considerar la siguiente estructura:
 INFORME FINAL: WORD, BIZAGI, EXCEL
 MODELOS: CARPETAS CON PROYECTOS.
-304-

Gestión Del Conocimiento - Parte 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Gestión Del Conocimiento - Parte 2

Cargado por

Copyright:

Formatos disponibles

MAESTRÍA EN CIENCIAS DE INGENIERÍA CON MENCIÓN EN

GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN Y

1. LOS SI Y LA TEORÍA DE DECISIONES 06

3. EMPRESAS CON ESTRATEGIAS BASADAS EN DM 42

5. ENTENDIMIENTO DEL NEGOCIO 88

6. ENTENDIMIENTO Y PREPARACIÓN DE LOS DATOS 97

7. CREACIÓN Y EVALUACIÓN DE MODELOS 124

8. ANÁLÍTICA DEL NEGOCIO PREDICTIVA 227

9. CREACIÓN Y USO DE MODELOS PREDICTIVOS 255

10. ANEXO A: ESTRUCTURA DEL INFORME FINAL 303

CREACIÓN Y EVALUACIÓN DE MODELOS

CREACIÓN DE MODELOS: MINERÍA DE DATOS

producir nuevo conocimiento que pueda utilizar el usuario. Esto se realiza

construyendo un modelo basado en los datos recopilados para este efecto. El

explicar situaciones pasadas. Para ello es necesario tomar una serie de

decisiones antes de empezar el proceso:

 Determinar qué tipo de tarea de minería es el más apropiado. Por

ejemplo, podríamos usar la clasificación para predecir en una entidad

bancaria los clientes que dejarán de serlo.

 Elegir el tipo de técnica. Por ejemplo, para una tarea de clasificación

podríamos usar un árbol de decisión, porque queremos obtener un modelo

 Elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de

modelo que estamos buscando. Esta elección es pertinente porque

crear árboles de decisión para clasificación podríamos usar CART o C5.0,

entre otros. En los capítulos siguientes se presentarán los métodos más

importantes para cada tipo de modelo.

4.1 ALGORITMOS DEL KDD

El algoritmo de DM es el mecanismo que crea modelos de minería de datos.

Para crear un modelo, un algoritmo analiza primero un conjunto de datos,

buscando patrones y tendencias específicos. Después, el algoritmo utiliza los

El modelo de DM que crea un algoritmo puede tomar diversas formas,

 Un conjunto de reglas que describen cómo se agrupan los productos en

 Un árbol de decisión que predice si un cliente determinado comprará un

 Un modelo matemático que predice las ventas.

 Un conjunto de clústeres que describe cómo se relacionan los escenarios

Microsoft SQL Server 2017 Analysis Services (SSAS) proporciona varios

subconjunto de todos los algoritmos que pueden utilizarse en DM. También

puede utilizar algoritmos de DM desarrollados por terceros que cumplan la

algoritmos de terceros, vea Algoritmos de complemento.

Ventas y Entrega de Bicicletas en Adventure Works Bicycles

10. Escenarios de minería de datos

Las tendencias de la base de datos Adventure Works DW 2017 admiten los

siguientes escenarios de minería de datos:

 Targeted Mailing Campaign (Campaña de Correo Directo): admite el

escenario de un analista que aplica distintos algoritmos de minería de

datos a los datos de ventas por Internet (tabla

vTargetMail obtenida de la vista vDMPrep, la

cual se obtuvo de la tabla de hechos

FactInternetSales) y a clientes de Adventure

Works para determinar los atributos

demográficos de los clientes que ya han

comprado una bicicleta. Después, el analista puede aplicar el modelo de

minería de datos a una lista de clientes potenciales (tabla

ProspectiveBuyer) para determinar qué clientes tienen mayor

probabilidad de responder al correo directo en el que se promocionen las

bicicletas de Adventure Works.

 Forecasting: admite el escenario de un analista que investiga el

crecimiento de modelos de bicicletas por hora y región.

 Market Basket Analysis: admite el escenario de un programador que

crea una solución de Cesta de Mercado que sugiere un

producto en función de otros que ya existen en el carro

 Sequence Clustering: admite el escenario de un analista que investiga

la secuencia en la que los clientes colocan los artículos