GordonSLinoffMi 2011 Chapter3TheDataMining DataMiningTechniquesF

Machine Translated by Google
CAPÍTULO
El proceso de minería de datos
El Capítulo 1 describe el círculo virtuoso de la minería de datos como un proceso de negocio

que divide la minería de datos en cuatro etapas:
1. Identificar el problema
2. Transformar datos en información
3. Tomar medidas
4. Medir el resultado
Este capítulo cambia el énfasis a la minería de datos como un proceso técnico, pasando de
identificar problemas de negocios a traducir los problemas de negocios en problemas de minería
de datos. La segunda etapa, transformar datos en información, se amplía a varios temas que
incluyen prueba de hipótesis, construcción de modelos y descubrimiento de patrones. Las ideas
y mejores prácticas introducidas en este capítulo se desarrollan con más detalle en el resto del
libro. El propósito de este capítulo es reunir los diferentes estilos de minería de datos en un solo
Derechos
Wiley.
2011.
autor
de
reproducirse
Reservados
aplicables.
permitidos
derechos.
derechos
legítimos
ninguna
permiso
excepto
puede
editor,
forma
todos
leyes
autor
usos
UU.
EE.
por
del
las
sin
No
los
de
el
o
lugar.
La mejor manera de evitar romper el círculo virtuoso de la minería de datos es comprender
las formas en que es probable que falle y tomar medidas preventivas. A lo largo de los años, los
autores han encontrado muchas formas en las que los proyectos de minería de datos salen mal.
Este capítulo comienza con una discusión de algunos de estos obstáculos. El resto del capítulo
trata sobre el proceso de minería de datos. Los capítulos posteriores cubren los aspectos de la
metodología de minería de datos que son específicos de los estilos particulares de datos.
67
EBSCO Publishing: Colección de libros electrónicos (EBSCOhost) impreso el 19/03/2024 12:00 p.m. vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI
AN: 520245; Gordon S. Linoff, Michael JA Berry.; Técnicas de minería de datos: para marketing, ventas y gestión de relaciones con los clientes
Cuenta: s9496075.main.eds
68 Capítulo 3 n El proceso de minería de datos
Minería: minería de datos dirigida y minería de datos no dirigida. Este capítulo

se centra en lo que estos enfoques tienen en común.
Se presentan los tres estilos principales de minería de datos, comenzando con el
enfoque más simple (probar hipótesis generalmente mediante el uso de consultas ad hoc)
y avanzando hasta actividades más sofisticadas, como la construcción de modelos que
pueden usarse para calificar y encontrar patrones usando datos no dirigidos. Técnicas mineras.
El tema del capítulo es pasar de una declaración clara del objetivo empresarial a una
comprensión clara de las tareas de minería de datos necesarias para lograr el objetivo y las
técnicas de minería de datos apropiadas para la tarea.
¿Qué puede ir mal?

La minería de datos es una forma de aprender del pasado para tomar mejores decisiones
en el futuro. Las mejores prácticas descritas en este capítulo están diseñadas para evitar
dos resultados indeseables del proceso de aprendizaje:
n Aprender cosas que no son ciertas.

n Aprender cosas que son verdaderas, pero no útiles.
Los antiguos marineros aprendieron a evitar las rocas de Escila y el remolino de Caribdis
que protegen el estrecho entre Sicilia y el continente italiano . Al igual que los antiguos
marineros que aprendieron a evitar estas amenazas, los mineros de datos necesitan saber
cómo evitar peligros comunes.
Aprender cosas que no son ciertas

Aprender cosas que no son ciertas es más peligroso que aprender cosas que son inútiles
porque se pueden tomar decisiones comerciales importantes basadas en información
incorrecta. Los resultados de la minería de datos a menudo parecen confiables porque se
basan en datos reales procesados de una manera aparentemente científica. Esta apariencia
de confiabilidad puede ser engañosa. Los datos pueden ser incorrectos o no relevantes para
la pregunta en cuestión. Los patrones descubiertos pueden reflejar decisiones comerciales
pasadas o no reflejar nada en absoluto. Las transformaciones de datos, como el resumen,
pueden haber destruido u ocultado información importante. Las siguientes secciones analizan
algunos de los problemas más comunes que pueden llevar a conclusiones falsas.
ADVERTENCIA El análisis más cuidadoso y minucioso, utilizando las técnicas más

sofisticadas, arroja resultados incorrectos cuando los datos analizados son incorrectos
o simplemente no son relevantes. En los círculos de tecnología de la información, un
aforismo popular es: "basura entra, basura sale".
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Capítulo 3 n El proceso de minería de datos 69
Es posible que los patrones no representen ninguna regla subyacente
Se suele decir que las cifras no mienten, pero los mentirosos sí cifran. Cuando se trata de
encontrar patrones en los datos, las cifras no tienen por qué mentir para sugerir cosas que
no son ciertas. Existen tantas formas de construir patrones que cualquier conjunto aleatorio
de puntos de datos revela uno si se examina durante suficiente tiempo. Los seres humanos
dependemos tanto de patrones en nuestras vidas que tendemos a verlos incluso cuando no
existen. Miramos hacia el cielo nocturno y no vemos una disposición aleatoria de estrellas,
sino la Osa Mayor, la Cruz del Sur o el Cinturón de Orión. Algunos incluso ven patrones
astrológicos y presagios que pueden usarse para predecir el futuro. La aceptación
generalizada de teorías de conspiración extravagantes es una prueba más de la necesidad
humana de encontrar patrones.
Presumiblemente, la razón por la que los humanos han desarrollado tal afinidad por los
patrones es que los patrones a menudo reflejan alguna verdad subyacente sobre la forma
en que funciona el mundo. Las fases de la luna, la progresión de las estaciones, la constante
alternancia de día y noche, incluso la aparición regular de un programa de televisión favorito
a la misma hora el mismo día de la semana son útiles porque son estables y, por tanto,
predictivos. Podemos utilizar estos patrones para decidir cuándo es seguro plantar tomates,
cuándo desayunar y cómo programar el DVR.
Es evidente que otros patrones no tienen ningún poder predictivo. Si una moneda justa sale cara
cinco veces seguidas, todavía hay una probabilidad de 50 a 50 de que salga cruz en el sexto
lanzamiento.
El desafío para los mineros de datos es descubrir qué patrones son útiles y cuáles no.
Considere los siguientes patrones, todos los cuales han sido citados en artículos de la
prensa popular como si tuvieran valor predictivo:
n El partido que no ocupa la presidencia obtiene escaños en el Congreso

durante las elecciones fuera de año.
n Cuando la Liga Americana gana la Serie Mundial, los republicanos toman la

Casa Blanca.
n Cuando los Washington Redskins ganan su último partido en casa, el partido en el

poder conserva la Casa Blanca.
n En las elecciones presidenciales de Estados Unidos, suele ganar el hombre más alto.
El primer patrón (el que involucra elecciones fuera de año) es explicable en términos
puramente políticos. Cada cuatro años, poco más de la mitad de los votantes
estadounidenses se entusiasman y votan por su candidato a la presidencia. Unos meses
más tarde, el candidato asume el poder y comienza la decepción: los políticos simplemente
no pueden cumplir todas las promesas que espera su base. Dos años más tarde, en las
elecciones al Congreso, se produce una reacción violenta, generalmente causada por partidarios decepcionad
no acudas a votar. Dado que este patrón tiene una explicación subyacente, parece probable que
continúe en el futuro, lo que implica que tiene valor predictivo.
Los siguientes dos supuestos predictores, los que involucran eventos deportivos, parecen
claramente no tener valor predictivo. No importa cuántas veces los republicanos y la Liga
Americana hayan compartido victorias en el pasado (y los autores no han investigado este punto),
no hay razón para esperar que la asociación continúe en el futuro.
¿Qué pasa con las alturas de los candidatos? Desde 1948, cuando Truman (que era bajo, pero
más alto que Dewey) fue elegido, las elecciones en las que Carter venció a Ford y aquella en la
que Bush venció a Kerry son las únicas en las que el candidato más bajo obtuvo más votos
populares. Las elecciones de 2000, que enfrentaron a Gore, de 6'1" de altura, contra Bush, de 6'0"
todavía se ajustan al patrón, si se supone que el patrón se relaciona con ganar el voto popular
más que el voto electoral. En 2008, Obama, jugador de baloncesto, superó en las encuestas al
más bajo McCain. La altura no parece tener nada que ver con el oficio de ser presidente. Sin
embargo, nuestro lenguaje exhibe “altitud”: admiramos a las personas como señal de respeto y
las menospreciamos para mostrar desdén. La altura se asocia con una mejor nutrición infantil, lo
que a su vez conduce a una mayor inteligencia y otros indicadores de éxito social. Como se
explica en este capítulo, la forma correcta de decidir si una regla es estable y predictiva es
comparar su desempeño en múltiples muestras seleccionadas al azar de la misma población. En
el caso de la altura presidencial, los autores lo dejan como ejercicio para el lector. Como suele ser
el caso, la parte más difícil de la tarea es recopilar datos: antes de la era de Google, determinar
las alturas de los candidatos presidenciales fracasados de siglos anteriores no era fácil.
El término técnico para encontrar patrones que no logran generalizarse es sobreajuste.

El sobreajuste conduce a modelos inestables que funcionan un día, pero no al siguiente, en un
conjunto de datos pero no en otro. La construcción de modelos estables es el objetivo principal de
la metodología de minería de datos.
El conjunto de modelos puede no reflejar la población relevante

El conjunto de modelos son los datos utilizados para crear un modelo de minería de datos y
necesariamente describe lo que sucedió en el pasado. El modelo sólo puede ser tan bueno como
los datos utilizados para crearlo. Para que las inferencias sean válidas, el conjunto de modelos
debe reflejar la población que el modelo pretende describir, clasificar o calificar. Una muestra que
no refleja adecuadamente a la población que se califica o a la población en general está sesgada.
Un conjunto de modelos sesgado puede llevar a aprender cosas que no son ciertas. A menos que
se tengan en cuenta los sesgos, el modelo resultante también estará sesgado. Los prejuicios pueden
ser difíciles de evitar. Considerar:
n Los clientes no son como los prospectos.
n Los encuestados no son como los que no responden.
n Las personas que leen el correo electrónico no son como las personas que no leen el correo electrónico.
n Las personas que se registran en un sitio web no son como las personas que no se registran.
n Después de una adquisición, los clientes de la empresa adquirida no son necesariamente

muy similares a los clientes del adquirente.
n Los registros sin valores faltantes reflejan una población diferente de los registros con valores
faltantes.
Consideremos el primer punto. Los clientes no son como los prospectos porque representan
personas que respondieron positivamente a cualquier mensaje, oferta y promoción que se
hiciera para atraer clientes en el pasado. Es probable que un estudio de los clientes actuales
sugiera más de lo mismo. Si las campañas anteriores se han dirigido a consumidores
urbanos ricos, entonces cualquier comparación de los clientes actuales con la población
general probablemente mostraría que los clientes tienden a ser ricos y urbanos. Un modelo
así podría perder oportunidades en los suburbios de ingresos medios.
SUGERENCIA Prestar especial atención a la selección y muestreo de datos para el conjunto de modelos es
crucial para una extracción de datos exitosa.
Las consecuencias de utilizar una muestra sesgada pueden ser peores que simplemente
perder una oportunidad de marketing. En Estados Unidos, existe una historia de “redlining”,
la práctica ilegal de negarse a otorgar préstamos o pólizas de seguro en ciertos vecindarios
(generalmente vecindarios de bajos ingresos o de minorías). Una búsqueda de patrones en
los datos históricos de una empresa que tuvo un historial de exclusión revelaría que es poco
probable que las personas en ciertos vecindarios sean clientes . Si los futuros esfuerzos de
marketing se basaran en ese hallazgo, la extracción de datos ayudaría a perpetuar prácticas
ilegales y poco éticas.
Los datos pueden tener un nivel de detalle incorrecto
En más de una industria, se les ha dicho a los autores que el uso a menudo disminuye un
mes antes de que un cliente se vaya. Tras un examen más detenido, esto puede resultar
ser un ejemplo de aprendizaje de algo que no es cierto. La Figura 31 muestra los minutos
mensuales de uso para un grupo de suscriptores de telefonía celular que se registraron
como cesantes en el noveno mes. Durante siete meses, los suscriptores utilizan unos 100
minutos al mes. En el octavo mes, su uso disminuye a aproximadamente la mitad. Y al mes
siguiente ya no hay uso porque los suscriptores han dejado de funcionar. Esto sugiere que
un esfuerzo de marketing desencadenado por una disminución en el uso podría salvar a
estos clientes.
Estos suscriptores parecen ajustarse a un patrón en el que un mes con menor uso
precede al abandono del servicio. Las apariencias engañan. Estos clientes no tienen uso en
el mes nueve porque la fecha de finalización real es en el mes ocho. En promedio, la fecha
de finalización sería a mediados de mes. Estos clientes continúan usando el servicio a un
ritmo constante hasta que lo dejan, presumiblemente porque ese día los clientes comienzan
a usar un servicio de la competencia. El supuesto período de declive en el uso no existe en
realidad y ciertamente sí existe.
no proporciona una ventana de oportunidad para retener al cliente. Lo que parece ser
un indicador adelantado es en realidad un indicador final.
Minutos de uso por tenencia
140
120
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11
Figura 31: ¿La disminución del uso en el mes 8 predice el desgaste en el mes 9?
La Figura 32 muestra otro ejemplo de confusión causada por la agregación. Las ventas
parecen haber disminuido en octubre en comparación con agosto y septiembre. La imagen
proviene de una empresa que tiene actividad de ventas sólo los días en que los mercados
financieros están abiertos. Debido a la forma en que cayeron los fines de semana y días
festivos en 2003, octubre tuvo menos días hábiles que agosto y septiembre. Este hecho
por sí solo explica toda la caída de las ventas.
$44,000
$43,000
$42,000
$41,000
$40,000
$39,000
$38,000
Agosto Septiembre Octubre
Figura 32: ¿Realmente cayeron las ventas en octubre?
En los ejemplos anteriores, la agregación genera confusión. No agregar al nivel

apropiado también puede generar confusión. Un miembro de un hogar puede tener una
cuenta corriente con un saldo bajo y poca actividad, mientras que otro miembro del mismo
hogar tiene varias cuentas grandes. Tratar al titular de la pequeña cuenta como un cliente
poco valioso podría poner en riesgo la relación con todo el hogar. En este caso, la cifra
del saldo total puede ser más importante que el saldo de cualquier cuenta.
SUGERENCIA Al resumir datos, elija un nivel de agregación que no oculte

patrones importantes dentro de un solo período. Una empresa con fuertes
cambios de una semana a otra no debe informar la actividad resumida mensualmente.
Aprender cosas que son ciertas, pero no útiles

Aunque no es tan peligroso como aprender cosas que no son ciertas, aprender cosas que no son
útiles es más común. Esto puede suceder de varias maneras.
Aprender cosas que ya se saben (o que deberían saberse)

La minería de datos debería proporcionar nueva información. Muchos de los patrones más fuertes
en los datos representan cosas que ya se conocen. Las personas mayores de la edad de jubilación
tienden a no responder a las ofertas de planes de ahorro para la jubilación. Las personas que viven
fuera de las zonas de entrega a domicilio no se convierten en suscriptores de periódicos. Aunque
respondan a ofertas de suscripción, el servicio nunca comienza. Las personas que no poseen
automóviles no compran un seguro de automóvil.
La minería de datos también puede descubrir patrones que deberían haberse sabido que eran
ciertos. En un ejemplo interesante, los autores estaban trabajando en un proyecto que analizaba
patrones de compra en datos de tiendas de comestibles. Cuando llegó el primer conjunto de datos,
nos propusimos encontrar productos que se compraran juntos. Las primeras combinaciones fueron
“huevos y carne”, “huevos y leche” y “huevos y refrescos”. Las reglas continuaron en la misma línea:
los huevos salían rápidamente de los estantes con casi todos los productos de la tienda. Al principio,
esto parecía un problema potencial en los datos. Entonces uno de nuestros colegas observó que los
datos procedían de la semana anterior a Pascua. Y, de hecho, cuando la gente va de compras antes
de Pascua, a menudo compran huevos para teñirlos o esconderlos para las vacaciones de Pascua.
Los patrones más fuertes a menudo reflejan reglas comerciales. Si la minería de datos “descubre”
que las personas que tienen bloqueo de llamadas anónimas también tienen identificador de llamadas,
la razón tal vez sea porque el bloqueo de llamadas anónimo sólo se vende como parte de un paquete
de servicios que también incluye identificador de llamadas. Si la minería de datos “descubre” que los
acuerdos de mantenimiento se venden con electrodomésticos grandes (como descubrió Sears una
vez), es porque los acuerdos de mantenimiento casi siempre se venden después del electrodoméstico.
Estos patrones no sólo no son interesantes, sino que su fuerza puede oscurecer patrones menos
obvios pero más procesables.
Aprender cosas que ya se saben tiene un propósito útil. Demuestra que, a
nivel técnico, las técnicas de extracción de datos están funcionando y los
datos son razonablemente precisos. Esto puede ser reconfortante, aunque no útil.
Cuando las técnicas de minería de datos son lo suficientemente potentes como para descubrir cosas
que se sabe que son ciertas, hay motivos para creer que también pueden descubrir patrones más
útiles.
Aprender cosas que no se pueden usar

La minería de datos puede descubrir relaciones que son verdaderas y previamente
desconocidas, pero que aún son difíciles de utilizar. A veces el problema es regulatorio.
Los patrones de llamadas inalámbricas de un cliente pueden sugerir una afinidad por ciertos
paquetes de larga distancia de línea fija, pero es posible que una empresa que proporcione
ambos servicios no pueda aprovechar este hecho debido a restricciones legales. De manera
similar, el historial crediticio de un cliente puede predecir futuras reclamaciones de seguros,
pero los reguladores pueden prohibir tomar decisiones de suscripción basadas en dicha
información . O, en lo que se está convirtiendo en un ejemplo cada vez más frecuente, el
material genético de una persona puede sugerir propensión a ciertas enfermedades, una
característica que las compañías de seguros en Estados Unidos y la mayoría de los países
europeos tienen prohibido utilizar.
Otras veces, la minería de datos revela que resultados importantes están fuera del control
de la empresa. Un producto puede ser más apropiado para unos climas que para otros, pero es
difícil cambiar el clima. El servicio de telefonía móvil puede ser peor en algunas regiones por
razones topográficas, pero eso también es difícil de cambiar.
SUGERENCIA Un estudio sobre la deserción de clientes puede mostrar que un fuerte

predictor de la salida de los clientes es la forma en que fueron adquiridos. Es demasiado tarde
para volver atrás y cambiar eso para los clientes existentes, pero eso no hace que la
información sea inútil. La deserción futura se puede reducir cambiando la combinación de
canales de adquisición para favorecer aquellos que atraen clientes más duraderos.
Los mineros de datos deben tener cuidado de mantenerse alejados de Escila, que aprende
cosas que no son ciertas, y de Caribdis, que no aprende nada útil. Las metodologías expuestas
en el Capítulo 5 y el Capítulo 12 están diseñadas para garantizar que los esfuerzos de minería
de datos conduzcan a modelos estables que aborden con éxito los problemas comerciales.
Estilos de minería de datos
El Capítulo 1 dice que la minería de datos implica la "exploración y análisis de grandes

cantidades de datos para producir resultados significativos". Esa es una definición bastante amplia.
nición para cubrir muchos enfoques diferentes. Estos vienen en tres estilos principales:
n Prueba de hipótesis
n Minería de datos dirigida
n Minería de datos no dirigida
En las pruebas de hipótesis, el objetivo es utilizar datos para responder preguntas o lograr
comprensión . En la minería de datos dirigida, el objetivo es construir un modelo que explique o
prediga una o más variables objetivo particulares. En la minería de datos no dirigida, el objetivo
es encontrar patrones generales que no estén vinculados a un objetivo en particular. Durante
Durante el curso de un proyecto de minería de datos, es posible que dedique tiempo a trabajar en
cualquiera o todos estos estilos dependiendo de la naturaleza del problema y su familiaridad con
los datos.
Aunque los tres estilos de minería de datos tienen algunas diferencias técnicas, también
tienen mucho en común. Muchos de los temas discutidos en el Capítulo 5 en el contexto de la
minería de datos dirigida también son importantes para probar hipótesis y encontrar patrones.
De hecho, los primeros tres pasos de la metodología de minería de datos dirigida (traducir un
problema de negocios en un problema de minería de datos, seleccionar los datos apropiados y
conocerlos) también podrían cubrirse en este capítulo.
Evaluación de la hipótesis
La prueba de hipótesis es parte de casi todos los esfuerzos de minería de datos. Los mineros
de datos a menudo van y vienen entre enfoques, primero pensando posibles explicaciones para
el comportamiento observado (a menudo con la ayuda de expertos en negocios) y dejando que
esas hipótesis dicten los datos a analizar, y luego dejando que los datos sugieran nuevas
hipótesis para probar.
Una hipótesis es una explicación propuesta cuya validez se puede probar analizando
datos. Estos datos pueden recopilarse simplemente mediante observación o generarse
mediante un experimento, como una campaña de marketing de prueba. Las pruebas
de hipótesis a veces revelan que los supuestos que han guiado las acciones de una
empresa son incorrectos. Por ejemplo, la publicidad de una empresa se basa en una
serie de hipótesis sobre el mercado objetivo de un producto o servicio y la naturaleza
de las respuestas. Vale la pena comprobar si estas hipótesis se ven confirmadas por
las respuestas reales.
Dependiendo de las hipótesis, esto puede significar interpretar un valor único devuelto por
una consulta simple, explorar una colección de reglas de asociación generadas por el análisis
de la canasta de mercado, determinar la importancia de una correlación encontrada mediante
un modelo de regresión o diseñar un modelo controlado. experimento. En todos los casos, es
necesario un pensamiento crítico cuidadoso para asegurarse de que el resultado no esté
sesgado de manera inesperada. La evaluación adecuada de los resultados de la minería de
datos requiere conocimientos tanto analíticos como comerciales. Cuando estos no están
presentes en la misma persona, hacer un buen uso de la nueva información requiere una cooperación interfuncion
Por su naturaleza, la prueba de hipótesis es ad hoc, pero el proceso tiene algunos pasos
identificables , el primero y más importante de los cuales es generar buenas hipótesis para probar.
Luego viene encontrar o generar datos para confirmar o refutar las hipótesis.
Generando hipótesis
La clave para generar hipótesis es obtener aportaciones diversas de toda la
organización y, cuando corresponda, también de fuera de ella. Los externos pueden
cuestionar cosas que los internos dan por sentado, tal vez proporcionando información valiosa.
conocimiento. A menudo, todo lo que se necesita para que las ideas comiencen a fluir
es una declaración clara del problema en sí, especialmente si es algo que no se ha
reconocido previamente como tal.
Más a menudo de lo que uno podría suponer, los problemas pasan desapercibidos porque
no son capturados por las métricas utilizadas para evaluar el desempeño. Si una empresa
siempre ha medido su fuerza de ventas en función del número de nuevas ventas realizadas
cada mes, es posible que los vendedores nunca hayan pensado mucho en la cuestión de
cuánto tiempo permanecen activos los nuevos clientes o cuánto gastan en el transcurso de
su relación. Sin embargo, cuando se les hacen las preguntas correctas, la fuerza de ventas
puede tener conocimientos sobre el comportamiento del cliente que el marketing, con su
mayor distancia del cliente, no ha pasado por alto.
El objetivo es generar ideas que sean comprobables y viables. Considerar
las siguientes hipótesis:
n La mayoría de los clientes que aceptan una oferta de retención se quedarían de todos modos.
n Las familias con hijos en edad de escuela secundaria tienen más probabilidades que otras de responder a
una oferta de línea sobre el valor líquido de la vivienda.
n Los clientes que compran tipos de productos más distintos tienen mayores
gasto.
Todas estas proposiciones pueden ser ciertas o no, y en cada caso, conocer la respuesta
sugiere alguna acción concreta. Si la primera hipótesis es cierta, dejar de gastar dinero para
retener a los clientes que no corren el riesgo de irse o encontrar una mejor manera de dirigir
las ofertas de retención a los clientes que realmente se van a ir. Si la segunda hipótesis es
cierta, continúe el enfoque de marketing actual en este grupo. Si la tercera hipótesis es
correcta, anime a los vendedores a realizar más ventas cruzadas.
Probar hipótesis utilizando datos existentes

A menudo es posible probar una nueva hipótesis buscando evidencia en datos históricos
existentes. Por ejemplo, un fabricante de dispositivos médicos vendidos a hospitales tenía la
hipótesis de que los clientes que compraban productos en varias categorías tendían a gastar
más. Como primer paso, observaron las ventas promedio por número de productos distintos
y elaboraron el gráfico que se muestra en la Figura 33.
El gráfico muestra claramente que los clientes que compran muchos tipos de productos
generan sustancialmente más ingresos por cliente, pero no muestra hasta qué punto las
ventas cruzadas generan ingresos adicionales. Las instituciones más grandes naturalmente
gastan más y tal vez también sean más propensas a necesitar productos de múltiples
categorías. Quizás los altos ingresos y las múltiples categorías de productos estén impulsados
por el tamaño del cliente, algo que no está bajo el control de la empresa. Ésa también es una
hipótesis comprobable: agrupar a los clientes por tamaño y tipo y buscar una relación entre
los distintos productos y los ingresos dentro de cada grupo.
Ventas promedio por cliente

700 $21.000.000
600 $18.000.000
500 $15.000.000
400 $12.000.000
Numero
clientes
de
300 $9.000.000
200 $6.000.000
100 $3.000.000
0 $0
0 5 10 15 20 25 30 35 40
Número de productos por cliente

Figura 33: Los clientes que compran más tipos de productos gastan más dinero.
Poner a prueba creencias arraigadas puede ser más difícil porque los datos históricos reflejan
cualquier suposición que se haya hecho en el pasado. Si las familias con hijos de secundaria
siempre han sido el objetivo de un producto en particular, este hecho se reflejará en tasas de
adopción más altas para esas familias. Esto no prueba que sean el segmento más receptivo;
algún otro grupo, como los propietarios de pequeñas empresas, podría haber respondido aún
más. En tales casos, es aconsejable realizar un experimento controlado.
Pequeños cambios en qué y cómo se recopilan los datos pueden aumentar considerablemente
su valor para el análisis. Por ejemplo, utilice diferentes direcciones web o números de teléfono en
diferentes anuncios y realice un seguimiento de cómo llega cada respuesta.
CONSEJO Cada vez que una empresa solicita una respuesta de sus clientes, ya sea a
través de publicidad o una forma de comunicación más directa, tiene la oportunidad
de recopilar información. Pequeños cambios en el diseño de la comunicación,
como incluir una forma de identificar el canal cuando responde un cliente potencial,
pueden aumentar considerablemente el valor de los datos recopilados.
Pruebas de hipótesis y experimentación.

Aunque muchas hipótesis pueden contrastarse con datos históricos, muchas no.
Tomemos la hipótesis de que las personas que aceptaron una oferta de retención se habrían
quedado con o sin el incentivo adicional. Los datos históricos describen quién recibió la oferta,
quién aceptó la oferta y quién terminó quedándose, pero a menos que la campaña se haya
configurado como un experimento adecuado con un grupo de control, no responde a la pregunta
de qué habría pasado si la oferta hubiera sido aceptada. no se ha hecho. Esta pregunta no puede
responderse comparando la retención de quienes recibieron la oferta y quienes no, porque es casi
seguro que los dos grupos difieren de manera sistemática.
Si la oferta se dirigió a clientes considerados con alto riesgo de abandono, entonces las
personas que no recibieron la oferta pueden tener una mejor retención incluso si la oferta
realmente salvó a una gran cantidad de clientes. Por otro lado, si la oferta fue dirigida a
clientes considerados particularmente valiosos, es posible que tengan una mejor retención
que los no destinatarios por razones que no tienen nada que ver con la oferta. Una prueba
válida de la efectividad del programa requiere comparar dos grupos de clientes que sean
similares en todos los aspectos excepto en el objeto que se está probando. Es posible que
datos como esos no se produzcan de forma natural, por lo que hay que diseñar un experimento
para generarlos . El diseño y análisis experimental es un campo amplio en estadística. Esta
sección cubre algunos puntos clave sobre aspectos específicos comunes a las pruebas de marketing.
Prueba y control
El diseño experimental más básico implica la creación de dos grupos. Uno, conocido
como grupo de prueba o grupo de tratamiento, recibe algún tipo de tratamiento, como un
correo electrónico o una llamada telefónica. El otro grupo, conocido como grupo de
control, no recibe el tratamiento. Los dos grupos se eligen para que sean lo más similares
posible: la misma edad promedio, el mismo ingreso promedio, la misma distribución de
hombres y mujeres, la misma distribución de antigüedad de los clientes, etc. Esto puede
parecer laborioso, pero no lo es. Básicamente, elija un grupo general y luego divídalo
aleatoriamente en el grupo de prueba y el de control. Siempre que los grupos de prueba
y control sean lo suficientemente grandes, las leyes de probabilidad aseguran que los
grupos sean similares entre sí (y con toda la población). Si desea asegurarse de que los
grupos sean representativos de ciertos rasgos clave (por ejemplo, sexo y tenencia),
clasifique la población por estos campos y tome uno de cada enésimo registro para el grupo de control.
Después del experimento, cualquier diferencia significativa entre los grupos puede
atribuirse con seguridad al tratamiento. El capítulo 4 explica el concepto de significancia
estadística y cómo probarlo.
Pruebas A/B
Una prueba A/B compara dos (o posiblemente más) tratamientos. Los clientes se asignan
aleatoriamente al grupo A o al grupo B. Los dos grupos reciben tratamientos diferentes ,
como diferentes mensajes publicitarios, diseños de páginas web, precios u opciones de pago.
Las empresas con orientación analítica ejecutan rutinariamente pruebas A/B para determinar
el efecto incluso de cambios aparentemente menores, porque los cambios pequeños pueden
tener efectos grandes e inesperados.
Una empresa minorista en línea descubrió que agregar un cuadro donde los clientes
podían ingresar un código de cupón de descuento reducía la proporción de clientes que
realizaban compras en un significativo 6,5 por ciento. La mayoría de los compradores no
tenían cupones y aparentemente la invitación a proporcionar un código de descuento hizo
que las personas sin uno pensaran que estaban obteniendo un mal trato. Quizás se animó a
estos compradores a buscar un cupón en Google, posiblemente encontrando un mejor precio en el proceso.
Las pruebas A/B generalmente se asocian con el marketing directo y la venta
minorista basada en la web porque en estos entornos se controla qué clientes obtienen
qué mensajes es relativamente simple. Las pruebas A/B también son útiles para tipos de
publicidad menos dirigidos, como vallas publicitarias, radio y televisión. El truco consiste en
ejecutar diferentes campañas en mercados similares. Estas pruebas se denominan pareadas.
pruebas, porque dependen de que pares de mercados diferentes (o ubicaciones de
tiendas o lo que sea) sean lo más similares posible para fines de prueba. La mitad de
la pareja recibe el tratamiento y la otra mitad es el control. El capítulo 9 analiza las
pruebas pareadas con más detalle.
Pruebas de campeón/retador
Una forma común de prueba A/B compara un nuevo tratamiento, el retador, con el tratamiento
existente, el campeón. Esta idea se aplica a menudo a los modelos de minería de datos utilizados
para puntuar a los clientes. El nuevo modelo no debería adoptarse hasta que se demuestre que
es mejor que el antiguo.
Amazon.com es particularmente experto en esta forma de pruebas A/B. Todo lo que
aparece en su sitio web, desde la ubicación de las reseñas y descripciones de productos hasta
la cantidad de comentarios de los usuarios y palabras clave, se ha probado con el mejor
diseño "campeón". En el entorno en vivo de Amazon, los visitantes del sitio web son elegidos
al azar para que el grupo de prueba vea un diseño modificado. Después de unas horas o días,
se han recopilado suficientes datos para sugerir si las modificaciones probadas al diseño
producen mayores o menores ventas que el campeón.
Si las mejoras son significativas, la prueba se convierte en el nuevo campeón.
Estudio de caso sobre pruebas de hipótesis: medir lo incorrecto

Esta es una historia sobre una empresa que fabrica software de recomendación para sitios
web de venta minorista. Sus clientes, los minoristas, dejan algunas áreas en blanco en
determinadas páginas web, como las páginas de productos, el carrito de compras y las
páginas de pago. El software de recomendación proporciona recomendaciones de productos
para completar los espacios en blanco cuando los clientes compran en el sitio. Cuando un
cliente compra el artículo recomendado, la empresa de software cobra una comisión. El
objetivo, por supuesto, es aumentar las ventas generales en el sitio, lo que beneficia a los
minoristas y les anima a seguir utilizando el software de recomendación.
La empresa de software tenía un enigma: según todas sus métricas, sus recomendaciones
mejoraban año tras año. Más clientes hacían clic y compraban los artículos recomendados.
Sin embargo, los minoristas se quejaron de que los ingresos no estaban aumentando tanto
como se esperaba. En algunas pruebas comparativas, el sofisticado software de recomendación
no funcionó tan bien como las simples reglas generales desarrolladas por los clientes.
Este no es un problema bien planteado para la minería de datos dirigida. ¿Cuál es la

variable objetivo? Tampoco es un buen candidato para la búsqueda de patrones no dirigidos;
el patrón es demasiado claro. Es un ajuste perfecto para la prueba de hipótesis. El trabajo del
minero de datos consistía en hacer una lluvia de ideas sobre lo que podría estar yendo mal y
luego probar las hipótesis resultantes.
La empresa de software se acercó a Data Miners (la empresa de consultoría fundada por los
autores) para ayudar a resolver este enigma. Recibimos datos de una prueba A/B que arrojó
resultados decepcionantes. En una prueba A/B, la mitad de los compradores fueron seleccionados
al azar para recibir recomendaciones de la empresa, mientras que la otra mitad recibió
recomendaciones competitivas del minorista. Estos datos incluían una tabla de líneas de pedido
con detalles sobre cada artículo, como su precio, categoría de producto y, en los casos en que el
comprador había hecho clic en una recomendación para el producto, un ID de clic. Para cada clic,
una tabla de clics mostraba cuál de varios algoritmos de recomendación había generado la
recomendación y qué artículo había estado mirando el comprador cuando se hizo la recomendación.
Utilizando consultas SQL simples, descubrimos que los clientes del lado de la prueba de
nuestro cliente efectivamente hicieron clic en más recomendaciones y, en ambos lados de la
prueba, los clientes que hicieron clic tenían más probabilidades de realizar una compra. Más
compras deberían significar más dinero. Y más dinero debería significar que los minoristas están contentos.
¿Cómo podría perder el lado A, el lado de nuestro cliente, dadas estas métricas? La primera
pista fue que el precio medio de los artículos en los que se hacía clic era más bajo en el lado A
que en el lado B. Nuestra primera hipótesis era que A recomendaba una combinación de productos
diferente a la de B, pero eso se refutó fácilmente. Seguimos probando otras hipótesis hasta que
encontramos dos que, en conjunto, explicaban lo que estaba pasando:
n Las recomendaciones del equipo A produjeron más sustituciones y menos

ventas cruzadas.
n Muchas de las recomendaciones de la parte A fueron ventas a la baja.
Las ventas cruzadas se producen cuando los consumidores compran productos recomendados
además de los productos que ya están considerando, lo que da como resultado una compra total mayor.
Una sustitución es cuando los consumidores compran productos recomendados
en lugar de los originales. Una venta cruzada es más valiosa para el minorista
porque aumenta la cantidad que gasta el cliente. Sin embargo, la comisión de
nuestro cliente sólo se basaba en si el consumidor final compraba o no su recomendación.
El minorista diseñó sus recomendaciones para generar ventas cruzadas. Cuando recomendó
sustituciones, el producto recomendado casi siempre fue algo más caro: ventas adicionales. En
comparación, las recomendaciones de nuestros clientes fueron, en promedio, rebajas.
Nuestra conclusión fue que nuestro cliente había estado midiendo algo incorrecto. Sus
recomendaciones "mejoraron" con el tiempo en el sentido de atraer más clics, pero los clics no
son útiles por sí solos. La forma más sencilla de atraer clics es mostrar a los compradores
sustitutos más baratos de los artículos que buscan. Este comportamiento generó comisiones para
nuestro cliente, pero (sin darse cuenta) a expensas del minorista que terminó vendiendo un
artículo más barato y pagando una comisión por el privilegio. Recomendamos que la empresa de
software cambiara su estructura de comisiones para que fuera recompensada por ingresos
incrementales en lugar de por clics: un resultado valioso de la extracción de datos mediante
pruebas de hipótesis.
Minería de datos dirigida

La minería de datos dirigida es otro estilo de minería de datos. La minería de datos dirigida se
centra en una o más variables que son objetivos, y los datos históricos contienen ejemplos de
todos los valores objetivo. En otras palabras, la minería de datos dirigida no busca cualquier
patrón en los datos, sino patrones que expliquen los valores objetivo. Un ejemplo muy típico es el
modelado de retención. Los datos históricos contienen ejemplos de clientes que están activos y
otros que se han detenido.
El objetivo de la minería de datos dirigida es encontrar patrones que diferencien entre los factores
que hacen que los clientes se vayan y los que se queden.
En estadística, el término modelado predictivo se utiliza a menudo para la extracción de datos dirigida.
En opinión de los autores, este es un nombre un poco inapropiado, porque aunque el modelado
predictivo es definitivamente un aspecto de la minería de datos dirigida, también tiene otros
aspectos . El Capítulo 5 diferencia entre modelos predictivos y modelos de perfiles, basándose en
la relación temporal entre la variable objetivo y los insumos.
El modelado predictivo es específicamente cuando el objetivo proviene de un período de tiempo
posterior a las entradas; El modelado de perfi les es específi ca cuando el objetivo y los insumos
provienen del mismo período de tiempo.
Minería de datos no dirigida

La minería de datos no dirigida es un estilo de minería de datos que no utiliza una variable
objetivo, al menos no explícitamente. En la minería de datos dirigida, diferentes variables
desempeñan diferentes roles. Las variables objetivo son los objetos de estudio; el resto de
variables se utilizan para explicar o predecir los valores de los objetivos. En la minería de datos
no dirigida no existen roles especiales. El objetivo es encontrar patrones generales. Una vez
detectados los patrones , es responsabilidad de la persona interpretarlos y decidir si son útiles.
En realidad, el término no dirigido puede resultar un poco engañoso. Aunque no se utiliza

ninguna variable objetivo , aún se deben abordar los objetivos comerciales. Los objetivos
comerciales abordados por la minería de datos no dirigida pueden parecer tan dirigidos como
cualquier otro objetivo; "Encontrar ejemplos de fraude" es un ejemplo de un objetivo empresarial
que podría requerir una extracción de datos dirigida o no dirigida, dependiendo de si los datos de
capacitación contienen transacciones fraudulentas identificadas. Un enfoque dirigido buscaría
nuevos registros que sean similares a casos que se sabe que son fraudulentos. Un enfoque no
dirigido buscaría nuevos registros que sean inusuales.
El aumento del tamaño medio de los pedidos es otro ejemplo de un objetivo empresarial que
podría abordarse mediante la extracción de datos no dirigida. Las reglas de asociación, una
técnica de extracción de datos no dirigida, revelan patrones sobre qué artículos se venden juntos
con frecuencia. Esta información podría utilizarse para aumentar el tamaño de los pedidos
mediante la mejora de las ventas cruzadas.
A veces, los objetivos comerciales en sí pueden ser un poco vagos y el esfuerzo de
extracción de datos es una forma de perfeccionarlos. Por ejemplo, una empresa podría tener un objetivo
de desarrollar servicios especializados para diferentes segmentos de clientes sin tener una idea
clara de cómo se deben segmentar los clientes. La agrupación en clústeres, una técnica de
extracción de datos no dirigida, podría utilizarse para descubrir segmentos de clientes. El estudio
de los segmentos podría arrojar información sobre lo que tienen en común los miembros del
segmento, lo que a su vez podría sugerir necesidades comunes que un nuevo producto podría abordar.
Metas, tareas y técnicas

Un consultor de minería de datos que los autores conocen dice que vive con el temor de que sus clientes
lean un artículo de revista que mencione alguna técnica particular de minería de datos por su nombre. Cuando
un vicepresidente de marketing empieza a preguntar sobre las redes neuronales frente a las máquinas de
vectores de soporte, probablemente sea el momento de restablecer la conversación. La minería de datos
siempre comienza con un objetivo comercial, y el primer trabajo del minero de datos es comprender bien ese
objetivo. Este paso requiere una buena comunicación entre las personas de la alta dirección que establecen
los objetivos y los analistas responsables de traducir esos objetivos en tareas de minería de datos. El
siguiente trabajo es reformular el objetivo empresarial en términos de tareas de minería de datos, y sólo
entonces se seleccionan técnicas particulares de minería de datos.
Objetivos comerciales de la minería de datos
Las aplicaciones de minería de datos del capítulo anterior proporcionan varios buenos ejemplos de objetivos
comerciales:
n Elija los mejores lugares para anunciar.

n Encuentre las mejores ubicaciones para sucursales o tiendas.
n Adquirir clientes más rentables.
n Disminuir la exposición al riesgo de incumplimiento.
n Mejorar la retención de clientes.

n Detectar reclamaciones fraudulentas.
El resto de este libro también contiene muchos ejemplos de minería de datos utilizada en el mundo real para
resolver problemas reales. No todos los objetivos comerciales se prestan directamente a la extracción de
datos; a veces es necesario convertirlos en objetivos comerciales de minería de datos. Para que la minería
de datos tenga éxito, el objetivo empresarial debe estar bien definido y dirigido hacia esfuerzos particulares
que sean susceptibles de análisis utilizando los datos disponibles. Un objetivo empresarial de minería de
datos normalmente se puede expresar en términos de algo mensurable, como ingresos incrementales, tasa
de respuesta, tamaño del pedido o tiempo de espera.
Por supuesto, lograr cualquiera de estos objetivos requiere algo más que la simple extracción de datos, pero
la minería de datos tiene un papel importante que desempeñar. El primer paso es diseñar un sistema de alto nivel.
aproximación al problema. Para adquirir clientes más rentables, puede comenzar por aprender qué
impulsa la rentabilidad de los clientes existentes y luego reclutar nuevos clientes con las características
adecuadas. Disminuir la exposición al riesgo crediticio podría significar predecir cuáles de los clientes
actualmente al día tienen probabilidades de fracasar y reducir preventivamente sus líneas de crédito.
Mejorar la retención de clientes podría centrarse en mejorar la experiencia de los clientes existentes o
en reclutar nuevos clientes con una permanencia esperada más larga. El enfoque de alto nivel sugiere
tareas de modelado particulares.
Tareas de minería de datos
Las tareas de minería de datos son actividades técnicas que pueden describirse independientemente de
cualquier objetivo comercial en particular. Si un objetivo empresarial se adapta bien a la minería de
datos, normalmente se puede formular en términos de las siguientes tareas:
n Preparación de datos para la minería
n Análisis de datos exploratorios
n Modelado de respuesta binaria (también llamado clasificación binaria)
n Clasificación de valores discretos y predicciones

n Estimación de valores numéricos
n Encontrar grupos y asociaciones
n Aplicar un modelo a nuevos datos
Los proyectos de minería de datos suelen implicar varias de estas tareas. Tomemos el
ejemplo de decidir qué clientes incluir en una campaña de marketing directo. El análisis
exploratorio de datos sugiere qué variables son importantes para caracterizar la respuesta
del cliente. Estas variables podrían luego usarse para encontrar grupos de clientes similares.
La asignación de conglomerados de un cliente podría ser una variable explicativa importante en un
modelo de respuesta binaria. Y, por supuesto, el objetivo de crear el modelo es aplicarlo a nuevos datos
que representen a clientes potenciales para calificarlos según su propensión a responder a la campaña.
Preparación de datos para la minería
La preparación de datos para la minería es el tema de los Capítulos 18 al 20. La cantidad de

esfuerzo requerido depende de la naturaleza de las fuentes de datos y los requisitos de técnicas
particulares de minería de datos. Casi siempre se requiere cierta preparación de datos y no es
inusual que la preparación de datos sea la parte que consume más tiempo de un proyecto de
minería de datos. Se requiere cierta preparación de datos para solucionar problemas con los datos
de origen, pero gran parte de ella está diseñada para mejorar el contenido informativo de los
datos. Mejores datos significa mejores modelos.
Normalmente, se deben combinar datos de una variedad de fuentes para formar

una firma de cliente con un registro por cliente y una gran cantidad de campos para
capturar todo lo que sea de interés sobre ellos. Dado que los datos de origen no
suelen estar a nivel del cliente, crear la firma del cliente requiere muchas transformaciones.
Las transacciones deben resumirse de manera útil. Las tendencias en las series temporales pueden
capturarse como pendientes o diferencias. Para las técnicas de minería de datos que funcionan sólo
con números, los datos categóricos deben representarse numéricamente de alguna manera.
Algunas técnicas de minería de datos no pueden manejar los valores faltantes, por lo que los valores
faltantes deben tratarse de alguna manera; lo mismo ocurre con los valores atípicos. Cuando
algunos resultados son raros, puede ser necesario utilizar un muestreo estratificado para equilibrar
los datos. Cuando las variables se miden en diferentes escalas, también puede ser necesario estandarizarlas.
La preparación de datos puede implicar la creación de nuevas variables combinando variables
existentes de manera creativa. También puede implicar reducir el número de variables utilizando
componentes principales y otras técnicas.
Análisis exploratorio de datos

El análisis exploratorio de datos no es un tema importante en este libro, pero no porque pensemos
que carezca de importancia. De hecho, uno de los autores (Gordon) ha escrito un libro que está
dedicado en gran medida a esta tarea de minería de datos: Análisis de datos utilizando SQL.
y Excel. El producto del análisis exploratorio de datos puede ser un informe o una colección de
gráficos que describan algo de interés. El análisis de datos exploratorio también se puede utilizar
para agregar nuevas medidas y variables a los datos.
La creación de perfiles es un enfoque familiar para muchos problemas y no necesita involucrar
ningún algoritmo sofisticado de extracción de datos. Los perfiles suelen basarse en variables
demográficas, como la ubicación geográfica, el sexo y la edad. Como la publicidad se vende de
acuerdo con estas mismas variables, los perfiles demográficos pueden convertirse directamente en
estrategias de medios. Se utilizan perfiles simples para fijar las primas de seguros. Un hombre de
17 años paga más por un seguro de automóvil que una mujer de 60 años. De manera similar, el
formulario de solicitud de una póliza de seguro de vida temporal simple pregunta sobre la edad, el
sexo y el tabaquismo, y no mucho más.
Por muy potente que sea, la elaboración de perfiles tiene serias limitaciones. Uno es la
incapacidad de distinguir causa y efecto. Mientras el perfil se base en variables demográficas
conocidas, esto no se nota. Si los hombres compran más cerveza que las mujeres, no tenemos que
preguntarnos si el consumo de cerveza podría ser la causa de la masculinidad. Podemos asumir
con seguridad que el vínculo es entre los hombres y la cerveza y no
viceversa.
Con los datos conductuales, la dirección de la causalidad no siempre es tan clara. Considere un
par de ejemplos de proyectos reales de minería de datos:
n Las personas que han comprado certificados de depósito (CD) tienen poco o ningún dinero
en sus cuentas de ahorro.
n Los clientes que utilizan el correo de voz realizan muchas llamadas cortas a su propio número.
No guardar dinero en una cuenta de ahorros es un comportamiento común entre los poseedores de
CD, del mismo modo que ser hombre es una característica común de los bebedores de cerveza. Las
empresas cerveceras buscan hombres para comercializar su producto, entonces, ¿deberían los
bancos buscar personas sin dinero ahorrado para venderles certificados de depósito? ¡Probablemente no!
Presumiblemente, los titulares de CD no tienen dinero en sus cuentas de ahorro porque usaron
ese dinero para comprar CD. Una razón más común para no tener dinero en una cuenta de
ahorros es no tener dinero, y las personas sin dinero no son buenas perspectivas para cuentas
de inversión. De manera similar, los usuarios de correo de voz llaman tanto a su propio número
porque en este sistema en particular esa es una forma de consultar el correo de voz. El patrón
es inútil para encontrar usuarios potenciales.
Modelado de respuesta binaria (clasificación binaria)

Muchos objetivos comerciales se reducen a separar dos categorías entre sí: los buenos de los
malos, las ovejas de las cabras o (a riesgo de ser sexistas y discriminatorios por edad) los
hombres de los niños. En una campaña de marketing directo los buenos responden y los malos
no. Cuando se concede crédito, los buenos pagan lo adeudado y los malos incumplen. Cuando
se presentan reclamaciones, las buenas son válidas y las malas son fraudulentas. Existen
técnicas, como la regresión logística, que están especializadas para este tipo de modelos de sí o
no.
Dependiendo de la aplicación, la puntuación del modelo de respuesta puede ser la etiqueta de
clase misma o una estimación de la probabilidad de estar en la clase de interés. Una compañía de
tarjetas de crédito que quisiera vender espacio publicitario en sus sobres de facturación a un
fabricante de botas de esquí podría construir un modelo de clasificación que colocara a todos sus
titulares de tarjetas en una de dos clases, esquiadores o no esquiadores. Más típicamente,
asignaría a cada titular de la tarjeta una puntuación de propensión a esquiar. Cualquier persona
con una puntuación mayor o igual a algún umbral se clasifica como esquiador, y cualquiera con
una puntuación inferior se considera no esquiador.
El enfoque de estimación tiene la gran ventaja de que los registros individuales se
pueden ordenar según la estimación. Para ver la importancia de esto, imaginemos que
la empresa de botas de esquí ha presupuestado un envío por correo de 500.000 piezas.
Si se utiliza el enfoque de clasificación y se identifican 1,5 millones de esquiadores, entonces
simplemente se podría colocar el anuncio en las facturas de 500.000 personas seleccionadas al
azar de ese grupo. Si, por el contrario, cada titular de la tarjeta tiene una puntuación de propensión
a esquiar, podrá contactar con los 500.000 candidatos más probables.
Clasificación
La clasificación, una de las tareas de minería de datos más comunes, parece ser un imperativo
humano. Para comprender y comunicarnos sobre el mundo, estamos constantemente clasificando,
categorizando y calificando. Dividimos los seres vivos en filos, especies y géneros; materia en
elementos; perros en razas; gente en carreras; filetes y jarabe de arce en grados USDA.
La clasificación consiste en asignar un objeto recién presentado a una de un conjunto

de clases predefinidas. La tarea de clasificación se caracteriza por una definición bien
definida de las clases y un conjunto de modelos que consta de ejemplos preclasificados.
La tarea es construir un modelo de algún tipo que pueda aplicarse a datos no clasificados para
clasificarlos.
Ejemplos de tareas de clasificación que se han abordado utilizando las técnicas
descritos en este libro incluyen:
n Clasificar a los solicitantes de crédito como de riesgo bajo, medio o alto.
n Elegir el contenido que se mostrará en una página web
n Determinar qué números de teléfono corresponden a máquinas de fax, cuáles a líneas de

voz y cuáles son compartidos.
n Detectar reclamaciones de seguros fraudulentas
n Asignación de códigos industriales y designaciones de puestos de trabajo sobre la base de descripciones

de puestos de texto libre
En todos estos ejemplos, hay un número limitado de clases y la tarea es asignar cualquier registro
a una u otra de ellas.
Estimacion
La clasificación se ocupa de resultados discretos: sí o no; sarampión, rubéola o varicela . La

estimación se ocupa de resultados valorados continuamente. Dados algunos datos de entrada, la
estimación arroja un valor para alguna variable continua desconocida , como ingresos, tamaño del
pedido o saldo de la tarjeta de crédito.
Ejemplos de tareas de estimación incluyen:
n Estimación del ingreso total del hogar de una familia
n Estimar el valor de por vida de un cliente
n Estimar el valor en riesgo si un cliente incumple

n Estimar la probabilidad de que alguien responda a una transferencia de saldo
solicitación
n Estimar el tamaño del saldo a transferir
El producto de las estimaciones creadas en los dos últimos puntos es el valor esperado de la
oferta de transferencia de saldo. Si el valor esperado es menor que el costo de hacer la oferta, no
se debe realizar la licitación.
Encontrar agrupaciones, asociaciones y grupos de afinidad
Determinar qué cosas van juntas en un carrito de compras en el supermercado y encontrar grupos
de compradores con hábitos de compra similares son ejemplos de minería de datos no dirigida.
Los productos que tienden a venderse juntos se llaman
Los grupos de afinidad y los clientes con comportamientos similares comprenden segmentos de mercado.
Los minoristas pueden utilizar agrupaciones por afinidad para planificar la disposición de los artículos en los
estantes de las tiendas o en un catálogo, de modo que los artículos que a menudo se compran juntos se
vean al mismo tiempo. El personal de marketing puede diseñar productos y servicios para atraer a segmentos
particulares.
La agrupación por afinidad es un método sencillo para generar reglas a partir de datos.
Si dos elementos, por ejemplo comida para gatos y arena para gatos, aparecen juntos con suficiente
frecuencia, puedes pensar en cómo utilizar esta información en campañas de marketing. También plantea
otra cuestión: ¿qué es lo que los clientes no compran y que deberían comprar? Un cliente que compra
mucha arena para gatos también debería comprar comida para gatos: ¿dónde la consigue?
La agrupación es la tarea de segmentar una población heterogénea en una serie

de subgrupos o conglomerados más homogéneos. Lo que distingue la agrupación de
la clasificación es que la agrupación no se basa en clases predefinidas. En la
clasificación, a cada registro se le asigna una clase predefinida sobre la base de un
modelo desarrollado mediante entrenamiento con ejemplos preclasificados.
En la agrupación, no hay clases predefinidas ni ejemplos. Los registros se agrupan según la autosimilitud.
Depende del usuario determinar qué significado, si corresponde, asignar a los grupos resultantes. Los
grupos de síntomas pueden indicar diferentes enfermedades. Los grupos de atributos de los clientes pueden
indicar diferentes segmentos del mercado.
La agrupación es a menudo el preludio de alguna otra forma de extracción o modelado de datos . Por
ejemplo, la agrupación podría ser el primer paso en un esfuerzo de segmentación del mercado: en lugar de
tratar de encontrar una regla única para “a qué tipo de promoción responden mejor los clientes”, primero
divida el Divida su base de clientes en grupos o personas con hábitos de compra similares y luego pregunte
qué tipo de promoción funciona mejor para cada grupo. Los capítulos 13 y 14 cubren en detalle las técnicas
para la detección de conglomerados.
Aplicar un modelo a nuevos datos

Muchas de las tareas enumeradas anteriormente suelen implicar la aplicación de un modelo a datos nuevos.
Esto no es cierto para el análisis exploratorio de datos, y puede ser cierto o no para el agrupamiento, pero
para el modelado, la clasificación y la estimación de respuestas binarias, los datos utilizados para crear el
modelo contienen valores conocidos de la variable objetivo. Una razón para aplicar un modelo a datos cuyo
valor objetivo ya se conoce es evaluar el modelo. Una vez implementado el modelo, su propósito es calificar
nuevos datos donde se desconoce la probabilidad de respuesta, clase o valor a estimar .
Aplicar un modelo a datos nuevos se llama puntuación. Los datos a calificar deben contener
todas las variables de entrada requeridas por el modelo junto con un identificador único para cada
fila. El resultado de la puntuación es una nueva tabla con al menos dos columnas: el identificador
y la puntuación.
Técnicas de minería de datos

El título de este libro comienza con “Técnicas de minería de datos” y la mayoría de
los capítulos describen técnicas individuales.
En muchos casos, la minería de datos se logra mediante la construcción de modelos.
En un sentido de la palabra, un modelo es una explicación o descripción de cómo funciona
algo que refleja la realidad lo suficientemente bien como para poder utilizarlo para hacer
inferencias sobre el mundo real. Sin darnos cuenta, el ser humano utiliza modelos todo el
tiempo. Cuando ves dos restaurantes y decides que el de manteles blancos y flores reales
en cada mesa es más caro que el de mesas de fórmica y flores de plástico, estás haciendo
una inferencia basada en un modelo que llevas en la cabeza basado en tu experiencia
pasada. Cuando te dispones a caminar hacia uno de los restaurantes, vuelves a consultar
un modelo mental de la ciudad.
En un sentido más técnico de la palabra, un modelo es algo que utiliza datos para
clasificar cosas, hacer predicciones, estimar valores o producir algún otro resultado útil.
Como se muestra en la Figura 34, prácticamente cualquier cosa que pueda aplicarse a
los datos para producir una puntuación de algún tipo se ajusta a la definición de modelo.
Modelo Producción
Entradas Figura 34: Los modelos toman una entrada y producen una salida.
Un modelo de minería de datos tiene dos propósitos. El primer propósito es producir

puntuaciones que pueda utilizar para guiar sus decisiones. El segundo es proporcionar
información sobre la relación entre las variables explicativas utilizadas para construir el
modelo y el objetivo. Dependiendo de la aplicación, uno u otro de estos propósitos puede
ser más importante que el otro.
Las técnicas de minería de datos se dividen en dos categorías: pueden ser dirigidas o
no dirigidas, lo que significa, respectivamente, si las técnicas mismas requieren o no
variables objetivo. Las técnicas dirigidas y no dirigidas no deben confundirse con la
minería de datos dirigida y no dirigida, porque ambos tipos de técnicas se pueden utilizar
para ambos tipos de minería de datos.
Formulación de problemas de minería de datos: de objetivos a

Tareas a técnicas.
Los objetivos comerciales, las tareas de minería de datos y las técnicas de minería de datos
forman una especie de escalera que va de lo general a lo específico y de lo no técnico a lo técnico.
Formular un problema de minería de datos implica descender un escalón por esta escalera.
a la vez; pasando primero de los objetivos comerciales a las tareas de minería de datos y
luego de las tareas de minería de datos a las técnicas de minería de datos. Normalmente,
cada paso requiere la participación de personal diferente con diferentes conjuntos de
habilidades. Establecer y priorizar objetivos es responsabilidad de la alta dirección. Traducir
estos objetivos en tareas de minería de datos y utilizar técnicas de minería de datos para
lograrlos es el papel de los mineros de datos. Reunir los datos necesarios y transformarlos
en una forma adecuada para la minería a menudo requiere la cooperación con los
administradores de bases de datos y otros miembros del grupo de tecnología de la información.
Elegir los mejores lugares para anunciar

Una empresa está intentando llegar a nuevos clientes rentables. ¿Dónde debería mirar?
¿AdWords de Google? ¿Un reality show sobre cocina? ¿Una revista? ¿Si es así, Cuál?
¿Resumen arquitectónico? ¿Gente en español? ¿Piedra rodante?
Muchos factores afectan la decisión, incluido el costo general, el costo por impresión y el
costo por conversión. La minería de datos puede contribuir a la decisión al hacer coincidir la
demografía del vehículo publicitario con la demografía de los mejores clientes. Los datos de
comportamiento de los clientes rentables no ayudan, porque la publicidad se basa únicamente
en datos demográficos.
Un posible enfoque es:
1. Perfilar a los clientes rentables existentes utilizando características

demográficas y geográficas como edad, sexo, ocupación, estado civil y
características del vecindario. Utilice este perfil para definir el cliente rentable prototípico.
2. Defina la audiencia de cada vehículo publicitario potencial utilizando las mismas
variables utilizadas para perfilar a los clientes rentables.
3. Calcule la distancia desde cada canal publicitario hasta el cliente rentable prototípico.
Esta distancia es la puntuación de similitud del canal publicitario; Como en el golf,
cuanto más pequeño, mejor.
4. Publicidad en los locales con menor puntuación.
Este es un ejemplo de un modelo de similitud, que se trata en el Capítulo 6.
Determinar el mejor producto para ofrecer a un cliente

¿Cuál es la mejor próxima oferta para hacerle a un cliente? Esta pregunta es un ejemplo de
venta cruzada que ocurre en muchas industrias.
Hay varias soluciones posibles a este problema, dependiendo, entre otras cosas, del
número de productos a elegir. Si el número de productos es manejablemente pequeño, un
buen enfoque es construir un modelo separado para cada producto de modo que cada cliente
pueda recibir tantas puntuaciones como productos haya, como se muestra en la Figura 35.
La mejor oferta de un cliente es el producto para el que tiene la puntuación más alta
(posiblemente excluyendo los productos que el cliente ya tiene).
1. Para cada producto, cree un modelo de respuesta binaria para estimar la

propensión de los clientes al producto.
2. Establezca la puntuación de propensión en 0 para los clientes que ya tienen un producto.
3. Utilizando los puntajes de propensión, diseñe un procedimiento de decisión que asigne el mejor
producto a cada cliente, basándose en algo como la propensión más alta o el beneficio esperado
más alto.
Las opciones naturales para el Paso 1 incluyen árboles de decisión, redes neuronales y regresión logística.
Producto 1
Producto 2
Comparar puntuaciones
Producto 3
Producto 4 Mejor oferta
Producto 5
Producto 6
Producto 7
Figura 35: Se comparan los puntajes de propensión individuales para cada producto para determinar
la mejor oferta.
Un modelo de respuesta binaria no es el único método para desarrollar puntuaciones de propensión. Otro
método consiste en agrupar los datos utilizando variables de entrada y ver qué productos predominan en
cada grupo. La proporción del conglomerado con un producto determinado se puede asignar como
puntuación de propensión. Este método utilizaría agrupación de kmedias u otra técnica de agrupación.
Encontrar las mejores ubicaciones para sucursales o tiendas
¿Cuáles son las mejores ubicaciones para nuevas tiendas? En este escenario, los datos de
rendimiento de las tiendas existentes están disponibles junto con datos sobre el área de influencia:
el área natural del mercado de donde cada tienda atrae a sus clientes. La idea es encontrar la
combinación de variables explicativas que predice el buen desempeño de una tienda.
Las siguientes tareas de modelado son un enfoque para abordar este problema:
1. Construir un modelo para estimar alguna métrica de desempeño de la tienda en función de las
variables explicativas disponibles para el área de influencia.
2. Aplique el modelo a las ubicaciones candidatas para que se puedan seleccionar las ubicaciones con
la puntuación más alta.
Se trata básicamente de un modelo de estimación, que puede utilizar una variedad de

técnicas, como redes neuronales, regresión o MBR.
Un enfoque alternativo es clasificar las tiendas como buenas o malas y luego construir un
modelo que prediga estos grupos. A menudo, una buena forma de abordar esto es utilizar el
enfoque del medio excluido : la rentabilidad de cada tienda se divide en tercios: alta, media y
baja. Elimine las tiendas “medianas” y construya un modelo para separar las altas de las bajas
(un estudio de caso en el Capítulo 15 adopta este enfoque para encontrar los factores que
distinguen las tiendas en áreas hispanas de aquellas en áreas no hispanas):
1. Clasifique las tiendas existentes como buenas o malas y construya un modelo que pueda
distinguir entre las dos clases.
2. Aplique el modelo a las ubicaciones candidatas para poder seleccionar la buena.
Las posibles variables explicativas incluyen la población a una distancia en automóvil, el número
de competidores a una distancia en automóvil y factores demográficos.
Se trata de un modelo de elaboración de perfiles porque el objetivo es vincular el desempeño
actual con las condiciones actuales. Las técnicas de modelado son las utilizadas para la
clasificación, como la regresión logística, los árboles de decisión y el MBR.
Segmentación de clientes según la rentabilidad futura
Se ha establecido un método para definir la rentabilidad, como los ingresos

totales o los ingresos netos generados por los clientes en el transcurso de un año.
El objetivo es segmentar a los clientes actuales en función de su rentabilidad prevista para el
próximo año.
Hay muchas maneras de abordar los cálculos de rentabilidad. Este enfoque elimina algunas de
las áreas más difíciles, como predecir cuánto tiempo un cliente seguirá siéndolo (y por tanto
decidir sobre las tasas de descuento futuras) y cómo atribuir efectos de red a los clientes.
Para este enfoque, retroceda el reloj un año y tome una instantánea de cada cliente que
estuvo activo en esa fecha. Luego, mida los ingresos totales durante el año siguiente. Este es el
modelo:
1. Prepare los datos para el modelado retrocediendo el reloj un año y tomando una instantánea
de cada cliente que estaba activo en esa fecha. Luego, mida los ingresos totales durante
el año siguiente. Esto crea un conjunto de modelos de predicción.
2. Utilice este conjunto de modelos para estimar cuánto valdrá alguien en el futuro.
el próximo año.
3. Segmentar los ingresos previstos en tercios, para obtener ingresos altos, medios y
bajos ingresos previstos.
El paso 2 requiere construir un modelo de estimación, utilizando una técnica como redes
neuronales, MBR o regresión.
Una ligera variación de este enfoque sería clasificar a los clientes en el modelo establecido
como generadores de ingresos altos, medios o bajos en el próximo año. Para ello se utilizaría un
modelo de clasificación, que podría utilizar árboles de decisión (con un objetivo de tres vías) o tres
modelos de regresión logística (uno para cada uno de los tres grupos).
Disminución de la exposición al riesgo de incumplimiento
El objetivo de este problema empresarial es detectar señales de advertencia de incumplimiento

mientras todavía hay tiempo para tomar medidas para disminuir la exposición. Un método de
detección utiliza un modelo de respuesta binaria, con un objetivo "predeterminado". El conjunto
de modelos es una instantánea de todos los clientes en un momento dado (por ejemplo, el primero
del año) y una bandera que indica si incumplen o no en los tres meses posteriores a la fecha de
la instantánea. Luego se puede calificar a los nuevos clientes con el modelo de respuesta binaria
para predecir su probabilidad de incumplimiento. Quizás a los clientes con altos niveles de
morosidad se les deberían reducir sus líneas de crédito.
Un modelo de respuesta binaria de este tipo podría construirse utilizando una variedad
de técnicas, como la regresión logística, árboles de decisión o redes neuronales. Incluso
podrían utilizarse técnicas no dirigidas, como la agrupación. Cree grupos sobre las
variables de entrada y luego mida la capacidad de los grupos para separar los valores
objetivo. Este es un ejemplo del uso de una técnica no dirigida para un modelo dirigido.
Otro enfoque combina la probabilidad de incumplimiento con el monto del incumplimiento. Este
modelo de dos etapas estima cuánto debería un cliente después de incumplir. El modelo fijado
para ello está formado únicamente por clientes que han incumplido, siendo el objetivo el importe
adeudado. Este modelo se utilizaría para calcular el valor esperado de la pérdida, que es la
probabilidad de incumplimiento multiplicada por el monto estimado adeudado. La estimación del
monto adeudado podría construirse utilizando MBR, redes neuronales, regresión o posiblemente
árboles de decisión.
Otro enfoque más sería tratar esto como un problema de tiempo hasta el evento, estimando
cuándo es probable que un cliente incumpla. En este caso, el conjunto de modelos consta de
todos los clientes, con su fecha de inicio, fecha de finalización y si el cliente incumplió o no. El
modelo estimaría la cantidad de tiempo hasta que un cliente incumpla.
Al calificar a nuevos clientes, si el tiempo estimado de incumplimiento es en un futuro cercano,
entonces se tomarían acciones para mitigar el incumplimiento. Este tipo de modelo normalmente
se construiría mediante análisis de supervivencia.
Mejorar la retención de clientes
Hay muchas formas diferentes de mejorar la retención de clientes:
n Encuentre a los clientes con mayor riesgo de irse y anímelos a quedarse.
n Cuantificar el valor de mejorar las operaciones, para que los clientes se queden.
n Determinar qué métodos de adquisición de clientes generan mejores
clientes.
n Determine qué clientes no son rentables y déjelos irse.
Esta sección sólo analiza el primero de ellos.

La lista de tareas para determinar quién se quedará es similar a la lista de tareas de cualquier
modelo de respuesta binaria. Construya un conjunto de modelos que consta de clientes que se
quedan y se van, y deje que el modelo encuentre los patrones que los distinguen. Esto proporciona
una puntuación modelo que luego puede utilizar para un esfuerzo de retención.
Este tipo de modelo de respuesta binaria se puede construir utilizando muchas técnicas, como
árboles de decisión, redes neuronales, regresión logística y MBR. Un enfoque alternativo sería
estimar la permanencia de los clientes restantes mediante un análisis de supervivencia y aplicar
el mensaje de retención a aquellos clientes con mayor probabilidad de irse en un futuro próximo.
A veces, el resultado más importante de un modelo no son las puntuaciones que produce, sino la
comprensión que se obtiene al examinar el modelo en sí.
El modelo puede explicar si los clientes se van principalmente debido a interrupciones en el servicio,
sensibilidad al precio u otras causas. Sin embargo, esto requiere utilizar una técnica que pueda
explicar sus resultados. Los árboles de decisión y la regresión logística son los mejores de todos en
cuanto a explicabilidad.
Detección de reclamaciones fraudulentas
La traducción de este objetivo en tareas de modelado depende de si se dispone de ejemplos de

fraude conocido. Si es así, esta es una tarea de minería de datos dirigida:
1. Construir un modelo de elaboración de perfiles que sea capaz de distinguir las reclamaciones
fraudulentas de las legítimas.
2. Utilice el modelo para calificar todas las reclamaciones que lleguen. Marque las reclamaciones que obtienen
una puntuación superior a algún umbral para realizar un escrutinio adicional antes de su aprobación.
Los árboles de decisión y la regresión logística probablemente sean técnicas para construir el
modelo de perfilado en el Paso 1.
A veces se sospecha de fraude, pero no está claro qué transacciones son fraudulentas. Esta situación exige
una extracción de datos no dirigida:
1. Forme grupos de afirmaciones similares. La mayoría de las reclamaciones probablemente se agruparán en

unos pocos grupos grandes que representan diferentes tipos de reclamaciones legítimas.
2. Examina los grupos más pequeños para ver qué los hace especiales.
Las afirmaciones de los grupos más pequeños también pueden ser perfectamente legítimas. Todo lo que muestra
el ejercicio de agrupación es que son inusuales. Algunas afirmaciones inusuales resultan ser fraudulentas, por lo
que todas merecen un mayor escrutinio.
UN OBJETIVO, DOS TAREAS: GANAR UN CONCURSO DE MINERÍA DE DATOS
Cada año, los concursantes del mundo académico y de la industria ponen a prueba sus habilidades de
minería de datos en un concurso que se lleva a cabo junto con la conferencia anual KDD (Knowledge
Discovery and Data Mining). Un año, quedó claro que lo que separaba a los ganadores de los perdedores
no eran los algoritmos que utilizaban o el software que empleaban, sino cómo traducían el problema
empresarial en tareas de minería de datos.
El problema empresarial era maximizar las donaciones a una organización benéfica sin fines de lucro.
Los datos eran una base de datos histórica de contribuciones.
La exploración de los datos reveló la primera idea: cuanto más a menudo alguien contribuía,
menos dinero aportaba cada vez. Es bastante razonable esperar que los mejores donantes sean
aquellos que respondan con mayor frecuencia.
Sin embargo, en este caso, la gente parece planificar sus donaciones caritativas anualmente. Podrían
donar una suma global de una sola vez o espaciar sus contribuciones a lo largo del tiempo. Más cheques
no siempre significan más dinero. Esto sugiere que la decisión de hacer una donación es independiente
de la decisión de qué tan grande será la donación. Es muy probable que las dos decisiones estén
influenciadas por diferentes factores. Quizás sea más probable que personas de todos los niveles de
ingresos donen a una organización de veteranos si ellos mismos han servido en el ejército.
Una vez que hayan decidido contribuir, el nivel de ingresos puede influir en el tamaño de las donaciones.
Estos conocimientos llevaron al enfoque ganador, que consistió en modelar la respuesta y el tamaño de la
contribución por separado. El modelo de respuesta se basa en un conjunto de entrenamiento que contiene tanto
contribuyentes como no contribuyentes. Ésta es una tarea de clasificación de resultados binarios.
El modelo de tamaño de contribución se basa en un conjunto de entrenamiento que consta

únicamente de contribuyentes. Esta es una tarea de estimación. La siguiente figura muestra los dos
modelos y cómo se combinan sus resultados para producir un valor de respuesta esperado para cada
cliente potencial.
Los tres proyectos ganadores adoptaron este enfoque de combinar modelos. La mayoría de los
concursantes, por el contrario, construyeron un solo modelo con cantidad
contribuido como objetivo. Estos modelos trataron todo el problema como una tarea de estimación y la falta
de respuesta se representó como una contribución de cero dólares.
Contribución de respuesta de ID de cliente X1 X2 X3

292129 0 A 39.220 1
292130 0 A 39.749 1
292134 0 C 40.052 1
197549 0 A 39.485 1
292137 0 A 39.749 1 Modelo de respuesta basado en todas las filas.
291800 0 A 39.610 1
de datos de entrenamiento:
292138 0 A 39.749 0
332806 0 A 39.860 0
292140 0 A 39.686 1 P(respuesta) = f(X1,X2,X3)
347807 $40 C 40.139 0
292141 1 A 39.749 1
292143 01 $30 C 40.027 0
409542 0 A 40.050 0
292848 0 C 40.012 1
292850 0 C 40.151 1
292851 0 A 39.750 0
292852 0 C 39.997 1
292853 0 A 39,7 50 1
292857 0 A 39.750 1
292859 1 $30 un 39.994 1
292860 0 A 39.750 0
292861 0 A 39.750 0
292862 $30 C 39.859 0
292863 1 C 39.877 1
292864 $40 C 40.071 1
292868 010 A 39.750 0
403246 0 A 0 Modelo de contribución basado en
40.035
292869 $30D 40.132 0 respondedores:
292870 1 C 39.788 0
292871 0 A 39.750 1
292872 A 1
E($|respuesta) = g(X1,X2,X3)
0 39.750
292873 00 C 39.997 1
292874 1 $40 C 40.150 1
292878 0 A 39.750 1
292879 $40 C 40.132 0
292880 $30 C 39, 859 1
292881 1 C 39.879 0
24583 1 A 38.966 0
292884 000 A 39.750 1
126612 1 $40 un 40.016 0
292886 0 A 39.288 1
292887 0 A 39.750 1
292888 $40 un 40.113 0
292889 1 C 39.795 0
390095 0 A 40.000 1
292893 00 A 39.462 1
292894 0 A 40.118 1
292964 0 D 40.138 0
292897 $30 C 39.859 1
292900 1 A 39.750 1
292901 0 C 39.808 1
292902 01 $30 C 39.859 0
292905 0 A 39.750 1
Ambos modelos se aplican a todas las filas.
292908 0 A 39.750 0
de una tabla que describe el potencial
292909 0 A 39.750 1
292911 A 1
contribuyentes. Lo esperado
0 39.750
292913 0 C 39.798 1 La contribución es el producto de la
292914 $30D 40.132 0 dos resultados del modelo:
292915 10 A 39.750 0
292916 0 C 39.812 0
E($) = E*P
292917 0 A 39.750 0
292919 0 A 39.750 1
292920 0 D 40.114 0
Un modelo de dos etapas para el valor esperado de una contribución
¿Qué técnicas para qué tareas?

Puede utilizar todas las técnicas de minería de datos descritas en este libro de forma
creativa para aplicaciones fuera de aquellas con las que se asocian con mayor
frecuencia . Cada familia importante de técnicas tiene un capítulo (o incluso más de uno).
capítulo). Los capítulos de técnicas individuales incluyen ejemplos de cómo aplicar las técnicas para
diversos propósitos. Aun así, algunas técnicas se adaptan mejor a algunas tareas. A la hora de elegir una
técnica, hazte estas preguntas:
n ¿Existe una meta u metas?
n ¿Cómo son los datos objetivo?
n ¿ Cómo son los datos de entrada?
n ¿Qué importancia tiene la facilidad de uso?
n ¿Qué importancia tiene la explicabilidad?
Las respuestas a estas preguntas limitan la elección de técnicas.
¿Existe un objetivo u objetivos?

Todas las técnicas de minería de datos dirigida, incluidas la regresión, los árboles de decisión y las redes
neuronales, requieren entrenamiento con valores conocidos para las variables objetivo.
Cuando los datos no contienen dicho objetivo, se necesita una de las técnicas no dirigidas, como la
agrupación o el análisis de datos exploratorio.
¿Cómo son los datos de destino?

Cuando el objetivo es numérico y puede adoptar una amplia gama de valores, es apropiada una técnica
que produzca valores continuos. Los modelos de regresión lineal pueden producir cualquier valor desde
infinito negativo hasta infinito, al igual que las redes neuronales.
Cuando la tarea es estimar el valor de un objetivo continuo, estas son elecciones naturales.
También se pueden utilizar árboles de regresión y modelos de búsqueda de tablas para
estimar valores numéricos, pero producen un número relativamente pequeño de valores
discretos. El razonamiento basado en la memoria es otra opción para objetivos numéricos
que pueden producir una amplia gama de valores, pero nunca fuera del rango de los datos originales.
Cuando el objetivo es una respuesta binaria o una variable categórica, se requieren técnicas que
produzcan una probabilidad de estar en cada clase. Los árboles de decisión son una opción muy natural
para este tipo de problemas, al igual que la regresión logística y las redes neuronales. Dependiendo de
otros aspectos del problema y de la naturaleza de las entradas, otras técnicas como los modelos de
similitud, el razonamiento basado en la memoria y los modelos bayesianos ingenuos pueden ser buenas
opciones.
¿Cómo son los datos de entrada?

Los modelos de regresión, las redes neuronales y muchas otras técnicas realizan operaciones matemáticas
con los valores de entrada y, por lo tanto, no pueden procesar datos categóricos o valores faltantes. Por
supuesto, es posible recodificar datos categóricos o reemplazar campos categóricos con campos numéricos
que capturen características importantes de las categorías. También es posible ingresar valores faltantes.
Estas operaciones pueden ser
Sin embargo, requiere mucho tiempo e inexactitud. A medida que aumenta el número de campos
categóricos y de campos con valores faltantes, también aumenta el atractivo de los árboles de
decisión, los modelos de búsqueda de tablas y los modelos bayesianos ingenuos, todos los cuales
pueden manejar fácilmente campos categóricos y valores faltantes. Cuando las entradas son
numéricas y no contienen valores faltantes, los modelos de regresión y las redes neuronales
pueden utilizar más información de los datos.
¿Qué importancia tiene la facilidad de uso?
Algunas técnicas requieren mucha más preparación de datos que otras. Por ejemplo, las redes
neuronales requieren que todas las entradas sean numéricas y estén dentro de un pequeño rango
de valores. También son sensibles a los valores atípicos y no pueden procesar los valores faltantes.
Otros, como los árboles de decisión, son mucho más indulgentes y requieren menos preparación de
datos, pero es posible que no funcionen tan bien. A menudo existe un equilibrio entre potencia,
precisión y facilidad de uso. Como ejemplo extremo, los algoritmos genéticos requieren tanto trabajo
por parte del minero que rara vez se utilizan si hay disponible un enfoque alternativo.
Desde que apareció la primera edición de este libro en la década de 1990, las herramientas de
software de minería de datos han logrado grandes avances en el área de la facilidad de uso. Los
mejores proporcionan interfaces de usuario que respaldan las mejores prácticas y hacen que incluso
técnicas complejas, como las redes neuronales, sean relativamente fáciles de usar.
¿Qué importancia tiene la explicabilidad del modelo?
Para algunos problemas, obtener la respuesta correcta rápidamente es primordial. Un cajero

automático moderno que no requiere sobres debe poder reconocer cantidades escritas a mano con
precisión para poder aceptar cheques para depósito. Aunque ciertamente sería fascinante aprender
cómo el algoritmo diferencia los “7” estadounidenses de los “1” europeos, no hay una necesidad
urgente de hacerlo. En el breve intervalo entre el momento en que se pasa una tarjeta de crédito y
se transmite el código de aprobación, se califica la transacción por su probabilidad de ser fraudulenta.
Es importante tomar esta decisión correctamente. Aprobar una transacción fraudulenta tiene un costo
inmediato y evidente; rechazar una transacción legítima molesta a un cliente valioso. En ambos
ejemplos, obtener la respuesta correcta es claramente más importante que tener una explicación
clara de cómo se tomó la decisión.
En el otro extremo, algunas decisiones (conceder o denegar un crédito, por ejemplo) pueden estar
sujetas a revisión regulatoria. Explicar que se le negó el crédito porque el solicitante tenía demasiadas
líneas abiertas y una proporción demasiado grande de deuda e ingresos está bien. Decir: “El modelo
identificó al solicitante como de alto riesgo, pero no tenemos idea de por qué”, es inaceptable.
Diferentes técnicas ofrecen diferentes compromisos entre precisión y explicabilidad .

Podría decirse que los árboles de decisión ofrecen las mejores explicaciones porque cada
hoja tiene una descripción precisa en forma de regla. Aunque esto significa que la puntuación de
Cualquier registro puede explicarse, pero eso no significa que un árbol grande y complejo
sea fácil de entender en su totalidad. La desventaja es que los árboles de decisión
pueden no utilizar tanta información inherente a una variable como otras técnicas que
utilizan el valor directamente en lugar de simplemente compararlo con un valor dividido.
Con un poco de atención a la preparación de los datos, los modelos de regresión
también arrojan mucha luz sobre lo que contribuye a una puntuación. Cuando las
variables explicativas han sido estandarizadas, la magnitud relativa de los coeficientes
del modelo muestra cuánto contribuye cada una a la puntuación. En una regresión, cada
pequeño cambio en el valor de una variable explicativa tiene un efecto en la puntuación.
En ese sentido, el modelo de regresión hace más uso de la información proporcionada
por las variables explicativas que los árboles de decisión.
Las redes neuronales son bastante flexibles y capaces de modelar funciones bastante
complejas con mucha precisión, pero son esencialmente inexplicables. Cada una de estas
técnicas proporciona un equilibrio diferente entre las mejores puntuaciones y las mejores explicaciones.
Conociendo las fortalezas y debilidades, debes decidir las técnicas que son más
apropiadas para tu aplicación.
La Tabla 31 muestra qué técnicas se utilizan normalmente para qué tareas. Como
deja claro la tabla, prácticamente cualquiera de las técnicas dirigidas se puede utilizar
para problemas de clasificación, predicción y estimación. La elección final está
determinada por la medida en que el modelo debería ser capaz de contar una historia
además de producir puntuaciones, y por las características de los datos que se van a extraer.
Tabla 31: ¿Qué técnicas para qué tareas?
TAREA MEJOR AJUSTE TAMBIÉN CONSIDERE
Clasificación y Árboles de decisión, Modelos de similitud, modelos de búsqueda

predicción regresión logística, redes de tablas, modelos de vecino más cercano,
neuronales. modelos bayesianos ingenuos
Estimacion Regresión lineal, redes neuronales. Árboles de regresión, modelos de vecino más
cercano.
Respuesta binaria Regresión logística, árboles de decisión Modelos de similitud, modelos de búsqueda
de tablas, modelos de vecino más cercano,
modelos bayesianos ingenuos
Encontrar grupos y Cualquiera de los algoritmos reglas de asociación

patrones de agrupamiento.
Lecciones aprendidas
El proceso de minería de datos puede fallar de muchas maneras. El fracaso puede tomar
varias formas, incluyendo simplemente no responder las preguntas que se propuso
responder, así como “descubrir” cosas que ya sabe. Una forma especialmente perniciosa de
El fracaso es aprender cosas que no son ciertas. Esto puede suceder de muchas maneras:
cuando los datos utilizados para la minería no son representativos; o cuando contiene
patrones accidentales que no logran generalizarse; o cuando haya sido resumido de forma
que destruya la información; o cuando mezcla información de períodos de tiempo que
deberían mantenerse separados.
Hay tres estilos de minería de datos. La minería de datos exploratoria produce
conocimientos o responde preguntas en lugar de producir modelos utilizados para calificar.
La minería de datos exploratoria a menudo implica plantear hipótesis que pueden probarse
o refutarse utilizando datos. La minería de datos exploratoria es muy importante; sin embargo,
no es el tema de las técnicas avanzadas de este libro.
La minería de datos dirigida se utiliza cuando los datos históricos contienen ejemplos de
lo que se busca. Para un modelo de deserción, esto supone que los datos históricos
contienen ejemplos de clientes que han dejado de trabajar y que no lo han hecho. Para un
modelo de valor para el cliente, esto supone que es posible estimar el valor para el cliente
utilizando los datos históricos. El objetivo (u objetivos) del modelo son estas variables. Las
variables “explicativas” del modelo son los insumos.
La minería de datos no dirigida no utiliza una variable de destino. Es como arrojar datos a
la computadora y ver dónde aterrizan. Para entender la minería de datos no dirigida es
necesario comprender e interpretar los resultados. Sin un objetivo, la computadora no tiene
forma de juzgar si los resultados son buenos o no.
Puede utilizar los tres estilos de minería de datos por separado o en combinación para
lograr una amplia gama de objetivos comerciales. El proceso de minería de datos comienza
con un objetivo comercial. El proceso de minería de datos implica traducir el objetivo
empresarial en una o más tareas de minería de datos. Una vez definidas las tareas, la
naturaleza de la tarea, el tipo de datos disponibles, la forma en que se entregarán los
resultados y el equilibrio entre la precisión y la explicabilidad del modelo influyen en la
elección de la técnica de minería de datos.
Cualquiera que sea la técnica que elija, y sin importar el estilo de minería de datos, utilizar
la minería de datos de manera efectiva requiere ciertos conocimientos de estadística, el
tema del próximo capítulo.

GordonSLinoffMi 2011 Chapter3TheDataMining DataMiningTechniquesF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

GordonSLinoffMi 2011 Chapter3TheDataMining DataMiningTechniquesF

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

El proceso de minería de datos

El Capítulo 1 describe el círculo virtuoso de la minería de datos como un proceso de negocio

2. Transformar datos en información

68 Capítulo 3 n El proceso de minería de datos

Minería: minería de datos dirigida y minería de datos no dirigida. Este capítulo

¿Qué puede ir mal?

n Aprender cosas que no son ciertas.

Aprender cosas que no son ciertas

ADVERTENCIA El análisis más cuidadoso y minucioso, utilizando las técnicas más

Capítulo 3 n El proceso de minería de datos 69

Es posible que los patrones no representen ninguna regla subyacente

n El partido que no ocupa la presidencia obtiene escaños en el Congreso

n Cuando la Liga Americana gana la Serie Mundial, los republicanos toman la

n Cuando los Washington Redskins ganan su último partido en casa, el partido en el

70 Capítulo 3 n El proceso de minería de datos

El término técnico para encontrar patrones que no logran generalizarse es sobreajuste.

El conjunto de modelos puede no reflejar la población relevante

n Los clientes no son como los prospectos.

n Los encuestados no son como los que no responden.

Capítulo 3 n El proceso de minería de datos 71

n Después de una adquisición, los clientes de la empresa adquirida no son necesariamente

Los datos pueden tener un nivel de detalle incorrecto

72 Capítulo 3 n El proceso de minería de datos

Minutos de uso por tenencia

Figura 3­2: ¿Realmente cayeron las ventas en octubre?

En los ejemplos anteriores, la agregación genera confusión. No agregar al nivel

Capítulo 3 n El proceso de minería de datos 73

SUGERENCIA Al resumir datos, elija un nivel de agregación que no oculte

Aprender cosas que son ciertas, pero no útiles

Aprender cosas que ya se saben (o que deberían saberse)

74 Capítulo 3 n El proceso de minería de datos

Aprender cosas que no se pueden usar

SUGERENCIA Un estudio sobre la deserción de clientes puede mostrar que un fuerte

Estilos de minería de datos

El Capítulo 1 dice que la minería de datos implica la "exploración y análisis de grandes

n Minería de datos dirigida

n Minería de datos no dirigida

Capítulo 3 n El proceso de minería de datos 75

76 Capítulo 3 n El proceso de minería de datos

Probar hipótesis utilizando datos existentes

Capítulo 3 n El proceso de minería de datos 77

Ventas promedio por cliente

Número de productos por cliente

Pruebas de hipótesis y experimentación.

78 Capítulo 3 n El proceso de minería de datos

Capítulo 3 n El proceso de minería de datos 79

Estudio de caso sobre pruebas de hipótesis: medir lo incorrecto

Este no es un problema bien planteado para la minería de datos dirigida. ¿Cuál es la

80 Capítulo 3 n El proceso de minería de datos

n Las recomendaciones del equipo A produjeron más sustituciones y menos

n Muchas de las recomendaciones de la parte A fueron ventas a la baja.

Capítulo 3 n El proceso de minería de datos 81

Minería de datos dirigida

Minería de datos no dirigida

En realidad, el término no dirigido puede resultar un poco engañoso. Aunque no se utiliza

82 Capítulo 3 n El proceso de minería de datos

Metas, tareas y técnicas

Objetivos comerciales de la minería de datos

n Elija los mejores lugares para anunciar.

n Adquirir clientes más rentables.

n Disminuir la exposición al riesgo de incumplimiento.

n Mejorar la retención de clientes.

Figura 32: ¿Realmente cayeron las ventas en octubre?