Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GordonSLinoffMi 2011 Chapter3TheDataMining DataMiningTechniquesF
GordonSLinoffMi 2011 Chapter3TheDataMining DataMiningTechniquesF
CAPÍTULO
1. Identificar el problema
3. Tomar medidas
4. Medir el resultado
Este capítulo cambia el énfasis a la minería de datos como un proceso técnico, pasando de
identificar problemas de negocios a traducir los problemas de negocios en problemas de minería
de datos. La segunda etapa, transformar datos en información, se amplía a varios temas que
incluyen prueba de hipótesis, construcción de modelos y descubrimiento de patrones. Las ideas
y mejores prácticas introducidas en este capítulo se desarrollan con más detalle en el resto del
libro. El propósito de este capítulo es reunir los diferentes estilos de minería de datos en un solo
Derechos
Wiley.
2011.
autor
de
reproducirse
Reservados
aplicables.
permitidos
derechos.
derechos
legítimos
ninguna
permiso
excepto
puede
editor,
forma
todos
leyes
autor
usos
UU.
EE.
por
del
las
sin
No
los
de
el
o
lugar.
La mejor manera de evitar romper el círculo virtuoso de la minería de datos es comprender
las formas en que es probable que falle y tomar medidas preventivas. A lo largo de los años, los
autores han encontrado muchas formas en las que los proyectos de minería de datos salen mal.
Este capítulo comienza con una discusión de algunos de estos obstáculos. El resto del capítulo
trata sobre el proceso de minería de datos. Los capítulos posteriores cubren los aspectos de la
metodología de minería de datos que son específicos de los estilos particulares de datos.
67
EBSCO Publishing: Colección de libros electrónicos (EBSCOhost) impreso el 19/03/2024 12:00 p.m. vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI
AN: 520245; Gordon S. Linoff, Michael JA Berry.; Técnicas de minería de datos: para marketing, ventas y gestión de relaciones con los clientes
Cuenta: s9496075.main.eds
Machine Translated by Google
Los antiguos marineros aprendieron a evitar las rocas de Escila y el remolino de Caribdis
que protegen el estrecho entre Sicilia y el continente italiano . Al igual que los antiguos
marineros que aprendieron a evitar estas amenazas, los mineros de datos necesitan saber
cómo evitar peligros comunes.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Se suele decir que las cifras no mienten, pero los mentirosos sí cifran. Cuando se trata de
encontrar patrones en los datos, las cifras no tienen por qué mentir para sugerir cosas que
no son ciertas. Existen tantas formas de construir patrones que cualquier conjunto aleatorio
de puntos de datos revela uno si se examina durante suficiente tiempo. Los seres humanos
dependemos tanto de patrones en nuestras vidas que tendemos a verlos incluso cuando no
existen. Miramos hacia el cielo nocturno y no vemos una disposición aleatoria de estrellas,
sino la Osa Mayor, la Cruz del Sur o el Cinturón de Orión. Algunos incluso ven patrones
astrológicos y presagios que pueden usarse para predecir el futuro. La aceptación
generalizada de teorías de conspiración extravagantes es una prueba más de la necesidad
humana de encontrar patrones.
Presumiblemente, la razón por la que los humanos han desarrollado tal afinidad por los
patrones es que los patrones a menudo reflejan alguna verdad subyacente sobre la forma
en que funciona el mundo. Las fases de la luna, la progresión de las estaciones, la constante
alternancia de día y noche, incluso la aparición regular de un programa de televisión favorito
a la misma hora el mismo día de la semana son útiles porque son estables y, por tanto,
predictivos. Podemos utilizar estos patrones para decidir cuándo es seguro plantar tomates,
cuándo desayunar y cómo programar el DVR.
Es evidente que otros patrones no tienen ningún poder predictivo. Si una moneda justa sale cara
cinco veces seguidas, todavía hay una probabilidad de 50 a 50 de que salga cruz en el sexto
lanzamiento.
El desafío para los mineros de datos es descubrir qué patrones son útiles y cuáles no.
Considere los siguientes patrones, todos los cuales han sido citados en artículos de la
prensa popular como si tuvieran valor predictivo:
El primer patrón (el que involucra elecciones fuera de año) es explicable en términos
puramente políticos. Cada cuatro años, poco más de la mitad de los votantes
estadounidenses se entusiasman y votan por su candidato a la presidencia. Unos meses
más tarde, el candidato asume el poder y comienza la decepción: los políticos simplemente
no pueden cumplir todas las promesas que espera su base. Dos años más tarde, en las
elecciones al Congreso, se produce una reacción violenta, generalmente causada por partidarios decepcionad
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
no acudas a votar. Dado que este patrón tiene una explicación subyacente, parece probable que
continúe en el futuro, lo que implica que tiene valor predictivo.
Los siguientes dos supuestos predictores, los que involucran eventos deportivos, parecen
claramente no tener valor predictivo. No importa cuántas veces los republicanos y la Liga
Americana hayan compartido victorias en el pasado (y los autores no han investigado este punto),
no hay razón para esperar que la asociación continúe en el futuro.
¿Qué pasa con las alturas de los candidatos? Desde 1948, cuando Truman (que era bajo, pero
más alto que Dewey) fue elegido, las elecciones en las que Carter venció a Ford y aquella en la
que Bush venció a Kerry son las únicas en las que el candidato más bajo obtuvo más votos
populares. Las elecciones de 2000, que enfrentaron a Gore, de 6'1" de altura, contra Bush, de 6'0"
todavía se ajustan al patrón, si se supone que el patrón se relaciona con ganar el voto popular
más que el voto electoral. En 2008, Obama, jugador de baloncesto, superó en las encuestas al
más bajo McCain. La altura no parece tener nada que ver con el oficio de ser presidente. Sin
embargo, nuestro lenguaje exhibe “altitud”: admiramos a las personas como señal de respeto y
las menospreciamos para mostrar desdén. La altura se asocia con una mejor nutrición infantil, lo
que a su vez conduce a una mayor inteligencia y otros indicadores de éxito social. Como se
explica en este capítulo, la forma correcta de decidir si una regla es estable y predictiva es
comparar su desempeño en múltiples muestras seleccionadas al azar de la misma población. En
el caso de la altura presidencial, los autores lo dejan como ejercicio para el lector. Como suele ser
el caso, la parte más difícil de la tarea es recopilar datos: antes de la era de Google, determinar
las alturas de los candidatos presidenciales fracasados de siglos anteriores no era fácil.
n Las personas que leen el correo electrónico no son como las personas que no leen el correo electrónico.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
n Las personas que se registran en un sitio web no son como las personas que no se registran.
Consideremos el primer punto. Los clientes no son como los prospectos porque representan
personas que respondieron positivamente a cualquier mensaje, oferta y promoción que se
hiciera para atraer clientes en el pasado. Es probable que un estudio de los clientes actuales
sugiera más de lo mismo. Si las campañas anteriores se han dirigido a consumidores
urbanos ricos, entonces cualquier comparación de los clientes actuales con la población
general probablemente mostraría que los clientes tienden a ser ricos y urbanos. Un modelo
así podría perder oportunidades en los suburbios de ingresos medios.
SUGERENCIA Prestar especial atención a la selección y muestreo de datos para el conjunto de modelos es
crucial para una extracción de datos exitosa.
Las consecuencias de utilizar una muestra sesgada pueden ser peores que simplemente
perder una oportunidad de marketing. En Estados Unidos, existe una historia de “redlining”,
la práctica ilegal de negarse a otorgar préstamos o pólizas de seguro en ciertos vecindarios
(generalmente vecindarios de bajos ingresos o de minorías). Una búsqueda de patrones en
los datos históricos de una empresa que tuvo un historial de exclusión revelaría que es poco
probable que las personas en ciertos vecindarios sean clientes . Si los futuros esfuerzos de
marketing se basaran en ese hallazgo, la extracción de datos ayudaría a perpetuar prácticas
ilegales y poco éticas.
En más de una industria, se les ha dicho a los autores que el uso a menudo disminuye un
mes antes de que un cliente se vaya. Tras un examen más detenido, esto puede resultar
ser un ejemplo de aprendizaje de algo que no es cierto. La Figura 31 muestra los minutos
mensuales de uso para un grupo de suscriptores de telefonía celular que se registraron
como cesantes en el noveno mes. Durante siete meses, los suscriptores utilizan unos 100
minutos al mes. En el octavo mes, su uso disminuye a aproximadamente la mitad. Y al mes
siguiente ya no hay uso porque los suscriptores han dejado de funcionar. Esto sugiere que
un esfuerzo de marketing desencadenado por una disminución en el uso podría salvar a
estos clientes.
Estos suscriptores parecen ajustarse a un patrón en el que un mes con menor uso
precede al abandono del servicio. Las apariencias engañan. Estos clientes no tienen uso en
el mes nueve porque la fecha de finalización real es en el mes ocho. En promedio, la fecha
de finalización sería a mediados de mes. Estos clientes continúan usando el servicio a un
ritmo constante hasta que lo dejan, presumiblemente porque ese día los clientes comienzan
a usar un servicio de la competencia. El supuesto período de declive en el uso no existe en
realidad y ciertamente sí existe.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
no proporciona una ventana de oportunidad para retener al cliente. Lo que parece ser
un indicador adelantado es en realidad un indicador final.
140
120
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9 10 11
Figura 31: ¿La disminución del uso en el mes 8 predice el desgaste en el mes 9?
La Figura 32 muestra otro ejemplo de confusión causada por la agregación. Las ventas
parecen haber disminuido en octubre en comparación con agosto y septiembre. La imagen
proviene de una empresa que tiene actividad de ventas sólo los días en que los mercados
financieros están abiertos. Debido a la forma en que cayeron los fines de semana y días
festivos en 2003, octubre tuvo menos días hábiles que agosto y septiembre. Este hecho
por sí solo explica toda la caída de las ventas.
$44,000
$43,000
$42,000
$41,000
$40,000
$39,000
$38,000
Agosto Septiembre Octubre
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Los patrones más fuertes a menudo reflejan reglas comerciales. Si la minería de datos “descubre”
que las personas que tienen bloqueo de llamadas anónimas también tienen identificador de llamadas,
la razón tal vez sea porque el bloqueo de llamadas anónimo sólo se vende como parte de un paquete
de servicios que también incluye identificador de llamadas. Si la minería de datos “descubre” que los
acuerdos de mantenimiento se venden con electrodomésticos grandes (como descubrió Sears una
vez), es porque los acuerdos de mantenimiento casi siempre se venden después del electrodoméstico.
Estos patrones no sólo no son interesantes, sino que su fuerza puede oscurecer patrones menos
obvios pero más procesables.
Aprender cosas que ya se saben tiene un propósito útil. Demuestra que, a
nivel técnico, las técnicas de extracción de datos están funcionando y los
datos son razonablemente precisos. Esto puede ser reconfortante, aunque no útil.
Cuando las técnicas de minería de datos son lo suficientemente potentes como para descubrir cosas
que se sabe que son ciertas, hay motivos para creer que también pueden descubrir patrones más
útiles.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Los mineros de datos deben tener cuidado de mantenerse alejados de Escila, que aprende
cosas que no son ciertas, y de Caribdis, que no aprende nada útil. Las metodologías expuestas
en el Capítulo 5 y el Capítulo 12 están diseñadas para garantizar que los esfuerzos de minería
de datos conduzcan a modelos estables que aborden con éxito los problemas comerciales.
n Prueba de hipótesis
En las pruebas de hipótesis, el objetivo es utilizar datos para responder preguntas o lograr
comprensión . En la minería de datos dirigida, el objetivo es construir un modelo que explique o
prediga una o más variables objetivo particulares. En la minería de datos no dirigida, el objetivo
es encontrar patrones generales que no estén vinculados a un objetivo en particular. Durante
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Durante el curso de un proyecto de minería de datos, es posible que dedique tiempo a trabajar en
cualquiera o todos estos estilos dependiendo de la naturaleza del problema y su familiaridad con
los datos.
Aunque los tres estilos de minería de datos tienen algunas diferencias técnicas, también
tienen mucho en común. Muchos de los temas discutidos en el Capítulo 5 en el contexto de la
minería de datos dirigida también son importantes para probar hipótesis y encontrar patrones.
De hecho, los primeros tres pasos de la metodología de minería de datos dirigida (traducir un
problema de negocios en un problema de minería de datos, seleccionar los datos apropiados y
conocerlos) también podrían cubrirse en este capítulo.
Evaluación de la hipótesis
La prueba de hipótesis es parte de casi todos los esfuerzos de minería de datos. Los mineros
de datos a menudo van y vienen entre enfoques, primero pensando posibles explicaciones para
el comportamiento observado (a menudo con la ayuda de expertos en negocios) y dejando que
esas hipótesis dicten los datos a analizar, y luego dejando que los datos sugieran nuevas
hipótesis para probar.
Una hipótesis es una explicación propuesta cuya validez se puede probar analizando
datos. Estos datos pueden recopilarse simplemente mediante observación o generarse
mediante un experimento, como una campaña de marketing de prueba. Las pruebas
de hipótesis a veces revelan que los supuestos que han guiado las acciones de una
empresa son incorrectos. Por ejemplo, la publicidad de una empresa se basa en una
serie de hipótesis sobre el mercado objetivo de un producto o servicio y la naturaleza
de las respuestas. Vale la pena comprobar si estas hipótesis se ven confirmadas por
las respuestas reales.
Dependiendo de las hipótesis, esto puede significar interpretar un valor único devuelto por
una consulta simple, explorar una colección de reglas de asociación generadas por el análisis
de la canasta de mercado, determinar la importancia de una correlación encontrada mediante
un modelo de regresión o diseñar un modelo controlado. experimento. En todos los casos, es
necesario un pensamiento crítico cuidadoso para asegurarse de que el resultado no esté
sesgado de manera inesperada. La evaluación adecuada de los resultados de la minería de
datos requiere conocimientos tanto analíticos como comerciales. Cuando estos no están
presentes en la misma persona, hacer un buen uso de la nueva información requiere una cooperación interfuncion
Por su naturaleza, la prueba de hipótesis es ad hoc, pero el proceso tiene algunos pasos
identificables , el primero y más importante de los cuales es generar buenas hipótesis para probar.
Luego viene encontrar o generar datos para confirmar o refutar las hipótesis.
Generando hipótesis
La clave para generar hipótesis es obtener aportaciones diversas de toda la
organización y, cuando corresponda, también de fuera de ella. Los externos pueden
cuestionar cosas que los internos dan por sentado, tal vez proporcionando información valiosa.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
conocimiento. A menudo, todo lo que se necesita para que las ideas comiencen a fluir
es una declaración clara del problema en sí, especialmente si es algo que no se ha
reconocido previamente como tal.
Más a menudo de lo que uno podría suponer, los problemas pasan desapercibidos porque
no son capturados por las métricas utilizadas para evaluar el desempeño. Si una empresa
siempre ha medido su fuerza de ventas en función del número de nuevas ventas realizadas
cada mes, es posible que los vendedores nunca hayan pensado mucho en la cuestión de
cuánto tiempo permanecen activos los nuevos clientes o cuánto gastan en el transcurso de
su relación. Sin embargo, cuando se les hacen las preguntas correctas, la fuerza de ventas
puede tener conocimientos sobre el comportamiento del cliente que el marketing, con su
mayor distancia del cliente, no ha pasado por alto.
El objetivo es generar ideas que sean comprobables y viables. Considerar
las siguientes hipótesis:
n La mayoría de los clientes que aceptan una oferta de retención se quedarían de todos modos.
n Las familias con hijos en edad de escuela secundaria tienen más probabilidades que otras de responder a
una oferta de línea sobre el valor líquido de la vivienda.
n Los clientes que compran tipos de productos más distintos tienen mayores
gasto.
Todas estas proposiciones pueden ser ciertas o no, y en cada caso, conocer la respuesta
sugiere alguna acción concreta. Si la primera hipótesis es cierta, dejar de gastar dinero para
retener a los clientes que no corren el riesgo de irse o encontrar una mejor manera de dirigir
las ofertas de retención a los clientes que realmente se van a ir. Si la segunda hipótesis es
cierta, continúe el enfoque de marketing actual en este grupo. Si la tercera hipótesis es
correcta, anime a los vendedores a realizar más ventas cruzadas.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
600 $18.000.000
500 $15.000.000
400 $12.000.000
Numero
clientes
de
300 $9.000.000
200 $6.000.000
100 $3.000.000
0 $0
0 5 10 15 20 25 30 35 40
Poner a prueba creencias arraigadas puede ser más difícil porque los datos históricos reflejan
cualquier suposición que se haya hecho en el pasado. Si las familias con hijos de secundaria
siempre han sido el objetivo de un producto en particular, este hecho se reflejará en tasas de
adopción más altas para esas familias. Esto no prueba que sean el segmento más receptivo;
algún otro grupo, como los propietarios de pequeñas empresas, podría haber respondido aún
más. En tales casos, es aconsejable realizar un experimento controlado.
Pequeños cambios en qué y cómo se recopilan los datos pueden aumentar considerablemente
su valor para el análisis. Por ejemplo, utilice diferentes direcciones web o números de teléfono en
diferentes anuncios y realice un seguimiento de cómo llega cada respuesta.
CONSEJO Cada vez que una empresa solicita una respuesta de sus clientes, ya sea a
través de publicidad o una forma de comunicación más directa, tiene la oportunidad
de recopilar información. Pequeños cambios en el diseño de la comunicación,
como incluir una forma de identificar el canal cuando responde un cliente potencial,
pueden aumentar considerablemente el valor de los datos recopilados.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Si la oferta se dirigió a clientes considerados con alto riesgo de abandono, entonces las
personas que no recibieron la oferta pueden tener una mejor retención incluso si la oferta
realmente salvó a una gran cantidad de clientes. Por otro lado, si la oferta fue dirigida a
clientes considerados particularmente valiosos, es posible que tengan una mejor retención
que los no destinatarios por razones que no tienen nada que ver con la oferta. Una prueba
válida de la efectividad del programa requiere comparar dos grupos de clientes que sean
similares en todos los aspectos excepto en el objeto que se está probando. Es posible que
datos como esos no se produzcan de forma natural, por lo que hay que diseñar un experimento
para generarlos . El diseño y análisis experimental es un campo amplio en estadística. Esta
sección cubre algunos puntos clave sobre aspectos específicos comunes a las pruebas de marketing.
Prueba y control
El diseño experimental más básico implica la creación de dos grupos. Uno, conocido
como grupo de prueba o grupo de tratamiento, recibe algún tipo de tratamiento, como un
correo electrónico o una llamada telefónica. El otro grupo, conocido como grupo de
control, no recibe el tratamiento. Los dos grupos se eligen para que sean lo más similares
posible: la misma edad promedio, el mismo ingreso promedio, la misma distribución de
hombres y mujeres, la misma distribución de antigüedad de los clientes, etc. Esto puede
parecer laborioso, pero no lo es. Básicamente, elija un grupo general y luego divídalo
aleatoriamente en el grupo de prueba y el de control. Siempre que los grupos de prueba
y control sean lo suficientemente grandes, las leyes de probabilidad aseguran que los
grupos sean similares entre sí (y con toda la población). Si desea asegurarse de que los
grupos sean representativos de ciertos rasgos clave (por ejemplo, sexo y tenencia),
clasifique la población por estos campos y tome uno de cada enésimo registro para el grupo de control.
Después del experimento, cualquier diferencia significativa entre los grupos puede
atribuirse con seguridad al tratamiento. El capítulo 4 explica el concepto de significancia
estadística y cómo probarlo.
Pruebas A/B
Una prueba A/B compara dos (o posiblemente más) tratamientos. Los clientes se asignan
aleatoriamente al grupo A o al grupo B. Los dos grupos reciben tratamientos diferentes ,
como diferentes mensajes publicitarios, diseños de páginas web, precios u opciones de pago.
Las empresas con orientación analítica ejecutan rutinariamente pruebas A/B para determinar
el efecto incluso de cambios aparentemente menores, porque los cambios pequeños pueden
tener efectos grandes e inesperados.
Una empresa minorista en línea descubrió que agregar un cuadro donde los clientes
podían ingresar un código de cupón de descuento reducía la proporción de clientes que
realizaban compras en un significativo 6,5 por ciento. La mayoría de los compradores no
tenían cupones y aparentemente la invitación a proporcionar un código de descuento hizo
que las personas sin uno pensaran que estaban obteniendo un mal trato. Quizás se animó a
estos compradores a buscar un cupón en Google, posiblemente encontrando un mejor precio en el proceso.
Las pruebas A/B generalmente se asocian con el marketing directo y la venta
minorista basada en la web porque en estos entornos se controla qué clientes obtienen
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
qué mensajes es relativamente simple. Las pruebas A/B también son útiles para tipos de
publicidad menos dirigidos, como vallas publicitarias, radio y televisión. El truco consiste en
ejecutar diferentes campañas en mercados similares. Estas pruebas se denominan pareadas.
pruebas, porque dependen de que pares de mercados diferentes (o ubicaciones de
tiendas o lo que sea) sean lo más similares posible para fines de prueba. La mitad de
la pareja recibe el tratamiento y la otra mitad es el control. El capítulo 9 analiza las
pruebas pareadas con más detalle.
Pruebas de campeón/retador
Una forma común de prueba A/B compara un nuevo tratamiento, el retador, con el tratamiento
existente, el campeón. Esta idea se aplica a menudo a los modelos de minería de datos utilizados
para puntuar a los clientes. El nuevo modelo no debería adoptarse hasta que se demuestre que
es mejor que el antiguo.
Amazon.com es particularmente experto en esta forma de pruebas A/B. Todo lo que
aparece en su sitio web, desde la ubicación de las reseñas y descripciones de productos hasta
la cantidad de comentarios de los usuarios y palabras clave, se ha probado con el mejor
diseño "campeón". En el entorno en vivo de Amazon, los visitantes del sitio web son elegidos
al azar para que el grupo de prueba vea un diseño modificado. Después de unas horas o días,
se han recopilado suficientes datos para sugerir si las modificaciones probadas al diseño
producen mayores o menores ventas que el campeón.
Si las mejoras son significativas, la prueba se convierte en el nuevo campeón.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
La empresa de software se acercó a Data Miners (la empresa de consultoría fundada por los
autores) para ayudar a resolver este enigma. Recibimos datos de una prueba A/B que arrojó
resultados decepcionantes. En una prueba A/B, la mitad de los compradores fueron seleccionados
al azar para recibir recomendaciones de la empresa, mientras que la otra mitad recibió
recomendaciones competitivas del minorista. Estos datos incluían una tabla de líneas de pedido
con detalles sobre cada artículo, como su precio, categoría de producto y, en los casos en que el
comprador había hecho clic en una recomendación para el producto, un ID de clic. Para cada clic,
una tabla de clics mostraba cuál de varios algoritmos de recomendación había generado la
recomendación y qué artículo había estado mirando el comprador cuando se hizo la recomendación.
Utilizando consultas SQL simples, descubrimos que los clientes del lado de la prueba de
nuestro cliente efectivamente hicieron clic en más recomendaciones y, en ambos lados de la
prueba, los clientes que hicieron clic tenían más probabilidades de realizar una compra. Más
compras deberían significar más dinero. Y más dinero debería significar que los minoristas están contentos.
¿Cómo podría perder el lado A, el lado de nuestro cliente, dadas estas métricas? La primera
pista fue que el precio medio de los artículos en los que se hacía clic era más bajo en el lado A
que en el lado B. Nuestra primera hipótesis era que A recomendaba una combinación de productos
diferente a la de B, pero eso se refutó fácilmente. Seguimos probando otras hipótesis hasta que
encontramos dos que, en conjunto, explicaban lo que estaba pasando:
Las ventas cruzadas se producen cuando los consumidores compran productos recomendados
además de los productos que ya están considerando, lo que da como resultado una compra total mayor.
Una sustitución es cuando los consumidores compran productos recomendados
en lugar de los originales. Una venta cruzada es más valiosa para el minorista
porque aumenta la cantidad que gasta el cliente. Sin embargo, la comisión de
nuestro cliente sólo se basaba en si el consumidor final compraba o no su recomendación.
El minorista diseñó sus recomendaciones para generar ventas cruzadas. Cuando recomendó
sustituciones, el producto recomendado casi siempre fue algo más caro: ventas adicionales. En
comparación, las recomendaciones de nuestros clientes fueron, en promedio, rebajas.
Nuestra conclusión fue que nuestro cliente había estado midiendo algo incorrecto. Sus
recomendaciones "mejoraron" con el tiempo en el sentido de atraer más clics, pero los clics no
son útiles por sí solos. La forma más sencilla de atraer clics es mostrar a los compradores
sustitutos más baratos de los artículos que buscan. Este comportamiento generó comisiones para
nuestro cliente, pero (sin darse cuenta) a expensas del minorista que terminó vendiendo un
artículo más barato y pagando una comisión por el privilegio. Recomendamos que la empresa de
software cambiara su estructura de comisiones para que fuera recompensada por ingresos
incrementales en lugar de por clics: un resultado valioso de la extracción de datos mediante
pruebas de hipótesis.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
de desarrollar servicios especializados para diferentes segmentos de clientes sin tener una idea
clara de cómo se deben segmentar los clientes. La agrupación en clústeres, una técnica de
extracción de datos no dirigida, podría utilizarse para descubrir segmentos de clientes. El estudio
de los segmentos podría arrojar información sobre lo que tienen en común los miembros del
segmento, lo que a su vez podría sugerir necesidades comunes que un nuevo producto podría abordar.
Las aplicaciones de minería de datos del capítulo anterior proporcionan varios buenos ejemplos de objetivos
comerciales:
El resto de este libro también contiene muchos ejemplos de minería de datos utilizada en el mundo real para
resolver problemas reales. No todos los objetivos comerciales se prestan directamente a la extracción de
datos; a veces es necesario convertirlos en objetivos comerciales de minería de datos. Para que la minería
de datos tenga éxito, el objetivo empresarial debe estar bien definido y dirigido hacia esfuerzos particulares
que sean susceptibles de análisis utilizando los datos disponibles. Un objetivo empresarial de minería de
datos normalmente se puede expresar en términos de algo mensurable, como ingresos incrementales, tasa
de respuesta, tamaño del pedido o tiempo de espera.
Por supuesto, lograr cualquiera de estos objetivos requiere algo más que la simple extracción de datos, pero
la minería de datos tiene un papel importante que desempeñar. El primer paso es diseñar un sistema de alto nivel.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
aproximación al problema. Para adquirir clientes más rentables, puede comenzar por aprender qué
impulsa la rentabilidad de los clientes existentes y luego reclutar nuevos clientes con las características
adecuadas. Disminuir la exposición al riesgo crediticio podría significar predecir cuáles de los clientes
actualmente al día tienen probabilidades de fracasar y reducir preventivamente sus líneas de crédito.
Mejorar la retención de clientes podría centrarse en mejorar la experiencia de los clientes existentes o
en reclutar nuevos clientes con una permanencia esperada más larga. El enfoque de alto nivel sugiere
tareas de modelado particulares.
Las tareas de minería de datos son actividades técnicas que pueden describirse independientemente de
cualquier objetivo comercial en particular. Si un objetivo empresarial se adapta bien a la minería de
datos, normalmente se puede formular en términos de las siguientes tareas:
Los proyectos de minería de datos suelen implicar varias de estas tareas. Tomemos el
ejemplo de decidir qué clientes incluir en una campaña de marketing directo. El análisis
exploratorio de datos sugiere qué variables son importantes para caracterizar la respuesta
del cliente. Estas variables podrían luego usarse para encontrar grupos de clientes similares.
La asignación de conglomerados de un cliente podría ser una variable explicativa importante en un
modelo de respuesta binaria. Y, por supuesto, el objetivo de crear el modelo es aplicarlo a nuevos datos
que representen a clientes potenciales para calificarlos según su propensión a responder a la campaña.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
n Las personas que han comprado certificados de depósito (CD) tienen poco o ningún dinero
en sus cuentas de ahorro.
n Los clientes que utilizan el correo de voz realizan muchas llamadas cortas a su propio número.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
No guardar dinero en una cuenta de ahorros es un comportamiento común entre los poseedores de
CD, del mismo modo que ser hombre es una característica común de los bebedores de cerveza. Las
empresas cerveceras buscan hombres para comercializar su producto, entonces, ¿deberían los
bancos buscar personas sin dinero ahorrado para venderles certificados de depósito? ¡Probablemente no!
Presumiblemente, los titulares de CD no tienen dinero en sus cuentas de ahorro porque usaron
ese dinero para comprar CD. Una razón más común para no tener dinero en una cuenta de
ahorros es no tener dinero, y las personas sin dinero no son buenas perspectivas para cuentas
de inversión. De manera similar, los usuarios de correo de voz llaman tanto a su propio número
porque en este sistema en particular esa es una forma de consultar el correo de voz. El patrón
es inútil para encontrar usuarios potenciales.
Clasificación
La clasificación, una de las tareas de minería de datos más comunes, parece ser un imperativo
humano. Para comprender y comunicarnos sobre el mundo, estamos constantemente clasificando,
categorizando y calificando. Dividimos los seres vivos en filos, especies y géneros; materia en
elementos; perros en razas; gente en carreras; filetes y jarabe de arce en grados USDA.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
En todos estos ejemplos, hay un número limitado de clases y la tarea es asignar cualquier registro
a una u otra de ellas.
Estimacion
El producto de las estimaciones creadas en los dos últimos puntos es el valor esperado de la
oferta de transferencia de saldo. Si el valor esperado es menor que el costo de hacer la oferta, no
se debe realizar la licitación.
Determinar qué cosas van juntas en un carrito de compras en el supermercado y encontrar grupos
de compradores con hábitos de compra similares son ejemplos de minería de datos no dirigida.
Los productos que tienden a venderse juntos se llaman
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Los grupos de afinidad y los clientes con comportamientos similares comprenden segmentos de mercado.
Los minoristas pueden utilizar agrupaciones por afinidad para planificar la disposición de los artículos en los
estantes de las tiendas o en un catálogo, de modo que los artículos que a menudo se compran juntos se
vean al mismo tiempo. El personal de marketing puede diseñar productos y servicios para atraer a segmentos
particulares.
La agrupación por afinidad es un método sencillo para generar reglas a partir de datos.
Si dos elementos, por ejemplo comida para gatos y arena para gatos, aparecen juntos con suficiente
frecuencia, puedes pensar en cómo utilizar esta información en campañas de marketing. También plantea
otra cuestión: ¿qué es lo que los clientes no compran y que deberían comprar? Un cliente que compra
mucha arena para gatos también debería comprar comida para gatos: ¿dónde la consigue?
La agrupación es a menudo el preludio de alguna otra forma de extracción o modelado de datos . Por
ejemplo, la agrupación podría ser el primer paso en un esfuerzo de segmentación del mercado: en lugar de
tratar de encontrar una regla única para “a qué tipo de promoción responden mejor los clientes”, primero
divida el Divida su base de clientes en grupos o personas con hábitos de compra similares y luego pregunte
qué tipo de promoción funciona mejor para cada grupo. Los capítulos 13 y 14 cubren en detalle las técnicas
para la detección de conglomerados.
Aplicar un modelo a datos nuevos se llama puntuación. Los datos a calificar deben contener
todas las variables de entrada requeridas por el modelo junto con un identificador único para cada
fila. El resultado de la puntuación es una nueva tabla con al menos dos columnas: el identificador
y la puntuación.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Modelo Producción
Entradas Figura 34: Los modelos toman una entrada y producen una salida.
Los objetivos comerciales, las tareas de minería de datos y las técnicas de minería de datos
forman una especie de escalera que va de lo general a lo específico y de lo no técnico a lo técnico.
Formular un problema de minería de datos implica descender un escalón por esta escalera.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
a la vez; pasando primero de los objetivos comerciales a las tareas de minería de datos y
luego de las tareas de minería de datos a las técnicas de minería de datos. Normalmente,
cada paso requiere la participación de personal diferente con diferentes conjuntos de
habilidades. Establecer y priorizar objetivos es responsabilidad de la alta dirección. Traducir
estos objetivos en tareas de minería de datos y utilizar técnicas de minería de datos para
lograrlos es el papel de los mineros de datos. Reunir los datos necesarios y transformarlos
en una forma adecuada para la minería a menudo requiere la cooperación con los
administradores de bases de datos y otros miembros del grupo de tecnología de la información.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
3. Utilizando los puntajes de propensión, diseñe un procedimiento de decisión que asigne el mejor
producto a cada cliente, basándose en algo como la propensión más alta o el beneficio esperado
más alto.
Las opciones naturales para el Paso 1 incluyen árboles de decisión, redes neuronales y regresión logística.
Producto 1
Producto 2
Comparar puntuaciones
Producto 3
Producto 5
Producto 6
Producto 7
Figura 35: Se comparan los puntajes de propensión individuales para cada producto para determinar
la mejor oferta.
Un modelo de respuesta binaria no es el único método para desarrollar puntuaciones de propensión. Otro
método consiste en agrupar los datos utilizando variables de entrada y ver qué productos predominan en
cada grupo. La proporción del conglomerado con un producto determinado se puede asignar como
puntuación de propensión. Este método utilizaría agrupación de kmedias u otra técnica de agrupación.
¿Cuáles son las mejores ubicaciones para nuevas tiendas? En este escenario, los datos de
rendimiento de las tiendas existentes están disponibles junto con datos sobre el área de influencia:
el área natural del mercado de donde cada tienda atrae a sus clientes. La idea es encontrar la
combinación de variables explicativas que predice el buen desempeño de una tienda.
Las siguientes tareas de modelado son un enfoque para abordar este problema:
1. Construir un modelo para estimar alguna métrica de desempeño de la tienda en función de las
variables explicativas disponibles para el área de influencia.
2. Aplique el modelo a las ubicaciones candidatas para que se puedan seleccionar las ubicaciones con
la puntuación más alta.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
1. Clasifique las tiendas existentes como buenas o malas y construya un modelo que pueda
distinguir entre las dos clases.
Las posibles variables explicativas incluyen la población a una distancia en automóvil, el número
de competidores a una distancia en automóvil y factores demográficos.
Se trata de un modelo de elaboración de perfiles porque el objetivo es vincular el desempeño
actual con las condiciones actuales. Las técnicas de modelado son las utilizadas para la
clasificación, como la regresión logística, los árboles de decisión y el MBR.
Para este enfoque, retroceda el reloj un año y tome una instantánea de cada cliente que
estuvo activo en esa fecha. Luego, mida los ingresos totales durante el año siguiente. Este es el
modelo:
1. Prepare los datos para el modelado retrocediendo el reloj un año y tomando una instantánea
de cada cliente que estaba activo en esa fecha. Luego, mida los ingresos totales durante
el año siguiente. Esto crea un conjunto de modelos de predicción.
2. Utilice este conjunto de modelos para estimar cuánto valdrá alguien en el futuro.
el próximo año.
3. Segmentar los ingresos previstos en tercios, para obtener ingresos altos, medios y
bajos ingresos previstos.
El paso 2 requiere construir un modelo de estimación, utilizando una técnica como redes
neuronales, MBR o regresión.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Una ligera variación de este enfoque sería clasificar a los clientes en el modelo establecido
como generadores de ingresos altos, medios o bajos en el próximo año. Para ello se utilizaría un
modelo de clasificación, que podría utilizar árboles de decisión (con un objetivo de tres vías) o tres
modelos de regresión logística (uno para cada uno de los tres grupos).
Otro enfoque más sería tratar esto como un problema de tiempo hasta el evento, estimando
cuándo es probable que un cliente incumpla. En este caso, el conjunto de modelos consta de
todos los clientes, con su fecha de inicio, fecha de finalización y si el cliente incumplió o no. El
modelo estimaría la cantidad de tiempo hasta que un cliente incumpla.
Al calificar a nuevos clientes, si el tiempo estimado de incumplimiento es en un futuro cercano,
entonces se tomarían acciones para mitigar el incumplimiento. Este tipo de modelo normalmente
se construiría mediante análisis de supervivencia.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
n Cuantificar el valor de mejorar las operaciones, para que los clientes se queden.
n Determinar qué métodos de adquisición de clientes generan mejores
clientes.
A veces, el resultado más importante de un modelo no son las puntuaciones que produce, sino la
comprensión que se obtiene al examinar el modelo en sí.
El modelo puede explicar si los clientes se van principalmente debido a interrupciones en el servicio,
sensibilidad al precio u otras causas. Sin embargo, esto requiere utilizar una técnica que pueda
explicar sus resultados. Los árboles de decisión y la regresión logística son los mejores de todos en
cuanto a explicabilidad.
1. Construir un modelo de elaboración de perfiles que sea capaz de distinguir las reclamaciones
fraudulentas de las legítimas.
2. Utilice el modelo para calificar todas las reclamaciones que lleguen. Marque las reclamaciones que obtienen
una puntuación superior a algún umbral para realizar un escrutinio adicional antes de su aprobación.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Los árboles de decisión y la regresión logística probablemente sean técnicas para construir el
modelo de perfilado en el Paso 1.
A veces se sospecha de fraude, pero no está claro qué transacciones son fraudulentas. Esta situación exige
una extracción de datos no dirigida:
2. Examina los grupos más pequeños para ver qué los hace especiales.
Las afirmaciones de los grupos más pequeños también pueden ser perfectamente legítimas. Todo lo que muestra
el ejercicio de agrupación es que son inusuales. Algunas afirmaciones inusuales resultan ser fraudulentas, por lo
que todas merecen un mayor escrutinio.
Cada año, los concursantes del mundo académico y de la industria ponen a prueba sus habilidades de
minería de datos en un concurso que se lleva a cabo junto con la conferencia anual KDD (Knowledge
Discovery and Data Mining). Un año, quedó claro que lo que separaba a los ganadores de los perdedores
no eran los algoritmos que utilizaban o el software que empleaban, sino cómo traducían el problema
empresarial en tareas de minería de datos.
El problema empresarial era maximizar las donaciones a una organización benéfica sin fines de lucro.
Los datos eran una base de datos histórica de contribuciones.
La exploración de los datos reveló la primera idea: cuanto más a menudo alguien contribuía,
menos dinero aportaba cada vez. Es bastante razonable esperar que los mejores donantes sean
aquellos que respondan con mayor frecuencia.
Sin embargo, en este caso, la gente parece planificar sus donaciones caritativas anualmente. Podrían
donar una suma global de una sola vez o espaciar sus contribuciones a lo largo del tiempo. Más cheques
no siempre significan más dinero. Esto sugiere que la decisión de hacer una donación es independiente
de la decisión de qué tan grande será la donación. Es muy probable que las dos decisiones estén
influenciadas por diferentes factores. Quizás sea más probable que personas de todos los niveles de
ingresos donen a una organización de veteranos si ellos mismos han servido en el ejército.
Una vez que hayan decidido contribuir, el nivel de ingresos puede influir en el tamaño de las donaciones.
Estos conocimientos llevaron al enfoque ganador, que consistió en modelar la respuesta y el tamaño de la
contribución por separado. El modelo de respuesta se basa en un conjunto de entrenamiento que contiene tanto
contribuyentes como no contribuyentes. Ésta es una tarea de clasificación de resultados binarios.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
capítulo). Los capítulos de técnicas individuales incluyen ejemplos de cómo aplicar las técnicas para
diversos propósitos. Aun así, algunas técnicas se adaptan mejor a algunas tareas. A la hora de elegir una
técnica, hazte estas preguntas:
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Sin embargo, requiere mucho tiempo e inexactitud. A medida que aumenta el número de campos
categóricos y de campos con valores faltantes, también aumenta el atractivo de los árboles de
decisión, los modelos de búsqueda de tablas y los modelos bayesianos ingenuos, todos los cuales
pueden manejar fácilmente campos categóricos y valores faltantes. Cuando las entradas son
numéricas y no contienen valores faltantes, los modelos de regresión y las redes neuronales
pueden utilizar más información de los datos.
Algunas técnicas requieren mucha más preparación de datos que otras. Por ejemplo, las redes
neuronales requieren que todas las entradas sean numéricas y estén dentro de un pequeño rango
de valores. También son sensibles a los valores atípicos y no pueden procesar los valores faltantes.
Otros, como los árboles de decisión, son mucho más indulgentes y requieren menos preparación de
datos, pero es posible que no funcionen tan bien. A menudo existe un equilibrio entre potencia,
precisión y facilidad de uso. Como ejemplo extremo, los algoritmos genéticos requieren tanto trabajo
por parte del minero que rara vez se utilizan si hay disponible un enfoque alternativo.
Desde que apareció la primera edición de este libro en la década de 1990, las herramientas de
software de minería de datos han logrado grandes avances en el área de la facilidad de uso. Los
mejores proporcionan interfaces de usuario que respaldan las mejores prácticas y hacen que incluso
técnicas complejas, como las redes neuronales, sean relativamente fáciles de usar.
En el otro extremo, algunas decisiones (conceder o denegar un crédito, por ejemplo) pueden estar
sujetas a revisión regulatoria. Explicar que se le negó el crédito porque el solicitante tenía demasiadas
líneas abiertas y una proporción demasiado grande de deuda e ingresos está bien. Decir: “El modelo
identificó al solicitante como de alto riesgo, pero no tenemos idea de por qué”, es inaceptable.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
Cualquier registro puede explicarse, pero eso no significa que un árbol grande y complejo
sea fácil de entender en su totalidad. La desventaja es que los árboles de decisión
pueden no utilizar tanta información inherente a una variable como otras técnicas que
utilizan el valor directamente en lugar de simplemente compararlo con un valor dividido.
Con un poco de atención a la preparación de los datos, los modelos de regresión
también arrojan mucha luz sobre lo que contribuye a una puntuación. Cuando las
variables explicativas han sido estandarizadas, la magnitud relativa de los coeficientes
del modelo muestra cuánto contribuye cada una a la puntuación. En una regresión, cada
pequeño cambio en el valor de una variable explicativa tiene un efecto en la puntuación.
En ese sentido, el modelo de regresión hace más uso de la información proporcionada
por las variables explicativas que los árboles de decisión.
Las redes neuronales son bastante flexibles y capaces de modelar funciones bastante
complejas con mucha precisión, pero son esencialmente inexplicables. Cada una de estas
técnicas proporciona un equilibrio diferente entre las mejores puntuaciones y las mejores explicaciones.
Conociendo las fortalezas y debilidades, debes decidir las técnicas que son más
apropiadas para tu aplicación.
La Tabla 31 muestra qué técnicas se utilizan normalmente para qué tareas. Como
deja claro la tabla, prácticamente cualquiera de las técnicas dirigidas se puede utilizar
para problemas de clasificación, predicción y estimación. La elección final está
determinada por la medida en que el modelo debería ser capaz de contar una historia
además de producir puntuaciones, y por las características de los datos que se van a extraer.
Estimacion Regresión lineal, redes neuronales. Árboles de regresión, modelos de vecino más
cercano.
Respuesta binaria Regresión logística, árboles de decisión Modelos de similitud, modelos de búsqueda
de tablas, modelos de vecino más cercano,
modelos bayesianos ingenuos
Lecciones aprendidas
El proceso de minería de datos puede fallar de muchas maneras. El fracaso puede tomar
varias formas, incluyendo simplemente no responder las preguntas que se propuso
responder, así como “descubrir” cosas que ya sabe. Una forma especialmente perniciosa de
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
El fracaso es aprender cosas que no son ciertas. Esto puede suceder de muchas maneras:
cuando los datos utilizados para la minería no son representativos; o cuando contiene
patrones accidentales que no logran generalizarse; o cuando haya sido resumido de forma
que destruya la información; o cuando mezcla información de períodos de tiempo que
deberían mantenerse separados.
Hay tres estilos de minería de datos. La minería de datos exploratoria produce
conocimientos o responde preguntas en lugar de producir modelos utilizados para calificar.
La minería de datos exploratoria a menudo implica plantear hipótesis que pueden probarse
o refutarse utilizando datos. La minería de datos exploratoria es muy importante; sin embargo,
no es el tema de las técnicas avanzadas de este libro.
La minería de datos dirigida se utiliza cuando los datos históricos contienen ejemplos de
lo que se busca. Para un modelo de deserción, esto supone que los datos históricos
contienen ejemplos de clientes que han dejado de trabajar y que no lo han hecho. Para un
modelo de valor para el cliente, esto supone que es posible estimar el valor para el cliente
utilizando los datos históricos. El objetivo (u objetivos) del modelo son estas variables. Las
variables “explicativas” del modelo son los insumos.
La minería de datos no dirigida no utiliza una variable de destino. Es como arrojar datos a
la computadora y ver dónde aterrizan. Para entender la minería de datos no dirigida es
necesario comprender e interpretar los resultados. Sin un objetivo, la computadora no tiene
forma de juzgar si los resultados son buenos o no.
Puede utilizar los tres estilos de minería de datos por separado o en combinación para
lograr una amplia gama de objetivos comerciales. El proceso de minería de datos comienza
con un objetivo comercial. El proceso de minería de datos implica traducir el objetivo
empresarial en una o más tareas de minería de datos. Una vez definidas las tareas, la
naturaleza de la tarea, el tipo de datos disponibles, la forma en que se entregarán los
resultados y el equilibrio entre la precisión y la explicabilidad del modelo influyen en la
elección de la técnica de minería de datos.
Cualquiera que sea la técnica que elija, y sin importar el estilo de minería de datos, utilizar
la minería de datos de manera efectiva requiere ciertos conocimientos de estadística, el
tema del próximo capítulo.
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse
Machine Translated by Google
EBSCOhost impreso el 19/03/2024 12:00 PM vía PONTIFICIA UNIVERSIDAD JAVERIANA CALI. Todo uso está sujeto a https://www.ebsco.com/termsofuse