Introducción - Pensamiento Analítico de Datos Cap 1 y 2

30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 1
CAPÍTULO 1
Introducción: pensamiento analítico de datos
No sueñes pequeños sueños porque no tienen poder para

mueve los corazones de los hombres.
-Johann Wolfgang von Goethe
Los últimos quince años han sido testigos de importantes inversiones en infraestructura empresarial, que
han mejorado la capacidad de recopilar datos en toda la empresa. Prácticamente todos los
El aspecto empresarial ahora está abierto a la recopilación de datos y, a menudo, incluso está instrumentado para datos.
recopilación: operaciones, fabricación, gestión de la cadena de suministro, comportamiento del cliente,
rendimiento de la campaña de marketing, procedimientos de flujo de trabajo, etc. Al mismo tiempo,
La información ahora está ampliamente disponible sobre eventos externos, como las tendencias del mercado, la industria.
noticias y movimientos de la competencia. Esta amplia disponibilidad de datos ha llevado a un aumento
interés en los métodos para extraer información y conocimientos útiles de los datos;
ámbito de la ciencia de datos.
La ubicuidad de las oportunidades de datos

Con una gran cantidad de datos ahora disponibles, las empresas de casi todas las industrias están enfocadas
cused en la explotación de datos para una ventaja competitiva. En el pasado, las empresas podían emplear
equipos de estadísticos, modeladores y analistas para explorar conjuntos de datos manualmente, pero el volumen
La cantidad y variedad de datos han superado con creces la capacidad del análisis manual. En el
Al mismo tiempo, las computadoras se han vuelto mucho más poderosas, las redes se han convertido en ubiq‐
uitous, y se han desarrollado algoritmos que pueden conectar conjuntos de datos para permitir más
y análisis más profundos de lo que era posible anteriormente. La convergencia de estos fenómenos ha
dado lugar a la aplicación empresarial cada vez más generalizada de los principios de la ciencia de datos
y técnicas de minería de datos.
Probablemente, las aplicaciones más amplias de las técnicas de minería de datos se encuentran en el marketing para tareas.
como marketing dirigido, publicidad online y recomendaciones para la venta cruzada.
https://translate.googleusercontent.com/translate_f 1/36
Página 2
La minería de datos se utiliza para la gestión general de las relaciones con los clientes para analizar
comportamiento para gestionar el desgaste y maximizar el valor esperado para el cliente. los
La industria financiera utiliza la minería de datos para la calificación crediticia y el comercio, y en operaciones a través de
detección de fraudes y gestión de la fuerza laboral. Principales minoristas desde Walmart hasta Amazon
aplicar la minería de datos en sus negocios, desde el marketing hasta el manejo de la cadena de suministro
envejecimiento. Muchas empresas se han diferenciado estratégicamente con la ciencia de datos,
a veces hasta el punto de convertirse en empresas de minería de datos.
Los objetivos principales de este libro son ayudarlo a ver los problemas comerciales a partir de una
perspectiva y comprender los principios para extraer conocimiento útil de los datos. Allí
es una estructura fundamental para el pensamiento analítico de datos, y principios básicos que deben
ser entendido. También hay áreas particulares donde la intuición, la creatividad, los
sentido, y el conocimiento del dominio debe aplicarse. Una perspectiva de datos proporcionará
usted con estructura y principios, y esto le dará un marco para sistemáticamente
analizar esos problemas. A medida que mejore en el pensamiento analítico de datos, desarrollará
intuición sobre cómo y dónde aplicar la creatividad y el conocimiento del dominio.
A lo largo de los dos primeros capítulos de este libro, discutiremos en detalle varios temas.
y técnicas relacionadas con la ciencia de datos y la minería de datos. Los términos "ciencia de datos" y
"Minería de datos" a menudo se utilizan indistintamente, y el primero ha cobrado vida propia
a medida que varias personas y organizaciones intentan capitalizar la exageración actual
inglo. En un nivel alto, la ciencia de datos es un conjunto de principios fundamentales que guían la
extracción de conocimiento a partir de datos. La minería de datos es la extracción de conocimiento de
datos, a través de tecnologías que incorporan estos principios. Como término, "ciencia de datos" a menudo
se aplica de manera más amplia que el uso tradicional de "minería de datos", pero la tecnología de minería de datos
niques proporcionan algunas de las ilustraciones más claras de los principios de la ciencia de datos.
Es importante comprender la ciencia de datos incluso si nunca tiene la intención de

aplíquelo usted mismo. El pensamiento analítico de datos le permite evaluar los
propuestas para proyectos de minería de datos. Por ejemplo, si un empleado, un
sultant, o un objetivo de inversión potencial propone mejorar un participante
ular aplicación empresarial extrayendo conocimiento de los datos, usted
debe poder evaluar la propuesta de forma sistemática y decidir si
er es sólido o defectuoso. Esto no significa que podrá
decir si realmente tendrá éxito, para proyectos de minería de datos, que
a menudo requiere intentarlo, pero debería poder detectar fallas obvias,
suposiciones poco realistas y piezas faltantes.
A lo largo del libro, describiremos una serie de principios fundamentales de la ciencia de datos,
e ilustrará cada uno con al menos una técnica de minería de datos que encarna el principio
principio. Para cada principio, por lo general, hay muchas técnicas específicas que lo incorporan, por lo que
En este libro hemos optado por enfatizar los principios básicos con preferencia a los
técnicas. Dicho esto, no daremos gran importancia a la diferencia entre los datos
2 | Capítulo 1: Introducción: pensamiento analítico de datos
Página 3
ciencia y minería de datos, excepto cuando tenga un efecto sustancial en la comprensión

los conceptos reales.
Examinemos dos breves estudios de caso de análisis de datos para extraer patrones predictivos.
Ejemplo: huracán Frances

Considere un ejemplo de una historia del New York Times de 2004:
El huracán Frances estaba en camino, atravesando el Caribe, amenazando con una
golpe en la costa atlántica de Florida. Los residentes se dirigieron a terrenos más altos, pero muy lejos, en Ben‐
Tonville, Ark., los ejecutivos de las tiendas Wal-Mart decidieron que la situación ofrecía un gran
oportunidad para una de sus armas basadas en datos más nuevas ... tecnología predictiva.
Una semana antes de la llegada de la tormenta, Linda M. Dillman, directora de información de Wal-Mart
oficial, presionó a su personal para que elaboraran pronósticos basados en lo que había sucedido cuando
El huracán Charley azotó varias semanas antes. Respaldado por billones de bytes de
historial de compradores que se almacena en el almacén de datos de Wal-Mart, consideró que la empresa
podría 'comenzar a predecir lo que va a suceder, en lugar de esperar a que suceda', como ella
Ponlo. (Hays, 2004)
Considere por qué la predicción basada en datos podría ser útil en este escenario. Puede ser útil
para predecir que las personas en el camino del huracán comprarían más agua embotellada. Quizás,
pero este punto parece un poco obvio, y ¿por qué necesitaríamos ciencia de datos para descubrirlo?
Podría ser útil proyectar la cantidad de aumento en las ventas debido al huracán, para
asegúrese de que los Wal-Mart locales estén debidamente abastecidos. Quizás la extracción de datos podría revelar
que un DVD en particular se agotó en el camino del huracán, pero tal vez se agotó esa semana
en Wal-Marts en todo el país, no solo donde el aterrizaje del huracán era inminente.
La predicción podría ser algo útil, pero probablemente sea más general que la Sra. Dill‐
el hombre tenía la intención.
Sería más valioso descubrir patrones debidos al huracán que no fueron observados
vious. Para hacer esto, los analistas podrían examinar el enorme volumen de datos de Wal-Mart de
situaciones similares (como el huracán Charley) para identificar una demanda local inusual de
productos. A partir de tales patrones, la empresa podría anticipar una demanda inusual.
en busca de productos y existencias urgentes en las tiendas antes de la llegada del huracán.
De hecho, eso es lo que sucedió. The New York Times (Hays, 2004) informó que: “… el
Los expertos extrajeron los datos y descubrieron que las tiendas necesitarían ciertos productos.
—Y no solo las linternas habituales. 'No sabíamos en el pasado que fresa Pop-
Las tartas aumentan sus ventas, como siete veces su tasa de ventas normal, antes de un huracán ''.
Dijo la Sra. Dillman en una entrevista reciente. Y el artículo más vendido antes del huracán fue
cerveza. ” 1
1. ¡Por supuesto! ¿Qué va mejor con los Pop-Tarts de fresa que una buena cerveza fría?
Ejemplo: huracán Frances | 3
Página 4
Ejemplo: predecir la rotación de clientes

¿Cómo se realizan estos análisis de datos? Considere un segundo escenario empresarial más típico
nario y cómo podría tratarse desde una perspectiva de datos. Este problema servirá como
ejemplo corriente que iluminará muchas de las cuestiones planteadas en este libro y proporcionará
un marco de referencia común.
Suponga que acaba de conseguir un gran trabajo analítico con MegaTelCo, una de las empresas de tele‐
empresas de comunicación en los Estados Unidos. Están teniendo un gran problema con la cus‐
retención de clientes en su negocio inalámbrico. En la región del Atlántico medio, el 20% de los teléfonos móviles
los clientes se van cuando vencen sus contratos, y cada vez es más difícil
adquirir nuevos clientes. Dado que el mercado de la telefonía móvil está ahora saturado, el enorme crecimiento
en el mercado inalámbrico se ha reducido. Las empresas de comunicaciones ahora están comprometidas
en batallas para atraer a los clientes de los demás mientras retienen los suyos. Los clientes cambian
Pasar de una empresa a otra se llama churn , y es caro en todos los aspectos: uno
la empresa debe gastar en incentivos para atraer a un cliente mientras que otra empresa pierde
ingresos cuando el cliente se marcha.
Se le ha llamado para ayudar a comprender el problema e idear una solución. A-

atraer nuevos clientes es mucho más caro que retener a los existentes, por lo que una buena
Se asigna una gran cantidad de presupuesto de marketing para evitar la deserción. El marketing ya ha diseñado
una oferta de retención especial. Su tarea es diseñar un plan preciso, paso a paso, de cómo
El equipo de ciencia de datos debe utilizar los vastos recursos de datos de MegaTelCo para decidir qué clientes
Se les debe ofrecer el trato de retención especial antes de la expiración de sus contratos.
Piense detenidamente qué datos podría utilizar y cómo se utilizarían. Específicamente,

¿Cómo debería MegaTelCo elegir un conjunto de clientes para recibir su oferta con el fin de
¿Reducir la rotación para un presupuesto de incentivos en particular? Responder a esta pregunta es mucho más
complicado de lo que puede parecer inicialmente. Volveremos a este problema repetidamente a través de
el libro, agregando sofisticación a nuestra solución a medida que desarrollamos una comprensión de la
conceptos fundamentales de ciencia de datos.
En realidad, la retención de clientes ha sido un uso importante de la minería de datos.

tecnologías, especialmente en telecomunicaciones y negocios financieros
es. Estos, en general, fueron algunos de los primeros y más amplios
ers de las tecnologías de minería de datos, por las razones que se analizan más adelante.
Ciencia de datos, ingeniería y decisiones basadas en datos

Haciendo
La ciencia de datos implica principios, procesos y técnicas para comprender la
nomena a través del análisis (automatizado) de datos. En este libro, veremos el objetivo final
Página 5
Figura 1-1. Ciencia de datos en el contexto de varios procesos relacionados con datos en el
organización.
de la ciencia de datos como una mejora en la toma de decisiones, ya que esto generalmente es de interés directo para
negocio.
La figura 1-1 coloca la ciencia de datos en el contexto de varios otros datos estrechamente relacionados y
procesos relacionados en la organización. Distingue la ciencia de datos de otros aspectos.
del procesamiento de datos que están ganando cada vez más atención en las empresas. Empecemos por arriba.
La toma de decisiones basada en datos (DDD) se refiere a la práctica de basar las decisiones en
análisis de datos, en lugar de puramente intuición. Por ejemplo, un especialista en marketing podría seleccionar
anuncios basados puramente en su larga experiencia en el campo y su ojo para lo que
trabajará. O bien, podría basar su selección en el análisis de datos sobre cómo
los sumers reaccionan a diferentes anuncios. También podría utilizar una combinación de estos enfoques.
DDD no es una práctica de todo o nada, y diferentes empresas se involucran en DDD para mayores o
grados menores.
Los beneficios de la toma de decisiones basada en datos se han demostrado de manera concluyente.
El economista Erik Brynjolfsson y sus colegas del MIT y Penn's Wharton School
realizó un estudio de cómo la DDD afecta el desempeño de la empresa (Brynjolfsson, Hitt y Kim,
2011). Desarrollaron una medida de DDD que califica a las empresas en función de la intensidad con la que utilizan
Ciencia de datos, ingeniería y toma de decisiones basada en datos | 5
Página 6
datos para tomar decisiones en toda la empresa. Muestran que estadísticamente, cuantos más datos
impulsada es una empresa, más productiva es, incluso controlando una amplia gama de posibles
factores confusos. Y las diferencias no son pequeñas. Una desviación estándar más alta
en la escala DDD se asocia con un aumento del 4% al 6% en la productividad. DDD también es
correlacionado con un mayor rendimiento de los activos, rendimiento del capital, utilización de activos y mercado
valor, y la relación parece ser causal.
El tipo de decisiones que nos interesan en este libro se dividen principalmente en dos tipos: (1)
decisiones para las cuales es necesario realizar "descubrimientos" dentro de los datos, y (2) decisiones que
repetir, especialmente a escala masiva, por lo que la toma de decisiones puede beneficiarse incluso de pequeños
aumentos en la precisión de la toma de decisiones basada en el análisis de datos. El ejemplo de Walmart
anterior ilustra un problema de tipo 1: a Linda Dillman le gustaría descubrir conocimientos que
ayudará a Walmart a prepararse para la inminente llegada del huracán Frances.
En 2012, el competidor de Walmart, Target, estuvo en las noticias por una toma de decisiones basada en datos.
caso propio, también un problema de tipo 1 (Duhigg, 2012). Como la mayoría de los minoristas, Target se preocupa
sobre los hábitos de compra de los consumidores, qué los impulsa y qué puede influir en ellos.
Los consumidores tienden a tener inercia en sus hábitos y lograr que cambien es muy difícil
ficult. Los tomadores de decisiones en Target sabían, sin embargo, que la llegada de un nuevo bebé a una familia
es un punto en el que las personas cambian significativamente sus hábitos de compra. En el objetivo
palabras del analista: "Tan pronto como hagamos que nos compren pañales, comenzarán
comprando todo lo demás también ". La mayoría de los minoristas lo saben y, por lo tanto, compiten con cada uno
otros intentan vender productos relacionados con el bebé a nuevos padres. Dado que la mayoría de los registros de nacimiento son
público, los minoristas obtienen información sobre los nacimientos y envían ofertas especiales a los nuevos
padres.
Sin embargo, Target quería adelantarse a su competencia. Estaban interesados en

si podrían predecir que las personas están esperando un bebé. Si pudieran lo harían
obtener una ventaja haciendo ofertas antes que sus competidores. Usando técnicas de datos
ciencia, Target analizó datos históricos sobre clientes que luego se reveló que tenían
estado embarazada y pudieron extraer información que podría predecir qué consumidores
Estamos embarazados. Por ejemplo, las madres embarazadas a menudo cambian sus dietas, su barrio
batas, sus regímenes vitamínicos, etc. Estos indicadores podrían extraerse de
datos históricos, reunidos en modelos predictivos y luego implementados en marketing
Campañas. Discutiremos los modelos predictivos con mucho detalle a medida que avancemos en el libro.
Por el momento, es suficiente comprender que un modelo predictivo se abstrae
la mayor parte de la complejidad del mundo, centrándose en un conjunto particular de indicadores que
correlacionar de alguna manera con una cantidad de interés (quién producirá, o quién comprará,
que está embarazada, etc.). Es importante destacar que tanto en el ejemplo de Walmart como en el de Target, el
Página 7
El análisis de datos no estaba probando una hipótesis simple. En cambio, los datos se exploraron con
la esperanza de que se descubriera algo útil. 2
Nuestro ejemplo de abandono ilustra un problema de DDD de tipo 2. MegaTelCo tiene cientos de
millones de clientes, cada uno de los cuales es candidato a la deserción. Decenas de millones de clientes
tienen contratos que vencen cada mes, por lo que cada uno de ellos tiene una mayor probabilidad
de deserción en un futuro próximo. Si podemos mejorar nuestra capacidad de estimar, para un determinado
cliente, cuán rentable sería para nosotros enfocarnos en ella, potencialmente podemos cosechar grandes
beneficios al aplicar esta capacidad a los millones de clientes de la población. Esta
La misma lógica se aplica a muchas de las áreas donde hemos visto la aplicación más intensa.
de ciencia de datos y minería de datos: marketing directo, publicidad en línea, calificación crediticia,
comercio financiero, gestión de la mesa de ayuda, detección de fraudes, clasificación de búsqueda, rec‐
ommendation, y así sucesivamente.
El diagrama de la Figura 1-1 muestra la ciencia de datos que respalda la toma de decisiones basada en datos,
pero también se superpone con la toma de decisiones basada en datos. Esto resalta los a menudo sobre‐
mirado hecho de que, cada vez más, las decisiones de negocio se están realizando de forma automática por com-
sistemas informáticos. Diferentes industrias han adoptado la toma de decisiones automática en diferentes
tarifas. Las industrias de finanzas y telecomunicaciones fueron las primeras en adoptar, en gran parte debido a
causa de su precoz desarrollo de redes de datos y la implementación de
Computación a escala, que permitió la agregación y modelado de datos a gran escala,
así como la aplicación de los modelos resultantes a la toma de decisiones.
En la década de 1990, la toma de decisiones automatizada cambió la banca y el crédito al consumo.

industrias dramáticamente. En la década de 1990, los bancos y las empresas de telecomunicaciones también
implementó sistemas a gran escala para administrar decisiones de control de fraude basadas en datos.
A medida que los sistemas minoristas estaban cada vez más informatizados, las decisiones de comercialización se
apareado. Algunos ejemplos famosos incluyen los programas de recompensas de los casinos de Harrah's y los
recomendaciones de Amazon y Netflix. Actualmente estamos viendo una revolución en la publicidad
verticalización, debido en gran parte a un gran aumento en la cantidad de tiempo que los consumidores
el gasto en línea y la capacidad en línea para hacer (literalmente) publicidad en fracciones de segundo
decisiones.
Procesamiento de datos y "Big Data"

Es importante hacer una digresión aquí para abordar otro punto. El procesamiento de datos implica mucho
eso no es ciencia
La ingeniería y elde datos, a pesarson
procesamiento de fundamentales
la impresión que unorespaldar
para pueda tener de los de
la ciencia medios
datos,depero
comunicación.
son más gen‐Datos
eral. Por ejemplo, en estos días muchas habilidades, sistemas y tecnologías de procesamiento de datos
a menudo se definen erróneamente como ciencia de datos. Para comprender la ciencia de datos y la información basada en datos
2. Target tuvo el éxito suficiente como para que este caso planteara cuestiones éticas sobre el despliegue de tales técnicas.
Las preocupaciones por la ética y la privacidad son interesantes y muy importantes, pero dejamos su discusión para otro.
tiempo y lugar.
Procesamiento de datos y “Big Data” | 7
Página 8
empresas es importante comprender las diferencias. La ciencia de datos necesita acceso a

datos y, a menudo, se beneficia de la ingeniería de datos sofisticada que el procesamiento de datos
las tecnologías pueden facilitar, pero estas tecnologías no son tecnologías de ciencia de datos por
se. Son compatibles con la ciencia de datos, como se muestra en la Figura 1-1 , pero son útiles para mucho más.
Las tecnologías de procesamiento de datos son muy importantes para muchas tareas comerciales orientadas a los datos.
que no impliquen la extracción de conocimientos o la toma de decisiones impulsada por datos, como ef‐
procesamiento de transacciones ficticias, procesamiento de sistemas web modernos y publicidad en línea
administración de campaña.
Las tecnologías de "macrodatos" (como Hadoop, HBase y MongoDB) han recibido con‐
considerable atención de los medios recientemente. Big data esencialmente significa conjuntos de datos que son demasiado grandes
para los sistemas de procesamiento de datos tradicionales y, por lo tanto, requieren nuevas tecnologías de procesamiento
ogías. Al igual que con las tecnologías tradicionales, las tecnologías de big data se utilizan para muchos
tareas, incluida la ingeniería de datos. Ocasionalmente, se utilizan realmente tecnologías de big data
para implementar técnicas de minería de datos. Sin embargo, con mucha más frecuencia el conocido
Las tecnologías de big data se utilizan para el procesamiento de datos en apoyo de la tecnología de minería de datos.
niques y otras actividades de ciencia de datos, como se representa en la Figura 1-1 .
Anteriormente, discutimos el estudio de Brynjolfsson que demuestra los beneficios de las

Toma de decisiones. Un estudio separado, realizado por la economista Prasanna Tambe de NYU's
Stern School, examinó hasta qué punto las tecnologías de big data parecen ayudar a las empresas
(Tambe, 2012). Encuentra que, después de controlar varios posibles factores de confusión,
El uso de tecnologías de big data se asocia con un crecimiento adicional significativo de la productividad.
Específicamente, una desviación estándar de mayor utilización de las tecnologías de big data es
ciado con una productividad entre un 1% y un 3% más alta que la empresa promedio; una desviación estándar
menor en términos de utilización de big data se asocia con una productividad entre un 1% y un 3% menor. Esta
conduce a diferencias de productividad potencialmente muy grandes entre las empresas de los extremos.
De Big Data 1.0 a Big Data 2.0

Una forma de pensar sobre el estado de las tecnologías de big data es establecer una analogía con
adopción empresarial de tecnologías de Internet. En la Web 1.0, las empresas se ocuparon
con la puesta en marcha de las tecnologías básicas de Internet, de modo que pudieran establecer una red
presencia, desarrollar la capacidad de comercio electrónico y mejorar la eficiencia de sus operaciones
eraciones. Podemos pensar en nosotros mismos como en la era de Big Data 1.0. Las empresas están ocupadas
ellos mismos con la construcción de las capacidades para procesar grandes datos, en gran parte en apoyo de su
operaciones actuales, por ejemplo, para mejorar la eficiencia.
Una vez que las empresas incorporaron completamente las tecnologías Web 1.0 (y en el proceso
bajaron los precios de la tecnología subyacente) comenzaron a mirar más allá. Ellos
Comenzó a preguntar qué podía hacer la Web por ellos y cómo podía mejorar las cosas que ellos
siempre hecho, y entramos en la era de la Web 2.0, donde los nuevos sistemas y empresas
comenzó a aprovechar la naturaleza interactiva de la Web. Los cambios provocados
por este cambio de pensamiento son omnipresentes; los más obvios son la incorporación de
Página 9
componentes de redes y el surgimiento de la "voz" del consumidor individual (y

ciudadano).
Deberíamos esperar que una fase de Big Data 2.0 siga a Big Data 1.0. Una vez que las empresas se han convertido
capaces de procesar datos masivos de forma flexible, deberían empezar a preguntarse: "¿Qué
¿Puedo hacer ahora lo que no podía hacer antes, o hacerlo mejor de lo que podía hacer antes? " Esto es probable
para ser la era dorada de la ciencia de datos. Los principios y técnicas que presentamos en este
El libro se aplicará de manera mucho más amplia y profunda que en la actualidad.
Es importante tener en cuenta que en la era de la Web 1.0 algunos conocimientos precoces
Las empresas comenzaron a aplicar las ideas de la Web 2.0 mucho antes que la corriente principal.
Amazon es un excelente ejemplo, incorporando la "voz" del consumidor
al principio, en la calificación de los productos, en las reseñas de productos (y más en profundidad, en
la calificación de las reseñas de productos). Del mismo modo, vemos que algunas empresas al‐
listo aplicando Big Data 2.0. Amazon vuelve a ser una empresa a la vanguardia
frontal, proporcionando recomendaciones basadas en datos a partir de datos masivos.
También hay otros ejemplos. Los anunciantes en línea deben procesar
volúmenes extremadamente grandes de datos (miles de millones de impresiones de anuncios por día son
no es inusual) y mantener un rendimiento muy alto (oferta en tiempo real
Los sistemas ding toman decisiones en decenas de milisegundos). Deberíamos mirar
a estas y otras industrias similares para obtener pistas sobre los avances en big data y
ciencia de datos que posteriormente será adoptada por otras industrias.
Capacidad de datos y ciencia de datos como un activo estratégico

Las secciones anteriores sugieren uno de los principios fundamentales de la ciencia de datos: datos y
la capacidad de extraer conocimientos útiles de los datos, debe considerarse como una estrategia clave
activos. Demasiadas empresas consideran que el análisis de datos pertenece principalmente a la obtención de valor.
a partir de algunos datos existentes y, a menudo, sin tener en cuenta si la empresa ha
el talento analítico adecuado. Verlos como activos nos permite pensar explícitamente
sobre la medida en que uno debería invertir en ellos. A menudo, no tenemos exactamente el
datos correctos para tomar las mejores decisiones y / o el talento adecuado para respaldar mejor la toma de decisiones
a partir de los datos. Además, pensar en estos como activos debería llevarnos a darnos cuenta de que
son complementarios . El mejor equipo de ciencia de datos puede generar poco valor sin la
datos apropiados; los datos correctos a menudo no pueden mejorar sustancialmente las decisiones sin
talento adecuado en ciencia de datos. Como ocurre con todos los activos, a menudo es necesario realizar inversiones.
Construir un equipo de ciencia de datos de primer nivel no es una tarea trivial, pero puede suponer una gran
diferencia para la toma de decisiones. Discutiremos las consideraciones estratégicas que involucran datos
ciencia en detalle en el Capítulo 13 . Nuestro próximo estudio de caso presentará la idea de que pensar
explícitamente acerca de cómo invertir en activos de datos muy a menudo da buenos resultados.
La historia clásica del pequeño Signet Bank de la década de 1990 es un buen ejemplo. Previamente,
En la década de 1980, la ciencia de datos había transformado el negocio del crédito al consumo. Modelado
Capacidad de datos y ciencia de datos como un activo estratégico | 9
Página 10
la probabilidad de incumplimiento había cambiado la industria de la evaluación personal de la

probabilidad de incumplimiento de estrategias de escala masiva y participación de mercado, lo que trajo consigo
junto con las economías de escala concomitantes. Puede parecer extraño ahora, pero en ese momento, el crédito
esencialmente, las tarjetas tenían precios uniformes, por dos razones: (1) las empresas no tenían
sistemas de información adecuados para hacer frente a la fijación de precios diferenciales a escala masiva, y (2)
La gerencia del banco creía que los clientes no tolerarían la discriminación de precios.
Alrededor de 1990, dos visionarios estratégicos (Richard Fairbanks y Nigel Morris) se dieron cuenta
que la tecnología de la información era lo suficientemente poderosa como para poder hacer más sofisticación
modelado predictivo basado en el uso del tipo de técnicas que discutimos a lo largo de este
reservar y ofrecer diferentes términos (hoy en día: precios, límites de crédito, tasa de interés inicial baja
transferencias bancarias, reembolsos en efectivo, puntos de fidelidad, etc.). Estos dos hombres no tuvieron éxito
persuadir a los grandes bancos para que los contraten como consultores y los dejen intentarlo. Finalmente, despues
se quedaron sin grandes bancos, lograron captar el interés de una pequeña región
Banco de Virginia: Signet Bank. La gerencia de Signet Bank estaba convencida de que el modelado
La rentabilidad, no solo la probabilidad de incumplimiento, era la estrategia correcta. Sabían que un pequeño
proporción de clientes en realidad representa más del 100% de las ganancias de un banco de
operaciones con tarjeta de crédito (porque el resto son de punto de equilibrio o pérdidas de dinero). Si pudieran
modelo de rentabilidad, podrían hacer mejores ofertas a los mejores clientes y
crema ”de la clientela de los grandes bancos.
Pero Signet Bank tuvo un gran problema al implementar esta estrategia. Ellos no
tener los datos adecuados para modelar la rentabilidad con el objetivo de ofrecer diferentes plazos
a diferentes clientes. Nadie lo hizo. Dado que los bancos estaban ofreciendo crédito con un conjunto específico
de términos y un modelo predeterminado específico, tenían los datos para modelar la rentabilidad (1) para
los términos que realmente han ofrecido en el pasado, y (2) para el tipo de cliente que
realmente se les ofreció crédito (es decir, aquellos que fueron considerados dignos de crédito por el
modelo existente).
¿Qué podía hacer Signet Bank? Pusieron en juego una estrategia fundamental de datos
ciencia: adquirir los datos necesarios a un costo. Una vez que consideramos los datos como un activo comercial,
Debería pensar si estamos dispuestos a invertir y cuánto. En el caso de Signet,
Se podrían generar datos sobre la rentabilidad de los clientes con diferentes condiciones crediticias.
realizando experimentos. Se ofrecieron diferentes términos al azar a diferentes clientes.
tomers. Esto puede parecer una tontería fuera del contexto del pensamiento analítico de datos: es probable que
perder dinero! Esto es cierto. En este caso, las pérdidas son el costo de la adquisición de datos. Los datos-
El pensador analítico debe considerar si espera que los datos tengan suficiente valor.
para justificar la inversión.
Entonces, ¿qué pasó con Signet Bank? Como era de esperar, cuando Signet comenzó al azar
al ofrecer condiciones a los clientes para la adquisición de datos, el número de cuentas defectuosas se disparó.
Signet pasó de una tasa de "cancelación" líder en la industria (el 2.9% de los saldos quedaron sin pagar)
hasta casi el 6% de cancelaciones. Las pérdidas continuaron durante algunos años mientras los científicos de datos
trabajó para construir modelos predictivos a partir de los datos, evaluarlos e implementarlos en
mejorar las ganancias. Debido a que la empresa consideró estas pérdidas como inversiones en datos,
Página 11
asistió a pesar de las quejas de las partes interesadas. Finalmente, la operación de la tarjeta de crédito de Signet
dio la vuelta y se volvió tan rentable que se escindió para separarlo de la
otras operaciones del banco, que ahora estaban eclipsando el éxito del crédito al consumo.
Fairbanks y Morris se convirtieron en presidente y director ejecutivo y presidente y director de operaciones, y pro‐
cedió a aplicar los principios de la ciencia de datos en toda la empresa, no solo en los clientes
adquisición pero también retención. Cuando un cliente llama buscando una oferta mejor, los datos
Los modelos impulsados calculan la rentabilidad potencial de varias acciones posibles (diferentes
ofertas, incluido el mantenimiento del status quo), y el representante de servicio al cliente
computadora presenta las mejores ofertas para realizar.
Puede que no hayas oído hablar de Little Signet Bank, pero si estás leyendo este libro,
Probablemente haya oído hablar del spin-off: Capital One. Creció la nueva empresa de Fairbanks y Morris
ser uno de los emisores de tarjetas de crédito más grandes de la industria con uno de los cargos más bajos
de descuento en las tarifas. En 2000, se informó que el banco estaba llevando a cabo 45.000 de estos
pruebas ”como las llamaban. 3
Los estudios que dan demostraciones cuantitativas claras del valor de un activo de datos son difíciles de
encontrar, principalmente porque las empresas dudan en divulgar resultados de valor estratégico. Un ex
ception es un estudio de Martens y Provost (2011) que evalúa si los datos sobre el
las transacciones de los consumidores de un banco pueden mejorar los modelos para decidir qué producto ofrece
para hacer. El banco construyó modelos a partir de datos para decidir a quién dirigirse con ofertas para
diferentes productos. La investigación examinó varios tipos diferentes de datos y
sus efectos sobre el rendimiento predictivo. Los datos sociodemográficos proporcionan una
capacidad para modelar el tipo de consumidores que tienen más probabilidades de comprar un producto o
otro. Sin embargo, los datos sociodemográficos son limitados; después de un cierto volumen de datos,
no se confiere ninguna ventaja adicional. Por el contrario, los datos detallados sobre los clientes
Las transacciones (anonimizadas) mejoran el rendimiento sustancialmente en comparación con el uso de socios
datos demográficos. La relación es clara y sorprendente y, significativamente, para el punto
aquí, el rendimiento predictivo sigue mejorando a medida que se utilizan más datos,
ing en todo el rango investigado por Martens y Provost sin signos de disminuir.
Esto tiene una implicación importante: los bancos con mayores activos de datos pueden tener una importante
ventaja estratégica sobre sus competidores más pequeños. Si estas tendencias se generalizan y el
los bancos pueden aplicar análisis sofisticados, los bancos con mayores activos de datos deben
mejor capaz de identificar a los mejores clientes para productos individuales. El resultado neto será
ya sea una mayor adopción de los productos del banco, una disminución del costo de adquisición de clientes,
o ambos.
La idea de los datos como un activo estratégico ciertamente no se limita a Capital One, ni siquiera a
la industria bancaria. Amazon pudo recopilar datos desde el principio sobre los clientes en línea, lo que
ha creado costos de cambio significativos: los consumidores encuentran valor en las clasificaciones y rec‐
recomendaciones que ofrece Amazon. Por lo tanto, Amazon puede retener más a los clientes
3. Puede leer más sobre la historia de Capital One (Clemons y Thatcher, 1998; McNamee 2001).
Capacidad de datos y ciencia de datos como un activo estratégico | 11
Pagina 12
fácilmente, e incluso puede cobrar una prima (Brynjolfsson & Smith, 2000). Casinos de Harrah's
invirtió en la recopilación y extracción de datos sobre los jugadores, y se movió de un
pequeño jugador en el negocio de los casinos a mediados de la década de 1990 hasta la adquisición de Caesar's
Entertainment en 2005 para convertirse en la compañía de juegos de azar más grande del mundo. El enorme valor
La creación de Facebook se ha atribuido a sus vastos y únicos activos de datos (Sengupta, 2012),
incluyendo tanto información sobre las personas y sus gustos, como también información
sobre la estructura de la red social. La información sobre la estructura de la red ha sido
ha demostrado ser importante para predecir y ha demostrado ser muy útil en
construir modelos de quién comprará ciertos productos (Hill, Provost y Volinsky, 2006). Eso
está claro que Facebook tiene un activo de datos notable; si tienen los datos correctos
Las estrategias científicas para aprovecharlo al máximo es una cuestión abierta.
En el libro discutiremos con más detalle muchos de los conceptos fundamentales detrás de
estas historias de éxito, al explorar los principios de la minería de datos y el análisis de datos
pensando.
Pensamiento analítico de datos

El análisis de casos de estudio, como el problema de la rotación, mejora nuestra capacidad de abordar
problemas "analíticamente de datos". Promover tal perspectiva es un objetivo primordial de este
libro. Cuando se enfrente a un problema empresarial, debería poder evaluar si y
cómo los datos pueden mejorar el rendimiento. Discutiremos un conjunto de conceptos fundamentales y
principios que facilitan el pensamiento cuidadoso. Desarrollaremos marcos para estructurar el
análisis para que se pueda realizar de forma sistemática.
Como se mencionó anteriormente, es importante comprender la ciencia de datos incluso si nunca tiene la intención
para hacerlo usted mismo, porque el análisis de datos es ahora muy importante para la estrategia empresarial. Empresas
están cada vez más impulsados por el análisis de datos, por lo que existe una gran ventaja profesional en
poder interactuar de manera competente con y dentro de dichas empresas. Entendiendo el
conceptos fundamentales y tener marcos para organizar el pensamiento analítico de datos
no solo le permitirá a uno interactuar de manera competente, sino que le ayudará a visualizar oportunidades
para mejorar la toma de decisiones basada en datos, o para ver amenazas competitivas orientadas a datos.
Las empresas de muchas industrias tradicionales están explotando recursos de datos nuevos y existentes para
ventaja competitiva. Emplean equipos de ciencia de datos para traer tecnologías avanzadas
soportar para aumentar los ingresos y reducir los costes. Además, muchas empresas nuevas están
siendo desarrollado con la minería de datos como un componente estratégico clave. Facebook y Twitter,
junto con muchas otras empresas "Digital 100" ( Business Insider , 2012), tienen altos
valoraciones debido principalmente a los activos de datos que se han comprometido a capturar o crear. 4
Cada vez más, los gerentes necesitan supervisar los equipos de análisis y los proyectos de análisis, los especialistas en marketing
4. Por supuesto, este no es un fenómeno nuevo. Amazon y Google son empresas bien establecidas que obtienen
enorme valor de sus activos de datos.
Página 13
tienen que organizar y comprender las campañas basadas en datos, los capitalistas de riesgo deben ser
capaz de invertir sabiamente en empresas con activos de datos sustanciales y estrategas comerciales
debe poder diseñar planes que exploten los datos.
Como algunos ejemplos, si un consultor presenta una propuesta para extraer un activo de datos para mejorar
su negocio, debería poder evaluar si la propuesta tiene sentido. Si un
competidor anuncia una nueva asociación de datos, debe reconocer cuándo puede poner
usted en una desventaja estratégica. O, digamos que toma un puesto en una empresa de riesgo y
su primer proyecto es evaluar el potencial de inversión en una empresa de publicidad. los
Los fundadores presentan un argumento convincente de que obtendrán un valor significativo de una
cuerpo único de datos que recopilarán, y sobre esa base están defendiendo una
mayor valoración. ¿Es esto razonable? Con una comprensión de los fundamentos de los datos.
ciencia, debería poder idear algunas preguntas de sondeo para determinar si su
Los argumentos de valoración son plausibles.
En una escala menos grande, pero probablemente más común, los proyectos de análisis de datos llegan a todos
Unidades de negocios. Los empleados de estas unidades deben interactuar con la ciencia de datos.
equipo. Si estos empleados no tienen una base fundamental en los principios de datos-
pensamiento analítico, no comprenderán realmente lo que está sucediendo en el negocio.
Esta falta de comprensión es mucho más dañina en los proyectos de ciencia de datos que en
otros proyectos técnicos, porque la ciencia de datos está respaldando mejores decisiones
haciendo. Como describiremos en el próximo capítulo, esto requiere una estrecha interacción entre
los científicos de datos y los empresarios responsables de la toma de decisiones. Firmas
donde los empresarios no entienden lo que están haciendo los científicos de datos están en un
desventaja sustancial, porque pierden tiempo y esfuerzo o, peor aún, porque pierden
en última instancia, tomar decisiones equivocadas.
La necesidad de gerentes con habilidades analíticas de datos.

La consultora McKinsey and Company estima que “habrá
ser una escasez de talento necesaria para que las organizaciones aprovechen
de big data. Para 2018, solo Estados Unidos podría enfrentar una escasez de
140.000 a 190.000 personas con profundas habilidades analíticas, así como 1,5
millones de gerentes y analistas con el conocimiento para utilizar el análisis
sis de big data para tomar decisiones efectivas ". (Manyika, 2011). Por qué 10
veces más gerentes y analistas que aquellos con experiencia analítica profunda
¿habilidades? Seguramente los científicos de datos no son tan difíciles de administrar como necesitan
¡10 gerentes! La razón es que una empresa puede aprovechar los datos
equipo científico para tomar mejores decisiones en múltiples áreas del negocio
ness. Sin embargo, como señala McKinsey, los gerentes en esos
áreas necesitan comprender los fundamentos de la ciencia de datos para
obtener activamente ese apalancamiento.
Pensamiento analítico de datos | 13
Página 14
Este libro
Este libro se concentra en los fundamentos de la ciencia de datos y la minería de datos. Estos son
un conjunto de principios, conceptos y técnicas que estructuran el pensamiento y el análisis. Ellos
nos permiten comprender los procesos y métodos de la ciencia de datos de manera sorprendentemente profunda, sin
necesidad de centrarse en profundidad en la gran cantidad de algoritmos específicos de minería de datos.
Hay muchos libros buenos que cubren algoritmos y técnicas de minería de datos, desde
guías prácticas de tratamientos matemáticos y estadísticos. En cambio, este libro se centra
sobre los conceptos fundamentales y cómo nos ayudan a pensar en problemas donde los datos
la minería puede ser utilizada. Eso no significa que ignoraremos la minería de datos.
técnicas; muchos algoritmos son exactamente la encarnación de los conceptos básicos. Pero
con solo unas pocas excepciones, no nos concentraremos en los detalles técnicos profundos de cómo
las técnicas realmente funcionan; Intentaremos proporcionar los detalles suficientes para que pueda
comprender qué hacen las técnicas y cómo se basan en los aspectos fundamentales
principios.
Minería de datos y ciencia de datos, revisada

Este libro dedica mucha atención a la extracción de útiles (no triviales, esperanzados)
totalmente procesable) patrones o modelos de grandes cuerpos de datos (Fayyad, Piatetsky-
Shapiro y Smyth, 1996) y a los principios fundamentales de la ciencia de datos subyacentes
tal minería de datos. En nuestro ejemplo de predicción de abandono, nos gustaría tomar los datos en
abandonar previamente y extraer patrones , por ejemplo, patrones de comportamiento, que son útiles , que
puede ayudarnos a predecir qué clientes es más probable que se vayan en el futuro, o que
puede ayudarnos a diseñar mejores servicios.
Los conceptos fundamentales de la ciencia de datos se extraen de muchos campos que estudian datos
analítica. Introducimos estos conceptos a lo largo del libro, pero analicemos brevemente un
pocos ahora para obtener el sabor básico. Hablaremos de todos estos y más en más adelante.
capítulos.
Concepto fundamental: extraer conocimientos útiles de los datos para resolver problemas comerciales
puede tratarse sistemáticamente siguiendo un proceso con etapas razonablemente bien definidas.
El proceso estándar de la industria cruzada para la minería de datos, abreviado CRISP-DM (CRISP-
DM Project, 2000), es una codificación de este proceso. Teniendo en cuenta ese proceso
proporciona un marco para estructurar nuestro pensamiento sobre los problemas de análisis de datos. Para
Por ejemplo, en la práctica real uno ve repetidamente "soluciones" analíticas que no se basan
en un análisis cuidadoso del problema o no se evalúan cuidadosamente. Pensamiento estructurado
sobre la analítica enfatiza estos aspectos a menudo subestimados del apoyo
toma de decisiones con datos. Este pensamiento estructurado también contrasta puntos críticos donde
La creatividad humana es necesaria frente a los puntos en los que se pueden utilizar herramientas analíticas de gran potencia.
llevado a soportar.
Página 15
Concepto fundamental: a partir de una gran masa de datos, la tecnología de la información se puede utilizar para
encontrar atributos descriptivos informativos de entidades de interés. En nuestro ejemplo de abandono, un
cliente sería una entidad de interés, y cada cliente podría ser descrito por un
una gran cantidad de atributos, como el uso, el historial de servicio al cliente y muchos otros
factores. ¿Cuál de estos realmente nos da información sobre la probabilidad de que el cliente
dejar la empresa cuando expira su contrato? Cuanta informacion? Algunas veces
este proceso se conoce aproximadamente como encontrar variables que "se correlacionan" con la deserción (nosotros
discutiremos esta noción con precisión). Un analista de negocios puede plantear la hipótesis de algunas
y probarlos, y hay herramientas para ayudar a facilitar esta experimentación (consulte "Otros
Técnicas y tecnologías analíticas ”en la página 35 ). Alternativamente, el analista podría
aplicar la tecnología de la información para descubrir automáticamente atributos informativos —esenciales
Realmente realizando experimentación automatizada a gran escala. Además, como veremos, este concepto
se puede aplicar de forma recursiva para construir modelos para predecir el abandono en función de múltiples atributos.
Concepto fundamental: si examina demasiado un conjunto de datos, encontrará algo, pero

puede que no se generalice más allá de los datos que está viendo. Esto se conoce como sobreajuste
ting un conjunto de datos. Las técnicas de minería de datos pueden ser muy poderosas y la necesidad de detectar y
Evitar el sobreajuste es uno de los conceptos más importantes a comprender al aplicar datos.
minería a problemas reales. El concepto de sobreajuste y su evitación impregna los datos
procesos científicos, algoritmos y métodos de evaluación.
Concepto fundamental: formular soluciones de minería de datos y evaluar los resultados

implica pensar detenidamente en el contexto en el que se utilizarán. Si nuestro objetivo es el
extracción de conocimiento potencialmente útil , ¿cómo podemos formular lo que es útil? Eso
depende fundamentalmente de la aplicación en cuestión. Para nuestro ejemplo de gestión de abandono,
¿Cómo vamos a utilizar exactamente los patrones extraídos de los datos históricos? Si el
¿Se tendrá en cuenta el valor del cliente además de la probabilidad de que se vaya?
De manera más general, ¿el patrón conduce a mejores decisiones que algunas alternativas razonables?
tive? ¿Qué tan bien lo habría hecho uno por casualidad? ¿Qué tan bien le iría a uno con un
Alternativa "predeterminada"?
Estos son solo cuatro de los conceptos fundamentales de la ciencia de datos que exploraremos. Por
Al final del libro, habremos discutido una docena de estos conceptos fundamentales en detalle,
y habrá ilustrado cómo nos ayudan a estructurar el pensamiento analítico de datos y a
comprender las técnicas y algoritmos de minería de datos, así como las aplicaciones de ciencia de datos,
en general.
La química no se trata de tubos de ensayo: ciencia de datos versus

el trabajo del científico de datos
Antes de continuar, deberíamos revisar brevemente el lado de la ingeniería de la ciencia de datos. En el
En el momento de escribir este artículo, las discusiones sobre ciencia de datos comúnmente mencionan no solo analíticas
habilidades y técnicas para comprender los datos, pero se utilizan herramientas populares. Definiciones de datos
La química no se trata de tubos de ensayo: ciencia de datos frente al trabajo del científico de datos | 15
Página 16
Los científicos (y los anuncios de puestos) especifican no solo áreas de especialización, sino también
herramientas y lenguajes de programación específicos. Es común ver anuncios de trabajo.
mencionar técnicas de minería de datos (por ejemplo, bosques aleatorios, máquinas de vectores de soporte),
áreas de aplicación específicas (sistemas de recomendación, optimización de la colocación de anuncios),
junto con herramientas de software populares para procesar big data (Hadoop, MongoDB). Allí
A menudo hay poca distinción entre la ciencia y la tecnología para tratar con grandes
conjuntos de datos.
Debemos señalar que la ciencia de datos, como la informática, es un campo joven. El par-
Las preocupaciones particulares de la ciencia de datos son bastante nuevas y los principios generales apenas están comenzando.
para emerger. El estado de la ciencia de datos puede compararse con el de la química a mediados del siglo XIX.
siglo, cuando se estaban formulando teorías y principios generales y el campo estaba
en gran parte experimental. Todo buen químico tenía que ser un técnico de laboratorio competente. Simi
En general, es difícil imaginar a un científico de datos que no sea competente con ciertos
tipos de herramientas de software.
Dicho esto, este libro se centra en la ciencia y no en la tecnología. Vas a

aquí no encontrará instrucciones sobre la mejor manera de ejecutar trabajos de minería de datos masivos en Hadoop
clústeres, o incluso qué es Hadoop o por qué es posible que desee aprender sobre él. 5 Nos enfocamos
aquí sobre los principios generales de la ciencia de datos que han surgido. Dentro de 10 años el
Las tecnologías predominantes probablemente hayan cambiado o avanzado lo suficiente como para que un debate
sión aquí sería obsoleta, mientras que los principios generales son los mismos que antes.
hace años, y probablemente cambiará poco en las próximas décadas.
Resumen
Este libro trata sobre la extracción de información y conocimientos útiles de grandes volúmenes
consumos de datos, con el fin de mejorar la toma de decisiones empresariales. Como la colección masiva
de datos se ha extendido a casi todos los sectores industriales y unidades de negocio, por lo que
las oportunidades para extraer los datos. Detrás del extenso cuerpo de técnicas para
La minería de datos es un conjunto mucho más pequeño de conceptos fundamentales que comprenden la ciencia de datos .
Estos conceptos son generales y resumen gran parte de la esencia de la minería de datos y
Análisis de negocio.
El éxito en el entorno empresarial actual orientado a los datos requiere poder pensar en
cómo estos conceptos fundamentales se aplican a problemas comerciales particulares (pensar en datos)
analíticamente. Por ejemplo, en este capítulo discutimos el principio de que los datos deben ser
considerado como un activo comercial, y una vez que pensamos en esta dirección, comenzamos a preguntarnos
si (y cuánto) deberíamos invertir en datos. Por lo tanto, una comprensión de estos
conceptos fundamentales es importante no solo para los científicos de datos en sí, sino para cualquier
5. OK: Hadoop es una arquitectura de código abierto ampliamente utilizada para realizar cálculos altamente paralelizables. Es uno
de las tecnologías actuales de "big data" para procesar conjuntos de datos masivos que superan la capacidad de
sistemas de bases de datos. Hadoop se basa en el marco de procesamiento paralelo MapReduce introducido por Google.
Página 17
uno que trabaja con científicos de datos, emplea científicos de datos, invierte en
empresas, o dirigir la aplicación de análisis en una organización.
El pensamiento analítico de datos es ayudado por marcos conceptuales discutidos a lo largo del
libro. Por ejemplo, la extracción automatizada de patrones de datos es un proceso con
etapas bien definidas, que son el tema del próximo capítulo. Entendiendo el proceso
y las etapas ayudan a estructurar nuestro pensamiento analítico de datos y a hacerlo más
temático y, por tanto, menos propenso a errores y omisiones.
Existe evidencia convincente de que la toma de decisiones basada en datos y la tecnología de big data
Las ogías mejoran sustancialmente el rendimiento empresarial. La ciencia de datos admite datos impulsados
toma de decisiones, y a veces lleva a cabo dicha toma de decisiones automáticamente, y
depende de las tecnologías para el almacenamiento y la ingeniería de "macrodatos", pero sus principios son
separar. Los principios de la ciencia de datos que discutimos en este libro también difieren y son
complementarias a otras tecnologías importantes, como la prueba de hipótesis estadísticas
y consulta de bases de datos (que tienen sus propios libros y clases). El próximo capítulo
describe algunas de estas diferencias con más detalle.
Resumen | 17
Página 19
18
CAPITULO 2
Problemas comerciales y ciencia de datos

Soluciones
Conceptos fundamentales: un conjunto de tareas canónicas de minería de datos; El proceso de minería de datos;
Minería de datos supervisada versus no supervisada.
Un principio importante de la ciencia de datos es que la minería de datos es un proceso con bastante
etapas entendidas. Algunas involucran la aplicación de tecnología de la información, como la
descubrimiento y evaluación automatizados de patrones a partir de datos, mientras que otros requieren principalmente
la creatividad, el conocimiento empresarial y el sentido común de un analista. Entendiendo el
Todo el proceso ayuda a estructurar los proyectos de minería de datos, por lo que están más cerca de ser sistemáticos.
análisis en lugar de esfuerzos heroicos impulsados por el azar y la perspicacia individual.
Dado que el proceso de minería de datos rompe la tarea general de encontrar patrones a partir de datos
en un conjunto de subtareas bien definidas, también es útil para estructurar discusiones sobre datos
Ciencias. En este libro, usaremos el proceso como un marco general para nuestra
discusión. Este capítulo presenta el proceso de minería de datos, pero primero proporcionamos anuncios
contexto alternativo mediante la discusión de tipos comunes de tareas de minería de datos. Presentando estos
nos permite ser más concretos a la hora de presentar el proceso global, así como cuando
introduciendo otros conceptos en capítulos posteriores.
Cerramos el capítulo discutiendo un conjunto de importantes temas de análisis de negocios que

no son el foco de este libro (pero para los que hay muchos otros libros útiles), como
como bases de datos, almacenamiento de datos y estadísticas básicas.
De problemas comerciales a tareas de minería de datos

Cada problema de toma de decisiones empresariales basado en datos es único e incluye sus
combinación de metas, deseos, limitaciones e incluso personalidades. Como con mucha ingeniería
Sin embargo, existe una serie de tareas comunes que subyacen a los problemas comerciales.
En colaboración con las partes interesadas del negocio, los científicos de datos descomponen un problema empresarial
19
Página 20
lem en subtareas. Las soluciones a las subtareas se pueden componer para resolver el
problema general. Algunas de estas subtareas son exclusivas del problema empresarial particular,
pero otras son tareas comunes de minería de datos. Por ejemplo, nuestra rotación de telecomunicaciones
El problema es exclusivo de MegaTelCo: hay aspectos específicos del problema que son diferentes
de los problemas de abandono de cualquier otra empresa de telecomunicaciones. Sin embargo, una subtarea que
probablemente será parte de la solución a cualquier problema de abandono es estimar a partir del historial
data la probabilidad de que un cliente rescinda su contrato poco después de su vencimiento.
Una vez que los datos idiosincrásicos de MegaTelCo se hayan reunido en un formato particular
(descrito en el capítulo siguiente), esta estimación de probabilidad encaja en el molde de uno muy
tarea común de minería de datos. Sabemos mucho sobre cómo resolver las tareas comunes de minería de datos,
tanto científica como prácticamente. En capítulos posteriores, también proporcionaremos ciencia de datos
marcos para ayudar con la descomposición de los problemas comerciales y con la
composición de las soluciones a las subtareas.
Una habilidad fundamental en la ciencia de datos es la capacidad de descomponer un

problema analítico en pedazos, de modo que cada pieza coincida con un
tarea para la que hay herramientas disponibles. Reconocer problemas familiares y
sus soluciones evitan perder tiempo y recursos reinventando el
rueda. También permite a las personas centrar la atención en partes más interesantes.
del proceso que requiere la participación humana, partes que no han
automatizado, por lo que la creatividad y la inteligencia humanas deben entrar en
para jugar.
A pesar de la gran cantidad de algoritmos de minería de datos específicos desarrollados a lo largo de los años,
solo hay un puñado de tipos de tareas fundamentalmente diferentes que estos algoritmos
vestido. Vale la pena definir claramente estas tareas. Los siguientes capítulos utilizarán el primer
dos (clasificación y regresión) para ilustrar varios conceptos fundamentales. En que
A continuación, el término "un individuo" se referirá a una entidad sobre la que tenemos datos, como
como cliente o consumidor, o podría ser una entidad inanimada como una empresa. Nosotros
Hará esta noción más precisa en el Capítulo 3 . En muchos proyectos de análisis empresarial,
queremos encontrar "correlaciones" entre una variable particular que describe a un individuo
y otras variables. Por ejemplo, en los datos históricos podemos saber qué clientes dejaron
la empresa después de que expiraran sus contratos. Es posible que deseemos averiguar qué otras variables
correlacionar con un cliente que se va en un futuro próximo. Encontrar tales correlaciones son las
ejemplos más básicos de tareas de clasificación y regresión.
1. La clasificación y la estimación de la probabilidad de clase intentan predecir, para cada individuo

en una población, a cuál de un (pequeño) conjunto de clases pertenece este individuo. Generalmente
las clases son mutuamente excluyentes. Un ejemplo de pregunta de clasificación sería:
“Entre todos los clientes de MegaTelCo, que probablemente respondan a un determinado
¿oferta?" En este ejemplo, las dos clases que se podrían llamar responderán y no
responder.
20 | Capítulo 2: Problemas comerciales y soluciones de ciencia de datos
Página 21
Para una tarea de clasificación, un procedimiento de minería de datos produce un modelo que, dado un
nuevo individuo, determina a qué clase pertenece ese individuo. Un estrechamente relacionado
La tarea es la puntuación o la estimación de la probabilidad de la clase . Un modelo de puntuación aplicado a un indi‐
individual produce, en lugar de una predicción de clase, una puntuación que representa la probabilidad
(o alguna otra cuantificación de probabilidad) de que ese individuo pertenece a cada
clase. En nuestro escenario de respuesta al cliente, un modelo de puntuación podría evaluar
cada cliente individual y producir una puntuación de la probabilidad de que cada uno responda a
la oferta. La clasificación y la puntuación están muy relacionadas; como veremos, un modelo
que puede hacer uno generalmente se puede modificar para hacer el otro.
2. La regresión ("estimación de valor") intenta estimar o predecir, para cada individuo,
el valor numérico de alguna variable para ese individuo. Una regresión de ejemplo
La pregunta sería: "¿Cuánto utilizará el servicio un cliente determinado?" La propiedad
(variable) que se va a predecir aquí es el uso del servicio , y un modelo podría ser generado por
mirando a otros individuos similares en la población y su uso histórico. A
El procedimiento de regresión produce un modelo que, dado un individuo, estima el
valor de la variable particular específica de ese individuo.
La regresión está relacionada con la clasificación, pero las dos son diferentes. Informalmente, clasi‐
La ficación predice si algo sucederá, mientras que la regresión predice cómo
mucho algo sucederá. La diferencia se hará más clara a medida que el libro
progresa.
3. La comparación de similitudes intenta identificar a personas similares basándose en datos conocidos
a cerca de ellos. La coincidencia de similitudes se puede utilizar directamente para encontrar entidades similares. Para
Por ejemplo, IBM está interesado en encontrar empresas similares a sus mejores clientes comerciales
consumidores, con el fin de enfocar su fuerza de ventas en las mejores oportunidades. Usan sim‐
igualación de similitudes basada en datos "firmográficos" que describen las características de la
compañías. La coincidencia de similitudes es la base de uno de los métodos más populares
para hacer recomendaciones de productos (encontrar personas similares a usted en
condiciones de los productos que les han gustado o han comprado). Medidas de similitud un‐
derlie ciertas soluciones a otras tareas de minería de datos, como clasificación, regresión,
y agrupación. Discutimos la similitud y sus usos en detalle en el Capítulo 6 .
4. Agrupación intenta agrupar a los individuos de una población por su similitud,
pero no impulsado por ningún propósito específico. Un ejemplo de pregunta de agrupamiento sería:
"¿Nuestros clientes forman grupos o segmentos naturales?" La agrupación en clústeres es útil en pre‐
exploración del dominio liminar para ver qué grupos naturales existen porque estos grupos
a su vez, puede sugerir otras tareas o enfoques de minería de datos. También se utiliza la agrupación en clústeres
como insumo para los procesos de toma de decisiones que se centran en preguntas tales como: ¿Qué productos
¿Deberíamos ofrecer o desarrollar ? ¿Cómo deberían ser nuestros equipos de atención al cliente (o equipos de ventas)?
estructurado ? Discutimos el agrupamiento en profundidad en el Capítulo 6 .
5. Agrupación de co-ocurrencia (también conocida como minería frecuente de conjuntos de elementos, regla de asociación
descubrimiento y análisis de la canasta de mercado) intenta encontrar asociaciones entre
vínculos basados en transacciones que los involucran. Un ejemplo de pregunta de co-ocurrencia
De problemas comerciales a tareas de minería de datos | 21
Página 22
sería: ¿Qué artículos se compran comúnmente juntos ? Mientras que la agrupación mira
similitud entre objetos en función de los atributos de los objetos, agrupación de co-ocurrencia
considera la similitud de los objetos en función de que aparezcan juntos en las transacciones.
Por ejemplo, analizar los registros de compra de un supermercado puede descubrir que
la carne molida se compra junto con salsa picante con mucha más frecuencia de lo que
podría esperar. Decidir cómo actuar sobre este descubrimiento puede requerir algunas creaciones
actividad, pero podría sugerir una promoción especial, exhibición de producto o combinación
oferta. La co-ocurrencia de productos en las compras es un tipo común de agrupación conocido
como análisis de la cesta de la compra. Algunos sistemas de recomendación también realizan un tipo de
agrupación de afinidad al encontrar, por ejemplo, pares de libros que se compran gratis
Posteriormente por la misma gente (“la gente que compró X también compró Y”).
El resultado de la agrupación de co-ocurrencia es una descripción de elementos que ocurren juntos.
Estas descripciones suelen incluir estadísticas sobre la frecuencia de la co-ocurrencia
y una estimación de lo sorprendente que es.
6. La elaboración de perfiles (también conocida como descripción de la conducta) intenta caracterizar la
comportamiento de un individuo, grupo o población. Un ejemplo de pregunta de perfil
sería: "¿Cuál es el uso típico de teléfonos móviles de este segmento de clientes?" Comportamiento
puede no tener una descripción simple; perfilar el uso del teléfono celular puede requerir una comparación
descripción completa de los promedios de tiempo aire durante la noche y los fines de semana, uso internacional, itinerancia
cargos de carga, minutos de mensajes de texto, etc. El comportamiento se puede describir en general en un
toda la población, o hasta el nivel de pequeños grupos o incluso de individuos.
La creación de perfiles se utiliza a menudo para establecer normas de comportamiento para aplicaciones de detección de anomalías.
cationes como la detección de fraudes y el seguimiento de intrusiones en los sistemas informáticos
(como alguien que ingrese a su cuenta de iTunes). Por ejemplo, si sabemos
qué tipo de compras suele hacer una persona con una tarjeta de crédito, podemos determinar
si un nuevo cargo en la tarjeta se ajusta a ese perfil o no. Podemos utilizar el grado de
desajuste como puntaje de sospecha y emite una alarma si es demasiado alto.
7. La predicción de enlaces intenta predecir conexiones entre elementos de datos, generalmente mediante
sugiriendo que debería existir un vínculo, y posiblemente también estimando la fuerza de la
Enlace. La predicción de enlaces es común en los sistemas de redes sociales: “Dado que tú y Ka‐
ren compartir 10 amigos, ¿tal vez te gustaría ser amigo de Karen? " La predicción de enlaces puede
también estime la fuerza de un vínculo. Por ejemplo, para recomendar películas a
clientes se puede pensar en un gráfico entre los clientes y las películas que han
visto o calificado. Dentro del gráfico, buscamos enlaces que no existen entre
clientes y películas, pero que predecimos deberían existir y deberían ser fuertes. Estas
los enlaces forman la base de las recomendaciones.
8. La reducción de datos intenta tomar un gran conjunto de datos y reemplazarlo por un conjunto más pequeño.
de datos que contienen gran parte de la información importante en el conjunto más amplio. los
Los conjuntos de datos más pequeños pueden ser más fáciles de manejar o procesar. Además, el más pequeño
El conjunto de datos puede revelar mejor la información. Por ejemplo, un conjunto de datos masivo sobre con‐
Las preferencias de visualización de películas del consumidor pueden reducirse a un conjunto de datos mucho más pequeño.
Página 23
revelando las preferencias de gusto del consumidor que están latentes en los datos de visualización (por ejemplo,
amplias preferencias de género del espectador). La reducción de datos generalmente implica la pérdida de información.
ción. Lo importante es la compensación por una mejor comprensión.
9. El modelado causal intenta ayudarnos a comprender qué eventos o acciones realmente
influir en otros. Por ejemplo, considere que usamos modelos predictivos para apuntar
anuncios a los consumidores, y observamos que, de hecho, los consumidores objetivo
comprar a un ritmo mayor con posterioridad a que se haya dirigido. ¿Era esto debido a que la
los anuncios influyeron en la compra de los consumidores? ¿O el mo- predictivo
simplemente hacen un buen trabajo identificando a los consumidores que habrían comprado
¿de todas formas? Las técnicas para el modelado causal incluyen aquellas que involucran una in‐
vestimenta en datos, como experimentos controlados aleatorios (por ejemplo, los llamados "A / B
pruebas ”), así como métodos sofisticados para extraer conclusiones causales de ob‐
datos servational. Métodos tanto experimentales como de observación para el modelado causal
en general, puede verse como un análisis "contrafactual": intentan comprender
cuál sería la diferencia entre las situaciones, que no pueden suceder a la vez
- donde el evento de "tratamiento" (p. Ej., Mostrar un anuncio a un in‐
dividual) iban a suceder, y no iban a suceder.
En todos los casos, un científico de datos cuidadoso siempre debe incluir con una conclusión causal
las suposiciones exactas que deben hacerse para que la conclusión causal se mantenga
( siempre hay tales suposiciones, siempre pregunte). Al emprender un modelo causal
Eling, una empresa debe sopesar la compensación de aumentar la inversión para reducir
las suposiciones hechas, versus decidir que las conclusiones son lo suficientemente buenas dadas
los supuestos. Incluso en la experimentación aleatoria y controlada más cuidadosa,
se hacen suposiciones que podrían invalidar las conclusiones causales. El dis‐
El descubrimiento del "efecto placebo" en medicina ilustra una situación notoria en la que un
La suposición se pasó por alto en una experimentación aleatoria cuidadosamente diseñada.
Discutir todas estas tareas en detalle llenaría varios libros. En este libro, presentamos
una colección de los principios de ciencia de datos más fundamentales, principios que juntos
subyacen a todos estos tipos de tareas. Ilustraremos los principios utilizando principalmente clasificaciones
ficación, la regresión, coincidente similitud, y la agrupación, y discutirá otros cuando
proporcionan ilustraciones importantes de los principios fundamentales (hacia el final de
el libro).
Considere cuál de estos tipos de tareas podría encajar con nuestro problema de predicción de abandono. A menudo,
Los profesionales formulan la predicción de abandono como un problema para encontrar segmentos de clientes.
que tienen más o menos probabilidades de irse. Este problema de segmentación suena como una clasificación
problema de cationes, o posiblemente agrupamiento, o incluso regresión. Para decidir la mejor fórmula
En primer lugar, debemos introducir algunas distinciones importantes.
De problemas comerciales a tareas de minería de datos | 23
Página 24
Métodos supervisados y no supervisados

Considere dos preguntas similares que podríamos hacer sobre una población de clientes. El primero es:
"¿Nuestros clientes se dividen naturalmente en diferentes grupos?" Aquí no hay un propósito específico o
Se ha especificado un objetivo para la agrupación. Cuando no existe tal objetivo, la minería de datos
El problema se denomina no supervisado . Compare esto con una pregunta ligeramente diferente:
"¿Podemos encontrar grupos de clientes que tengan una probabilidad particularmente alta de cancelar
su servicio poco después de que expiren sus contratos? " Aquí hay un objetivo específico definido:
¿Se marchará un cliente cuando expire su contrato? En este caso, se está realizando la segmentación.
por una razón específica: tomar medidas basadas en la probabilidad de abandono. A esto se le llama super‐
problema de minería de datos vised .
Una nota sobre los términos: aprendizaje supervisado y no supervisado

Los términos supervisado y no supervisado se heredaron del campo
del aprendizaje automático. Metafóricamente, un maestro "supervisa" el aprendizaje
er proporcionando cuidadosamente la información de destino junto con un conjunto de exámenes
ples. Una tarea de aprendizaje no supervisada puede involucrar el mismo conjunto de
ejemplos, pero no incluiría la información de destino. El aprendiz
no recibiría información sobre el propósito del aprendizaje, pero
quedaría para formar sus propias conclusiones sobre lo que los ejemplos
tener en común.
La diferencia entre estas preguntas es sutil pero importante. Si un objetivo específico puede
proporcionarse, el problema se puede formular como supervisado. Las tareas supervisadas requieren
diferentes técnicas que las tareas no supervisadas, y los resultados a menudo son mucho más
útil. A una técnica supervisada se le asigna un propósito específico para la agrupación: predecir
el objetivo. La agrupación, una tarea no supervisada, produce agrupaciones basadas en similitudes,
pero no hay garantía de que estas similitudes sean significativas o sean útiles para cualquier
Propósito particular.
Técnicamente, se debe cumplir otra condición para la minería de datos supervisada: debe haber
datos sobre el objetivo. No es suficiente que la información de destino exista en principio; debería
también existen en los datos. Por ejemplo, puede resultar útil saber si un cliente determinado
permanecerá durante al menos seis meses, pero si en los datos históricos esta información de retención es
falta o está incompleto (si, por ejemplo, los datos sólo se conservan durante dos meses) el objetivo
no se pueden proporcionar valores. La adquisición de datos sobre el objetivo a menudo es una ciencia de datos clave.
inversión. El valor de la variable objetivo para un individuo a menudo se denomina indicador
etiqueta del individuo , enfatizando que a menudo (no siempre) uno debe incurrir en gastos para
etiquetar los datos.
La clasificación, regresión y modelado causal generalmente se resuelven con supervisión supervisada.

métodos. La coincidencia de similitudes, la predicción de enlaces y la reducción de datos podrían ser ambas opciones.
La agrupación en clústeres, la agrupación de co-ocurrencia y la creación de perfiles generalmente no están supervisados. los
Página 25
Los principios fundamentales de la minería de datos que presentaremos subyacen a todos estos tipos de
técnica.
Se describen dos subclases principales de minería de datos supervisada , clasificación y regresión.

tinguido por el tipo de objetivo. La regresión implica un objetivo numérico mientras que la clasificación
implica un objetivo categórico (a menudo binario). Considere estas preguntas similares que podríamos
dirección con minería de datos supervisada:
"¿Este cliente comprará el servicio S1 si se le da un incentivo I?"

Este es un problema de clasificación porque tiene un objetivo binario (el cliente
compra o no).
“¿Qué paquete de servicio (S1, S2 o ninguno) probablemente comprará un cliente si se le da un incentivo?

tive yo? "
Este también es un problema de clasificación, con un objetivo de tres valores.
"¿Cuánto utilizará este cliente el servicio?"

Este es un problema de regresión porque tiene un objetivo numérico. La variable objetivo es
la cantidad de uso (real o previsto) por cliente.
Hay sutilezas entre estas preguntas que conviene resaltar. Para negocios
aplicaciones que a menudo queremos una predicción numérica sobre un objetivo categórico. En la batidora
ejemplo, una predicción básica de sí / no de si es probable que un cliente continúe sub‐
escribir al servicio puede no ser suficiente; queremos modelar la probabilidad de que el
el cliente continuará. Esto todavía se considera modelado de clasificación en lugar de re‐
gresión porque el objetivo subyacente es categórico. Cuando sea necesario para mayor claridad, este
se llama "estimación de probabilidad de clase".
Una parte vital en las primeras etapas del proceso de minería de datos es (i) decidir si el
La línea de ataque será supervisada o no supervisada, y (ii) si está supervisada, para producir una
definición precisa de una variable objetivo. Esta variable debe ser una cantidad específica que
ser el foco de la minería de datos (y para lo cual podemos obtener valores para algún ejemplo
datos). Volveremos a esto en el Capítulo 3 .
Minería de datos y sus resultados

Hay otra distinción importante relacionada con la minería de datos: la diferencia entre
interpolación (1) extraer los datos para encontrar patrones y construir modelos, y (2) usar los resultados
de la minería de datos. Los estudiantes a menudo confunden estos dos procesos cuando estudian ciencia de datos,
y los gerentes a veces los confunden cuando hablan de análisis de negocios. El uso de
Los resultados de la minería de datos deben influir e informar el proceso de minería de datos en sí, pero el
dos deben mantenerse distintos.
En nuestro ejemplo de abandono, considere el escenario de implementación en el que los resultados serán
usó. Queremos usar el modelo para predecir cuáles de nuestros clientes se irán. Específicamente,
asume que la minería de datos ha creado una clase probabilidad modelo de estimación M . Dado cada
Minería de datos y sus resultados | 25
Página 26
Figura 2-1. Minería de datos frente al uso de resultados de minería de datos. La mitad superior de la
La figura ilustra la extracción de datos históricos para producir un modelo. Es importante destacar que el his‐
Los datos toricales tienen el valor objetivo ("clase") especificado. La mitad inferior muestra el resultado de
la minería de datos en uso, donde el modelo se aplica a nuevos datos para los que no
conocer el valor de la clase. El modelo predice tanto el valor de la clase como la probabilidad de que
la variable de clase tomará ese valor.
cliente existente, descrito mediante un conjunto de características, M toma estas características

como entrada y produce una puntuación o estimación de probabilidad de deserción. Este es el uso de la
resultados de la minería de datos. La minería de datos produce el modelo M a partir de algún otro, a menudo
información histórica.
La figura 2-1 ilustra estas dos fases. La minería de datos produce la estimación de probabilidad
modelo, como se muestra en la mitad superior de la figura. En la fase de uso (mitad inferior), el modelo
se aplica a un caso nuevo no visto y genera una estimación de probabilidad para él.
El proceso de minería de datos

La minería de datos es un oficio. Implica la aplicación de una cantidad sustancial de ciencia y
tecnología, pero la aplicación adecuada también implica arte. Pero como sucede con muchos maduros
artesanías, hay un proceso bien entendido que coloca una estructura en el problema, permitiendo
coherencia, repetibilidad y objetividad razonables. Una codificación útil de los datos.
Página 27
El proceso de minería viene dado por el Proceso estándar de la industria cruzada para la minería de datos.
(CRISP-DM; Shearer, 2000), ilustrado en la Figura 2-2 . 1
Figura 2-2. El proceso de minería de datos CRISP.
Este diagrama de proceso hace explícito el hecho de que la iteración es la regla más que la
excepción. Pasar por el proceso una vez sin haber resuelto el problema es,
En general, no es un fracaso. A menudo, todo el proceso es una exploración de los datos y
después de la primera iteración, el equipo de ciencia de datos sabe mucho más. La próxima iteración puede
estar mucho más informado. Analicemos ahora los pasos en detalle.
Comprensión empresarial
Inicialmente, es vital comprender el problema a resolver. Esto puede parecer obvio, pero
Los proyectos empresariales rara vez vienen preempaquetados como minería de datos clara e inequívoca.
1. Consulte también la página de Wikipedia sobre el modelo de proceso CRISP-DM .
El proceso de minería de datos | 27
Página 28
problemas. A menudo, reformular el problema y diseñar una solución es un proceso iterativo

de descubrimiento. El diagrama que se muestra en la Figura 2-2 representa esto como ciclos dentro de un ciclo,
más que como un simple proceso lineal. Es posible que la formulación inicial no esté completa o
Óptimo, por lo que pueden ser necesarias múltiples iteraciones para una formulación de solución aceptable.
a aparecer.
La etapa de Business Understanding representa una parte del oficio donde los analistas
la creatividad juega un papel importante. La ciencia de datos tiene algunas cosas que decir, como describiremos, pero
A menudo, la clave de un gran éxito es una formulación creativa del problema por parte de algún analista
Analizar cómo plantear el problema empresarial como uno o más problemas de ciencia de datos. Elevado-
nivel de conocimiento de los fundamentos ayuda a los analistas de negocios creativos a ver formas novedosas
laciones.
Contamos con un conjunto de herramientas poderosas para resolver problemas particulares de minería de datos: los datos básicos
tareas de minería analizadas en "De los problemas comerciales a las tareas de minería de datos" en la página
19 . Normalmente, las primeras etapas del esfuerzo implican diseñar una solución que requiera
ventaja de estas herramientas. Esto puede significar estructurar (diseñar) el problema
que uno o más subproblemas implican la construcción de modelos para clasificación, regresión,
estimación de probabilidad, etc.
En esta primera etapa, el equipo de diseño debe pensar detenidamente sobre el escenario de uso . Esto mismo
es uno de los conceptos más importantes de la ciencia de datos, al que hemos dedicado dos
capítulos completos ( Capítulo 7 y Capítulo 11 ). ¿Qué queremos hacer exactamente? Cómo exactamente
lo haríamos ¿Qué partes de este escenario de uso constituyen posibles modelos de minería de datos?
Al discutir esto con más detalle, comenzaremos con una vista simplificada del escenario de uso,
pero a medida que avanzamos, retrocederemos y nos daremos cuenta de que, a menudo, el escenario de uso debe ser
ajustado para reflejar mejor la necesidad empresarial real. Presentaremos herramientas conceptuales para
ayudar a nuestro pensamiento aquí, por ejemplo, enmarcar un problema empresarial en términos de lo esperado
El valor puede permitirnos descomponerlo sistemáticamente en tareas de minería de datos.
Comprensión de datos
Si el objetivo es resolver el problema comercial, los datos comprenden la materia prima disponible
a partir del cual se construirá la solución. Es importante comprender las fortalezas y
limitaciones de los datos porque rara vez hay una coincidencia exacta con el problema. Histórico
Los datos a menudo se recopilan para fines no relacionados con el problema comercial actual, o para
ningún propósito explícito en absoluto. Una base de datos de clientes, una base de datos de transacciones y un marketing
La base de datos de respuesta contiene información diferente, puede cubrir diferentes poblaciones que se cruzan
ulaciones, y pueden tener diversos grados de fiabilidad.
También es común que varíen los costos de los datos. Algunos datos estarán disponibles virtualmente para
gratis, mientras que otros requerirán un esfuerzo para obtenerlos. Es posible que se compren algunos datos. Todavía otro
los datos simplemente no existirán y requerirán proyectos auxiliares completos para organizar su recopilación
ción. Una parte fundamental de la fase de comprensión de datos es estimar los costos y beneficios
de cada fuente de datos y decidir si se amerita una mayor inversión. Incluso despues de todo
Página 29
Se adquieren conjuntos de datos, recopilarlos puede requerir un esfuerzo adicional. Por ejemplo, cus‐
Los registros de consumidores y los identificadores de productos son notoriamente variables y ruidosos. Limpieza y
hacer coincidir los registros de los clientes para garantizar que solo un registro por cliente sea en sí mismo un cumplimiento
problema analítico específico (Hernández & Stolfo, 1995; Elmagarmid, Ipeirotis, & Verykios,
2007).
A medida que avanza la comprensión de los datos, las rutas de solución pueden cambiar de dirección en respuesta,
y los esfuerzos en equipo pueden incluso bifurcarse. La detección de fraudes proporciona una ilustración de esto. Datos
La minería se ha utilizado ampliamente para la detección de fraudes, y muchos casos de detección de fraudes.
Los problemas involucran tareas clásicas de minería de datos supervisada. Considere la tarea de atrapar
Fraude de tarjeta de credito. Los cargos aparecen en la cuenta de cada cliente, por lo que los cargos fraudulentos
generalmente son capturados, si no inicialmente por la empresa, luego por el cliente cuando
se revisa la actividad de la cuenta. Podemos suponer que casi todos los fraudes se identifican y de manera confiable
etiquetado, ya que el cliente legítimo y la persona que perpetra el fraude son diferentes
personas y tienen objetivos opuestos. Por lo tanto, las transacciones con tarjeta de crédito tienen etiquetas confiables.
( fraude y legítimo ) que pueden servir como objetivos para una técnica supervisada.
Ahora considere el problema relacionado de detectar el fraude a Medicare. Este es un gran problema
en los Estados Unidos cuesta miles de millones de dólares al año. Aunque esto puede parecer un
problema de detección de fraude convencional, ya que consideramos la relación del negocio
problema con los datos, nos damos cuenta de que el problema es significativamente diferente. El perpe‐
traficantes de fraude: proveedores médicos que presentan reclamos falsos y, a veces, sus
clientes — también son proveedores de servicios legítimos y usuarios del sistema de facturación. Los que
cometer fraude son un subconjunto de los usuarios legítimos; no hay una parte desinteresada separada
quién declarará exactamente cuáles deberían ser los cargos "correctos". En consecuencia, el Med‐
Los datos de facturación de icare no tienen una variable objetivo confiable que indique fraude, y un
El enfoque de aprendizaje que podría funcionar para el fraude con tarjetas de crédito no es aplicable. Qué problema
Por lo general, requiere enfoques no supervisados, como la creación de perfiles, la agrupación en clústeres, la detección de anomalías
agrupación de co-ocurrencia.
El hecho de que ambos sean problemas de detección de fraude es una similitud superficial que
es realmente engañoso. En la comprensión de datos, necesitamos excavar debajo de la superficie para
descubrir la estructura del problema empresarial y los datos disponibles, y luego
emparejarlos con una o más tareas de minería de datos para las que podemos tener conocimientos científicos sustanciales
y tecnología para aplicar. No es inusual que un problema empresarial contenga varios datos
Será necesario realizar tareas de minería, a menudo de diferentes tipos, y combinar sus soluciones.
(ver Capítulo 11 ).
Preparación de datos
Las tecnologías analíticas que podemos aplicar son poderosas pero imponen ciertas
requisitos sobre los datos que utilizan. A menudo requieren que los datos estén en una forma diferente
a partir de cómo se proporcionan los datos de forma natural, y será necesaria alguna conversión.
Página 30
Por lo tanto, una fase de preparación de datos a menudo avanza junto con la comprensión de los datos, en
donde los datos son manipulados y convertidos en formas que arrojan mejores resultados.
Ejemplos típicos de preparación de datos son convertir datos a formato tabular, eliminar
o inferir valores perdidos y convertir datos a diferentes tipos. Algo de minería de datos
Las técnicas están diseñadas para datos simbólicos y categóricos, mientras que otras solo manejan
valores numéricos. Además, los valores numéricos a menudo se deben normalizar o escalar para
que son comparables. Se dispone de técnicas estándar y reglas generales para hacer
tales conversiones. El capítulo 3 analiza el formato más típico para minar datos en algunos
detalle.
Sin embargo, en general, este libro no se centrará en las técnicas de preparación de datos, que podrían
ser el tema de un libro por sí mismos (Pyle, 1999). Definiremos formatos de datos básicos en
capítulos siguientes, y solo se ocupará de los detalles de preparación de datos cuando
arrojar luz sobre algún principio fundamental de la ciencia de datos o son necesarios para presentar un
ejemplo concreto.
De manera más general, los científicos de datos pueden pasar un tiempo considerable al principio
el proceso que define las variables utilizadas más adelante en el proceso. Este es uno
de los principales puntos en los que la creatividad humana, el sentido común y
el conocimiento empresarial entra en juego. A menudo, la calidad de los datos
La solución se basa en qué tan bien los analistas estructuran los problemas y
elaborar las variables (y a veces puede ser sorprendentemente difícil para ellos
admitirlo).
Una preocupación muy general e importante durante la preparación de datos es tener cuidado con las "fugas"
(Kaufman et al. 2012). Una fuga es una situación en la que una variable recopilada en datos históricos
proporciona información sobre la variable objetivo: información que aparece en los datos históricos
pero no está realmente disponible cuando se debe tomar la decisión. Como ejemplo, cuando
predecir si en un momento determinado un visitante del sitio web finalizaría su sesión
o continuar navegando a otra página, la variable "número total de páginas web visitadas en
la sesión ”es predictiva. Sin embargo, el número total de páginas web visitadas en la sesión
no se sabría hasta después de que finalizara la sesión (Kohavi et al., 2000), momento en el que
¡el punto uno sabría el valor de la variable objetivo! Como otro ejemplo ilustrativo,
considere predecir si un cliente será un "gran gastador"; conociendo las categorias
de los artículos comprados (o peor aún, la cantidad de impuestos pagados) son muy predictivos, pero son
no conocido en el momento de la toma de decisiones (Kohavi y Parekh, 2003). Las fugas deben ser
consideradas cuidadosamente durante la preparación de datos, porque la preparación de datos generalmente se lleva a cabo
formado después del hecho — a partir de datos históricos. Presentamos un ejemplo más detallado de un
fuga real que fue difícil de encontrar en el Capítulo 14 .
Página 31
Modelado
El modelado es el tema de los próximos capítulos y no nos detendremos en él aquí.
excepto para decir que el resultado del modelado es una especie de captura de modelo o patrón
regularidades en los datos.
La etapa de modelado es el lugar principal donde se aplican las técnicas de minería de datos para
los datos. Es importante tener cierta comprensión de las ideas fundamentales de los datos.
minería, incluyendo el tipo de técnicas y algoritmos que existen, porque esta es la
parte del oficio donde se puede aplicar la mayor cantidad de ciencia y tecnología.
Evaluación
El propósito de la etapa de evaluación es evaluar los resultados de la minería de datos de manera rigurosa y
para ganar confianza en que son válidos y fiables antes de seguir adelante. Si miramos duro
En cualquier conjunto de datos encontraremos patrones suficientes, pero es posible que no sobrevivan a un escrutinio cuidadoso.
Nos gustaría tener la confianza de que los modelos y patrones extraídos de los datos
son verdaderas regularidades y no solo idiosincrasias o anomalías de muestra. Es posible
implementar los resultados inmediatamente después de la extracción de datos, pero esto no es aconsejable; suele estar lejos
Es más fácil, barato, rápido y seguro probar un modelo primero en un entorno de laboratorio controlado.
De igual importancia, la etapa de evaluación también sirve para ayudar a garantizar que el modelo satisfaga
los objetivos comerciales originales. Recuerde que el objetivo principal de la ciencia de datos para las empresas es
para apoyar la toma de decisiones, y que comenzamos el proceso enfocándonos en el negocio
Problema que nos gustaría resolver. Por lo general, una solución de minería de datos es solo una parte del
solución más grande, y debe evaluarse como tal. Además, incluso si un modelo pasa
estrictas pruebas de evaluación en "en el laboratorio", puede haber consideraciones externas que lo hacen
poco práctico. Por ejemplo, una falla común con las soluciones de detección (como la de‐
protección, detección de spam y monitoreo de intrusiones) es que producen demasiados
alarmas. Un modelo puede ser extremadamente preciso ( > 99%) según los estándares de laboratorio, pero evalúa
ución en el contexto empresarial real puede revelar que todavía produce demasiados falsos
las alarmas sean económicamente viables. (¿Cuánto costaría proporcionar el personal para tratar
con todas esas falsas alarmas? ¿Cuál sería el costo de la insatisfacción del cliente?)
La evaluación de los resultados de la minería de datos incluye evaluaciones tanto cuantitativas como cualitativas.
mentos. Varias partes interesadas tienen intereses en la toma de decisiones comerciales que serán
logrado o respaldado por los modelos resultantes. En muchos casos, estas partes interesadas
necesitan "aprobar" la implementación de los modelos, y para hacerlo deben ser
satisfecho por la calidad de las decisiones del modelo. Lo que eso significa varía según la aplicación.
a la aplicación, pero a menudo las partes interesadas buscan ver si el modelo va a
hacer más bien que daño, y especialmente que es poco probable que el modelo haga catastrófico
Página 32
errores. 2 Para facilitar tal evaluación cualitativa, el científico de datos debe pensar en
la comprensibilidad del modelo para las partes interesadas (no solo para los científicos de datos). Y
si el modelo en sí no es comprensible (por ejemplo, tal vez el modelo sea una matemática muy compleja)
fórmula matemática), ¿cómo pueden trabajar los científicos de datos para hacer que el comportamiento del modelo
ser comprensible.
Finalmente, un marco de evaluación integral es importante porque obtener información detallada

la información sobre el rendimiento de un modelo implementado puede ser difícil o imposible.
A menudo, solo hay un acceso limitado al entorno de implementación, por lo que
La evaluación exhaustiva "en producción" es difícil. Los sistemas implementados suelen contener
muchas "piezas móviles", y es difícil evaluar la contribución de una sola pieza. Firmas
con sofisticados equipos de ciencia de datos, cree sabiamente entornos de banco de pruebas que reflejen
datos de producción lo más cerca posible, con el fin de obtener las evaluaciones más realistas antes
tomando el riesgo de la implementación.
No obstante, en algunos casos, es posible que deseemos extender la evaluación al desarrollo

medio ambiente, por ejemplo, mediante la instrumentación de un sistema en vivo para poder realizar
experimentos ized. En nuestro ejemplo de abandono, si hemos decidido a partir de pruebas de laboratorio que
Un modelo extraído de datos nos dará una mejor reducción de la rotación, es posible que deseemos pasar a una
Evaluación "in vivo", en la que un sistema en vivo aplica aleatoriamente el modelo a algunos clientes
consumidores mientras se mantiene a otros clientes como grupo de control (recuerde nuestra discusión sobre
modelado del Capítulo 1 ). Tales experimentos deben diseñarse cuidadosamente, y la tecnología
Los detalles técnicos están más allá del alcance de este libro. El lector interesado podría comenzar con
los artículos sobre lecciones aprendidas de Ron Kohavi y sus coautores (Kohavi et al., 2007, 2009,
2012). También es posible que deseemos instrumentar los sistemas implementados para las evaluaciones para asegurarnos
que el mundo no está cambiando en detrimento de la toma de decisiones del modelo. Para
Por ejemplo, el comportamiento puede cambiar, en algunos casos, como fraude o spam, en respuesta directa a
el despliegue de modelos. Además, la salida del modelo es críticamente dependiente
en los datos de entrada; Los datos de entrada pueden cambiar de formato y sustancia, a menudo sin
alertando al equipo de ciencia de datos. Raeder y col. (2012) presentan una discusión detallada de
diseño del sistema para ayudar a lidiar con estos y otros problemas relacionados con la evaluación en el despliegue.
Despliegue
En la implementación, los resultados de la minería de datos y, cada vez más, las técnicas de minería de datos.
ellos mismos, se ponen en uso real para obtener algún retorno de la inversión. los
Los casos más claros de implementación involucran la implementación de un modelo predictivo en alguna información.
sistema de mación o proceso empresarial. En nuestro ejemplo de abandono, un modelo para predecir la
La probabilidad de abandono podría integrarse con el proceso empresarial para la gestión del abandono.
2. Por ejemplo, en un proyecto de minería de datos se creó un modelo para diagnosticar problemas en las redes telefónicas locales,
y enviar técnicos al lugar probable del problema. Antes de la implementación, un equipo de la compañía telefónica
las partes interesadas solicitaron que se modificara el modelo para que se hicieran excepciones para los hospitales.
Página 33
—Por ejemplo, enviando ofertas especiales a los clientes que se prevé que participen
larly en riesgo. (Discutiremos esto con mayor detalle a medida que avanza el libro). Un nuevo fraude
El modelo de detección puede integrarse en un sistema de información de gestión de la fuerza de trabajo, para
monitorear cuentas y crear “casos” para que los analistas de fraude los examinen.
Cada vez más, se implementan las propias técnicas de minería de datos. Por ejemplo, para
dirigidos a anuncios en línea, se implementan sistemas que crean automáticamente (y
prueba) modelos en producción cuando se presenta una nueva campaña publicitaria. Dos principales
razones para implementar el sistema de minería de datos en sí en lugar de los modelos producidos
por un sistema de minería de datos son (i) el mundo puede cambiar más rápido que el equipo de ciencia de datos
puede adaptarse, como ocurre con la detección de intrusiones y fraudes, y (ii) una empresa tiene demasiados modelos
encargando tareas a su equipo de ciencia de datos para seleccionar manualmente cada modelo individualmente. En
En estos casos, puede ser mejor implementar la fase de minería de datos en producción. Haciendo
por lo tanto, es fundamental instrumentar el proceso para alertar al equipo de ciencia de datos de cualquier aparente
anomalías y para proporcionar un funcionamiento a prueba de fallos (Raeder et al., 2012).
La implementación también puede ser mucho menos "técnica". En un caso célebre,

La minería de datos descubrió un conjunto de reglas que podrían ayudar a diagnosticar rápidamente
nariz y corregir un error común en la impresión industrial. El despliegue
tuvo éxito simplemente pegando una hoja de papel que contiene las reglas al
lado de las impresoras (Evans & Fisher, 2002). La implementación también puede ser
mucho más sutil, como un cambio en los procedimientos de adquisición de datos, o
un cambio en la estrategia, el marketing o las operaciones como resultado de la información
obtenido de la extracción de datos.
La implementación de un modelo en un sistema de producción generalmente requiere que el modelo se vuelva a

codificado para el entorno de producción, generalmente para una mayor velocidad o compatibilidad con
un sistema existente. Esto puede generar gastos e inversiones sustanciales. En muchos casos,
el equipo de ciencia de datos es responsable de producir un prototipo funcional, junto con su
evaluación. Estos se pasan a un equipo de desarrollo.
Prácticamente hablando, existen riesgos con las transferencias "sobre la pared" desde
ciencia de datos al desarrollo. Puede ser útil recordar el máximo
im: "Su modelo no es lo que diseñan los científicos de datos, es lo que
los ingenieros construyen ". Desde una perspectiva de gestión, es aconsejable
hacer que los miembros del equipo de desarrollo participen desde el principio en los datos
proyecto de ciencias. Pueden comenzar como asesores, proporcionando información crítica
al equipo de ciencia de datos. Cada vez más en la práctica, estos des‐
Los velocistas son "ingenieros de ciencia de datos", ingenieros de software que han
especial experiencia tanto en los sistemas de producción como en la ciencia de datos
ence. Estos desarrolladores asumen gradualmente más responsabilidad a medida que
el proyecto madura. En algún momento, los desarrolladores tomarán la iniciativa y
Página 34
asumir la propiedad del producto. Generalmente, los científicos de datos deben

aún permanecen involucrados en el proyecto hasta la implementación final, como asesores
o como desarrolladores dependiendo de sus habilidades.
Independientemente de si la implementación es exitosa, el proceso a menudo regresa al negocio

Fase de comprensión. El proceso de extracción de datos produce una gran cantidad de información sobre
el problema empresarial y las dificultades de su solución. Una segunda iteración puede producir un
solución mejorada. Solo la experiencia de pensar en el negocio, los datos y el
Los objetivos de rendimiento a menudo conducen a nuevas ideas para mejorar el rendimiento empresarial, y
incluso nuevas líneas de negocio o nuevas empresas.
Tenga en cuenta que no es necesario fallar en la implementación para iniciar el ciclo nuevamente. La evaluación
etapa puede revelar que los resultados no son lo suficientemente buenos para implementar, y necesitamos ajustar el
definición del problema u obtener datos diferentes. Esto está representado por el enlace de "acceso directo" de
Evaluación de regreso a Business Understanding en el diagrama de proceso. En la práctica, hay
deben ser atajos de cada etapa a cada una anterior porque el proceso siempre
conserva algunos aspectos exploratorios, y un proyecto debe ser lo suficientemente flexible como para revisar
pasos basados en descubrimientos realizados. 3
Implicaciones para la gestión del equipo de ciencia de datos

Es tentador, pero generalmente un error, ver el proceso de minería de datos como un software.
ciclo de desarrollo. De hecho, los proyectos de minería de datos a menudo se tratan y gestionan como en‐
proyectos de ingeniería, lo cual es comprensible cuando son iniciados por software de‐
particiones, con datos generados por un gran sistema de software y resultados analíticos realimentados
en ello. Los gerentes suelen estar familiarizados con las tecnologías de software y se sienten cómodos
gestión de proyectos de software. Los hitos se pueden acordar y el éxito generalmente no es
ambiguo. Los administradores de software pueden mirar el ciclo de minería de datos CRISP ( Figura 2-2 )
y piensan que se parece cómodamente a un ciclo de desarrollo de software, por lo que deberían
estar en casa administrando un proyecto de análisis de la misma manera.
Esto puede ser un error porque la minería de datos es una empresa exploratoria más cercana a
investigación y desarrollo que a la ingeniería. El ciclo CRISP se basa en
exploración; itera sobre enfoques y estrategias en lugar de diseños de software. Fuera-
viene son mucho menos seguros, y los resultados de un paso dado pueden cambiar la
comprensión del problema. Diseñar una solución de minería de datos directamente para la implementación
El compromiso puede ser un compromiso prematuro costoso. En cambio, los proyectos de analítica deberían
prepárese para invertir en información para reducir la incertidumbre de diversas formas. Pequeña inversión
3. Los profesionales del software pueden reconocer la similitud con la filosofía de "Fracasar más rápido para tener éxito antes".
(Muoio, 1997).
Página 35
Pueden realizarse estudios piloto y prototipos desechables. Los científicos de datos deberían
revise la literatura para ver qué más se ha hecho y cómo ha funcionado. En un mayor
escala, un equipo puede invertir sustancialmente en la construcción de bancos de pruebas experimentales para permitir una amplia
experimentación ágil. Si es un administrador de software, esto se parecerá más a una investigación
y exploración de lo que está acostumbrado, y tal vez más de lo que se siente cómodo.
Habilidades de software versus habilidades analíticas

Aunque la minería de datos implica software, también requiere habilidades que pueden
no ser común entre los programadores. En ingeniería de software, el
La capacidad de escribir código eficiente y de alta calidad a partir de los requisitos puede ser
supremo. Los miembros del equipo pueden ser evaluados usando métricas de software
como la cantidad de código escrito o el número de tickets de error cerrados.
En analítica, es más importante que las personas puedan formarse
problemas tardíos, para crear prototipos de soluciones rápidamente, para razonar
supuestos capaces frente a problemas mal estructurados, para diseñar ex‐
perimentos que representan buenas inversiones, y para analizar resultados. En
construir un equipo de ciencia de datos, estas cualidades, en lugar de las tradicionales
la experiencia en ingeniería de software, son habilidades que deben buscarse.
Otras técnicas y tecnologías analíticas

La analítica empresarial implica la aplicación de diversas tecnologías al análisis de
datos. Muchos de estos van más allá del enfoque de este libro en el pensamiento analítico de datos y los principios
principios de extraer patrones útiles de los datos. No obstante, es importante estar activo
familiarizado con estas técnicas relacionadas, para comprender cuáles son sus objetivos, qué papel
juegan, y cuándo puede ser beneficioso consultar a expertos en ellos.
Para ello, presentamos seis grupos de técnicas analíticas relacionadas. Donde sea apropiado nosotros
hacer comparaciones y contrastes con la minería de datos. La principal diferencia es que los datos
La minería se centra en la búsqueda automatizada de conocimientos , patrones o regularidades de
datos. 4 Una habilidad importante para un analista de negocios es poder reconocer qué tipo de
La técnica analítica es apropiada para abordar un problema particular.
Estadísticas
El término "estadísticas" tiene dos usos diferentes en la analítica empresarial. Primero, se utiliza como
término general para el cálculo de valores numéricos particulares de interés a partir de datos
(p. ej., "Necesitamos recopilar algunas estadísticas sobre el uso de nuestros clientes para determinar qué
va mal aquí ”). Estos valores a menudo incluyen sumas, promedios, tasas, etc. Vamos
4. Es importante tener en cuenta que es raro que el descubrimiento esté completamente automatizado. Lo importante
factor es que la minería de datos automatiza al menos parcialmente el proceso de búsqueda y descubrimiento, en lugar de proporcionar
soporte técnico para búsqueda y descubrimiento manual.
Otras técnicas y tecnologías analíticas | 35
Página 36
denomínelas "estadísticas resumidas". A menudo queremos profundizar y calcular un resumen

estadísticas condicionalmente en uno o más subconjuntos de la población (por ejemplo, "¿La deserción
la tasa difiere entre clientes masculinos y femeninos? " y "¿Qué pasa con los clientes de altos ingresos?
consumidores en el noreste (denota una región de los EE. UU.)? ”) Las estadísticas resumidas son las
bloques de construcción básicos de gran parte de la teoría y la práctica de la ciencia de datos.
Las estadísticas resumidas deben elegirse prestando mucha atención al problema empresarial que se
resuelto (uno de los principios fundamentales que presentaremos más adelante), y también con atención
a la distribución de los datos que están resumiendo. Por ejemplo, el promedio (media)
Los ingresos en los Estados Unidos de acuerdo con la Encuesta Económica de la Oficina del Censo de 2004 fue
más de $ 60,000. Si tuviéramos que usar eso como una medida del ingreso promedio con el fin de hacer
decisiones políticas, nos engañaríamos a nosotros mismos. La distribución de ingresos en el
Estados Unidos está muy sesgado, con muchas personas que ganan relativamente poco y algunas personas
fantásticamente mucho. En tales casos, la media aritmética nos dice relativamente poco sobre cómo
mucha gente está ganando. En cambio, deberíamos usar una medida diferente de "promedio" en
vienen, como la mediana. El ingreso medio, esa cantidad donde la mitad de la población
gana más y la mitad gana menos: en los EE. UU., en el estudio del censo de 2004 era de solo $ 44,389
—Considerablemente menor que la media. Este ejemplo puede parecer obvio porque somos tan
acostumbrado a escuchar sobre el "ingreso medio", pero el mismo razonamiento se aplica a
cualquier cálculo de estadísticas resumidas: ¿ha pensado en el problema que
¿Le gustaría resolver o la pregunta que le gustaría responder? ¿Ha considerado la distribución
de los datos, y si la estadística elegida es apropiada?
El otro uso del término "estadística" es para denotar el campo de estudio que va por ese
nombre, para el cual podríamos diferenciar usando el nombre propio, Estadísticas. El campo
of Statistics nos proporciona una gran cantidad de conocimiento que subyace a la analítica, y
se puede considerar como un componente del campo más amplio de la ciencia de datos. Por ejemplo,
Las estadísticas nos ayudan a comprender las diferentes distribuciones de datos y qué estadísticas se aplican.
apropiado para resumir cada uno. Las estadísticas nos ayudan a comprender cómo utilizar los datos para realizar pruebas.
hipótesis y para estimar la incertidumbre de las conclusiones. En relación con la minería de datos,
La prueba de hipótesis puede ayudar a determinar si es probable que un patrón observado sea válido,
regularidad general en contraposición a una ocurrencia casual en algún conjunto de datos en particular. La mayoría
relevantes para este libro, muchas de las técnicas para extraer modelos o patrones de
los datos tienen sus raíces en la estadística.
Por ejemplo, un estudio preliminar puede sugerir que los clientes del noreste tienen una
tasa de abandono del 22,5%, mientras que la tasa de abandono promedio a nivel nacional es solo del 15%. Esto puede
ser solo una fluctuación casual ya que la tasa de abandono no es constante; varía según las regiones
y con el tiempo, por lo que se esperan diferencias. Pero la tasa del noreste es de una y media
veces el promedio de EE. UU., que parece inusualmente alto. ¿Cuál es la probabilidad de que esto se deba
a la variación aleatoria? La prueba de hipótesis estadística se utiliza para responder a estas preguntas.
Página 37
Estrechamente relacionada está la cuantificación de la incertidumbre en intervalos de confianza. El general

la tasa de abandono es del 15%, pero existe alguna variación; El análisis estadístico tradicional puede revelar
que el 95% de las veces se espera que la tasa de abandono caiga entre el 13% y el 17%.
Esto contrasta con el proceso (complementario) de minería de datos, que puede verse como
generación de hipótesis . ¿Podemos encontrar patrones en los datos en primer lugar? Generación de hipótesis
Luego, la elaboración debe ser seguida por una cuidadosa prueba de hipótesis (generalmente en diferentes
datos; ver el Capítulo 5 ). Además, los procedimientos de minería de datos pueden producir es‐
timas, y a menudo también queremos proporcionar intervalos de confianza en estas estimaciones. Nosotros
Volveremos a esto cuando hablemos de la evaluación de los resultados de la minería de datos.
En este libro no vamos a dedicar más tiempo a discutir estas estadísticas básicas.
conceptos. Hay muchos libros introductorios sobre estadísticas y estadísticas para empresas,
y cualquier tratamiento que intentemos aplicar sería muy estrecho o superficial.
Dicho esto, un término estadístico que se escucha a menudo en el contexto de la analítica empresarial es
"correlación." Por ejemplo, "¿Hay algún indicador que se correlacione con el
¿deserción posterior? " Al igual que con el término estadísticas, "correlación" tiene tanto un propósito general
significado (las variaciones en una cantidad nos dicen algo sobre las variaciones en la otra),
y un significado técnico específico (por ejemplo, correlación lineal basada en una matemática particular
fórmula matemática). La noción de correlación será el punto de partida para el resto de
nuestra discusión sobre ciencia de datos para empresas, comenzando en el próximo capítulo.
Consulta de base de datos

Una consulta es una solicitud específica de un subconjunto de datos o de estadísticas sobre datos, formulada
en un lenguaje técnico y planteado a un sistema de base de datos. Hay muchas herramientas disponibles para
responder consultas puntuales o repetidas sobre datos planteados por un analista. Estas herramientas son
Por lo general, es una interfaz para los sistemas de bases de datos, basados en el lenguaje de consulta estructurado (SQL) o
una herramienta con una interfaz gráfica de usuario (GUI) para ayudar a formular consultas (por ejemplo, consulta por
ejemplo, o QBE). Por ejemplo, si el analista puede definir "rentable" en operacional
términos computables a partir de elementos de la base de datos, una herramienta de consulta podría responder: "¿Quién
Cuáles son los clientes más rentables del noreste? " Luego, el analista puede ejecutar la consulta
para recuperar una lista de los clientes más rentables, posiblemente clasificados por rentabilidad. Esta
La actividad difiere fundamentalmente de la minería de datos en que no se descubren patrones.
o modelos.
Las consultas a la base de datos son apropiadas cuando un analista ya tiene una idea de lo que podría ser
una subpoblación interesante de los datos y desea investigar esta población o
confirmar una hipótesis al respecto. Por ejemplo, si un analista sospecha que los hombres de mediana edad
que viven en el noreste tienen un comportamiento de batido particularmente interesante, ella podría
redactar una consulta SQL:
SELECCIONE * DE CLIENTES DONDE EDAD> 45 y SEXO = 'M' y DOMICILIO = 'NE'
Página 38
Si esas son las personas a las que se dirigirá una oferta, se puede utilizar una herramienta de consulta para recuperar
toda la información sobre ellos (“*”) de la tabla CLIENTES en la base de datos.
Por el contrario, la minería de datos podría usarse para generar esta consulta en primer lugar:
como un patrón o regularidad en los datos. Un procedimiento de minería de datos podría examinar
clientes que desertaron y que no, y determinan que este segmento (caracterizado
ya que "EDAD es mayor de 45 y SEXO es masculino y DOMICILIO es Noreste de EE. UU.") es
predictivo con respecto a la tasa de abandono. Después de traducir esto en una consulta SQL, una consulta
La herramienta podría usarse para encontrar los registros coincidentes en la base de datos.
Las herramientas de consulta generalmente tienen la capacidad de ejecutar lógica sofisticada, incluyendo com‐
poner estadísticas de resumen sobre subpoblaciones, ordenar, unir varias tablas
con datos relacionados y más. Los científicos de datos a menudo se vuelven expertos en escribir consultas
para extraer los datos que necesitan.
El procesamiento analítico en línea (OLAP) proporciona una GUI fácil de usar para consultar grandes datos
colecciones, con el fin de facilitar la exploración de datos. La idea de pro‐
El proceso es que se realiza en tiempo real, por lo que los analistas y los responsables de la toma de decisiones pueden encontrar respuestas.
a sus consultas de forma rápida y eficaz. A diferencia de las consultas "ad hoc" habilitadas por herramientas
como SQL, para OLAP las dimensiones de análisis deben estar preprogramadas en OLAP
sistema. Si hemos previsto eso, querríamos explorar el volumen de ventas por región y
tiempo, podríamos tener estas tres dimensiones programadas en el sistema y desglosar
en poblaciones, a menudo simplemente haciendo clic y arrastrando y manipulando dinámicas
gráficos.
Los sistemas OLAP están diseñados para facilitar la exploración manual o visual de los datos mediante
analistas. OLAP no realiza modelado ni búsqueda automática de patrones. Como adicional
Por el contrario, a diferencia de OLAP, las herramientas de minería de datos generalmente pueden incorporar nuevas dimensiones
siones de análisis fácilmente como parte de la exploración. Las herramientas OLAP pueden ser un complemento útil
a herramientas de minería de datos para el descubrimiento a partir de datos comerciales.
Almacenamiento de datos
Los almacenes de datos recopilan y fusionan datos de toda una empresa, a menudo de múltiples
sistemas de procesamiento de transacciones, cada uno con su propia base de datos. Los sistemas analíticos pueden actuar
almacenes de datos cess. El almacenamiento de datos puede verse como una tecnología facilitadora de datos
minería. No siempre es necesario, ya que la mayoría de la minería de datos no accede a un almacén de datos,
pero las empresas que deciden invertir en almacenes de datos a menudo pueden aplicar la minería de datos más
amplia y profundamente en la organización. Por ejemplo, si un almacén de datos se integra
registros de ventas y facturación, así como de recursos humanos, se puede utilizar para encontrar
patrones característicos de los vendedores eficaces.
Página 39
Análisis de regresión
Algunos de los mismos métodos que discutimos en este libro son el núcleo de un conjunto diferente de
métodos analíticos, que a menudo se recopilan bajo el análisis de regresión de rúbrica , y
se aplican ampliamente en el campo de la estadística y también en otros campos basados en la economía
análisis métrico. Este libro se centrará en cuestiones diferentes a las que se encuentran habitualmente en un
libro o clase de análisis de regresión. Aquí estamos menos interesados en explicar un particular
conjunto de datos, ya que estamos en la extracción de patrones que se generalizarán a otros datos, y para el
propósito de mejorar algunos procesos comerciales. Normalmente, esto implicará estimar o
predecir valores para casos que no están en el conjunto de datos analizados. Entonces, como ejemplo, en
En este libro, estamos menos interesados en indagar en las razones de la deserción (importante ya que
puede estar) en un conjunto histórico particular de datos, y más interesado en predecir qué
los clientes que aún no se han ido sería el mejor objetivo para reducir la rotación futura.
Por lo tanto, dedicaremos algún tiempo a hablar sobre patrones de prueba en nuevos datos para evaluar
Evaluar su generalidad y técnicas para reducir la tendencia a encontrar patrones.
específicos de un conjunto particular de datos, pero que no se generalizan a la población de
del que vienen los datos.
El tema del modelado explicativo versus el modelado predictivo puede provocar una profunda des‐
bate, 5 que va mucho más allá de nuestro enfoque. Lo importante es darse cuenta de que hay
una superposición considerable en las técnicas utilizadas, pero que las lecciones aprendidas de la explicación
El modelado histórico no se aplica al modelado predictivo. Entonces, un lector con algo de respaldo
El terreno en el análisis de regresión puede encontrar nuevos e incluso aparentemente contradictorios.
lecciones. 6
Aprendizaje automático y minería de datos

La colección de métodos para extraer modelos (predictivos) de datos, ahora conocida como
métodos de aprendizaje automático, se desarrollaron en varios campos al mismo tiempo, la mayoría
en particular, aprendizaje automático, estadísticas aplicadas y reconocimiento de patrones. Aprendizaje automático
ing como campo de estudio surgió como un subcampo de la Inteligencia Artificial, que estaba preocupado
con métodos para mejorar el conocimiento o el desempeño de un agente inteligente sobre
tiempo, en respuesta a la experiencia del agente en el mundo. Tal mejora a menudo en‐
Implica analizar datos del medio ambiente y hacer predicciones sobre desconocidos.
cantidades y, a lo largo de los años, este aspecto del análisis de datos del aprendizaje automático ha llegado a
juegan un papel muy importante en el campo. Dado que los métodos de aprendizaje automático se implementaron ampliamente,
las disciplinas científicas de aprendizaje automático, estadística aplicada y reconocimiento de patrones
ción desarrolló vínculos estrechos, y la separación entre los campos se ha difuminado.
5. Se insta al lector interesado a leer la discusión de Shmueli (2010).
6. Aquellos que continúen con el estudio en profundidad habrán resuelto las aparentes contradicciones. Un estudio tan profundo es
no es necesario comprender los principios fundamentales.
Página 40
El campo de la minería de datos (o KDD: descubrimiento de conocimientos y minería de datos) comenzó como
una rama del aprendizaje automático, y siguen estrechamente vinculados. Ambos campos están con‐
preocupados por el análisis de datos para encontrar patrones útiles o informativos. Técnicas y
los algoritmos se comparten entre los dos; de hecho, las áreas están tan estrechamente relacionadas que
Los investigadores suelen participar en ambas comunidades y realizar la transición entre ellas.
sin problemas. No obstante, conviene señalar algunas de las diferencias para dar
perspectiva.
Hablando en general, debido a que el aprendizaje automático se ocupa de muchos tipos de per‐
mejora de la formación, incluye subcampos como la robótica y la visión por computadora que
no forman parte de KDD. También se ocupa de cuestiones de agencia y cognición: ¿ cómo
un agente inteligente utiliza el conocimiento aprendido para razonar y actuar en su entorno, lo que
no son preocupaciones de Data Mining.
Históricamente, KDD surgió del aprendizaje automático como un campo de investigación centrado en
problemas planteados al examinar las aplicaciones del mundo real, y una década y media después
La comunidad de KDD sigue más preocupada por las aplicaciones que por el aprendizaje automático
es. Como tal, la investigación se centró en aplicaciones comerciales y problemas comerciales de datos.
El análisis tiende a gravitar hacia la comunidad KDD en lugar de hacia el aprendizaje automático.
En g. KDD también tiende a estar más preocupado por todo el proceso de análisis de datos: datos
preparación, aprendizaje de modelos, evaluación, etc.
Responder preguntas comerciales con estas técnicas

Para ilustrar cómo se aplican estas técnicas a la analítica empresarial, considere una serie de preguntas
que puedan surgir y las tecnologías que serían adecuadas para darles respuesta. Estas
todas las preguntas están relacionadas, pero cada una es sutilmente diferente. Es importante comprender estos
diferencias para comprender qué tecnologías se necesitan emplear y qué
las personas pueden ser necesarias para consultar.
1. ¿Quiénes son los clientes más rentables?

Si "rentable" se puede definir claramente sobre la base de los datos existentes, esta es una sencilla
consulta de base de datos. Se puede utilizar una herramienta de consulta estándar para recuperar un conjunto de
registros de una base de datos. Los resultados se pueden ordenar por transacción acumulativa
cantidad, o algún otro indicador operativo de rentabilidad.
2. ¿Existe realmente una diferencia entre los clientes rentables y el cliente medio?
Esta es una pregunta sobre una conjetura o hipótesis (en este caso, “Hay una diferencia
en valor para la empresa entre los clientes rentables y el promedio
cliente ”), y las pruebas de hipótesis estadísticas se utilizarían para confirmar o
Desconfirmarlo. El análisis estadístico también podría derivar una probabilidad o confianza
obligado que la diferencia era real. Normalmente, el resultado sería como: "El valor
de estos clientes rentables es significativamente diferente de la del cliente promedio
cliente, con una probabilidad < 5% de que esto se deba a una probabilidad aleatoria ".
Página 41
3. Pero, ¿quiénes son realmente estos clientes? ¿Puedo caracterizarlos?

A menudo nos gustaría hacer algo más que enumerar a los clientes rentables. Lo haríamos
les gusta describir las características comunes de los clientes rentables. Las características
de clientes individuales se pueden extraer de una base de datos utilizando técnicas como
consulta de la base de datos, que también se puede utilizar para generar estadísticas resumidas. Un mas profundo
El análisis debe implicar determinar qué características diferencian los beneficios
clientes de los no rentables. Este es el ámbito de la ciencia de datos, el uso de datos
técnicas de minería para la búsqueda automatizada de patrones, que discutimos en profundidad en
los capítulos siguientes.
4. ¿Será rentable algún cliente nuevo en particular? ¿Cuántos ingresos debo esperar?
este cliente para generar?
Estas preguntas podrían abordarse mediante técnicas de minería de datos que examinen su
registros de clientes tóricos y producir modelos predictivos de rentabilidad. Tal tecnología
niques generaría modelos a partir de datos históricos que luego podrían aplicarse a
nuevos clientes para generar predicciones. Nuevamente, este es el tema de la siguiente
capítulos.
Tenga en cuenta que este último par de preguntas son preguntas de minería de datos sutilmente diferentes. El primero,
una pregunta de clasificación, puede formularse como una predicción de si una nueva cliente
El cliente será rentable (sí / no o la probabilidad del mismo). El segundo puede expresarse
como predicción del valor (numérico) que aportará el cliente a la empresa.
Más sobre eso a medida que avanzamos.
Resumen
La minería de datos es un oficio. Como ocurre con muchas manualidades, existe un proceso bien definido que puede ayudar
para aumentar la probabilidad de un resultado exitoso. Este proceso es una herramienta conceptual crucial
por pensar en proyectos de ciencia de datos. Volveremos a referirnos al proceso de minería de datos.
repetidamente a lo largo del libro, mostrando cómo encaja cada concepto fundamental. A su vez,
comprender los fundamentos de la ciencia de datos mejora sustancialmente las posibilidades de
El éxito como empresa invoca el proceso de minería de datos.
Los diversos campos de estudio relacionados con la ciencia de datos han desarrollado un conjunto de tareas canónicas
tipos, como clasificación, regresión y agrupación. Cada tipo de tarea sirve a un
propósito y tiene un conjunto asociado de técnicas de solución. Un científico de datos normalmente en‐
aborda un nuevo proyecto descomponiéndolo de tal manera que una o más de estas tareas canónicas sea
revelado, eligiendo una técnica de solución para cada uno, luego componiendo las soluciones. Haciendo
esto de manera experta puede requerir una experiencia y habilidad considerables. Una minería de datos exitosa
El proyecto implica un compromiso inteligente entre lo que pueden hacer los datos (es decir, lo que
puede predecir, y qué tan bien) y los objetivos del proyecto. Por esta razón es importante mantener
Tenga en cuenta cómo se utilizarán los resultados de la minería de datos y utilícelo para informar a la minería de datos.
proceso en sí.
Resumen | 41
Página 42
La minería de datos difiere y es complementaria a importantes tecnologías de apoyo.

como la prueba de hipótesis estadísticas y la consulta de bases de datos (que tienen sus propios libros
y clases). Aunque los límites entre la minería de datos y las técnicas relacionadas son
no siempre es nítido, es importante conocer las capacidades de otras técnicas y
fortalezas para saber cuándo deben usarse.
Para un gerente comercial, el proceso de minería de datos es útil como marco para analizar
un proyecto o propuesta de minería de datos. El proceso proporciona una organización sistemática, en
Incluyendo un conjunto de preguntas que se pueden hacer sobre un proyecto o un proyecto propuesto para ayudar
comprender si el proyecto está bien concebido o tiene fallas fundamentales. Lo haremos
Regresemos a esto después de haber discutido en detalle algunos de los principios fundamentales
ellos mismos, a los que nos dirigimos ahora.

Introducción - Pensamiento Analítico de Datos Cap 1 y 2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción - Pensamiento Analítico de Datos Cap 1 y 2

Cargado por

Copyright:

Formatos disponibles

30/11/21 11:24 Introducción: pensamiento analítico de datos

No sueñes pequeños sueños porque no tienen poder para

La ubicuidad de las oportunidades de datos

Es importante comprender la ciencia de datos incluso si nunca tiene la intención de

2 | Capítulo 1: Introducción: pensamiento analítico de datos

ciencia y minería de datos, excepto cuando tenga un efecto sustancial en la comprensión

Ejemplo: huracán Frances

Ejemplo: huracán Frances | 3

Ejemplo: predecir la rotación de clientes

Se le ha llamado para ayudar a comprender el problema e idear una solución. A-

Piense detenidamente qué datos podría utilizar y cómo se utilizarían. Específicamente,

En realidad, la retención de clientes ha sido un uso importante de la minería de datos.

Ciencia de datos, ingeniería y decisiones basadas en datos

4 | Capítulo 1: Introducción: pensamiento analítico de datos

Ciencia de datos, ingeniería y toma de decisiones basada en datos | 5

Sin embargo, Target quería adelantarse a su competencia. Estaban interesados ​en

6 | Capítulo 1: Introducción: pensamiento analítico de datos

En la década de 1990, la toma de decisiones automatizada cambió la banca y el crédito al consumo.

Procesamiento de datos y "Big Data"

Procesamiento de datos y “Big Data” | 7

empresas es importante comprender las diferencias. La ciencia de datos necesita acceso a

Anteriormente, discutimos el estudio de Brynjolfsson que demuestra los beneficios de las

De Big Data 1.0 a Big Data 2.0

8 | Capítulo 1: Introducción: pensamiento analítico de datos

componentes de redes y el surgimiento de la "voz" del consumidor individual (y

Capacidad de datos y ciencia de datos como un activo estratégico

Capacidad de datos y ciencia de datos como un activo estratégico | 9

la probabilidad de incumplimiento había cambiado la industria de la evaluación personal de la

10 | Capítulo 1: Introducción: pensamiento analítico de datos

Capacidad de datos y ciencia de datos como un activo estratégico | 11

Pensamiento analítico de datos

12 | Capítulo 1: Introducción: pensamiento analítico de datos

La necesidad de gerentes con habilidades analíticas de datos.

Pensamiento analítico de datos | 13

Minería de datos y ciencia de datos, revisada

14 | Capítulo 1: Introducción: pensamiento analítico de datos

Concepto fundamental: si examina demasiado un conjunto de datos, encontrará algo, pero

Concepto fundamental: formular soluciones de minería de datos y evaluar los resultados

La química no se trata de tubos de ensayo: ciencia de datos versus

Dicho esto, este libro se centra en la ciencia y no en la tecnología. Vas a

16 | Capítulo 1: Introducción: pensamiento analítico de datos

Problemas comerciales y ciencia de datos

Cerramos el capítulo discutiendo un conjunto de importantes temas de análisis de negocios que

De problemas comerciales a tareas de minería de datos

Una habilidad fundamental en la ciencia de datos es la capacidad de descomponer un

1. La clasificación y la estimación de la probabilidad de clase intentan predecir, para cada individuo

20 | Capítulo 2: Problemas comerciales y soluciones de ciencia de datos

De problemas comerciales a tareas de minería de datos | 21

22 | Capítulo 2: Problemas comerciales y soluciones de ciencia de datos

De problemas comerciales a tareas de minería de datos | 23

Métodos supervisados ​y no supervisados

Una nota sobre los términos: aprendizaje supervisado y no supervisado

La clasificación, regresión y modelado causal generalmente se resuelven con supervisión supervisada.

24 | Capítulo 2: Problemas comerciales y soluciones de ciencia de datos

Se describen dos subclases principales de minería de datos supervisada , clasificación y regresión.

"¿Este cliente comprará el servicio S1 si se le da un incentivo I?"

“¿Qué paquete de servicio (S1, S2 o ninguno) probablemente comprará un cliente si se le da un incentivo?

"¿Cuánto utilizará este cliente el servicio?"

Minería de datos y sus resultados

Minería de datos y sus resultados | 25

cliente existente, descrito mediante un conjunto de características, M toma estas características

El proceso de minería de datos

Sin embargo, Target quería adelantarse a su competencia. Estaban interesados en

Métodos supervisados y no supervisados