Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción - Pensamiento Analítico de Datos Cap 1 y 2
Introducción - Pensamiento Analítico de Datos Cap 1 y 2
Página 1
CAPÍTULO 1
Introducción: pensamiento analítico de datos
Los últimos quince años han sido testigos de importantes inversiones en infraestructura empresarial, que
han mejorado la capacidad de recopilar datos en toda la empresa. Prácticamente todos los
El aspecto empresarial ahora está abierto a la recopilación de datos y, a menudo, incluso está instrumentado para datos.
recopilación: operaciones, fabricación, gestión de la cadena de suministro, comportamiento del cliente,
rendimiento de la campaña de marketing, procedimientos de flujo de trabajo, etc. Al mismo tiempo,
La información ahora está ampliamente disponible sobre eventos externos, como las tendencias del mercado, la industria.
noticias y movimientos de la competencia. Esta amplia disponibilidad de datos ha llevado a un aumento
interés en los métodos para extraer información y conocimientos útiles de los datos;
ámbito de la ciencia de datos.
Probablemente, las aplicaciones más amplias de las técnicas de minería de datos se encuentran en el marketing para tareas.
como marketing dirigido, publicidad online y recomendaciones para la venta cruzada.
https://translate.googleusercontent.com/translate_f 1/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 2
La minería de datos se utiliza para la gestión general de las relaciones con los clientes para analizar
comportamiento para gestionar el desgaste y maximizar el valor esperado para el cliente. los
La industria financiera utiliza la minería de datos para la calificación crediticia y el comercio, y en operaciones a través de
detección de fraudes y gestión de la fuerza laboral. Principales minoristas desde Walmart hasta Amazon
aplicar la minería de datos en sus negocios, desde el marketing hasta el manejo de la cadena de suministro
envejecimiento. Muchas empresas se han diferenciado estratégicamente con la ciencia de datos,
a veces hasta el punto de convertirse en empresas de minería de datos.
Los objetivos principales de este libro son ayudarlo a ver los problemas comerciales a partir de una
perspectiva y comprender los principios para extraer conocimiento útil de los datos. Allí
es una estructura fundamental para el pensamiento analítico de datos, y principios básicos que deben
ser entendido. También hay áreas particulares donde la intuición, la creatividad, los
sentido, y el conocimiento del dominio debe aplicarse. Una perspectiva de datos proporcionará
usted con estructura y principios, y esto le dará un marco para sistemáticamente
analizar esos problemas. A medida que mejore en el pensamiento analítico de datos, desarrollará
intuición sobre cómo y dónde aplicar la creatividad y el conocimiento del dominio.
A lo largo de los dos primeros capítulos de este libro, discutiremos en detalle varios temas.
y técnicas relacionadas con la ciencia de datos y la minería de datos. Los términos "ciencia de datos" y
"Minería de datos" a menudo se utilizan indistintamente, y el primero ha cobrado vida propia
a medida que varias personas y organizaciones intentan capitalizar la exageración actual
inglo. En un nivel alto, la ciencia de datos es un conjunto de principios fundamentales que guían la
extracción de conocimiento a partir de datos. La minería de datos es la extracción de conocimiento de
datos, a través de tecnologías que incorporan estos principios. Como término, "ciencia de datos" a menudo
se aplica de manera más amplia que el uso tradicional de "minería de datos", pero la tecnología de minería de datos
niques proporcionan algunas de las ilustraciones más claras de los principios de la ciencia de datos.
A lo largo del libro, describiremos una serie de principios fundamentales de la ciencia de datos,
e ilustrará cada uno con al menos una técnica de minería de datos que encarna el principio
principio. Para cada principio, por lo general, hay muchas técnicas específicas que lo incorporan, por lo que
En este libro hemos optado por enfatizar los principios básicos con preferencia a los
técnicas. Dicho esto, no daremos gran importancia a la diferencia entre los datos
Página 3
https://translate.googleusercontent.com/translate_f 2/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Examinemos dos breves estudios de caso de análisis de datos para extraer patrones predictivos.
Una semana antes de la llegada de la tormenta, Linda M. Dillman, directora de información de Wal-Mart
oficial, presionó a su personal para que elaboraran pronósticos basados en lo que había sucedido cuando
El huracán Charley azotó varias semanas antes. Respaldado por billones de bytes de
historial de compradores que se almacena en el almacén de datos de Wal-Mart, consideró que la empresa
podría 'comenzar a predecir lo que va a suceder, en lugar de esperar a que suceda', como ella
Ponlo. (Hays, 2004)
Considere por qué la predicción basada en datos podría ser útil en este escenario. Puede ser útil
para predecir que las personas en el camino del huracán comprarían más agua embotellada. Quizás,
pero este punto parece un poco obvio, y ¿por qué necesitaríamos ciencia de datos para descubrirlo?
Podría ser útil proyectar la cantidad de aumento en las ventas debido al huracán, para
asegúrese de que los Wal-Mart locales estén debidamente abastecidos. Quizás la extracción de datos podría revelar
que un DVD en particular se agotó en el camino del huracán, pero tal vez se agotó esa semana
en Wal-Marts en todo el país, no solo donde el aterrizaje del huracán era inminente.
La predicción podría ser algo útil, pero probablemente sea más general que la Sra. Dill‐
el hombre tenía la intención.
Sería más valioso descubrir patrones debidos al huracán que no fueron observados
vious. Para hacer esto, los analistas podrían examinar el enorme volumen de datos de Wal-Mart de
situaciones similares (como el huracán Charley) para identificar una demanda local inusual de
productos. A partir de tales patrones, la empresa podría anticipar una demanda inusual.
en busca de productos y existencias urgentes en las tiendas antes de la llegada del huracán.
De hecho, eso es lo que sucedió. The New York Times (Hays, 2004) informó que: “… el
Los expertos extrajeron los datos y descubrieron que las tiendas necesitarían ciertos productos.
—Y no solo las linternas habituales. 'No sabíamos en el pasado que fresa Pop-
Las tartas aumentan sus ventas, como siete veces su tasa de ventas normal, antes de un huracán ''.
Dijo la Sra. Dillman en una entrevista reciente. Y el artículo más vendido antes del huracán fue
cerveza. ” 1
1. ¡Por supuesto! ¿Qué va mejor con los Pop-Tarts de fresa que una buena cerveza fría?
Página 4
Suponga que acaba de conseguir un gran trabajo analítico con MegaTelCo, una de las empresas de tele‐
empresas de comunicación en los Estados Unidos. Están teniendo un gran problema con la cus‐
retención de clientes en su negocio inalámbrico. En la región del Atlántico medio, el 20% de los teléfonos móviles
los clientes se van cuando vencen sus contratos, y cada vez es más difícil
https://translate.googleusercontent.com/translate_f 3/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
adquirir nuevos clientes. Dado que el mercado de la telefonía móvil está ahora saturado, el enorme crecimiento
en el mercado inalámbrico se ha reducido. Las empresas de comunicaciones ahora están comprometidas
en batallas para atraer a los clientes de los demás mientras retienen los suyos. Los clientes cambian
Pasar de una empresa a otra se llama churn , y es caro en todos los aspectos: uno
la empresa debe gastar en incentivos para atraer a un cliente mientras que otra empresa pierde
ingresos cuando el cliente se marcha.
Página 5
https://translate.googleusercontent.com/translate_f 4/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Figura 1-1. Ciencia de datos en el contexto de varios procesos relacionados con datos en el
organización.
de la ciencia de datos como una mejora en la toma de decisiones, ya que esto generalmente es de interés directo para
negocio.
La figura 1-1 coloca la ciencia de datos en el contexto de varios otros datos estrechamente relacionados y
procesos relacionados en la organización. Distingue la ciencia de datos de otros aspectos.
del procesamiento de datos que están ganando cada vez más atención en las empresas. Empecemos por arriba.
La toma de decisiones basada en datos (DDD) se refiere a la práctica de basar las decisiones en
análisis de datos, en lugar de puramente intuición. Por ejemplo, un especialista en marketing podría seleccionar
anuncios basados puramente en su larga experiencia en el campo y su ojo para lo que
trabajará. O bien, podría basar su selección en el análisis de datos sobre cómo
los sumers reaccionan a diferentes anuncios. También podría utilizar una combinación de estos enfoques.
DDD no es una práctica de todo o nada, y diferentes empresas se involucran en DDD para mayores o
grados menores.
Los beneficios de la toma de decisiones basada en datos se han demostrado de manera concluyente.
El economista Erik Brynjolfsson y sus colegas del MIT y Penn's Wharton School
realizó un estudio de cómo la DDD afecta el desempeño de la empresa (Brynjolfsson, Hitt y Kim,
2011). Desarrollaron una medida de DDD que califica a las empresas en función de la intensidad con la que utilizan
Página 6
datos para tomar decisiones en toda la empresa. Muestran que estadísticamente, cuantos más datos
impulsada es una empresa, más productiva es, incluso controlando una amplia gama de posibles
factores confusos. Y las diferencias no son pequeñas. Una desviación estándar más alta
en la escala DDD se asocia con un aumento del 4% al 6% en la productividad. DDD también es
correlacionado con un mayor rendimiento de los activos, rendimiento del capital, utilización de activos y mercado
valor, y la relación parece ser causal.
El tipo de decisiones que nos interesan en este libro se dividen principalmente en dos tipos: (1)
decisiones para las cuales es necesario realizar "descubrimientos" dentro de los datos, y (2) decisiones que
repetir, especialmente a escala masiva, por lo que la toma de decisiones puede beneficiarse incluso de pequeños
aumentos en la precisión de la toma de decisiones basada en el análisis de datos. El ejemplo de Walmart
anterior ilustra un problema de tipo 1: a Linda Dillman le gustaría descubrir conocimientos que
ayudará a Walmart a prepararse para la inminente llegada del huracán Frances.
En 2012, el competidor de Walmart, Target, estuvo en las noticias por una toma de decisiones basada en datos.
caso propio, también un problema de tipo 1 (Duhigg, 2012). Como la mayoría de los minoristas, Target se preocupa
sobre los hábitos de compra de los consumidores, qué los impulsa y qué puede influir en ellos.
Los consumidores tienden a tener inercia en sus hábitos y lograr que cambien es muy difícil
ficult. Los tomadores de decisiones en Target sabían, sin embargo, que la llegada de un nuevo bebé a una familia
es un punto en el que las personas cambian significativamente sus hábitos de compra. En el objetivo
palabras del analista: "Tan pronto como hagamos que nos compren pañales, comenzarán
comprando todo lo demás también ". La mayoría de los minoristas lo saben y, por lo tanto, compiten con cada uno
otros intentan vender productos relacionados con el bebé a nuevos padres. Dado que la mayoría de los registros de nacimiento son
público, los minoristas obtienen información sobre los nacimientos y envían ofertas especiales a los nuevos
padres.
https://translate.googleusercontent.com/translate_f 5/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
obtener una ventaja haciendo ofertas antes que sus competidores. Usando técnicas de datos
ciencia, Target analizó datos históricos sobre clientes que luego se reveló que tenían
estado embarazada y pudieron extraer información que podría predecir qué consumidores
Estamos embarazados. Por ejemplo, las madres embarazadas a menudo cambian sus dietas, su barrio
batas, sus regímenes vitamínicos, etc. Estos indicadores podrían extraerse de
datos históricos, reunidos en modelos predictivos y luego implementados en marketing
Campañas. Discutiremos los modelos predictivos con mucho detalle a medida que avancemos en el libro.
Por el momento, es suficiente comprender que un modelo predictivo se abstrae
la mayor parte de la complejidad del mundo, centrándose en un conjunto particular de indicadores que
correlacionar de alguna manera con una cantidad de interés (quién producirá, o quién comprará,
que está embarazada, etc.). Es importante destacar que tanto en el ejemplo de Walmart como en el de Target, el
Página 7
El análisis de datos no estaba probando una hipótesis simple. En cambio, los datos se exploraron con
la esperanza de que se descubriera algo útil. 2
Nuestro ejemplo de abandono ilustra un problema de DDD de tipo 2. MegaTelCo tiene cientos de
millones de clientes, cada uno de los cuales es candidato a la deserción. Decenas de millones de clientes
tienen contratos que vencen cada mes, por lo que cada uno de ellos tiene una mayor probabilidad
de deserción en un futuro próximo. Si podemos mejorar nuestra capacidad de estimar, para un determinado
cliente, cuán rentable sería para nosotros enfocarnos en ella, potencialmente podemos cosechar grandes
beneficios al aplicar esta capacidad a los millones de clientes de la población. Esta
La misma lógica se aplica a muchas de las áreas donde hemos visto la aplicación más intensa.
de ciencia de datos y minería de datos: marketing directo, publicidad en línea, calificación crediticia,
comercio financiero, gestión de la mesa de ayuda, detección de fraudes, clasificación de búsqueda, rec‐
ommendation, y así sucesivamente.
El diagrama de la Figura 1-1 muestra la ciencia de datos que respalda la toma de decisiones basada en datos,
pero también se superpone con la toma de decisiones basada en datos. Esto resalta los a menudo sobre‐
mirado hecho de que, cada vez más, las decisiones de negocio se están realizando de forma automática por com-
sistemas informáticos. Diferentes industrias han adoptado la toma de decisiones automática en diferentes
tarifas. Las industrias de finanzas y telecomunicaciones fueron las primeras en adoptar, en gran parte debido a
causa de su precoz desarrollo de redes de datos y la implementación de
Computación a escala, que permitió la agregación y modelado de datos a gran escala,
así como la aplicación de los modelos resultantes a la toma de decisiones.
https://translate.googleusercontent.com/translate_f 6/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
eso no es ciencia
La ingeniería y elde datos, a pesarson
procesamiento de fundamentales
la impresión que unorespaldar
para pueda tener de los de
la ciencia medios
datos,depero
comunicación.
son más gen‐Datos
eral. Por ejemplo, en estos días muchas habilidades, sistemas y tecnologías de procesamiento de datos
a menudo se definen erróneamente como ciencia de datos. Para comprender la ciencia de datos y la información basada en datos
2. Target tuvo el éxito suficiente como para que este caso planteara cuestiones éticas sobre el despliegue de tales técnicas.
Las preocupaciones por la ética y la privacidad son interesantes y muy importantes, pero dejamos su discusión para otro.
tiempo y lugar.
Página 8
Las tecnologías de "macrodatos" (como Hadoop, HBase y MongoDB) han recibido con‐
considerable atención de los medios recientemente. Big data esencialmente significa conjuntos de datos que son demasiado grandes
para los sistemas de procesamiento de datos tradicionales y, por lo tanto, requieren nuevas tecnologías de procesamiento
ogías. Al igual que con las tecnologías tradicionales, las tecnologías de big data se utilizan para muchos
tareas, incluida la ingeniería de datos. Ocasionalmente, se utilizan realmente tecnologías de big data
para implementar técnicas de minería de datos. Sin embargo, con mucha más frecuencia el conocido
Las tecnologías de big data se utilizan para el procesamiento de datos en apoyo de la tecnología de minería de datos.
niques y otras actividades de ciencia de datos, como se representa en la Figura 1-1 .
Una vez que las empresas incorporaron completamente las tecnologías Web 1.0 (y en el proceso
bajaron los precios de la tecnología subyacente) comenzaron a mirar más allá. Ellos
Comenzó a preguntar qué podía hacer la Web por ellos y cómo podía mejorar las cosas que ellos
siempre hecho, y entramos en la era de la Web 2.0, donde los nuevos sistemas y empresas
comenzó a aprovechar la naturaleza interactiva de la Web. Los cambios provocados
por este cambio de pensamiento son omnipresentes; los más obvios son la incorporación de
https://translate.googleusercontent.com/translate_f 7/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 9
Deberíamos esperar que una fase de Big Data 2.0 siga a Big Data 1.0. Una vez que las empresas se han convertido
capaces de procesar datos masivos de forma flexible, deberían empezar a preguntarse: "¿Qué
¿Puedo hacer ahora lo que no podía hacer antes, o hacerlo mejor de lo que podía hacer antes? " Esto es probable
para ser la era dorada de la ciencia de datos. Los principios y técnicas que presentamos en este
El libro se aplicará de manera mucho más amplia y profunda que en la actualidad.
Es importante tener en cuenta que en la era de la Web 1.0 algunos conocimientos precoces
Las empresas comenzaron a aplicar las ideas de la Web 2.0 mucho antes que la corriente principal.
Amazon es un excelente ejemplo, incorporando la "voz" del consumidor
al principio, en la calificación de los productos, en las reseñas de productos (y más en profundidad, en
la calificación de las reseñas de productos). Del mismo modo, vemos que algunas empresas al‐
listo aplicando Big Data 2.0. Amazon vuelve a ser una empresa a la vanguardia
frontal, proporcionando recomendaciones basadas en datos a partir de datos masivos.
También hay otros ejemplos. Los anunciantes en línea deben procesar
volúmenes extremadamente grandes de datos (miles de millones de impresiones de anuncios por día son
no es inusual) y mantener un rendimiento muy alto (oferta en tiempo real
Los sistemas ding toman decisiones en decenas de milisegundos). Deberíamos mirar
a estas y otras industrias similares para obtener pistas sobre los avances en big data y
ciencia de datos que posteriormente será adoptada por otras industrias.
La historia clásica del pequeño Signet Bank de la década de 1990 es un buen ejemplo. Previamente,
En la década de 1980, la ciencia de datos había transformado el negocio del crédito al consumo. Modelado
Página 10
https://translate.googleusercontent.com/translate_f 8/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Pero Signet Bank tuvo un gran problema al implementar esta estrategia. Ellos no
tener los datos adecuados para modelar la rentabilidad con el objetivo de ofrecer diferentes plazos
a diferentes clientes. Nadie lo hizo. Dado que los bancos estaban ofreciendo crédito con un conjunto específico
de términos y un modelo predeterminado específico, tenían los datos para modelar la rentabilidad (1) para
los términos que realmente han ofrecido en el pasado, y (2) para el tipo de cliente que
realmente se les ofreció crédito (es decir, aquellos que fueron considerados dignos de crédito por el
modelo existente).
¿Qué podía hacer Signet Bank? Pusieron en juego una estrategia fundamental de datos
ciencia: adquirir los datos necesarios a un costo. Una vez que consideramos los datos como un activo comercial,
Debería pensar si estamos dispuestos a invertir y cuánto. En el caso de Signet,
Se podrían generar datos sobre la rentabilidad de los clientes con diferentes condiciones crediticias.
realizando experimentos. Se ofrecieron diferentes términos al azar a diferentes clientes.
tomers. Esto puede parecer una tontería fuera del contexto del pensamiento analítico de datos: es probable que
perder dinero! Esto es cierto. En este caso, las pérdidas son el costo de la adquisición de datos. Los datos-
El pensador analítico debe considerar si espera que los datos tengan suficiente valor.
para justificar la inversión.
Entonces, ¿qué pasó con Signet Bank? Como era de esperar, cuando Signet comenzó al azar
al ofrecer condiciones a los clientes para la adquisición de datos, el número de cuentas defectuosas se disparó.
Signet pasó de una tasa de "cancelación" líder en la industria (el 2.9% de los saldos quedaron sin pagar)
hasta casi el 6% de cancelaciones. Las pérdidas continuaron durante algunos años mientras los científicos de datos
trabajó para construir modelos predictivos a partir de los datos, evaluarlos e implementarlos en
mejorar las ganancias. Debido a que la empresa consideró estas pérdidas como inversiones en datos,
Página 11
asistió a pesar de las quejas de las partes interesadas. Finalmente, la operación de la tarjeta de crédito de Signet
dio la vuelta y se volvió tan rentable que se escindió para separarlo de la
otras operaciones del banco, que ahora estaban eclipsando el éxito del crédito al consumo.
Fairbanks y Morris se convirtieron en presidente y director ejecutivo y presidente y director de operaciones, y pro‐
cedió a aplicar los principios de la ciencia de datos en toda la empresa, no solo en los clientes
adquisición pero también retención. Cuando un cliente llama buscando una oferta mejor, los datos
https://translate.googleusercontent.com/translate_f 9/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Los modelos impulsados calculan la rentabilidad potencial de varias acciones posibles (diferentes
ofertas, incluido el mantenimiento del status quo), y el representante de servicio al cliente
computadora presenta las mejores ofertas para realizar.
Puede que no hayas oído hablar de Little Signet Bank, pero si estás leyendo este libro,
Probablemente haya oído hablar del spin-off: Capital One. Creció la nueva empresa de Fairbanks y Morris
ser uno de los emisores de tarjetas de crédito más grandes de la industria con uno de los cargos más bajos
de descuento en las tarifas. En 2000, se informó que el banco estaba llevando a cabo 45.000 de estos
pruebas ”como las llamaban. 3
Los estudios que dan demostraciones cuantitativas claras del valor de un activo de datos son difíciles de
encontrar, principalmente porque las empresas dudan en divulgar resultados de valor estratégico. Un ex
ception es un estudio de Martens y Provost (2011) que evalúa si los datos sobre el
las transacciones de los consumidores de un banco pueden mejorar los modelos para decidir qué producto ofrece
para hacer. El banco construyó modelos a partir de datos para decidir a quién dirigirse con ofertas para
diferentes productos. La investigación examinó varios tipos diferentes de datos y
sus efectos sobre el rendimiento predictivo. Los datos sociodemográficos proporcionan una
capacidad para modelar el tipo de consumidores que tienen más probabilidades de comprar un producto o
otro. Sin embargo, los datos sociodemográficos son limitados; después de un cierto volumen de datos,
no se confiere ninguna ventaja adicional. Por el contrario, los datos detallados sobre los clientes
Las transacciones (anonimizadas) mejoran el rendimiento sustancialmente en comparación con el uso de socios
datos demográficos. La relación es clara y sorprendente y, significativamente, para el punto
aquí, el rendimiento predictivo sigue mejorando a medida que se utilizan más datos,
ing en todo el rango investigado por Martens y Provost sin signos de disminuir.
Esto tiene una implicación importante: los bancos con mayores activos de datos pueden tener una importante
ventaja estratégica sobre sus competidores más pequeños. Si estas tendencias se generalizan y el
los bancos pueden aplicar análisis sofisticados, los bancos con mayores activos de datos deben
mejor capaz de identificar a los mejores clientes para productos individuales. El resultado neto será
ya sea una mayor adopción de los productos del banco, una disminución del costo de adquisición de clientes,
o ambos.
La idea de los datos como un activo estratégico ciertamente no se limita a Capital One, ni siquiera a
la industria bancaria. Amazon pudo recopilar datos desde el principio sobre los clientes en línea, lo que
ha creado costos de cambio significativos: los consumidores encuentran valor en las clasificaciones y rec‐
recomendaciones que ofrece Amazon. Por lo tanto, Amazon puede retener más a los clientes
3. Puede leer más sobre la historia de Capital One (Clemons y Thatcher, 1998; McNamee 2001).
Pagina 12
fácilmente, e incluso puede cobrar una prima (Brynjolfsson & Smith, 2000). Casinos de Harrah's
invirtió en la recopilación y extracción de datos sobre los jugadores, y se movió de un
pequeño jugador en el negocio de los casinos a mediados de la década de 1990 hasta la adquisición de Caesar's
Entertainment en 2005 para convertirse en la compañía de juegos de azar más grande del mundo. El enorme valor
La creación de Facebook se ha atribuido a sus vastos y únicos activos de datos (Sengupta, 2012),
incluyendo tanto información sobre las personas y sus gustos, como también información
sobre la estructura de la red social. La información sobre la estructura de la red ha sido
ha demostrado ser importante para predecir y ha demostrado ser muy útil en
construir modelos de quién comprará ciertos productos (Hill, Provost y Volinsky, 2006). Eso
está claro que Facebook tiene un activo de datos notable; si tienen los datos correctos
Las estrategias científicas para aprovecharlo al máximo es una cuestión abierta.
En el libro discutiremos con más detalle muchos de los conceptos fundamentales detrás de
estas historias de éxito, al explorar los principios de la minería de datos y el análisis de datos
pensando.
https://translate.googleusercontent.com/translate_f 10/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Como se mencionó anteriormente, es importante comprender la ciencia de datos incluso si nunca tiene la intención
para hacerlo usted mismo, porque el análisis de datos es ahora muy importante para la estrategia empresarial. Empresas
están cada vez más impulsados por el análisis de datos, por lo que existe una gran ventaja profesional en
poder interactuar de manera competente con y dentro de dichas empresas. Entendiendo el
conceptos fundamentales y tener marcos para organizar el pensamiento analítico de datos
no solo le permitirá a uno interactuar de manera competente, sino que le ayudará a visualizar oportunidades
para mejorar la toma de decisiones basada en datos, o para ver amenazas competitivas orientadas a datos.
Las empresas de muchas industrias tradicionales están explotando recursos de datos nuevos y existentes para
ventaja competitiva. Emplean equipos de ciencia de datos para traer tecnologías avanzadas
soportar para aumentar los ingresos y reducir los costes. Además, muchas empresas nuevas están
siendo desarrollado con la minería de datos como un componente estratégico clave. Facebook y Twitter,
junto con muchas otras empresas "Digital 100" ( Business Insider , 2012), tienen altos
valoraciones debido principalmente a los activos de datos que se han comprometido a capturar o crear. 4
Cada vez más, los gerentes necesitan supervisar los equipos de análisis y los proyectos de análisis, los especialistas en marketing
4. Por supuesto, este no es un fenómeno nuevo. Amazon y Google son empresas bien establecidas que obtienen
enorme valor de sus activos de datos.
Página 13
tienen que organizar y comprender las campañas basadas en datos, los capitalistas de riesgo deben ser
capaz de invertir sabiamente en empresas con activos de datos sustanciales y estrategas comerciales
debe poder diseñar planes que exploten los datos.
Como algunos ejemplos, si un consultor presenta una propuesta para extraer un activo de datos para mejorar
su negocio, debería poder evaluar si la propuesta tiene sentido. Si un
competidor anuncia una nueva asociación de datos, debe reconocer cuándo puede poner
usted en una desventaja estratégica. O, digamos que toma un puesto en una empresa de riesgo y
su primer proyecto es evaluar el potencial de inversión en una empresa de publicidad. los
Los fundadores presentan un argumento convincente de que obtendrán un valor significativo de una
cuerpo único de datos que recopilarán, y sobre esa base están defendiendo una
mayor valoración. ¿Es esto razonable? Con una comprensión de los fundamentos de los datos.
ciencia, debería poder idear algunas preguntas de sondeo para determinar si su
Los argumentos de valoración son plausibles.
En una escala menos grande, pero probablemente más común, los proyectos de análisis de datos llegan a todos
Unidades de negocios. Los empleados de estas unidades deben interactuar con la ciencia de datos.
equipo. Si estos empleados no tienen una base fundamental en los principios de datos-
pensamiento analítico, no comprenderán realmente lo que está sucediendo en el negocio.
Esta falta de comprensión es mucho más dañina en los proyectos de ciencia de datos que en
otros proyectos técnicos, porque la ciencia de datos está respaldando mejores decisiones
haciendo. Como describiremos en el próximo capítulo, esto requiere una estrecha interacción entre
los científicos de datos y los empresarios responsables de la toma de decisiones. Firmas
donde los empresarios no entienden lo que están haciendo los científicos de datos están en un
https://translate.googleusercontent.com/translate_f 11/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
desventaja sustancial, porque pierden tiempo y esfuerzo o, peor aún, porque pierden
en última instancia, tomar decisiones equivocadas.
Página 14
Este libro
Este libro se concentra en los fundamentos de la ciencia de datos y la minería de datos. Estos son
un conjunto de principios, conceptos y técnicas que estructuran el pensamiento y el análisis. Ellos
nos permiten comprender los procesos y métodos de la ciencia de datos de manera sorprendentemente profunda, sin
necesidad de centrarse en profundidad en la gran cantidad de algoritmos específicos de minería de datos.
Hay muchos libros buenos que cubren algoritmos y técnicas de minería de datos, desde
guías prácticas de tratamientos matemáticos y estadísticos. En cambio, este libro se centra
sobre los conceptos fundamentales y cómo nos ayudan a pensar en problemas donde los datos
la minería puede ser utilizada. Eso no significa que ignoraremos la minería de datos.
técnicas; muchos algoritmos son exactamente la encarnación de los conceptos básicos. Pero
con solo unas pocas excepciones, no nos concentraremos en los detalles técnicos profundos de cómo
las técnicas realmente funcionan; Intentaremos proporcionar los detalles suficientes para que pueda
comprender qué hacen las técnicas y cómo se basan en los aspectos fundamentales
principios.
Los conceptos fundamentales de la ciencia de datos se extraen de muchos campos que estudian datos
analítica. Introducimos estos conceptos a lo largo del libro, pero analicemos brevemente un
pocos ahora para obtener el sabor básico. Hablaremos de todos estos y más en más adelante.
capítulos.
Concepto fundamental: extraer conocimientos útiles de los datos para resolver problemas comerciales
https://translate.googleusercontent.com/translate_f 12/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
puede tratarse sistemáticamente siguiendo un proceso con etapas razonablemente bien definidas.
El proceso estándar de la industria cruzada para la minería de datos, abreviado CRISP-DM (CRISP-
DM Project, 2000), es una codificación de este proceso. Teniendo en cuenta ese proceso
proporciona un marco para estructurar nuestro pensamiento sobre los problemas de análisis de datos. Para
Por ejemplo, en la práctica real uno ve repetidamente "soluciones" analíticas que no se basan
en un análisis cuidadoso del problema o no se evalúan cuidadosamente. Pensamiento estructurado
sobre la analítica enfatiza estos aspectos a menudo subestimados del apoyo
toma de decisiones con datos. Este pensamiento estructurado también contrasta puntos críticos donde
La creatividad humana es necesaria frente a los puntos en los que se pueden utilizar herramientas analíticas de gran potencia.
llevado a soportar.
Página 15
Concepto fundamental: a partir de una gran masa de datos, la tecnología de la información se puede utilizar para
encontrar atributos descriptivos informativos de entidades de interés. En nuestro ejemplo de abandono, un
cliente sería una entidad de interés, y cada cliente podría ser descrito por un
una gran cantidad de atributos, como el uso, el historial de servicio al cliente y muchos otros
factores. ¿Cuál de estos realmente nos da información sobre la probabilidad de que el cliente
dejar la empresa cuando expira su contrato? Cuanta informacion? Algunas veces
este proceso se conoce aproximadamente como encontrar variables que "se correlacionan" con la deserción (nosotros
discutiremos esta noción con precisión). Un analista de negocios puede plantear la hipótesis de algunas
y probarlos, y hay herramientas para ayudar a facilitar esta experimentación (consulte "Otros
Técnicas y tecnologías analíticas ”en la página 35 ). Alternativamente, el analista podría
aplicar la tecnología de la información para descubrir automáticamente atributos informativos —esenciales
Realmente realizando experimentación automatizada a gran escala. Además, como veremos, este concepto
se puede aplicar de forma recursiva para construir modelos para predecir el abandono en función de múltiples atributos.
Estos son solo cuatro de los conceptos fundamentales de la ciencia de datos que exploraremos. Por
Al final del libro, habremos discutido una docena de estos conceptos fundamentales en detalle,
y habrá ilustrado cómo nos ayudan a estructurar el pensamiento analítico de datos y a
comprender las técnicas y algoritmos de minería de datos, así como las aplicaciones de ciencia de datos,
en general.
La química no se trata de tubos de ensayo: ciencia de datos frente al trabajo del científico de datos | 15
Página 16
Los científicos (y los anuncios de puestos) especifican no solo áreas de especialización, sino también
herramientas y lenguajes de programación específicos. Es común ver anuncios de trabajo.
mencionar técnicas de minería de datos (por ejemplo, bosques aleatorios, máquinas de vectores de soporte),
áreas de aplicación específicas (sistemas de recomendación, optimización de la colocación de anuncios),
junto con herramientas de software populares para procesar big data (Hadoop, MongoDB). Allí
A menudo hay poca distinción entre la ciencia y la tecnología para tratar con grandes
conjuntos de datos.
Debemos señalar que la ciencia de datos, como la informática, es un campo joven. El par-
Las preocupaciones particulares de la ciencia de datos son bastante nuevas y los principios generales apenas están comenzando.
para emerger. El estado de la ciencia de datos puede compararse con el de la química a mediados del siglo XIX.
siglo, cuando se estaban formulando teorías y principios generales y el campo estaba
en gran parte experimental. Todo buen químico tenía que ser un técnico de laboratorio competente. Simi
En general, es difícil imaginar a un científico de datos que no sea competente con ciertos
tipos de herramientas de software.
Resumen
Este libro trata sobre la extracción de información y conocimientos útiles de grandes volúmenes
consumos de datos, con el fin de mejorar la toma de decisiones empresariales. Como la colección masiva
de datos se ha extendido a casi todos los sectores industriales y unidades de negocio, por lo que
las oportunidades para extraer los datos. Detrás del extenso cuerpo de técnicas para
La minería de datos es un conjunto mucho más pequeño de conceptos fundamentales que comprenden la ciencia de datos .
Estos conceptos son generales y resumen gran parte de la esencia de la minería de datos y
Análisis de negocio.
El éxito en el entorno empresarial actual orientado a los datos requiere poder pensar en
cómo estos conceptos fundamentales se aplican a problemas comerciales particulares (pensar en datos)
analíticamente. Por ejemplo, en este capítulo discutimos el principio de que los datos deben ser
considerado como un activo comercial, y una vez que pensamos en esta dirección, comenzamos a preguntarnos
si (y cuánto) deberíamos invertir en datos. Por lo tanto, una comprensión de estos
conceptos fundamentales es importante no solo para los científicos de datos en sí, sino para cualquier
5. OK: Hadoop es una arquitectura de código abierto ampliamente utilizada para realizar cálculos altamente paralelizables. Es uno
de las tecnologías actuales de "big data" para procesar conjuntos de datos masivos que superan la capacidad de
sistemas de bases de datos. Hadoop se basa en el marco de procesamiento paralelo MapReduce introducido por Google.
https://translate.googleusercontent.com/translate_f 14/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 17
uno que trabaja con científicos de datos, emplea científicos de datos, invierte en
empresas, o dirigir la aplicación de análisis en una organización.
El pensamiento analítico de datos es ayudado por marcos conceptuales discutidos a lo largo del
libro. Por ejemplo, la extracción automatizada de patrones de datos es un proceso con
etapas bien definidas, que son el tema del próximo capítulo. Entendiendo el proceso
y las etapas ayudan a estructurar nuestro pensamiento analítico de datos y a hacerlo más
temático y, por tanto, menos propenso a errores y omisiones.
Existe evidencia convincente de que la toma de decisiones basada en datos y la tecnología de big data
Las ogías mejoran sustancialmente el rendimiento empresarial. La ciencia de datos admite datos impulsados
toma de decisiones, y a veces lleva a cabo dicha toma de decisiones automáticamente, y
depende de las tecnologías para el almacenamiento y la ingeniería de "macrodatos", pero sus principios son
separar. Los principios de la ciencia de datos que discutimos en este libro también difieren y son
complementarias a otras tecnologías importantes, como la prueba de hipótesis estadísticas
y consulta de bases de datos (que tienen sus propios libros y clases). El próximo capítulo
describe algunas de estas diferencias con más detalle.
Resumen | 17
Página 19
18
CAPITULO 2
https://translate.googleusercontent.com/translate_f 15/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Conceptos fundamentales: un conjunto de tareas canónicas de minería de datos; El proceso de minería de datos;
Minería de datos supervisada versus no supervisada.
Un principio importante de la ciencia de datos es que la minería de datos es un proceso con bastante
etapas entendidas. Algunas involucran la aplicación de tecnología de la información, como la
descubrimiento y evaluación automatizados de patrones a partir de datos, mientras que otros requieren principalmente
la creatividad, el conocimiento empresarial y el sentido común de un analista. Entendiendo el
Todo el proceso ayuda a estructurar los proyectos de minería de datos, por lo que están más cerca de ser sistemáticos.
análisis en lugar de esfuerzos heroicos impulsados por el azar y la perspicacia individual.
Dado que el proceso de minería de datos rompe la tarea general de encontrar patrones a partir de datos
en un conjunto de subtareas bien definidas, también es útil para estructurar discusiones sobre datos
Ciencias. En este libro, usaremos el proceso como un marco general para nuestra
discusión. Este capítulo presenta el proceso de minería de datos, pero primero proporcionamos anuncios
contexto alternativo mediante la discusión de tipos comunes de tareas de minería de datos. Presentando estos
nos permite ser más concretos a la hora de presentar el proceso global, así como cuando
introduciendo otros conceptos en capítulos posteriores.
19
Página 20
lem en subtareas. Las soluciones a las subtareas se pueden componer para resolver el
problema general. Algunas de estas subtareas son exclusivas del problema empresarial particular,
pero otras son tareas comunes de minería de datos. Por ejemplo, nuestra rotación de telecomunicaciones
El problema es exclusivo de MegaTelCo: hay aspectos específicos del problema que son diferentes
de los problemas de abandono de cualquier otra empresa de telecomunicaciones. Sin embargo, una subtarea que
probablemente será parte de la solución a cualquier problema de abandono es estimar a partir del historial
data la probabilidad de que un cliente rescinda su contrato poco después de su vencimiento.
Una vez que los datos idiosincrásicos de MegaTelCo se hayan reunido en un formato particular
(descrito en el capítulo siguiente), esta estimación de probabilidad encaja en el molde de uno muy
tarea común de minería de datos. Sabemos mucho sobre cómo resolver las tareas comunes de minería de datos,
tanto científica como prácticamente. En capítulos posteriores, también proporcionaremos ciencia de datos
https://translate.googleusercontent.com/translate_f 16/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
marcos para ayudar con la descomposición de los problemas comerciales y con la
composición de las soluciones a las subtareas.
A pesar de la gran cantidad de algoritmos de minería de datos específicos desarrollados a lo largo de los años,
solo hay un puñado de tipos de tareas fundamentalmente diferentes que estos algoritmos
vestido. Vale la pena definir claramente estas tareas. Los siguientes capítulos utilizarán el primer
dos (clasificación y regresión) para ilustrar varios conceptos fundamentales. En que
A continuación, el término "un individuo" se referirá a una entidad sobre la que tenemos datos, como
como cliente o consumidor, o podría ser una entidad inanimada como una empresa. Nosotros
Hará esta noción más precisa en el Capítulo 3 . En muchos proyectos de análisis empresarial,
queremos encontrar "correlaciones" entre una variable particular que describe a un individuo
y otras variables. Por ejemplo, en los datos históricos podemos saber qué clientes dejaron
la empresa después de que expiraran sus contratos. Es posible que deseemos averiguar qué otras variables
correlacionar con un cliente que se va en un futuro próximo. Encontrar tales correlaciones son las
ejemplos más básicos de tareas de clasificación y regresión.
Página 21
Para una tarea de clasificación, un procedimiento de minería de datos produce un modelo que, dado un
nuevo individuo, determina a qué clase pertenece ese individuo. Un estrechamente relacionado
La tarea es la puntuación o la estimación de la probabilidad de la clase . Un modelo de puntuación aplicado a un indi‐
individual produce, en lugar de una predicción de clase, una puntuación que representa la probabilidad
(o alguna otra cuantificación de probabilidad) de que ese individuo pertenece a cada
clase. En nuestro escenario de respuesta al cliente, un modelo de puntuación podría evaluar
cada cliente individual y producir una puntuación de la probabilidad de que cada uno responda a
la oferta. La clasificación y la puntuación están muy relacionadas; como veremos, un modelo
que puede hacer uno generalmente se puede modificar para hacer el otro.
2. La regresión ("estimación de valor") intenta estimar o predecir, para cada individuo,
el valor numérico de alguna variable para ese individuo. Una regresión de ejemplo
La pregunta sería: "¿Cuánto utilizará el servicio un cliente determinado?" La propiedad
(variable) que se va a predecir aquí es el uso del servicio , y un modelo podría ser generado por
mirando a otros individuos similares en la población y su uso histórico. A
El procedimiento de regresión produce un modelo que, dado un individuo, estima el
valor de la variable particular específica de ese individuo.
La regresión está relacionada con la clasificación, pero las dos son diferentes. Informalmente, clasi‐
La ficación predice si algo sucederá, mientras que la regresión predice cómo
https://translate.googleusercontent.com/translate_f 17/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
mucho algo sucederá. La diferencia se hará más clara a medida que el libro
progresa.
3. La comparación de similitudes intenta identificar a personas similares basándose en datos conocidos
a cerca de ellos. La coincidencia de similitudes se puede utilizar directamente para encontrar entidades similares. Para
Por ejemplo, IBM está interesado en encontrar empresas similares a sus mejores clientes comerciales
consumidores, con el fin de enfocar su fuerza de ventas en las mejores oportunidades. Usan sim‐
igualación de similitudes basada en datos "firmográficos" que describen las características de la
compañías. La coincidencia de similitudes es la base de uno de los métodos más populares
para hacer recomendaciones de productos (encontrar personas similares a usted en
condiciones de los productos que les han gustado o han comprado). Medidas de similitud un‐
derlie ciertas soluciones a otras tareas de minería de datos, como clasificación, regresión,
y agrupación. Discutimos la similitud y sus usos en detalle en el Capítulo 6 .
4. Agrupación intenta agrupar a los individuos de una población por su similitud,
pero no impulsado por ningún propósito específico. Un ejemplo de pregunta de agrupamiento sería:
"¿Nuestros clientes forman grupos o segmentos naturales?" La agrupación en clústeres es útil en pre‐
exploración del dominio liminar para ver qué grupos naturales existen porque estos grupos
a su vez, puede sugerir otras tareas o enfoques de minería de datos. También se utiliza la agrupación en clústeres
como insumo para los procesos de toma de decisiones que se centran en preguntas tales como: ¿Qué productos
¿Deberíamos ofrecer o desarrollar ? ¿Cómo deberían ser nuestros equipos de atención al cliente (o equipos de ventas)?
estructurado ? Discutimos el agrupamiento en profundidad en el Capítulo 6 .
5. Agrupación de co-ocurrencia (también conocida como minería frecuente de conjuntos de elementos, regla de asociación
descubrimiento y análisis de la canasta de mercado) intenta encontrar asociaciones entre
vínculos basados en transacciones que los involucran. Un ejemplo de pregunta de co-ocurrencia
Página 22
sería: ¿Qué artículos se compran comúnmente juntos ? Mientras que la agrupación mira
similitud entre objetos en función de los atributos de los objetos, agrupación de co-ocurrencia
considera la similitud de los objetos en función de que aparezcan juntos en las transacciones.
Por ejemplo, analizar los registros de compra de un supermercado puede descubrir que
la carne molida se compra junto con salsa picante con mucha más frecuencia de lo que
podría esperar. Decidir cómo actuar sobre este descubrimiento puede requerir algunas creaciones
actividad, pero podría sugerir una promoción especial, exhibición de producto o combinación
oferta. La co-ocurrencia de productos en las compras es un tipo común de agrupación conocido
como análisis de la cesta de la compra. Algunos sistemas de recomendación también realizan un tipo de
agrupación de afinidad al encontrar, por ejemplo, pares de libros que se compran gratis
Posteriormente por la misma gente (“la gente que compró X también compró Y”).
El resultado de la agrupación de co-ocurrencia es una descripción de elementos que ocurren juntos.
Estas descripciones suelen incluir estadísticas sobre la frecuencia de la co-ocurrencia
y una estimación de lo sorprendente que es.
6. La elaboración de perfiles (también conocida como descripción de la conducta) intenta caracterizar la
comportamiento de un individuo, grupo o población. Un ejemplo de pregunta de perfil
sería: "¿Cuál es el uso típico de teléfonos móviles de este segmento de clientes?" Comportamiento
puede no tener una descripción simple; perfilar el uso del teléfono celular puede requerir una comparación
descripción completa de los promedios de tiempo aire durante la noche y los fines de semana, uso internacional, itinerancia
cargos de carga, minutos de mensajes de texto, etc. El comportamiento se puede describir en general en un
toda la población, o hasta el nivel de pequeños grupos o incluso de individuos.
La creación de perfiles se utiliza a menudo para establecer normas de comportamiento para aplicaciones de detección de anomalías.
cationes como la detección de fraudes y el seguimiento de intrusiones en los sistemas informáticos
(como alguien que ingrese a su cuenta de iTunes). Por ejemplo, si sabemos
qué tipo de compras suele hacer una persona con una tarjeta de crédito, podemos determinar
si un nuevo cargo en la tarjeta se ajusta a ese perfil o no. Podemos utilizar el grado de
https://translate.googleusercontent.com/translate_f 18/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
desajuste como puntaje de sospecha y emite una alarma si es demasiado alto.
7. La predicción de enlaces intenta predecir conexiones entre elementos de datos, generalmente mediante
sugiriendo que debería existir un vínculo, y posiblemente también estimando la fuerza de la
Enlace. La predicción de enlaces es común en los sistemas de redes sociales: “Dado que tú y Ka‐
ren compartir 10 amigos, ¿tal vez te gustaría ser amigo de Karen? " La predicción de enlaces puede
también estime la fuerza de un vínculo. Por ejemplo, para recomendar películas a
clientes se puede pensar en un gráfico entre los clientes y las películas que han
visto o calificado. Dentro del gráfico, buscamos enlaces que no existen entre
clientes y películas, pero que predecimos deberían existir y deberían ser fuertes. Estas
los enlaces forman la base de las recomendaciones.
8. La reducción de datos intenta tomar un gran conjunto de datos y reemplazarlo por un conjunto más pequeño.
de datos que contienen gran parte de la información importante en el conjunto más amplio. los
Los conjuntos de datos más pequeños pueden ser más fáciles de manejar o procesar. Además, el más pequeño
El conjunto de datos puede revelar mejor la información. Por ejemplo, un conjunto de datos masivo sobre con‐
Las preferencias de visualización de películas del consumidor pueden reducirse a un conjunto de datos mucho más pequeño.
Página 23
revelando las preferencias de gusto del consumidor que están latentes en los datos de visualización (por ejemplo,
amplias preferencias de género del espectador). La reducción de datos generalmente implica la pérdida de información.
ción. Lo importante es la compensación por una mejor comprensión.
9. El modelado causal intenta ayudarnos a comprender qué eventos o acciones realmente
influir en otros. Por ejemplo, considere que usamos modelos predictivos para apuntar
anuncios a los consumidores, y observamos que, de hecho, los consumidores objetivo
comprar a un ritmo mayor con posterioridad a que se haya dirigido. ¿Era esto debido a que la
los anuncios influyeron en la compra de los consumidores? ¿O el mo- predictivo
simplemente hacen un buen trabajo identificando a los consumidores que habrían comprado
¿de todas formas? Las técnicas para el modelado causal incluyen aquellas que involucran una in‐
vestimenta en datos, como experimentos controlados aleatorios (por ejemplo, los llamados "A / B
pruebas ”), así como métodos sofisticados para extraer conclusiones causales de ob‐
datos servational. Métodos tanto experimentales como de observación para el modelado causal
en general, puede verse como un análisis "contrafactual": intentan comprender
cuál sería la diferencia entre las situaciones, que no pueden suceder a la vez
- donde el evento de "tratamiento" (p. Ej., Mostrar un anuncio a un in‐
dividual) iban a suceder, y no iban a suceder.
En todos los casos, un científico de datos cuidadoso siempre debe incluir con una conclusión causal
las suposiciones exactas que deben hacerse para que la conclusión causal se mantenga
( siempre hay tales suposiciones, siempre pregunte). Al emprender un modelo causal
Eling, una empresa debe sopesar la compensación de aumentar la inversión para reducir
las suposiciones hechas, versus decidir que las conclusiones son lo suficientemente buenas dadas
los supuestos. Incluso en la experimentación aleatoria y controlada más cuidadosa,
se hacen suposiciones que podrían invalidar las conclusiones causales. El dis‐
El descubrimiento del "efecto placebo" en medicina ilustra una situación notoria en la que un
La suposición se pasó por alto en una experimentación aleatoria cuidadosamente diseñada.
Discutir todas estas tareas en detalle llenaría varios libros. En este libro, presentamos
una colección de los principios de ciencia de datos más fundamentales, principios que juntos
subyacen a todos estos tipos de tareas. Ilustraremos los principios utilizando principalmente clasificaciones
ficación, la regresión, coincidente similitud, y la agrupación, y discutirá otros cuando
proporcionan ilustraciones importantes de los principios fundamentales (hacia el final de
el libro).
Considere cuál de estos tipos de tareas podría encajar con nuestro problema de predicción de abandono. A menudo,
https://translate.googleusercontent.com/translate_f 19/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Los profesionales formulan la predicción de abandono como un problema para encontrar segmentos de clientes.
que tienen más o menos probabilidades de irse. Este problema de segmentación suena como una clasificación
problema de cationes, o posiblemente agrupamiento, o incluso regresión. Para decidir la mejor fórmula
En primer lugar, debemos introducir algunas distinciones importantes.
Página 24
La diferencia entre estas preguntas es sutil pero importante. Si un objetivo específico puede
proporcionarse, el problema se puede formular como supervisado. Las tareas supervisadas requieren
diferentes técnicas que las tareas no supervisadas, y los resultados a menudo son mucho más
útil. A una técnica supervisada se le asigna un propósito específico para la agrupación: predecir
el objetivo. La agrupación, una tarea no supervisada, produce agrupaciones basadas en similitudes,
pero no hay garantía de que estas similitudes sean significativas o sean útiles para cualquier
Propósito particular.
Técnicamente, se debe cumplir otra condición para la minería de datos supervisada: debe haber
datos sobre el objetivo. No es suficiente que la información de destino exista en principio; debería
también existen en los datos. Por ejemplo, puede resultar útil saber si un cliente determinado
permanecerá durante al menos seis meses, pero si en los datos históricos esta información de retención es
falta o está incompleto (si, por ejemplo, los datos sólo se conservan durante dos meses) el objetivo
no se pueden proporcionar valores. La adquisición de datos sobre el objetivo a menudo es una ciencia de datos clave.
inversión. El valor de la variable objetivo para un individuo a menudo se denomina indicador
etiqueta del individuo , enfatizando que a menudo (no siempre) uno debe incurrir en gastos para
etiquetar los datos.
https://translate.googleusercontent.com/translate_f 20/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 25
Los principios fundamentales de la minería de datos que presentaremos subyacen a todos estos tipos de
técnica.
Hay sutilezas entre estas preguntas que conviene resaltar. Para negocios
aplicaciones que a menudo queremos una predicción numérica sobre un objetivo categórico. En la batidora
ejemplo, una predicción básica de sí / no de si es probable que un cliente continúe sub‐
escribir al servicio puede no ser suficiente; queremos modelar la probabilidad de que el
el cliente continuará. Esto todavía se considera modelado de clasificación en lugar de re‐
gresión porque el objetivo subyacente es categórico. Cuando sea necesario para mayor claridad, este
se llama "estimación de probabilidad de clase".
Una parte vital en las primeras etapas del proceso de minería de datos es (i) decidir si el
La línea de ataque será supervisada o no supervisada, y (ii) si está supervisada, para producir una
definición precisa de una variable objetivo. Esta variable debe ser una cantidad específica que
ser el foco de la minería de datos (y para lo cual podemos obtener valores para algún ejemplo
datos). Volveremos a esto en el Capítulo 3 .
En nuestro ejemplo de abandono, considere el escenario de implementación en el que los resultados serán
usó. Queremos usar el modelo para predecir cuáles de nuestros clientes se irán. Específicamente,
asume que la minería de datos ha creado una clase probabilidad modelo de estimación M . Dado cada
Página 26
https://translate.googleusercontent.com/translate_f 21/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Figura 2-1. Minería de datos frente al uso de resultados de minería de datos. La mitad superior de la
La figura ilustra la extracción de datos históricos para producir un modelo. Es importante destacar que el his‐
Los datos toricales tienen el valor objetivo ("clase") especificado. La mitad inferior muestra el resultado de
la minería de datos en uso, donde el modelo se aplica a nuevos datos para los que no
conocer el valor de la clase. El modelo predice tanto el valor de la clase como la probabilidad de que
la variable de clase tomará ese valor.
La figura 2-1 ilustra estas dos fases. La minería de datos produce la estimación de probabilidad
modelo, como se muestra en la mitad superior de la figura. En la fase de uso (mitad inferior), el modelo
se aplica a un caso nuevo no visto y genera una estimación de probabilidad para él.
Página 27
El proceso de minería viene dado por el Proceso estándar de la industria cruzada para la minería de datos.
(CRISP-DM; Shearer, 2000), ilustrado en la Figura 2-2 . 1
https://translate.googleusercontent.com/translate_f 22/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Este diagrama de proceso hace explícito el hecho de que la iteración es la regla más que la
excepción. Pasar por el proceso una vez sin haber resuelto el problema es,
En general, no es un fracaso. A menudo, todo el proceso es una exploración de los datos y
después de la primera iteración, el equipo de ciencia de datos sabe mucho más. La próxima iteración puede
estar mucho más informado. Analicemos ahora los pasos en detalle.
Comprensión empresarial
Inicialmente, es vital comprender el problema a resolver. Esto puede parecer obvio, pero
Los proyectos empresariales rara vez vienen preempaquetados como minería de datos clara e inequívoca.
Página 28
La etapa de Business Understanding representa una parte del oficio donde los analistas
la creatividad juega un papel importante. La ciencia de datos tiene algunas cosas que decir, como describiremos, pero
A menudo, la clave de un gran éxito es una formulación creativa del problema por parte de algún analista
Analizar cómo plantear el problema empresarial como uno o más problemas de ciencia de datos. Elevado-
nivel de conocimiento de los fundamentos ayuda a los analistas de negocios creativos a ver formas novedosas
laciones.
Contamos con un conjunto de herramientas poderosas para resolver problemas particulares de minería de datos: los datos básicos
tareas de minería analizadas en "De los problemas comerciales a las tareas de minería de datos" en la página
19 . Normalmente, las primeras etapas del esfuerzo implican diseñar una solución que requiera
https://translate.googleusercontent.com/translate_f 23/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
ventaja de estas herramientas. Esto puede significar estructurar (diseñar) el problema
que uno o más subproblemas implican la construcción de modelos para clasificación, regresión,
estimación de probabilidad, etc.
En esta primera etapa, el equipo de diseño debe pensar detenidamente sobre el escenario de uso . Esto mismo
es uno de los conceptos más importantes de la ciencia de datos, al que hemos dedicado dos
capítulos completos ( Capítulo 7 y Capítulo 11 ). ¿Qué queremos hacer exactamente? Cómo exactamente
lo haríamos ¿Qué partes de este escenario de uso constituyen posibles modelos de minería de datos?
Al discutir esto con más detalle, comenzaremos con una vista simplificada del escenario de uso,
pero a medida que avanzamos, retrocederemos y nos daremos cuenta de que, a menudo, el escenario de uso debe ser
ajustado para reflejar mejor la necesidad empresarial real. Presentaremos herramientas conceptuales para
ayudar a nuestro pensamiento aquí, por ejemplo, enmarcar un problema empresarial en términos de lo esperado
El valor puede permitirnos descomponerlo sistemáticamente en tareas de minería de datos.
Comprensión de datos
Si el objetivo es resolver el problema comercial, los datos comprenden la materia prima disponible
a partir del cual se construirá la solución. Es importante comprender las fortalezas y
limitaciones de los datos porque rara vez hay una coincidencia exacta con el problema. Histórico
Los datos a menudo se recopilan para fines no relacionados con el problema comercial actual, o para
ningún propósito explícito en absoluto. Una base de datos de clientes, una base de datos de transacciones y un marketing
La base de datos de respuesta contiene información diferente, puede cubrir diferentes poblaciones que se cruzan
ulaciones, y pueden tener diversos grados de fiabilidad.
También es común que varíen los costos de los datos. Algunos datos estarán disponibles virtualmente para
gratis, mientras que otros requerirán un esfuerzo para obtenerlos. Es posible que se compren algunos datos. Todavía otro
los datos simplemente no existirán y requerirán proyectos auxiliares completos para organizar su recopilación
ción. Una parte fundamental de la fase de comprensión de datos es estimar los costos y beneficios
de cada fuente de datos y decidir si se amerita una mayor inversión. Incluso despues de todo
Página 29
Se adquieren conjuntos de datos, recopilarlos puede requerir un esfuerzo adicional. Por ejemplo, cus‐
Los registros de consumidores y los identificadores de productos son notoriamente variables y ruidosos. Limpieza y
hacer coincidir los registros de los clientes para garantizar que solo un registro por cliente sea en sí mismo un cumplimiento
problema analítico específico (Hernández & Stolfo, 1995; Elmagarmid, Ipeirotis, & Verykios,
2007).
A medida que avanza la comprensión de los datos, las rutas de solución pueden cambiar de dirección en respuesta,
y los esfuerzos en equipo pueden incluso bifurcarse. La detección de fraudes proporciona una ilustración de esto. Datos
La minería se ha utilizado ampliamente para la detección de fraudes, y muchos casos de detección de fraudes.
Los problemas involucran tareas clásicas de minería de datos supervisada. Considere la tarea de atrapar
Fraude de tarjeta de credito. Los cargos aparecen en la cuenta de cada cliente, por lo que los cargos fraudulentos
generalmente son capturados, si no inicialmente por la empresa, luego por el cliente cuando
se revisa la actividad de la cuenta. Podemos suponer que casi todos los fraudes se identifican y de manera confiable
etiquetado, ya que el cliente legítimo y la persona que perpetra el fraude son diferentes
personas y tienen objetivos opuestos. Por lo tanto, las transacciones con tarjeta de crédito tienen etiquetas confiables.
( fraude y legítimo ) que pueden servir como objetivos para una técnica supervisada.
Ahora considere el problema relacionado de detectar el fraude a Medicare. Este es un gran problema
en los Estados Unidos cuesta miles de millones de dólares al año. Aunque esto puede parecer un
problema de detección de fraude convencional, ya que consideramos la relación del negocio
problema con los datos, nos damos cuenta de que el problema es significativamente diferente. El perpe‐
traficantes de fraude: proveedores médicos que presentan reclamos falsos y, a veces, sus
clientes — también son proveedores de servicios legítimos y usuarios del sistema de facturación. Los que
cometer fraude son un subconjunto de los usuarios legítimos; no hay una parte desinteresada separada
https://translate.googleusercontent.com/translate_f 24/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
quién declarará exactamente cuáles deberían ser los cargos "correctos". En consecuencia, el Med‐
Los datos de facturación de icare no tienen una variable objetivo confiable que indique fraude, y un
El enfoque de aprendizaje que podría funcionar para el fraude con tarjetas de crédito no es aplicable. Qué problema
Por lo general, requiere enfoques no supervisados, como la creación de perfiles, la agrupación en clústeres, la detección de anomalías
agrupación de co-ocurrencia.
El hecho de que ambos sean problemas de detección de fraude es una similitud superficial que
es realmente engañoso. En la comprensión de datos, necesitamos excavar debajo de la superficie para
descubrir la estructura del problema empresarial y los datos disponibles, y luego
emparejarlos con una o más tareas de minería de datos para las que podemos tener conocimientos científicos sustanciales
y tecnología para aplicar. No es inusual que un problema empresarial contenga varios datos
Será necesario realizar tareas de minería, a menudo de diferentes tipos, y combinar sus soluciones.
(ver Capítulo 11 ).
Preparación de datos
Las tecnologías analíticas que podemos aplicar son poderosas pero imponen ciertas
requisitos sobre los datos que utilizan. A menudo requieren que los datos estén en una forma diferente
a partir de cómo se proporcionan los datos de forma natural, y será necesaria alguna conversión.
Página 30
Por lo tanto, una fase de preparación de datos a menudo avanza junto con la comprensión de los datos, en
donde los datos son manipulados y convertidos en formas que arrojan mejores resultados.
Ejemplos típicos de preparación de datos son convertir datos a formato tabular, eliminar
o inferir valores perdidos y convertir datos a diferentes tipos. Algo de minería de datos
Las técnicas están diseñadas para datos simbólicos y categóricos, mientras que otras solo manejan
valores numéricos. Además, los valores numéricos a menudo se deben normalizar o escalar para
que son comparables. Se dispone de técnicas estándar y reglas generales para hacer
tales conversiones. El capítulo 3 analiza el formato más típico para minar datos en algunos
detalle.
Sin embargo, en general, este libro no se centrará en las técnicas de preparación de datos, que podrían
ser el tema de un libro por sí mismos (Pyle, 1999). Definiremos formatos de datos básicos en
capítulos siguientes, y solo se ocupará de los detalles de preparación de datos cuando
arrojar luz sobre algún principio fundamental de la ciencia de datos o son necesarios para presentar un
ejemplo concreto.
De manera más general, los científicos de datos pueden pasar un tiempo considerable al principio
el proceso que define las variables utilizadas más adelante en el proceso. Este es uno
de los principales puntos en los que la creatividad humana, el sentido común y
el conocimiento empresarial entra en juego. A menudo, la calidad de los datos
La solución se basa en qué tan bien los analistas estructuran los problemas y
elaborar las variables (y a veces puede ser sorprendentemente difícil para ellos
admitirlo).
Una preocupación muy general e importante durante la preparación de datos es tener cuidado con las "fugas"
(Kaufman et al. 2012). Una fuga es una situación en la que una variable recopilada en datos históricos
proporciona información sobre la variable objetivo: información que aparece en los datos históricos
pero no está realmente disponible cuando se debe tomar la decisión. Como ejemplo, cuando
predecir si en un momento determinado un visitante del sitio web finalizaría su sesión
o continuar navegando a otra página, la variable "número total de páginas web visitadas en
la sesión ”es predictiva. Sin embargo, el número total de páginas web visitadas en la sesión
https://translate.googleusercontent.com/translate_f 25/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
no se sabría hasta después de que finalizara la sesión (Kohavi et al., 2000), momento en el que
¡el punto uno sabría el valor de la variable objetivo! Como otro ejemplo ilustrativo,
considere predecir si un cliente será un "gran gastador"; conociendo las categorias
de los artículos comprados (o peor aún, la cantidad de impuestos pagados) son muy predictivos, pero son
no conocido en el momento de la toma de decisiones (Kohavi y Parekh, 2003). Las fugas deben ser
consideradas cuidadosamente durante la preparación de datos, porque la preparación de datos generalmente se lleva a cabo
formado después del hecho — a partir de datos históricos. Presentamos un ejemplo más detallado de un
fuga real que fue difícil de encontrar en el Capítulo 14 .
Página 31
Modelado
El modelado es el tema de los próximos capítulos y no nos detendremos en él aquí.
excepto para decir que el resultado del modelado es una especie de captura de modelo o patrón
regularidades en los datos.
La etapa de modelado es el lugar principal donde se aplican las técnicas de minería de datos para
los datos. Es importante tener cierta comprensión de las ideas fundamentales de los datos.
minería, incluyendo el tipo de técnicas y algoritmos que existen, porque esta es la
parte del oficio donde se puede aplicar la mayor cantidad de ciencia y tecnología.
Evaluación
El propósito de la etapa de evaluación es evaluar los resultados de la minería de datos de manera rigurosa y
para ganar confianza en que son válidos y fiables antes de seguir adelante. Si miramos duro
En cualquier conjunto de datos encontraremos patrones suficientes, pero es posible que no sobrevivan a un escrutinio cuidadoso.
Nos gustaría tener la confianza de que los modelos y patrones extraídos de los datos
son verdaderas regularidades y no solo idiosincrasias o anomalías de muestra. Es posible
implementar los resultados inmediatamente después de la extracción de datos, pero esto no es aconsejable; suele estar lejos
Es más fácil, barato, rápido y seguro probar un modelo primero en un entorno de laboratorio controlado.
De igual importancia, la etapa de evaluación también sirve para ayudar a garantizar que el modelo satisfaga
los objetivos comerciales originales. Recuerde que el objetivo principal de la ciencia de datos para las empresas es
para apoyar la toma de decisiones, y que comenzamos el proceso enfocándonos en el negocio
Problema que nos gustaría resolver. Por lo general, una solución de minería de datos es solo una parte del
solución más grande, y debe evaluarse como tal. Además, incluso si un modelo pasa
estrictas pruebas de evaluación en "en el laboratorio", puede haber consideraciones externas que lo hacen
poco práctico. Por ejemplo, una falla común con las soluciones de detección (como la de‐
protección, detección de spam y monitoreo de intrusiones) es que producen demasiados
alarmas. Un modelo puede ser extremadamente preciso ( > 99%) según los estándares de laboratorio, pero evalúa
ución en el contexto empresarial real puede revelar que todavía produce demasiados falsos
las alarmas sean económicamente viables. (¿Cuánto costaría proporcionar el personal para tratar
con todas esas falsas alarmas? ¿Cuál sería el costo de la insatisfacción del cliente?)
La evaluación de los resultados de la minería de datos incluye evaluaciones tanto cuantitativas como cualitativas.
mentos. Varias partes interesadas tienen intereses en la toma de decisiones comerciales que serán
logrado o respaldado por los modelos resultantes. En muchos casos, estas partes interesadas
necesitan "aprobar" la implementación de los modelos, y para hacerlo deben ser
satisfecho por la calidad de las decisiones del modelo. Lo que eso significa varía según la aplicación.
a la aplicación, pero a menudo las partes interesadas buscan ver si el modelo va a
hacer más bien que daño, y especialmente que es poco probable que el modelo haga catastrófico
https://translate.googleusercontent.com/translate_f 26/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 32
errores. 2 Para facilitar tal evaluación cualitativa, el científico de datos debe pensar en
la comprensibilidad del modelo para las partes interesadas (no solo para los científicos de datos). Y
si el modelo en sí no es comprensible (por ejemplo, tal vez el modelo sea una matemática muy compleja)
fórmula matemática), ¿cómo pueden trabajar los científicos de datos para hacer que el comportamiento del modelo
ser comprensible.
Despliegue
En la implementación, los resultados de la minería de datos y, cada vez más, las técnicas de minería de datos.
ellos mismos, se ponen en uso real para obtener algún retorno de la inversión. los
Los casos más claros de implementación involucran la implementación de un modelo predictivo en alguna información.
sistema de mación o proceso empresarial. En nuestro ejemplo de abandono, un modelo para predecir la
La probabilidad de abandono podría integrarse con el proceso empresarial para la gestión del abandono.
2. Por ejemplo, en un proyecto de minería de datos se creó un modelo para diagnosticar problemas en las redes telefónicas locales,
y enviar técnicos al lugar probable del problema. Antes de la implementación, un equipo de la compañía telefónica
las partes interesadas solicitaron que se modificara el modelo para que se hicieran excepciones para los hospitales.
https://translate.googleusercontent.com/translate_f 27/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 33
—Por ejemplo, enviando ofertas especiales a los clientes que se prevé que participen
larly en riesgo. (Discutiremos esto con mayor detalle a medida que avanza el libro). Un nuevo fraude
El modelo de detección puede integrarse en un sistema de información de gestión de la fuerza de trabajo, para
monitorear cuentas y crear “casos” para que los analistas de fraude los examinen.
Cada vez más, se implementan las propias técnicas de minería de datos. Por ejemplo, para
dirigidos a anuncios en línea, se implementan sistemas que crean automáticamente (y
prueba) modelos en producción cuando se presenta una nueva campaña publicitaria. Dos principales
razones para implementar el sistema de minería de datos en sí en lugar de los modelos producidos
por un sistema de minería de datos son (i) el mundo puede cambiar más rápido que el equipo de ciencia de datos
puede adaptarse, como ocurre con la detección de intrusiones y fraudes, y (ii) una empresa tiene demasiados modelos
encargando tareas a su equipo de ciencia de datos para seleccionar manualmente cada modelo individualmente. En
En estos casos, puede ser mejor implementar la fase de minería de datos en producción. Haciendo
por lo tanto, es fundamental instrumentar el proceso para alertar al equipo de ciencia de datos de cualquier aparente
anomalías y para proporcionar un funcionamiento a prueba de fallos (Raeder et al., 2012).
Prácticamente hablando, existen riesgos con las transferencias "sobre la pared" desde
ciencia de datos al desarrollo. Puede ser útil recordar el máximo
im: "Su modelo no es lo que diseñan los científicos de datos, es lo que
los ingenieros construyen ". Desde una perspectiva de gestión, es aconsejable
hacer que los miembros del equipo de desarrollo participen desde el principio en los datos
proyecto de ciencias. Pueden comenzar como asesores, proporcionando información crítica
al equipo de ciencia de datos. Cada vez más en la práctica, estos des‐
Los velocistas son "ingenieros de ciencia de datos", ingenieros de software que han
especial experiencia tanto en los sistemas de producción como en la ciencia de datos
ence. Estos desarrolladores asumen gradualmente más responsabilidad a medida que
el proyecto madura. En algún momento, los desarrolladores tomarán la iniciativa y
Página 34
https://translate.googleusercontent.com/translate_f 28/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Tenga en cuenta que no es necesario fallar en la implementación para iniciar el ciclo nuevamente. La evaluación
etapa puede revelar que los resultados no son lo suficientemente buenos para implementar, y necesitamos ajustar el
definición del problema u obtener datos diferentes. Esto está representado por el enlace de "acceso directo" de
Evaluación de regreso a Business Understanding en el diagrama de proceso. En la práctica, hay
deben ser atajos de cada etapa a cada una anterior porque el proceso siempre
conserva algunos aspectos exploratorios, y un proyecto debe ser lo suficientemente flexible como para revisar
pasos basados en descubrimientos realizados. 3
Esto puede ser un error porque la minería de datos es una empresa exploratoria más cercana a
investigación y desarrollo que a la ingeniería. El ciclo CRISP se basa en
exploración; itera sobre enfoques y estrategias en lugar de diseños de software. Fuera-
viene son mucho menos seguros, y los resultados de un paso dado pueden cambiar la
comprensión del problema. Diseñar una solución de minería de datos directamente para la implementación
El compromiso puede ser un compromiso prematuro costoso. En cambio, los proyectos de analítica deberían
prepárese para invertir en información para reducir la incertidumbre de diversas formas. Pequeña inversión
3. Los profesionales del software pueden reconocer la similitud con la filosofía de "Fracasar más rápido para tener éxito antes".
(Muoio, 1997).
Página 35
Pueden realizarse estudios piloto y prototipos desechables. Los científicos de datos deberían
revise la literatura para ver qué más se ha hecho y cómo ha funcionado. En un mayor
escala, un equipo puede invertir sustancialmente en la construcción de bancos de pruebas experimentales para permitir una amplia
experimentación ágil. Si es un administrador de software, esto se parecerá más a una investigación
y exploración de lo que está acostumbrado, y tal vez más de lo que se siente cómodo.
Para ello, presentamos seis grupos de técnicas analíticas relacionadas. Donde sea apropiado nosotros
hacer comparaciones y contrastes con la minería de datos. La principal diferencia es que los datos
La minería se centra en la búsqueda automatizada de conocimientos , patrones o regularidades de
datos. 4 Una habilidad importante para un analista de negocios es poder reconocer qué tipo de
La técnica analítica es apropiada para abordar un problema particular.
Estadísticas
El término "estadísticas" tiene dos usos diferentes en la analítica empresarial. Primero, se utiliza como
término general para el cálculo de valores numéricos particulares de interés a partir de datos
(p. ej., "Necesitamos recopilar algunas estadísticas sobre el uso de nuestros clientes para determinar qué
va mal aquí ”). Estos valores a menudo incluyen sumas, promedios, tasas, etc. Vamos
4. Es importante tener en cuenta que es raro que el descubrimiento esté completamente automatizado. Lo importante
factor es que la minería de datos automatiza al menos parcialmente el proceso de búsqueda y descubrimiento, en lugar de proporcionar
soporte técnico para búsqueda y descubrimiento manual.
Página 36
Las estadísticas resumidas deben elegirse prestando mucha atención al problema empresarial que se
resuelto (uno de los principios fundamentales que presentaremos más adelante), y también con atención
a la distribución de los datos que están resumiendo. Por ejemplo, el promedio (media)
Los ingresos en los Estados Unidos de acuerdo con la Encuesta Económica de la Oficina del Censo de 2004 fue
más de $ 60,000. Si tuviéramos que usar eso como una medida del ingreso promedio con el fin de hacer
decisiones políticas, nos engañaríamos a nosotros mismos. La distribución de ingresos en el
Estados Unidos está muy sesgado, con muchas personas que ganan relativamente poco y algunas personas
fantásticamente mucho. En tales casos, la media aritmética nos dice relativamente poco sobre cómo
mucha gente está ganando. En cambio, deberíamos usar una medida diferente de "promedio" en
vienen, como la mediana. El ingreso medio, esa cantidad donde la mitad de la población
gana más y la mitad gana menos: en los EE. UU., en el estudio del censo de 2004 era de solo $ 44,389
—Considerablemente menor que la media. Este ejemplo puede parecer obvio porque somos tan
acostumbrado a escuchar sobre el "ingreso medio", pero el mismo razonamiento se aplica a
cualquier cálculo de estadísticas resumidas: ¿ha pensado en el problema que
https://translate.googleusercontent.com/translate_f 30/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
¿Le gustaría resolver o la pregunta que le gustaría responder? ¿Ha considerado la distribución
de los datos, y si la estadística elegida es apropiada?
El otro uso del término "estadística" es para denotar el campo de estudio que va por ese
nombre, para el cual podríamos diferenciar usando el nombre propio, Estadísticas. El campo
of Statistics nos proporciona una gran cantidad de conocimiento que subyace a la analítica, y
se puede considerar como un componente del campo más amplio de la ciencia de datos. Por ejemplo,
Las estadísticas nos ayudan a comprender las diferentes distribuciones de datos y qué estadísticas se aplican.
apropiado para resumir cada uno. Las estadísticas nos ayudan a comprender cómo utilizar los datos para realizar pruebas.
hipótesis y para estimar la incertidumbre de las conclusiones. En relación con la minería de datos,
La prueba de hipótesis puede ayudar a determinar si es probable que un patrón observado sea válido,
regularidad general en contraposición a una ocurrencia casual en algún conjunto de datos en particular. La mayoría
relevantes para este libro, muchas de las técnicas para extraer modelos o patrones de
los datos tienen sus raíces en la estadística.
Por ejemplo, un estudio preliminar puede sugerir que los clientes del noreste tienen una
tasa de abandono del 22,5%, mientras que la tasa de abandono promedio a nivel nacional es solo del 15%. Esto puede
ser solo una fluctuación casual ya que la tasa de abandono no es constante; varía según las regiones
y con el tiempo, por lo que se esperan diferencias. Pero la tasa del noreste es de una y media
veces el promedio de EE. UU., que parece inusualmente alto. ¿Cuál es la probabilidad de que esto se deba
a la variación aleatoria? La prueba de hipótesis estadística se utiliza para responder a estas preguntas.
Página 37
Esto contrasta con el proceso (complementario) de minería de datos, que puede verse como
generación de hipótesis . ¿Podemos encontrar patrones en los datos en primer lugar? Generación de hipótesis
Luego, la elaboración debe ser seguida por una cuidadosa prueba de hipótesis (generalmente en diferentes
datos; ver el Capítulo 5 ). Además, los procedimientos de minería de datos pueden producir es‐
timas, y a menudo también queremos proporcionar intervalos de confianza en estas estimaciones. Nosotros
Volveremos a esto cuando hablemos de la evaluación de los resultados de la minería de datos.
En este libro no vamos a dedicar más tiempo a discutir estas estadísticas básicas.
conceptos. Hay muchos libros introductorios sobre estadísticas y estadísticas para empresas,
y cualquier tratamiento que intentemos aplicar sería muy estrecho o superficial.
Dicho esto, un término estadístico que se escucha a menudo en el contexto de la analítica empresarial es
"correlación." Por ejemplo, "¿Hay algún indicador que se correlacione con el
¿deserción posterior? " Al igual que con el término estadísticas, "correlación" tiene tanto un propósito general
significado (las variaciones en una cantidad nos dicen algo sobre las variaciones en la otra),
y un significado técnico específico (por ejemplo, correlación lineal basada en una matemática particular
fórmula matemática). La noción de correlación será el punto de partida para el resto de
nuestra discusión sobre ciencia de datos para empresas, comenzando en el próximo capítulo.
https://translate.googleusercontent.com/translate_f 31/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
una herramienta con una interfaz gráfica de usuario (GUI) para ayudar a formular consultas (por ejemplo, consulta por
ejemplo, o QBE). Por ejemplo, si el analista puede definir "rentable" en operacional
términos computables a partir de elementos de la base de datos, una herramienta de consulta podría responder: "¿Quién
Cuáles son los clientes más rentables del noreste? " Luego, el analista puede ejecutar la consulta
para recuperar una lista de los clientes más rentables, posiblemente clasificados por rentabilidad. Esta
La actividad difiere fundamentalmente de la minería de datos en que no se descubren patrones.
o modelos.
Las consultas a la base de datos son apropiadas cuando un analista ya tiene una idea de lo que podría ser
una subpoblación interesante de los datos y desea investigar esta población o
confirmar una hipótesis al respecto. Por ejemplo, si un analista sospecha que los hombres de mediana edad
que viven en el noreste tienen un comportamiento de batido particularmente interesante, ella podría
redactar una consulta SQL:
Página 38
Si esas son las personas a las que se dirigirá una oferta, se puede utilizar una herramienta de consulta para recuperar
toda la información sobre ellos (“*”) de la tabla CLIENTES en la base de datos.
Por el contrario, la minería de datos podría usarse para generar esta consulta en primer lugar:
como un patrón o regularidad en los datos. Un procedimiento de minería de datos podría examinar
clientes que desertaron y que no, y determinan que este segmento (caracterizado
ya que "EDAD es mayor de 45 y SEXO es masculino y DOMICILIO es Noreste de EE. UU.") es
predictivo con respecto a la tasa de abandono. Después de traducir esto en una consulta SQL, una consulta
La herramienta podría usarse para encontrar los registros coincidentes en la base de datos.
Las herramientas de consulta generalmente tienen la capacidad de ejecutar lógica sofisticada, incluyendo com‐
poner estadísticas de resumen sobre subpoblaciones, ordenar, unir varias tablas
con datos relacionados y más. Los científicos de datos a menudo se vuelven expertos en escribir consultas
para extraer los datos que necesitan.
El procesamiento analítico en línea (OLAP) proporciona una GUI fácil de usar para consultar grandes datos
colecciones, con el fin de facilitar la exploración de datos. La idea de pro‐
El proceso es que se realiza en tiempo real, por lo que los analistas y los responsables de la toma de decisiones pueden encontrar respuestas.
a sus consultas de forma rápida y eficaz. A diferencia de las consultas "ad hoc" habilitadas por herramientas
como SQL, para OLAP las dimensiones de análisis deben estar preprogramadas en OLAP
sistema. Si hemos previsto eso, querríamos explorar el volumen de ventas por región y
tiempo, podríamos tener estas tres dimensiones programadas en el sistema y desglosar
en poblaciones, a menudo simplemente haciendo clic y arrastrando y manipulando dinámicas
gráficos.
Los sistemas OLAP están diseñados para facilitar la exploración manual o visual de los datos mediante
analistas. OLAP no realiza modelado ni búsqueda automática de patrones. Como adicional
Por el contrario, a diferencia de OLAP, las herramientas de minería de datos generalmente pueden incorporar nuevas dimensiones
siones de análisis fácilmente como parte de la exploración. Las herramientas OLAP pueden ser un complemento útil
a herramientas de minería de datos para el descubrimiento a partir de datos comerciales.
Almacenamiento de datos
Los almacenes de datos recopilan y fusionan datos de toda una empresa, a menudo de múltiples
sistemas de procesamiento de transacciones, cada uno con su propia base de datos. Los sistemas analíticos pueden actuar
almacenes de datos cess. El almacenamiento de datos puede verse como una tecnología facilitadora de datos
minería. No siempre es necesario, ya que la mayoría de la minería de datos no accede a un almacén de datos,
pero las empresas que deciden invertir en almacenes de datos a menudo pueden aplicar la minería de datos más
https://translate.googleusercontent.com/translate_f 32/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
amplia y profundamente en la organización. Por ejemplo, si un almacén de datos se integra
registros de ventas y facturación, así como de recursos humanos, se puede utilizar para encontrar
patrones característicos de los vendedores eficaces.
Página 39
Análisis de regresión
Algunos de los mismos métodos que discutimos en este libro son el núcleo de un conjunto diferente de
métodos analíticos, que a menudo se recopilan bajo el análisis de regresión de rúbrica , y
se aplican ampliamente en el campo de la estadística y también en otros campos basados en la economía
análisis métrico. Este libro se centrará en cuestiones diferentes a las que se encuentran habitualmente en un
libro o clase de análisis de regresión. Aquí estamos menos interesados en explicar un particular
conjunto de datos, ya que estamos en la extracción de patrones que se generalizarán a otros datos, y para el
propósito de mejorar algunos procesos comerciales. Normalmente, esto implicará estimar o
predecir valores para casos que no están en el conjunto de datos analizados. Entonces, como ejemplo, en
En este libro, estamos menos interesados en indagar en las razones de la deserción (importante ya que
puede estar) en un conjunto histórico particular de datos, y más interesado en predecir qué
los clientes que aún no se han ido sería el mejor objetivo para reducir la rotación futura.
Por lo tanto, dedicaremos algún tiempo a hablar sobre patrones de prueba en nuevos datos para evaluar
Evaluar su generalidad y técnicas para reducir la tendencia a encontrar patrones.
específicos de un conjunto particular de datos, pero que no se generalizan a la población de
del que vienen los datos.
El tema del modelado explicativo versus el modelado predictivo puede provocar una profunda des‐
bate, 5 que va mucho más allá de nuestro enfoque. Lo importante es darse cuenta de que hay
una superposición considerable en las técnicas utilizadas, pero que las lecciones aprendidas de la explicación
El modelado histórico no se aplica al modelado predictivo. Entonces, un lector con algo de respaldo
El terreno en el análisis de regresión puede encontrar nuevos e incluso aparentemente contradictorios.
lecciones. 6
6. Aquellos que continúen con el estudio en profundidad habrán resuelto las aparentes contradicciones. Un estudio tan profundo es
no es necesario comprender los principios fundamentales.
https://translate.googleusercontent.com/translate_f 33/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Página 40
El campo de la minería de datos (o KDD: descubrimiento de conocimientos y minería de datos) comenzó como
una rama del aprendizaje automático, y siguen estrechamente vinculados. Ambos campos están con‐
preocupados por el análisis de datos para encontrar patrones útiles o informativos. Técnicas y
los algoritmos se comparten entre los dos; de hecho, las áreas están tan estrechamente relacionadas que
Los investigadores suelen participar en ambas comunidades y realizar la transición entre ellas.
sin problemas. No obstante, conviene señalar algunas de las diferencias para dar
perspectiva.
Hablando en general, debido a que el aprendizaje automático se ocupa de muchos tipos de per‐
mejora de la formación, incluye subcampos como la robótica y la visión por computadora que
no forman parte de KDD. También se ocupa de cuestiones de agencia y cognición: ¿ cómo
un agente inteligente utiliza el conocimiento aprendido para razonar y actuar en su entorno, lo que
no son preocupaciones de Data Mining.
Históricamente, KDD surgió del aprendizaje automático como un campo de investigación centrado en
problemas planteados al examinar las aplicaciones del mundo real, y una década y media después
La comunidad de KDD sigue más preocupada por las aplicaciones que por el aprendizaje automático
es. Como tal, la investigación se centró en aplicaciones comerciales y problemas comerciales de datos.
El análisis tiende a gravitar hacia la comunidad KDD en lugar de hacia el aprendizaje automático.
En g. KDD también tiende a estar más preocupado por todo el proceso de análisis de datos: datos
preparación, aprendizaje de modelos, evaluación, etc.
Página 41
https://translate.googleusercontent.com/translate_f 34/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Tenga en cuenta que este último par de preguntas son preguntas de minería de datos sutilmente diferentes. El primero,
una pregunta de clasificación, puede formularse como una predicción de si una nueva cliente
El cliente será rentable (sí / no o la probabilidad del mismo). El segundo puede expresarse
como predicción del valor (numérico) que aportará el cliente a la empresa.
Más sobre eso a medida que avanzamos.
Resumen
La minería de datos es un oficio. Como ocurre con muchas manualidades, existe un proceso bien definido que puede ayudar
para aumentar la probabilidad de un resultado exitoso. Este proceso es una herramienta conceptual crucial
por pensar en proyectos de ciencia de datos. Volveremos a referirnos al proceso de minería de datos.
repetidamente a lo largo del libro, mostrando cómo encaja cada concepto fundamental. A su vez,
comprender los fundamentos de la ciencia de datos mejora sustancialmente las posibilidades de
El éxito como empresa invoca el proceso de minería de datos.
Los diversos campos de estudio relacionados con la ciencia de datos han desarrollado un conjunto de tareas canónicas
tipos, como clasificación, regresión y agrupación. Cada tipo de tarea sirve a un
propósito y tiene un conjunto asociado de técnicas de solución. Un científico de datos normalmente en‐
aborda un nuevo proyecto descomponiéndolo de tal manera que una o más de estas tareas canónicas sea
revelado, eligiendo una técnica de solución para cada uno, luego componiendo las soluciones. Haciendo
esto de manera experta puede requerir una experiencia y habilidad considerables. Una minería de datos exitosa
El proyecto implica un compromiso inteligente entre lo que pueden hacer los datos (es decir, lo que
puede predecir, y qué tan bien) y los objetivos del proyecto. Por esta razón es importante mantener
Tenga en cuenta cómo se utilizarán los resultados de la minería de datos y utilícelo para informar a la minería de datos.
proceso en sí.
Resumen | 41
Página 42
Para un gerente comercial, el proceso de minería de datos es útil como marco para analizar
un proyecto o propuesta de minería de datos. El proceso proporciona una organización sistemática, en
https://translate.googleusercontent.com/translate_f 35/36
30/11/21 11:24 Introducción: pensamiento analítico de datos
Incluyendo un conjunto de preguntas que se pueden hacer sobre un proyecto o un proyecto propuesto para ayudar
comprender si el proyecto está bien concebido o tiene fallas fundamentales. Lo haremos
Regresemos a esto después de haber discutido en detalle algunos de los principios fundamentales
ellos mismos, a los que nos dirigimos ahora.
https://translate.googleusercontent.com/translate_f 36/36