Data Mining For Business Analytics Ch1

Machine Translated by Google
Capítulo 1
Introducción
1.1 ¿Qué es el análisis empresarial?
La analítica empresarial (BA) es la práctica y el arte de incorporar datos cuantitativos a la

toma de decisiones. El término significa cosas diferentes para diferentes organizaciones.
Consideremos el papel de la analítica para ayudar a los periódicos a sobrevivir la
transición a un mundo digital. Un periódico sensacionalista con lectores de clase trabajadora
en Gran Bretaña había lanzado una versión web del periódico e hizo pruebas en su página
de inicio para determinar qué imágenes producían más visitas: gatos, perros o monos.
Esta sencilla aplicación, para esta empresa, se consideró analítica. Por el contrario, el
Washington Post tiene una audiencia muy influyente que interesa a los grandes contratistas
de defensa: es quizás el único periódico donde se ven habitualmente anuncios de
portaaviones. En el entorno digital, el Post puede realizar un seguimiento de los lectores
por hora del día, ubicación e información de suscripción del usuario. De esta manera, la
exhibición del anuncio del portaaviones en el periódico en línea puede centrarse en un
grupo muy pequeño de individuos, digamos, los miembros de los Comités de Servicios
Armados de la Cámara y el Senado que votarán sobre el presupuesto del Pentágono.
El análisis empresarial, o más genéricamente, el análisis, incluye una variedad de

métodos de análisis de datos. Muchas aplicaciones potentes implican poco más que
contar, comprobar reglas y aritmética básica. Para algunas organizaciones, esto es lo que
tasharogovhipr,c.sye
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
se entiende por análisis.

El siguiente nivel de análisis de negocios, ahora llamado inteligencia de negocios (BI),
se refiere a la visualización de datos y la generación de informes para comprender “qué
pasó y qué está pasando”. Esto se hace mediante el uso de gráficos, tablas y paneles para
mostrar, examinar y explorar datos. BI, que anteriormente consistía principalmente en
Minería de datos para análisis empresarial: conceptos, técnicas y aplicaciones con XLMiner ®, tercera edición.
Galit Shmueli, Peter C. Bruce y Nitin R. Patel. •c 2016
John Wiley & Sons Inc. Publicado en 2016 por John Wiley & Sons, Inc.
Bruce, PC, Shmueli, G. y Patel, NR (2016). Minería de datos para análisis de negocios: conceptos, técnicas y aplicaciones con xlminer. John Wiley e hijos, incorporados. 3
Creado desde usfq el 25032022 15:45:06.
4 INTRODUCCIÓN
generar informes estáticos, ha evolucionado hacia herramientas y prácticas más fáciles de usar y efectivas,
como la creación de paneles interactivos que permiten al usuario no solo acceder a datos en tiempo real sino
también interactuar directamente con ellos. Los paneles de control eficaces son aquellos que se vinculan
directamente con los datos de la empresa y brindan a los gerentes una herramienta para ver rápidamente lo
que podría no ser evidente en una base de datos grande y compleja. Una de esas herramientas para gerentes
de operaciones industriales muestra los pedidos de los clientes en una única pantalla bidimensional, utilizando
el color y el tamaño de la burbuja como variables adicionales, mostrando el nombre del cliente, el tipo de
producto, el tamaño del pedido y el tiempo de producción.
El análisis empresarial ahora normalmente incluye BI, así como métodos sofisticados de análisis de datos,
como modelos estadísticos y algoritmos de extracción de datos utilizados para explorar datos, cuantificar y
explicar relaciones entre mediciones y predecir nuevos registros. Se utilizan métodos como los modelos de
regresión para describir y cuantificar relaciones "en promedio" (por ejemplo, entre publicidad y ventas), para
predecir nuevos registros (por ejemplo, si un nuevo paciente reaccionará positivamente a un medicamento) y
para pronosticar valores futuros. (por ejemplo, el tráfico web de la próxima semana).
Los lectores familiarizados con ediciones anteriores de este libro habrán notado que el título del libro
cambió de Minería de datos para inteligencia empresarial a Minería de datos para análisis empresarial en esta
edición. El cambio refleja el término más reciente BA, que superó al término anterior BI para denotar análisis
avanzado. Hoy en día, BI se utiliza para referirse a la visualización y generación de informes de datos.
¿QUIÉN UTILIZA ANÁLISIS PREDICTIVOS?
La adopción generalizada de análisis predictivos, junto con la creciente disponibilidad de datos, ha aumentado
las capacidades de las organizaciones en toda la economía. Algunos ejemplos:
Calificación crediticia: un uso establecido desde hace mucho tiempo de las técnicas de modelado predictivo
para la predicción empresarial es la calificación crediticia. Una calificación crediticia no es un juicio arbitrario
sobre la solvencia crediticia; se basa principalmente en un modelo predictivo que utiliza datos previos para
predecir el comportamiento de pago.
Compras futuras: un ejemplo más reciente (y controvertido) es el uso que hace Target de modelos
predictivos para clasificar las perspectivas de ventas como "embarazadas" o "no embarazadas".
A aquellas clasificadas como embarazadas se les podrían enviar promociones de ventas en una etapa
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
temprana del embarazo, lo que le daría a Target una ventaja en un importante flujo de compras.
Evasión fiscal: El Servicio de Impuestos Internos de Estados Unidos descubrió que era 25 veces más
probable encontrar evasión fiscal cuando la actividad de aplicación de la ley se basaba en modelos
predictivos, lo que permitía a los agentes centrarse en los fraudes fiscales más probables (Siegel, 2013).
El conjunto de herramientas de análisis de negocios también incluye experimentos estadísticos, el más

común de los cuales es conocido por los especialistas en marketing como pruebas AB. Estos se utilizan a
menudo para decisiones de precios:
Bruce, PC, Shmueli, G. y Patel, NR (2016). Minería de datos para análisis de negocios: conceptos, técnicas y aplicaciones con xlminer. John Wiley e hijos, incorporados.
MINERÍA DE DATOS Y TÉRMINOS RELACIONADOS 5
• Orbitz, el sitio de viajes, descubrió que podía poner precios más altos a las opciones de hoteles para los
usuarios de Mac que para los usuarios de Windows.
• La tienda en línea Staples descubrió que podía cobrar más por las grapadoras si un cliente
Vivía lejos de una tienda Staples.
Tenga cuidado con el entorno organizacional donde el análisis es una solución en busca de un
problema: un gerente, sabiendo que el análisis de negocios y la minería de datos son áreas
candentes, decide que su organización debe implementarlos también para capturar ese valor oculto
que debe estar acechando en alguna parte. El uso exitoso de la analítica y la minería de datos
requiere tanto una comprensión del contexto empresarial donde se va a capturar el valor como una
comprensión de qué hacen exactamente los métodos de minería de datos.
1.2 ¿Qué es la minería de datos?
En este libro, la minería de datos se refiere a métodos de análisis de negocios que van más allá de
los recuentos, las técnicas descriptivas, los informes y los métodos basados en reglas de negocios.
Si bien presentamos la visualización de datos, que suele ser el primer paso hacia análisis más
avanzados, el libro se centra principalmente en las herramientas de análisis de datos más
avanzadas. Específicamente, incluye métodos estadísticos y de aprendizaje automático que
informan la toma de decisiones, a menudo de forma automatizada. La predicción suele ser un
componente importante, a menudo a nivel individual. En lugar de "¿cuál es la relación entre
publicidad y ventas", podríamos estar interesados en "¿qué anuncio específico o producto
recomendado se debe mostrar a un comprador en línea determinado en este momento?" O
podríamos estar interesados en agrupar a los clientes en diferentes “personajes” que reciban un
tratamiento de marketing diferente y luego asignar cada nuevo cliente potencial a uno de estos
personajes.
La era del big data ha acelerado el uso de la minería de datos. Los métodos de minería de
datos, con su potencia y automaticidad, tienen la capacidad de hacer frente a enormes cantidades
de datos y extraer valor.
1.3 Minería de datos y términos relacionados

.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
El campo de la analítica está creciendo rápidamente, tanto en términos de la amplitud de aplicaciones

como en términos de la cantidad de organizaciones que utilizan analítica avanzada. Como resultado,
existe una considerable superposición e inconsistencia de las definiciones.
El término minería de datos en sí significa cosas diferentes para diferentes personas.

Para el público en general, puede tener un significado general, un tanto confuso y peyorativo, de
escarbar en vastos almacenes de datos (a menudo personales) en busca de
6 INTRODUCCIÓN
algo interesante. Una importante empresa consultora tiene un “departamento de minería de datos”, pero
sus responsabilidades están en el área de estudiar y representar gráficamente datos pasados en busca
de tendencias generales. Y, para confundir las cosas, sus modelos predictivos más avanzados son
responsabilidad de un "departamento de análisis avanzado".
Otros términos que utilizan las organizaciones son análisis predictivo, modelado predictivo y aprendizaje
automático.
La minería de datos se encuentra en la confluencia de los campos de la estadística y el aprendizaje
automático (también conocido como inteligencia artificial). En el mundo de la estadística existe desde
hace mucho tiempo una variedad de técnicas para explorar datos y construir modelos: regresión lineal,
regresión logística, análisis discriminante y análisis de componentes principales, por ejemplo. Pero los
principios básicos de la estadística clásica (la informática es difícil y los datos escasos) no se aplican en
aplicaciones de minería de datos donde tanto los datos como la potencia informática son abundantes.
Esto da lugar a la descripción que hace Daryl Pregibon de la minería de datos como “estadísticas a
escala y velocidad” (Pregibon, 1999). Otra diferencia importante entre los campos de la estadística y el
aprendizaje automático es el enfoque de las estadísticas en la inferencia de una muestra a la población
con respecto a un "efecto promedio"; por ejemplo, "un aumento de precio de 1 dólar reducirá la demanda
promedio en 2 cajas". Por el contrario, el aprendizaje automático se centra en predecir registros
individuales: "la demanda prevista para una persona dado un aumento de precio de 1 dólar es de 1 caja,
mientras que para una persona es de 3 cajas".
El énfasis que la estadística clásica pone en la inferencia (determinar si un patrón o resultado interesante
pudo haber ocurrido por casualidad en nuestra muestra) está ausente en la minería de datos.
En comparación con las estadísticas, la minería de datos trata con grandes conjuntos de datos de
forma abierta, lo que hace imposible poner límites estrictos a la pregunta que se aborda que requeriría la
inferencia. Como resultado, el enfoque general de la minería de datos es vulnerable al peligro del
sobreajuste, donde un modelo se ajusta tan estrechamente a la muestra de datos disponible que describe
no sólo características estructurales de los datos sino también peculiaridades aleatorias. En términos de
ingeniería, el modelo se ajusta al ruido, no sólo a la señal.
En este libro, utilizamos el término aprendizaje automático para referirnos a algoritmos que aprenden
directamente de los datos, especialmente de patrones locales, a menudo en forma iterativa o en capas.
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
Por el contrario, utilizamos modelos estadísticos para referirnos a métodos que aplican una estructura
global a los datos. Un ejemplo simple es un modelo de regresión lineal (estadístico) versus un algoritmo
de vecinos más cercanos (aprendizaje automático). Un registro determinado se trataría mediante
regresión lineal de acuerdo con una ecuación lineal general que se aplica a todos los registros. En
vecinos más cercanos, ese registro se clasificaría de acuerdo con los valores de un pequeño número de
registros cercanos.
GRANDES DATOS 7
Por último, muchos profesionales, en particular aquellos de las comunidades de TI y ciencias

informáticas, utilizan el término aprendizaje automático para referirse a todos los métodos
analizados en este libro.
1.4 Grandes datos
La minería de datos y el big data van de la mano. Big data es un término relativo: los datos de hoy
son grandes en referencia al pasado y a los métodos y dispositivos disponibles para manejarlos.
El desafío que presenta el big data a menudo se caracteriza por las cuatro V: volumen, velocidad,
variedad y veracidad. El volumen se refiere a la cantidad de datos. La velocidad se refiere al caudal:
la velocidad a la que se genera y cambia. La variedad se refiere a los diferentes tipos de datos que
se generan (moneda, fechas, números, texto, etc.). La veracidad se refiere al hecho de que los
datos se generan mediante procesos orgánicos distribuidos (por ejemplo, millones de personas
que se registran para servicios o descargas gratuitas) y no están sujetos a los controles o
comprobaciones de calidad que se aplican a los datos recopilados para un estudio.
La mayoría de las grandes organizaciones enfrentan tanto el desafío como la oportunidad del
big data porque la mayoría de los procesos de datos rutinarios ahora generan datos que pueden
almacenarse y, posiblemente, analizarse. La escala se puede visualizar comparando los datos de
un análisis estadístico tradicional (por ejemplo, 15 variables y 5000 registros) con la base de datos
de Walmart. Si consideramos que el estudio estadístico tradicional tiene el tamaño de un punto al
final de una oración, entonces la base de datos de Walmart tiene el tamaño de un campo de fútbol.
Y eso probablemente no incluye otros datos asociados con Walmart: datos de redes sociales, por
ejemplo, que vienen en forma de texto no estructurado. Si el desafío analítico es sustancial,
también puede serlo la recompensa:
• OKCupid, el sitio de citas en línea, utiliza modelos estadísticos con sus datos para predecir
qué formas de contenido de mensaje tienen más probabilidades de producir una
respuesta.respuesta.
• Telenor, una empresa noruega de servicios de telefonía móvil, pudo reducir la rotación de
suscriptores en un 37% mediante el uso de modelos para predecir qué clientes tenían más
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
probabilidades de irse y luego centrar la atención en ellos.
• Allstate, la compañía de seguros, triplicó la precisión de predecir la responsabilidad por

lesiones en reclamos de automóviles al incorporar más información sobre el tipo de vehículo.
Los ejemplos anteriores provienen del libro Predictive Analytics de Eric Siegel (2013, Wiley).
Algunas tareas extremadamente valiosas ni siquiera eran factibles antes de la era del big
data. Consideremos las búsquedas web, la tecnología sobre la que se construyó Google. Temprano
8 INTRODUCCIÓN
En estos días, una búsqueda de “Ricky Ricardo Caperucita Roja” habría arrojado varios enlaces al
programa de televisión I Love Lucy , otros enlaces a la carrera de Ricardo como líder de banda y
enlaces al cuento infantil de Caperucita Roja. Sólo una vez que la base de datos de Google hubiera
acumulado datos suficientes (incluidos registros de en qué hicieron clic los usuarios), la búsqueda
arrojaría, en la primera posición, enlaces al episodio específico de I Love Lucy en el que Ricky
representa, en una mezcla cómica de español e inglés, Caperucita Roja para su hijo pequeño.
1.5 Ciencia de datos
La ubicuidad, el tamaño, el valor y la importancia del big data ha dado lugar a una nueva profesión: el
científico de datos. La ciencia de datos es una combinación de habilidades en las áreas de estadística,
aprendizaje automático, matemáticas, programación, negocios y TI. Por tanto, el término en sí es más
amplio que los otros conceptos que analizamos anteriormente, y es raro que un individuo combine
habilidades profundas en todas las áreas constituyentes. En su libro Analyzing the Analyzers (Harris
et al., 2013), los autores describen el conjunto de habilidades de la mayoría de los científicos de datos
como una “T”: profunda en un área (la barra vertical de la T) y menos profunda en otras áreas. (la
parte superior de la T).
En una gran sesión de una conferencia sobre ciencia de datos (StrataHadoop World, octubre de
2014), la mayoría de los asistentes sintieron que la programación era una habilidad esencial, aunque
había una minoría considerable que pensaba lo contrario. Y, aunque los big data son el poder
motivador detrás del crecimiento de la ciencia de datos, la mayoría de los científicos de datos en
realidad no pasan la mayor parte de su tiempo trabajando con datos de un tamaño de terabytes o mayores.
En la etapa de implementación de un modelo se involucrarían datos del terabyte o de mayor
tamaño. Hay múltiples desafíos en esa etapa, la mayoría de ellos problemas de TI y programación
relacionados con el manejo de datos y la vinculación de diferentes componentes de un sistema.
Mucho trabajo debe preceder a esa fase. Es en esa fase anterior de pilotaje y creación de prototipos
en la que se centra este libro: desarrollar los modelos estadísticos y de aprendizaje automático que
eventualmente se conectarán a un sistema implementado. ¿Qué métodos utiliza con qué tipo de
datos y problemas? ¿Cómo funcionan los métodos? ¿Cuáles son sus necesidades, sus fortalezas y
sus debilidades? ¿Cómo evalúa su desempeño?
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
1.6 ¿Por qué existen tantos métodos diferentes?
Como se puede ver en este libro o en cualquier otro recurso sobre minería de datos, existen muchos
métodos diferentes de predicción y clasificación. Quizás te preguntes por qué coexisten y si algunos
son mejores que otros. La respuesta es que cada método tiene ventajas y desventajas. La utilidad de
un método puede depender de factores como el tamaño del conjunto de datos, los tipos de patrones
que
TERMINOLOGÍA Y NOTACIÓN 9
25 dueño
25 dueño
no propietario no propietario
23 23
21 21
19 19
iT
dc(l
p
iT
d
p
c(l
to
to
lm
lm
eu
u
e
a
a
lie
lie
e
sa
e
sa
em
em
rd
rd
asa
asa
dñ
dñ
)soo
)soo
17 17
15 15
13 13
20 40 60 80 100 120 20 40 60 80 100 120
Ingresos (miles de dólares) Ingresos (miles de dólares)
FIGURA 1.1 DOS MÉTODOS PARA SEPARAR A LOS PROPIETARIOS DE LOS NO PROPIETARIOS
existen en los datos, si los datos cumplen con algunos supuestos subyacentes de la
método, qué tan ruidosos son los datos y el objetivo particular del análisis. un pequeño
La ilustración se muestra en la Figura 1.1, donde el objetivo es encontrar una combinación de
nivel de ingresos del hogar y tamaño del lote del hogar que separa a los propietarios (círculos sólidos)
de no propietarios (círculos huecos) de cortadoras de césped. El primer método (panel izquierdo)
busca sólo líneas horizontales y verticales para separar a los propietarios de los no propietarios;
el segundo método (panel derecho) busca una única línea diagonal.
Diferentes métodos pueden conducir a diferentes resultados y su desempeño puede
variar. Por lo tanto, en la minería de datos es habitual aplicar varios métodos diferentes.
y seleccione el que le parezca más útil para el objetivo en cuestión.
1.7 Terminología y notación
Debido al carácter híbrido de la minería de datos, sus practicantes suelen utilizar múltiples
términos para referirse a la misma cosa. Por ejemplo, en el aprendizaje automático (artificial
inteligencia), la variable que se predice es la variable de salida o el objetivo
variable. Para un estadístico, es la variable dependiente o la respuesta. Aquí hay un
resumen de términos utilizados:
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
Algoritmo Un procedimiento específico utilizado para implementar un dato particular.

Técnica de minería: clasificación de árboles, análisis discriminante y similares.
Atributo Ver Predictor.
Caso Ver Observación.
Confianza Una medida de desempeño en reglas de asociación del tipo

“SI se compran y, ENTONCES también se compra”. Confianza
es la probabilidad condicional de que se compre SI y son
comprado.
10 INTRODUCCIÓN
Confianza También tiene un significado más amplio en estadística (intervalo de confianza),

relacionado con el grado de error en una estimación que resulta de seleccionar una muestra
en comparación con otra.
Variable dependiente Ver respuesta.

Estimación Ver Predicción.
Característica Ver Predictor.
Datos excluidos (o conjunto reservado) Una muestra de datos que no se utilizan para ajustar un
modelo, sino que se utilizan para evaluar el rendimiento de ese modelo. Este libro utiliza los
términos conjunto de validación y conjunto de prueba en lugar de conjunto de exclusión.
Variable de entrada Consulte Predictor.
Modelo Un algoritmo aplicado a un conjunto de datos, completo con su configuración (muchos

de los algoritmos tienen parámetros que el usuario puede ajustar).
Observación La unidad de análisis sobre la cual se toman las mediciones (un cliente, una
transacción, etc.); también llamado instancia, muestra, ejemplo, caso, registro, patrón o fila.
En las hojas de cálculo, cada fila suele representar un registro; cada columna, tiene variable.
Tenga en cuenta que el uso del término “muestra” aquí es diferente de su significado habitual
en estadística, donde se refiere a un conjunto de observaciones.
Variable de resultado Ver respuesta.
Variable de salida Ver respuesta.
( | ) La probabilidad condicional de que ocurra un evento dado que el evento ha ocurrido.

Leído como “la probabilidad de que ocurra dado que
ha ocurrido."
Perfil Conjunto de medidas de una observación (por ejemplo, la altura, el peso y la edad de
una persona).
Predicción La predicción del valor numérico de una variable de salida continua; También
llamado estimación.
Predictor Una variable, normalmente denotada por , utilizada como entrada en un modelo
predictivo. También se llama característica, variable de entrada, variable independiente o,
desde la perspectiva de una base de datos, campo.
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
Registro Ver Observación.
Respuesta Una variable, generalmente denotada por , que es la variable que se predice en el
aprendizaje supervisado; También se llama variable dependiente, variable de salida, variable
objetivo o variable de resultado.
Muestra En la comunidad estadística, “muestra” significa una colección de observaciones. En

la comunidad de aprendizaje automático, "muestra" significa una única observación.
MAPAS DE RUTA HACIA ESTE LIBRO 11
Puntuación Un valor o clase predicha. Puntuar nuevos datos significa utilizar un modelo desarrollado
con datos de entrenamiento para predecir valores de salida en nuevos datos.
Clase de éxito La clase de interés en un resultado binario (por ejemplo, compras en el resultado
compra/no compra).
Aprendizaje supervisado El proceso de proporcionar a un algoritmo (regresión logística, árbol de

regresión, etc.) registros en los que se conoce una variable de salida de interés y el algoritmo
“aprende” cómo predecir este valor con nuevos registros donde la salida es desconocida.
Objetivo Ver respuesta.
Datos de prueba (o conjunto de pruebas) La porción de los datos que se utiliza solo al final del
proceso de construcción y selección del modelo para evaluar qué tan bien podría funcionar el modelo
final con nuevos datos.
Datos de entrenamiento (o conjunto de entrenamiento) La porción de datos utilizados para ajustar un

modelo.
Aprendizaje no supervisado Un análisis en el que se intenta aprender patrones en los datos además
de predecir un valor de salida de interés.
Datos de validación (o conjunto de validación) La porción de los datos utilizados para evaluar qué
tan bien se ajusta el modelo, ajustar los modelos y seleccionar el mejor modelo entre los que se han
probado.
Variable Cualquier medición en los registros, incluidas las variables de entrada ( ) y la variable de
salida ( ).
1.8 Hojas de ruta para este libro
El libro cubre muchos de los métodos de clasificación y predicción más utilizados, así como otras
herramientas de extracción de datos. La Figura 1.2 describe la minería de datos desde una perspectiva
de proceso y dónde encajan los temas de este libro. Los números de los capítulos se indican al lado del
tema. La Tabla 1.1 proporciona una perspectiva diferente: organiza los procedimientos de minería de
datos según el tipo y estructura de los datos.
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
Orden de temas
El libro está dividido en cinco partes: La Parte I (Capítulos 12) ofrece una descripción general de la
minería de datos y sus componentes. La Parte II (Capítulos 3 a 4) se centra en las primeras etapas de la
exploración de datos y la reducción de dimensiones.
12 INTRODUCCIÓN
FIGURA 1.2 MINERÍA DE DATOS DESDE UNA PERSPECTIVA DE PROCESO. NÚMEROS EN
LOS PARÉNTESIS INDICAN LOS NÚMEROS DE LOS CAPÍTULOS
TABLA 1.1 ORGANIZACIÓN DE LOS MÉTODOS DE MINERÍA DE DATOS EN ESTE LIBRO,

SEGÚN LA NATURALEZA DE LOS DATOS
supervisado sin supervisión
Continuo Categórico
Respuesta Respuesta Ninguna respuesta
Continuo Regresión lineal (6) Regresión logística (10) Componentes principales (4)
Predictores Redes neuronales (11) Redes neuronales (11) Análisis de conglomerados (15)
Vecinos más cercanos Análisis discriminante (12) Filtrado colaborativo (14)

(7)
Conjuntos (13) Vecinos más cercanos (7)
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
Conjuntos (13)
Categórico Regresión lineal (6) Redes neuronales (11) Reglas de asociación (14)
Predictores Redes neuronales (11) Clasificación de árboles (9) Filtrado colaborativo (14)
Árboles de regresión (9) Regresión logística (10)
Conjuntos (13) Bayes ingenuo (8)
Conjuntos (13)
Nota: Los números entre paréntesis indican el número del capítulo.
MAPAS DE RUTA HACIA ESTE LIBRO 13
La Parte III (Capítulo 5) analiza la evaluación del desempeño. Aunque contiene sólo un capítulo,
analizamos una variedad de temas, desde métricas de desempeño predictivas hasta costos de clasificación
errónea. Los principios tratados en esta parte
son cruciales para la evaluación y comparación adecuadas del aprendizaje supervisado
métodos.
La Parte IV incluye ocho capítulos (Capítulos 6 a 13), que cubren una variedad de métodos populares
de aprendizaje supervisado (para clasificación y/o predicción). Dentro
En esta parte, los temas generalmente se organizan según el nivel de sofisticación de los algoritmos, su
popularidad y facilidad de comprensión. El final
El capítulo presenta conjuntos y combinaciones de métodos.
La Parte V se centra en la explotación de relaciones sin supervisión. Presenta asociación
reglas y filtrado colaborativo (Capítulo 14) y análisis de conglomerados (Capítulo 15).
La Parte VI incluye tres capítulos (Capítulos 16 a 18), centrados en la predicción de series temporales.
El primer capítulo cubre cuestiones generales relacionadas con el manejo y
comprensión de series temporales. Los dos capítulos siguientes presentan dos enfoques populares de
pronóstico: pronóstico basado en regresión y métodos de suavizado.
La Parte VII (Capítulos 19 y 20) presenta dos temas amplios de análisis de datos: redes sociales
Análisis de redes y minería de textos. Estos métodos aplican la minería de datos a estructuras de datos
especializadas: redes sociales y texto.
Finalmente, la Parte VIII incluye un conjunto de casos.

Aunque los temas del libro se pueden cubrir en el orden de los capítulos,
cada capítulo es independiente. Recomendamos, sin embargo, que se lean las Partes I a III antes
pasando a los capítulos de las Partes IV a V. De manera similar, el Capítulo 16 debe preceder
otros capítulos de la Parte VI.
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
14 INTRODUCCIÓN
USO DEL SOFTWARE XLMINER
Para facilitar la experiencia práctica en minería de datos, este libro incluye acceso a XLMiner, un
completo complemento de minería de datos para Excel. Para quienes están familiarizados con Excel,
el uso de un complemento de Excel acorta drásticamente la curva de aprendizaje del software.
XLMiner lo ayudará a comenzar rápidamente con la minería de datos y ofrece una variedad de
métodos para analizar datos. Las ilustraciones, ejercicios y casos de este libro están escritos en
relación con este software. XLMiner tiene una amplia cobertura de técnicas estadísticas y de minería
de datos para clasificación, predicción, asociaciones de minería y texto, pronóstico y exploración y
reducción de datos. Ofrece una variedad de herramientas de minería de datos supervisadas: redes
neuronales, árboles de clasificación y regresión, clasificación del vecino más cercano, Bayes ingenuo,
regresión logística, regresión lineal y análisis discriminante, todo para modelado predictivo. Proporciona
la partición automática de datos en muestras de entrenamiento, validación y prueba y la implementación
del modelo en nuevos datos. También ofrece algoritmos no supervisados: reglas de asociación,
análisis de componentes principales, agrupamiento de medios y agrupamiento jerárquico, así como
herramientas de visualización y utilidades de manejo de datos. Con su curva de aprendizaje corta,
precio asequible y dependencia de la conocida plataforma Excel, es el complemento ideal de un libro
sobre minería de datos para estudiantes de negocios.
Descargar Para descargar el programa de instalación XLMiner, visite www.solver.com/xlminerdata

mining y sigue las instrucciones allí.
Instalación Cierre todas las ventanas de Excel y luego ejecute el programa de instalación XLMiner.
Los cuadros de diálogo lo guiarán a través del procedimiento de instalación. El cuadro de diálogo
final le ofrece la opción de iniciar Excel y abrir un libro de "Introducción".
También encontrará opciones de XLMiner en Inicio > Todos los programas > Frontline Systems.
Use XLMiner se carga cuando inicia Excel y aparece como una cinta de Excel, como se muestra
en la Figura 1.3. Al elegir el elemento de menú apropiado, puede ejecutar cualquiera de los
procedimientos de XLMiner en el conjunto de datos que está abierto en su hoja de cálculo de Excel.
.sood.d rneopsn1hrd
ys6 oW
oie
lcse 0n©
oC
R
S
&
2JtIl
d
FIGURA 1.3 PANTALLA XLMINER

Data Mining For Business Analytics Ch1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Data Mining For Business Analytics Ch1

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

1.1 ¿Qué es el análisis empresarial?

La analítica empresarial (BA) es la práctica y el arte de incorporar datos cuantitativos a la

El análisis empresarial, o más genéricamente, el análisis, incluye una variedad de

se entiende por análisis.

¿QUIÉN UTILIZA ANÁLISIS PREDICTIVOS?

El conjunto de herramientas de análisis de negocios también incluye experimentos estadísticos, el más

MINERÍA DE DATOS Y TÉRMINOS RELACIONADOS 5

Vivía lejos de una tienda Staples.

1.2 ¿Qué es la minería de datos?

1.3 Minería de datos y términos relacionados

El campo de la analítica está creciendo rápidamente, tanto en términos de la amplitud de aplicaciones

El término minería de datos en sí significa cosas diferentes para diferentes personas.

Por último, muchos profesionales, en particular aquellos de las comunidades de TI y ciencias

1.4 Grandes datos

probabilidades de irse y luego centrar la atención en ellos.

• Allstate, la compañía de seguros, triplicó la precisión de predecir la responsabilidad por

1.5 Ciencia de datos

1.6 ¿Por qué existen tantos métodos diferentes?

1.7 Terminología y notación

Algoritmo Un procedimiento específico utilizado para implementar un dato particular.

Caso Ver Observación.

Confianza Una medida de desempeño en reglas de asociación del tipo

Confianza También tiene un significado más amplio en estadística (intervalo de confianza),

Variable dependiente Ver respuesta.

Característica Ver Predictor.

Variable de entrada Consulte Predictor.

Modelo Un algoritmo aplicado a un conjunto de datos, completo con su configuración (muchos

Variable de resultado Ver respuesta.

Variable de salida Ver respuesta.

( | ) La probabilidad condicional de que ocurra un evento dado que el evento ha ocurrido.

Registro Ver Observación.

Muestra En la comunidad estadística, “muestra” significa una colección de observaciones. En

MAPAS DE RUTA HACIA ESTE LIBRO 11

Aprendizaje supervisado El proceso de proporcionar a un algoritmo (regresión logística, árbol de

Objetivo Ver respuesta.

Datos de entrenamiento (o conjunto de entrenamiento) La porción de datos utilizados para ajustar un

1.8 Hojas de ruta para este libro

FIGURA 1.2 MINERÍA DE DATOS DESDE UNA PERSPECTIVA DE PROCESO. NÚMEROS EN

LOS PARÉNTESIS INDICAN LOS NÚMEROS DE LOS CAPÍTULOS

TABLA 1.1 ORGANIZACIÓN DE LOS MÉTODOS DE MINERÍA DE DATOS EN ESTE LIBRO,

supervisado sin supervisión

­Vecinos más cercanos Análisis discriminante (12) Filtrado colaborativo (14)

Nota: Los números entre paréntesis indican el número del capítulo.

MAPAS DE RUTA HACIA ESTE LIBRO 13

Finalmente, la Parte VIII incluye un conjunto de casos.

USO DEL SOFTWARE XLMINER

Descargar Para descargar el programa de instalación XLMiner, visite www.solver.com/xlminer­data­

FIGURA 1.3 PANTALLA XLMINER

También podría gustarte

Vecinos más cercanos Análisis discriminante (12) Filtrado colaborativo (14)

Descargar Para descargar el programa de instalación XLMiner, visite www.solver.com/xlminerdata