Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sesión 1
INTRODUCCIÓN ........................................................................................................................................................ 3
CRISP-DM FASE 1: COMPRENSIÓN EMPRESARIAL ..................................................................................................... 4
DOMINIO I ESTRUCTURA DE PROBLEMAS DE NEGOCIO ............................................................................................................. 4
DOMINIO II. ESTRUCTURA DE LOS PROBLEMAS DE ANÁLISIS....................................................................................................... 5
CRISP-DM FASE 2 Y 3: COMPRENSIÓN Y PREPARACIÓN DE DATOS ........................................................................... 8
DOMINIO III DATOS .......................................................................................................................................................... 8
CRIPS-DM FASE 4: MODELADO ............................................................................................................................... 12
DOMINIO IV SELECCIÓN DE LA METODOLOGÍA (ENFOQUE) ..................................................................................................... 12
BIBLIOGRAFÍA ......................................................................................................................................................... 16
El uso popular del término es con frecuentemente combinado con otros términos usados como “Big Data”,
“Data Science”, “Machine Learning”, “Artificial Intelligence”, and “Cognitive Computing”. Robert Rose
identifica tres principales usos para el término “Analytics”:
Cinco Principios
Los riesgos potenciales del uso de analytics varia ampliamente en función de la aplicación para la que se
use. Todo profesional de la analítica debe ser consciente de los problemas que ocurren y debe considerar
las consecuencias sociales en su trabajo, Diakopoulos y Friedler propusieron cinco principios que pueden
guiar la responsabilidad en la aplicación de la analítica:
1. Responsabilidad
2. Explicable
3. Precisión
4. Auditable
5. Equidad
Este taller explica los diferentes dominios y sus pesos en la certificación CAP® (Certified Analytics
Professional) y más abajo, Podemos encontrar la tabla sobre cada uno de ellos y los pesos que le
corresponden.
Por otro lado, este talle muestra las similitudes entre la metodología CRISP-DM y JTA, como se muestra a
continuación:
CRISP-DM JTA
Domain 1 Business Problem Framing
Phase 1: Business Understanding
Domain 2 Analytics Problem Framing
Phase 2: Data Understanding
Domain 3 Data
Phase 3: Data Preparation
Domain 4 Methodology (Approach) Selection
Phase 4: Modelling
Domain 5 Model Building
Phase 5: Evaluation Domain 6 Deployment (T-1 and T-2)
Domain 6 Deployment
Phase 6: Deployment
Domain 7 Model Life Cycle Management
El conjunto de estas tareas establece un excelente conjunto a seguir. Una vez completados estos pasos,
tendremos una declaración de problema empresarial claramente definido y documentado.
Una manera popular de enmarcar una oportunidad o un problema de negocio es obtener información de
confianza sobre las cinco W:
• Who (Quiénes): son los stakeholders quien satisfacen una o más de las siguientes condiciones con
respecto al proyecto: financiamiento, uso, creación o afectados por el resultado del proyecto.
• What (Qué): problema o función está destinado a resolver o realizar el proyecto?
• Where (Dónde): ocurre el problema? ¿O dónde debe realizarse la función? ¿Están articuladas las
características físicas y espaciales?
• When (Cuándo): ocurre el problema o es necesario realizar una función? ¿Cuándo debe
completarse el proyecto?
• Why (Por qué): ocurre el problema o es necesario que se produzca la función?
• Los intereses de todas los stakeholders que pueden verse afectadas por el proyecto, junto con sus
limitaciones.
• Problemas potenciales que podrían interrumpir el proyecto.
• Personas clave para la distribución de información durante la fase de ejecución.
• Grupos a los que se debe animar a participar en las diferentes etapas del proyecto.
• Planificación de la comunicación y estrategias de gestión de grupos de interés durante la fase de
planificación del proyecto.
• Formas de reducir los posibles impactos negativos y gestionar las partes interesadas negativas.
Este es también un momento para que el profesional de análisis proceda con mucho cuidado. Los beneficios
de negocio planeados o esperados deben ser razonables, considerando todos los factores ya discutidos en
fases anteriores. Estos incluyen la disponibilidad y calidad de los datos requeridos para el proyecto, así
como el tiempo y los recursos que la organización tiene que dedicar al proyecto.
A continuación, vamos a ver información sobre el diálogo entre los empresarios que tienen un problema
que necesitan resolver y los analistas que les darán la información necesaria para resolver el problema. Este
diálogo está mediado por el profesional de análisis en quien ambas partes confían porque tiene el
conocimiento de cada lado. Al igual que con cualquier esfuerzo de traducción entre dos grupos diferentes,
gran parte de lo que sigue son preceptos simples para mantener el sentido del problema empresarial
mientras lo descompone en piezas analíticas procesables.
La redacción del documento de Estructura de los problemas de análisis no se puede completar sin
completar las tareas que incluyen lo siguiente:
• Pensar y enumerar, si es posible, los factores clave o conjuntos de relaciones en los datos que
permitirán que el modelo alcance una solución aceptable.
• Enumerar los supuestos que se necesitan en la actividad de modelado.
• Definición de métricas de éxito.
El primer paso es decodificar el enunciado del problema de negocio para llegar al problema de análisis. Hay
muchas formas de hacer esto, algunas más formales que otras. En términos simples, está traduciendo el
"qué" del problema empresarial en el "cómo" del problema analítico.
El modelo más conocido en esta área es el modelo de requisitos de Kano (Figura 1). Distingue entre cambios
inesperados del cliente, requisitos conocidos del cliente y elementos imprescindibles del cliente que no se
declaran explícitamente.
T-2 Desarrollar un conjunto propuesto de factores clave y las relaciones con los productos.
Esta tarea se centra en la estructura del modelo que proponemos para construir. Un aspecto fundamental
de todo modelado es la noción de organización lógica y presentación de las cosas que sabemos (las
entradas) que utiliza un modelo analítico para obtener las cosas que queremos saber y el final (las salidas).
Una gran parte del proceso de modelado es ordenar a través de todos los datos y descubrir los factores
clave y las relaciones importantes que van a ser explotados de manera que el modelo que construimos
producirá la salida requerida.
Una vez que tengamos los inputs y una idea general de los efectos previstos, se podrá elegir cómo
comunicarlos al equipo en general. Una tabla simple (Figura 2) es un enfoque de este proceso, donde se
muestra que la forma de desarrollarlo no es tan importante como el desarrollarlo de una manera que la
gente que está trabajando en ello lo entienda correctamente.
Incluso estos simples ejemplos ayudan a ilustrar el concepto. La idea aquí es hacer visibles los inputs y
empezar a llegar a un acuerdo entre el equipo de dirección y la magnitud de las relaciones con el problema
y crear las hipótesis relacionadas que utilizará más adelante para atacar a los datos.
Encontramos que el detalle en la JTA para el dominio de datos proporciona una comprensión más profunda
de las dos fases de CRISP-DM de comprensión y preparación de datos.
Antes de explorar los datos, será útil una revisión de los distintos tipos de datos. La Figura 3 muestra una
jerarquía útil para describir estos:
Data
Cualitativo Cuantitativo
Binario
La Figura 4 muestra el flujo de datos a través del proceso y las actividades importantes llevadas a cabo en
cada etapa:
Independientemente del área de especialización o interés de uno, es cierto que la mayoría de los
estudiantes y profesionales de la analítica dedican la mayor parte del esfuerzo y la energía que se dedica a
la formación al aprendizaje de métodos y algoritmos analíticos. Una revisión de un plan de estudios típico
de análisis de negocios pone de manifiesto un claro enfoque en las herramientas y técnicas necesarias, a
menudo en un contexto específico, como el marketing o las operaciones, para ser un análisis exitoso
practicante.
Por lo tanto, a menudo es una sorpresa para las personas que se inician en el campo descubrir que, en la
mayoría de los proyectos de análisis, la mayor parte del tiempo no se dedica a utilizar los algoritmos
recientemente dominados con tanto esfuerzo y determinación. Más bien, es mucho de un profesional de
la analítica pasar la mayor parte de su tiempo jugando con datos. Veremos a continuación una visión general
sobre algunos de los desafíos en la identificación, recopilación y preparación de datos para el análisis.
Una vez que identificamos las variables sobre las que se deben recopilar los datos, el siguiente paso es
recopilar esos datos. La recopilación de datos es equivalente a formular a ciertos sujetos determinadas
preguntas cerradas en determinadas circunstancias. Por lo tanto, hay cinco pasos involucrados en la
recopilación de datos:
8.
1. 2. 3. 4. 5. 6. 7. 9. 10.
Formato
Integridad Corrección Coherencia Actualidad Colaborativo Confidencial Claridad Conveniente Rentable
común
¿Los datos
¿Los datos ¿Se
¿Están proporcio ¿Son los ¿El coste
¿Los datos ¿Los datos están en acceder a
completos ¿Son los nados son ¿Están los datos es
están se basan un los datos
todos los datos coherente datos a legibles y proporcio
obsoletos en un formato de forma
campos de precisos? s con la salvo? comprensi nal a su
? consenso? de fácil cómoda y
los datos? definición bles? valor?
uso? rápida?
?
1. Filtrado
2. Completar los datos faltantes
3. Reducir el número de dimensiones en los datos
4. Extracción de características
5. Recopilación y resumen de datos
6. Agregar nueva información a los datos
7. Segmentar los datos para encontrar agrupaciones naturales
8. Determinar qué variables son importantes
9. Clasificación de datos en grupos existentes
T-5 Documentar e informar los hallazgos (por ejemplo, conocimientos, resultados, desempeño
comercial)
El trabajo de datos que se ha descrito, la adquisición, la limpieza y la exploración de datos representan una
gran cantidad de trabajo, y es una buena práctica anotar todo lo que ocurrió al realizar esas tareas y
comunicar esos hallazgos a la comunidad de las partes interesadas.
Metodologías prescriptivas
Un modelo prescriptivo ofrece soluciones que brindan respuestas cuantificables específicas que se pueden
implementar para resolver un problema. Por ejemplo, un modelo de programación lineal.
Un modelo prescriptivo responde a la pregunta "¿Cuál es la mejor acción o resultado?". El factor clave aquí
es proporcionar nuevas formas de mejorar ciertos tipos de desempeño. Algunas técnicas prescriptivas son:
Linear programming
Integer programming
Nonlinear programming
Optimization Mixed integer programming
Network optimization
Dynamic programming
Metaheuristics
Simulation-Optimization
Stochastic Optimization
Clustering
Discrete event
Agent-based modeling
Game Theory
Hypothesis testing
Statistical Regression Linear
Inferences
Analysis of variance
Step-wise
Design of experiments
Metodologías Descriptivas
Las metodologías descriptivas son una colección de modelos que ayudan a describir la situación del
problema para su posterior análisis. Se transmiten a través de histogramas, diagramas de dispersión, etc.,
presentaciones numéricas como media, mediana, moda, varianza, desviaciones estándar. Responden a la
pregunta "¿Qué pasó?". El factor clave aquí es el uso de datos históricos. Lustig et al. propuso una
clasificación de la analítica descriptiva en tres áreas:
Informes y paneles estándar
Analítica Descriptiva Presentación de informes ad hoc
Análisis / consulta / desglose
Existen innumerables metodologías entre las que un modelador puede elegir para resolver un problema. A
continuación, se muestran algunos tipos de metodologías de análisis que se utilizan comúnmente:
Agent-based A system modeled (simulated) as a collection of autonomous decision-making entities called agents
modeling (ABM) that are used to discover emergent behavior that is hard to predict without simulating it.
System dynamics
A simulation approach used to understanding the interactions of a complex system over time.
(SD)
Game theory Study of strategic decision-making processes through competition and collaboration.
The likelihood of a particular event occurring expressed as a percentage to make decisions under
Probabilities chosen risk or tolerance. Bayesian and conditional probabilities are widely used in analytics.
IRR (internal rate of return)–discounted rate used in
capital budgeting to compare returns on investment
opportunities
NPV (net present value)–difference between present
value of incomeversus outgo
Evaluation often used to guide the optimal FV (future value)–value of a future event or item based
Economic analysis allocation of scarce resources: on current value that is adjusted by some standard
amount, i.e., expected inflation
Forecasting
Artificial neural networks
Artificial intelligence Fuzzy logic
Expert systems
Decision trees Linear programming
Integer programming
Mixed integer programming
Combinatorial optimization
Optimization Nonlinear programming
Constraint programming
Markov chain Response surface methodology (RSM)
Metaheuristics
Revenue
management (yield Greedy heuristics
management)
Para ayudar en el proceso de prueba, es recomendable dividir los datos en tres partes:
• Construcción: es la parte de los datos que se utiliza para estimar los parámetros necesarios, como
pendientes, en caso de regresión.
• Prueba: es la parte de los datos que se usa para probar el modelo y verificar que se ha modelado
como fue diseñado.
• Validación: es la parte de los datos que se usa para probar que el modelo se comporta de manera
cercana al comportamiento que ha sido modelando.
Taber, A., Samaddar, S., Bordley, R., Musa, R., Smith, M., Stein, F., Truxillo, C., Waltz, Z. (2014).
INFORMSCERTIFIED ANALYTICS PROFESSIONAL (CAP®). Examination Study Guide. Informs.