Está en la página 1de 32

Facultad de Ingeniería

Ciclo de vida del


análisis de datos
Semana - 2
Facultad de Ingeniería

Proyecto de análisis de
datos
1. ¿Qué pasos debería tener un
proyecto de Análisis de Datos?
2. ¿Qué metodología se puede
seguir para dicho proyecto?
3. ¿Qué tipo de planificación
debe hacerse en este tipo de
proyectos?
4. Específicamente ¿Una
iniciativa de Data Science
debería de abordarse como
un proyecto o como una
iniciativa de investigación y
http://www.datascience-pm.com/managing- desarrollo (R&D)?
data-science-as-a-research-effort/
2
Facultad de Ingeniería

Valor del ciclo de


análisis de datos
• Crea una segmentación del tiempo.
• Asegura rigor y completitud.
• Permite una interacción entre el
equipo mutlidisciplinario que
garantice:
• Ser repetible
• Escalable para mayor análisis
• Soporta la validez de lo encontrado

“Una caminata de mil millas empieza con


un primer paso” – Lao Tzu
3
• Becker (2017) based on clustering survey commentaries of 19 industry experts
• Capgemini (2014) based on a survey of 226 respondents
Facultad de Ingeniería

Roles del proyecto

4
Facultad de Ingeniería

Fases del ciclo de vida


• Cada una de las fases del
ciclo de vida del proyecto
de análisis de datos (la
mayoría) permite que
podamos retornar, de ser
necesario, a una fase
anterior.
• Esto debido a que puede
encontrarse que es
necesario cambiar los
datos o aplicar un
procesamiento diferente.
Investigar y comparar este proceso
contra CRISP-DSM y Team Data
Science Process
5
Facultad de Ingeniería

6
Facultad de Ingeniería

Descubrimiento
Data Analystics Lifecycle
Phase 1 Discovery

La primera fase del descubrimiento es conceptual y contextual, dado que es


importante familiarizarse con el problema y entender el contexto del negocio.
7
Facultad de Ingeniería

Descubrimiento
Data Analystics Lifecycle
Phase 1 Discovery

Es sumamente importante también realizar un análisis de los recursos que se


tienen para el proyecto, planificar el tiempo necesario y validar si dicho proyecto
es viable con los requerimientos actuales.
8
Facultad de Ingeniería

Descubrimiento
Data Analystics Lifecycle
Phase 1 Discovery

• También es
importante que
se defina la
problemática con
los interesados,
articular en
específico los
puntos críticos
del proyecto y los
objetivos que se
desean cumplir,
así como también
resultados
medibles para
cada uno de
estos.

9
Facultad de Ingeniería

Descubrimiento

• El rol, sobre todo para el Data Scientist, conlleva mucha interacción con el
cliente y sus expectativas, esto es crucial ya que entre más logre entender
los resultados que el negocio espera, sabrá si va o no por buen camino.
10
Facultad de Ingeniería

Descubrimiento
Data Analystics Lifecycle
Phase 1 Discovery Por último, dado
que se hace
mucha prueba y
error, es
importante
formular hipótesis
y preguntas que
se desean
responder, ya que
una vez se
obtengan
resultados se
puede comprobar
si la hipótesis era
válida o no.

12
Descubrimiento
Data Analystics Lifecycle
Phase 1 Discovery
Facultad de Ingeniería

Preparación de data
Data Analystics Lifecycle (Continued)
Phase 2: Preparation Esta es una de
las fases que
consume la
mayor cantidad
del tiempo (o la
que más
consume) dado
que aquí se debe
acomodar la
información para
su análisis y los
procesos,
herramientas y
recursos para
realizar el
procesamiento
de la
información.

13
Facultad de Ingeniería

Preparación de data
Data Analystics Lifecycle (Continued)
Phase 2: Preparation
• Esta parte es
sumamente
importante, ya
que si no se
cuenta con una
buena calidad de
la información, es
prácticamente
imposible
continuar con las
siguientes fases.

14
Facultad de Ingeniería

15
Facultad de Ingeniería

Planificación del modelo


Data Analystics Lifecycle
Phase 3: Modeling Planning

En esta parte
es importante
entender qué
modelos son
los que se
adaptan mejor
a la calidad de
la información.

16
Facultad de Ingeniería

Planificación del modelo


Data Analystics Lifecycle
Phase 3: Modeling Planning
La selección de
variables es
esencial para
poder evaluar
la hipótesis
planteada
originalmente,
para ello será
necesario
repetir mucho
de lo visto en la
fase 1, siempre
manejando un
alto nivel de
escepticismo.

17
Facultad de Ingeniería

Planificación del modelo


Ejemplos de modelos en diferentes giros del negocio

18
Facultad de Ingeniería

Construcción del modelo


Data Analystics Lifecycle
Phase 4: Model Building
Al construir el
modelo
seleccionado en la
fase anterior, será
necesario que este
se evalué
constantemente
en contra de sets
de datos para
validación y
prueba, lo que
llevará a regresar
a la fase anterior y
volver a construir
y viceversa.

19
Facultad de Ingeniería

Construcción del modelo


• Construir el modelo
y validarlo es,
aunque pareciera
fases separadas,
parte de lo mismo,
ya que
constantemente las
validaciones pueden
llevar a seleccionar
ajustes.
• Esto se hace en
función del nivel de
error detectado al
validar el modelo en
contra del set de
datos de prueba.

20
Facultad de Ingeniería

Construcción del modelo


• Para lograr responder
a la pregunta de que
tan robusto es el
modelo será necesario
medir su nivel de
exactitud
• Al alcanzar un alto
grado de exactitud, o
al menos uno
aceptable, podemos
continuar a la
siguiente fase

20
Facultad de Ingeniería

Comunicar los resultados


Data Analystics Lifecycle
Phase 5: Communicate Results
Comunicar el
resultado es
delicado porque
debe hacerse
comunicando
también los
posibles defectos
del modelo,
errores
encontrados y
márgenes de
confianza,
entregando a los
patrocinadores e
interesados toda la
imagen.

21
Facultad de Ingeniería

Comunicar los resultados

22
Facultad de Ingeniería

Poner en marcha
Data Analystics Lifecycle
Phase 6: Operationalize

La última fase
consiste en poner
en marcha el
modelo,
empezando por
un piloto y luego
evaluar los
resultados que
este ha dado,
manteniendo un
monitoreo sobre
la exactitud del
mismo a lo largo
del tiempo.

23
Facultad de Ingeniería

Ejemplo – Banco ABC


El Banco ABC necesita encontrar que está causando la pérdida de
clientes. ¿Qué corresponde hacer en cada fase?

Componentes del plan Tareas de la fase Entregable


Fase 1 ? ?

Fase 2 ? ?

Fase 3 ? ?

Fase 4 ? ?

Fase 5 ? ?

Fase 6 ? ?

24
Facultad de Ingeniería

27
Facultad de Ingeniería

Los 4 entregables que la mayoría de


interesados necesita
1. Presentación para los patrocinadores
a. La “imagen general” de lo que está pasando, para los
altos ejecutivos
b. Centrarse en las métricas (sobre todo financieras)
que permitan mejorar el proceso de toma de
decisiones
c. Elegir gráficas sencillas que permitan explicar
fácilmente lo que sucede
1. Presentación para los analistas
a. Cambios en el proceso de negocio
b. Cambios en los reportes
c. Información técnica de histogramas, curvas ROC, etc.
2. Código para los técnicos
3. Especificaciones técnicas para implementación
28

También podría gustarte