Documentos de Académico
Documentos de Profesional
Documentos de Cultura
💻 Data Scientist
➔ Parte 2:
◆ Hands on! -> Presentación y desarrollo de un caso práctico
➔ Parte final:
◆ ¿Por dónde seguir?
3 CONTEXTO
¿QUÉ ES LA CIENCIA DE DATOS?
3 CONTEXTO
¿QUÉ ES LA CIENCIA DE DATOS?
https://www.menti.com/alftz24hvhaf
4 CONTEXTO
¿QUÉ ES LA CIENCIA DE DATOS?
Procesamiento de
lenguaje natural
Chatbots Detección de
Asesores Reconocimiento
Facial, Voz, Huellas enfermedades
de
Cáncer basada en
compras
imágenes -
Predicción de epidemias
6 CONTEXTO
STACK TECNOLÓGICO
(*) MUST
PARTE 1
8 PRIMERO, LO PRIMERO
★ Simple ≠ Fácil
★ Para cada tema, van a tener artículos/libros para profundizar en el ícono +INFO
9 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
● Es un proceso iterativo
● Cada etapa nos da insights para la
siguiente
● No son todos los proyectos iguales
● Dependiendo de nuestro rol, algunos
pasos pueden recaer sobre nosotres
más que otros
10 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
1. Definición del problema
El primer paso en un proyecto de ciencia de datos es el entendimiento del negocio o del contexto
en el cuál vamos a trabajar. Conocer las motivaciones y expectativas detrás del proyecto marcará el
norte a seguir por nosotres.
Ejemplo
Objetivo : Determinar causas de
deserción en escuelas secundarias
Población -> Estudiantes de escuelas
secundarias
Muestra -> 2000 Estudiantes de
escuelas secundarias
+INFO
Supervised vs
Unsupervised Learning
14 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
1. Definición del problema
Una vez definida la muestra y el tipo de problema a resolver, se arma una primera versión del
dataset a utilizar como input de todo el proceso de modelado.
Esta etapa marca nuestro primer contacto con los datos. Incluye en general:
En esta etapa buscamos tener insights sobre la calidad de los datos en general y sobre cada
variable, en particular (missing values, outliers, invarianza, variables altamente correlacionadas,
variables explicativas).
16 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos
● Sanity Check
Los chequeos básicos para asegurar una mínima calidad en los datos con los que vamos a trabajar
son:
● Sanity Check
Ejemplo:
-5
18 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos
● Sanity Check
Ejemplo:
tipo de
dato
duplicados incorrecto
-5
Inconsistencia Missing
values
19 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos
● Univariados
Con apoyo de la estadística descriptiva, se busca tener una idea general sobre la distribución de
los datos.
La estadística descriptiva es el conjunto de métodos estadísticos que nos ayudan a describir y/o
caracterizar un conjunto de datos.
La distribución de una variable, por otro lados, nos da información importante sobre qué valores
puede tomar y con qué frecuencia lo hace.
20 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos
● Univariados
+INFO
● Univariados
● Univariados
● Univariados
C 20 Mediana = 13 13 13 13 | 15 | 20 20 30 30 = 15 paquetes
D 13 Moda = Valor más frecuente = 13 paquetes
E 20 Desvío estándar = Dispersión de los datos en torno a la media= √[ (13-15,8)^2
F 13 +(13-15,8)^2+(13-15,8)^2+(13-15,8)^2+(15-15,8)^2+(20-15,8)^2+(20-15,8)^2+(30-15,8)^2
+(30-15,8)^2] / 9-1 = 7,09 paquetes
G 13
● Univariados
● Bivariados
Este tipo de análisis se aplica solo en problemas supervisados, en lo cuales conocemos el target o
variable dependiente/a predecir.
Dependiendo del modelo que vayamos a utilizar, algunas técnicas/tests nos van a resultar más
útiles que otras para detectar cuáles variables están más correlacionadas con el target:
● Bivariados
Una de las medidas más populares en los análisis bivariados es el coeficiente de correlación.
Correlación: dos variables están correlacionadas cuando varían de igual forma sistemáticamente.
Correlación Positiva:
● Bivariados
CORRELACIÓN ≠
CAUSALIDAD
https://www.tylervigen.com/spurious-correlations
27 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos
● Visualizaciones
+INFO
https://python-graph-gallery.com/
28 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
3. Ingeniería de variables o pre-procesamiento
Cómo primer paso, antes de avanzar con el entrenamiento del (o los) algoritmo elegido, se debe
dividir la muestra en train-test.
● Regresión
Si nos interesa predecir una variable cuantitativa y continua (ingresos, precios, stock, por ejemplo),
estamos ante un problema de regresión. A su vez, dentro de este tipo de algoritmos, el más
popular, es la regresión lineal.
● Clasificación
no
aprueba
(*) Ajuste por
hs estudio hs estudio Maximum Likelihood
36 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado
● Clasificación
Árboles de
Ingreso
decisión
<50k >50k
NO edad
<45 >45
SI NO
37 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado
● Clasificación
● Clustering
El objetivo de un análisis de cluster es encontrar grupos con características similares. En este caso
no existe un valor o categoría a predecir sino que se trata de encontrar un patrón o estructura en los
datos. El más conocido es K-Means.
+INFO
Dado Ŷ = f(X),
donde Ŷ es nuestra estimación de Y; y f y X son el modelo y
las variables que usamos para realizar dicha estimación
PREDICCIÓN INFERENCIA
40 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado
Otras:
- R2 y R2 ajustado
44 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados
Accuracy
Sensitividad
Otra métrica muy utilizada en problemas de clasificación es la Curva ROC. La curva ROC
(receiver operating characteristics) es un gráfico popular para mostrar simultáneamente los dos
tipos de errores para todos los umbrales posibles.
48 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados
PARTE 1
49 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
6. Puesta en producción y monitoreo de los modelos
Una vez que finalizamos la etapa de modelado y estamos de conformes con los resultados
obtenidos, tenemos definir dónde vamos a “guardar” el modelo y cómo lo vamos a “consumir” en el
futuro.
¡AHORA, SI!
PARTE 1
PARTE 2
50 CASO PRÁCTICO
Una organización que tiene una alta tasa de churn (abandono) nos contrata como consultores para
que desarrollemos un modelo que prediga la probabilidad de que un cliente/beneficiario deje de
serlo (pierda el vínculo con la organización).
EXIT
52 CASO PRÁCTICO
Entorno de trabajo
Vamos a trabajar usando Google Colab, Python y GitHub. Toda la información que necesitamos, la
vamos a encontrar en:
https://colab.research.google.com/drive/1skA-G-sc2uJBnn1P83sCLZfcrxOZYh7T?usp=sharing
53 BONUS TRACK
● Links útiles
- Comunidad MeT
- Cassie Kozyrkov
- DataGénero - Observatorio
- Instituto Humai (YouTube)
- StatQuest (YouTube)
- An Introduction to Statistical Learning (libro)
● Ética
Hoy en día los algoritmos están interviniendo cada vez más en los procesos de toma de
decisiones de las organizaciones (privadas, públicas, etc) y en nuestra vida en general. Como
profesionales de estos ámbitos, es importante que cuestionemos y auditemos el uso que se le
está dando a los datos a los que tenemos acceso, la construcción de los algoritmos, la
representación de los distintos grupos demográficos (sobre todo de minorías) si utilizamos
datos de personas, entre otros. Recomendación: Sesgos en los algoritmos (Charla)
54 BONUS TRACK
● Teoría vs Práctica
Es muy difícil que siempre trabajemos en problemas que fluyan sin ningún tipo de stoppers y para el
cual encontremos el modelo perfecto en el primer intento.
Es importante que asumamos eso desde el comienzo, que seamos pacientes y metódicxs.
¡MUCHAS GRACIAS!