Está en la página 1de 62

1 PRESENTACIÓN

Daiana Duarte (She/Her/Ella)

💻 Data Scientist

📚 Economía & Maestría en Ciencia de Datos

🎨 Me gusta el baile, el teatro, las artesanías y el arte


en general.
2
AGENDA
➔ Parte 1:
◆ Definiciones
◆ El ciclo de un proyecto de Ciencia de Datos:
- Definición del problema
- Análisis y exploración de datos
- Tratamiento de variables
- Modelado
- Resultados

➔ Parte 2:
◆ Hands on! -> Presentación y desarrollo de un caso práctico

➔ Parte final:
◆ ¿Por dónde seguir?
3 CONTEXTO
¿QUÉ ES LA CIENCIA DE DATOS?
3 CONTEXTO
¿QUÉ ES LA CIENCIA DE DATOS?

¿Cuánto saben sobre Ciencia de Datos?

https://www.menti.com/alftz24hvhaf
4 CONTEXTO
¿QUÉ ES LA CIENCIA DE DATOS?

Conjunto de disciplinas que utiliza


métodos científicos para obtener
conocimientos a partir de los datos
dándoles un mayor valor.
5 CONTEXTO
USOS Y APLICACIONES

Clasificación de emails Asistentes personales Recomendadores en base a


Spam – Correo no deseado Siri - Google now comportamientos
Netflix - Spotify - Amazon

Procesamiento de
lenguaje natural

Chatbots Detección de
Asesores Reconocimiento
Facial, Voz, Huellas enfermedades
de
Cáncer basada en
compras
imágenes -
Predicción de epidemias
6 CONTEXTO
STACK TECNOLÓGICO

LENGUAJES BASES DE DATOS VISUALIZACIÓN OTROS


7 CONTEXTO
STACK TECNOLÓGICO

LENGUAJES BASES DE DATOS VISUALIZACIÓN OTROS

(*) MUST
PARTE 1
8 PRIMERO, LO PRIMERO

★ No es posible abarcar TODO en detalle en 2 horas

El objetivo es llevarse una


idea general del mundo
de la Ciencia de Datos

★ Simple ≠ Fácil

★ Para cada tema, van a tener artículos/libros para profundizar en el ícono +INFO
9 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS

● Es un proceso iterativo
● Cada etapa nos da insights para la
siguiente
● No son todos los proyectos iguales
● Dependiendo de nuestro rol, algunos
pasos pueden recaer sobre nosotres
más que otros
10 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
1. Definición del problema

El primer paso en un proyecto de ciencia de datos es el entendimiento del negocio o del contexto
en el cuál vamos a trabajar. Conocer las motivaciones y expectativas detrás del proyecto marcará el
norte a seguir por nosotres.

¿Cuál es la pregunta que se busca responder?

¿Qué sabemos hasta ahora sobre eso?

¿Cuáles son las hipótesis que hay al respecto?

¿Cómo se viene resolviendo hasta ahora?


11 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
1. Definición del problema

Una vez definido el problema, hay dos cosas importantes a determinar:


● La muestra
● El tipo de problema a modelar, en término de la ciencia de datos
12 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
1. Definición del problema

Una vez definido el problema, hay dos cosas importantes a determinar:


● La muestra
● El tipo de problema a modelar, en término de la ciencia de datos

Ejemplo
Objetivo : Determinar causas de
deserción en escuelas secundarias
Población -> Estudiantes de escuelas
secundarias
Muestra -> 2000 Estudiantes de
escuelas secundarias

Muestra estadística +INFO


13 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
1. Definición del problema

Una vez definido el problema, hay dos cosas importantes a determinar:


● La muestra
● El tipo de problema a modelar, en término de la ciencia de datos

+INFO

Supervised vs
Unsupervised Learning
14 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
1. Definición del problema

Una vez definida la muestra y el tipo de problema a resolver, se arma una primera versión del
dataset a utilizar como input de todo el proceso de modelado.

Se recolecta y condensa los datos,


combinando distintas fuentes,
centralizándolos en un solo lugar y
formato.
15 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

Esta etapa marca nuestro primer contacto con los datos. Incluye en general:

● Sanity Check ➔ Dataset entero


● Univariados ➔ Cada variable
● Bivariados ➔ Relación variables - target

En esta etapa buscamos tener insights sobre la calidad de los datos en general y sobre cada
variable, en particular (missing values, outliers, invarianza, variables altamente correlacionadas,
variables explicativas).
16 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Sanity Check

Los chequeos básicos para asegurar una mínima calidad en los datos con los que vamos a trabajar
son:

- Duplicados : deberíamos tener un registro único por cada unidad de análisis


- Missing values (valores faltantes) : identificar variables con valores faltantes y el % de
valores faltantes
- Inconsistencia en los datos : Detectar valores que no se ajustan a los que se espera
de los datos
- Tipo de dato : es importante que el tipo de dato de cada variable sea el correcto.
17 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Sanity Check

Ejemplo:

-5
18 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Sanity Check

Ejemplo:

tipo de
dato
duplicados incorrecto

-5

Inconsistencia Missing
values
19 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Univariados

Con apoyo de la estadística descriptiva, se busca tener una idea general sobre la distribución de
los datos.

La estadística descriptiva es el conjunto de métodos estadísticos que nos ayudan a describir y/o
caracterizar un conjunto de datos.

La distribución de una variable, por otro lados, nos da información importante sobre qué valores
puede tomar y con qué frecuencia lo hace.
20 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Univariados

+INFO

7 Statistical Distributions that every


Data Scientist should know
21 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Univariados

TÉCNICA DESCRIPCIÓN GRÁFICOS

O también promedio, es el valor


Media característico de una serie de valores
numéricos.

Representa el valor de la variable en el


Mediana punto medio de la distribución de los
datos.

Valor que aparece con mayor frecuencia


en el conjunto de datos.
Moda
22 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Univariados

TÉCNICA DESCRIPCIÓN GRÁFICOS

Es una medida de dispersión o variación


Desvío
de los datos alrededor del valor
Estándar
promedio.

Son los nueve valores que dividen a un


conjunto de datos ordenados en diez
Deciles partes iguales. De modo que el primer,
segundo, tercer,… decil representa el
10%, 20%, 30%,… de la muestra.
23 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Univariados

Vendedor Paquetes dataset (ordered) = 13 13 13 13 15 20 20 30 30


A 13 Media (or average) = Suma de todos los elementos/ Cantidad de elementos=
B 15 (13+13+13+13+15+20+20+30+30) / 9 = 18,55 paquetes

C 20 Mediana = 13 13 13 13 | 15 | 20 20 30 30 = 15 paquetes
D 13 Moda = Valor más frecuente = 13 paquetes
E 20 Desvío estándar = Dispersión de los datos en torno a la media= √[ (13-15,8)^2
F 13 +(13-15,8)^2+(13-15,8)^2+(13-15,8)^2+(15-15,8)^2+(20-15,8)^2+(20-15,8)^2+(30-15,8)^2
+(30-15,8)^2] / 9-1 = 7,09 paquetes
G 13

H 30 Deciles = Deci 3 = [3 * (9+1) ]/10= 3 -> en la posición 3 se encuentra el número 13 =


13 paquetes
I 30
24 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Univariados

Además de aplicar estadística descriptiva, deberíamos poder


identificar:

- Variables con valores únicos


- Distribución de la variable target o dependiente
(si estamos en un problema supervisado)
- Valores atípicos o outliers

+INFO Outlier Detection in Machine Learning


25 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Bivariados

Este tipo de análisis se aplica solo en problemas supervisados, en lo cuales conocemos el target o
variable dependiente/a predecir.

Dependiendo del modelo que vayamos a utilizar, algunas técnicas/tests nos van a resultar más
útiles que otras para detectar cuáles variables están más correlacionadas con el target:

- WOE (Weight of Evidence) and Information Value (IV)


+INFO - Churn Analysis Using Information Value and Weight of Evidence
- Mutual Information
26 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Bivariados

Una de las medidas más populares en los análisis bivariados es el coeficiente de correlación.

Correlación: dos variables están correlacionadas cuando varían de igual forma sistemáticamente.

Correlación Positiva:

El valor del índice de correlación de Pearson está


entre -1 y +1. Cuanto más cercano a estos valores
Correlación Negativa: está, más alta es la correlación. Cuanto más
cercano a 0, más débil la correlación.

Sin Correlación: Coeficiente de correlación de


+INFO Pearson
27 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Bivariados

CORRELACIÓN ≠
CAUSALIDAD

Que dos variables tengan alto


índice de correlación no
significa que una cause la
otra. Las relaciones de
causalidad son mucho más
difíciles de encontrar y
demostrar.

https://www.tylervigen.com/spurious-correlations
27 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
2. Análisis y exploración de datos

● Visualizaciones

+INFO
https://python-graph-gallery.com/
28 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
3. Ingeniería de variables o pre-procesamiento

Este paso incluye:

● Encoding categorical variables


● Missing values
● Escalar variables
29 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
3. Ingeniería de variables o pre-procesamiento

Este paso incluye:

● Encoding categorical variables


● Missing values
● Escalar variables

Lo más importante es determinar si


la variable categórica es ordinal o
no.

+INFO All about Categorical Variable Encoding


30 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
3. Ingeniería de variables o pre-procesamiento

Este paso incluye:

● Encoding categorical variables


● Missing values
● Escalar variables

A la hora de analizar los datos faltantes, es importante


determinar anta cuales de las siguientes situaciones
estamos:
- Missing at Random (MAR)
- Missing Completely at Random (MCAR) Fuente:
- Missing Not at Random (MNAR) https://medium.com/analytics-vidhya/different-types
-of-missing-data-59c87c046bf7

Scikit-learn : Imputation of missing values


+INFO Simple techniques for missing data imputation
31 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
3. Ingeniería de variables o pre-procesamiento

Este paso incluye:

● Encoding categorical variables


● Missing values
● Escalar variables

En la mayoría de los algoritmos, re-escalar las


variables no es estrictamente necesario. En general,
si trabajamos con distancias o necesitamos que los
datos sigan cierta distribución, será necesario. De lo
contrario, será optativo.

+INFO Feature Scaling in Machine Learning


32 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● No es necesario conocer todos los algoritmos


posibles (ni existe una persona que lo haga)

● Simple es mejor que complejo

● El costo del desarrollo de un modelo debe


superar a los beneficios
33 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

Cómo primer paso, antes de avanzar con el entrenamiento del (o los) algoritmo elegido, se debe
dividir la muestra en train-test.

(*) Lo estándar es usar


cortes como 70-30 u 80-20.
34 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Regresión

Si nos interesa predecir una variable cuantitativa y continua (ingresos, precios, stock, por ejemplo),
estamos ante un problema de regresión. A su vez, dentro de este tipo de algoritmos, el más
popular, es la regresión lineal.

Size = 3 + 0.38 * Weight

(*) Ajuste por mínimos


cuadrados (least squares)
35 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Clasificación

Hablamos de clasificación cuando la variable de respuesta (la que intentamos predecir/estimar) es


cualitativa, es decir, representa una categoría, clase o característica y no un número. Los algoritmos
más populares son la regresión logística y los algoritmos basados en árboles.
probabilidad
Regresión
logística
aprueba

no
aprueba
(*) Ajuste por
hs estudio hs estudio Maximum Likelihood
36 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Clasificación

Hablamos de clasificación cuando la variable de respuesta (la que intentamos predecir/estimar) es


cualitativa, es decir, representa una categoría, clase o característica y no un número. Los algoritmos
más populares son la regresión logística y los algoritmos basados en árboles.

Árboles de
Ingreso
decisión
<50k >50k

NO edad

<45 >45

SI NO
37 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Clasificación

¿Qué pasa con la búsqueda del mejor atributo?

Idea: que la creación de subnodos incremente la homogeneidad de los subnodos resultantes, o


bien, incremente la pureza respecto a la variable objetivo.
Árboles de
decisión
38 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Clustering

El objetivo de un análisis de cluster es encontrar grupos con características similares. En este caso
no existe un valor o categoría a predecir sino que se trata de encontrar un patrón o estructura en los
datos. El más conocido es K-Means.

+INFO

K-Means paso a paso


39 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Decisiones a tomar : Predicción vs Inferencia

Dado Ŷ = f(X),
donde Ŷ es nuestra estimación de Y; y f y X son el modelo y
las variables que usamos para realizar dicha estimación

Me interesa más qué tan Me interesa más conocer la


buena es la estimación relación entre X e Y

PREDICCIÓN INFERENCIA
40 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Decisiones a tomar : Sesgo vs. Varianza

¿Qué significan el sesgo y la varianza en un modelo estadístico? La varianza se refiere a cómo


cambia f (la estimación) cuando utilizamos una muestra de datos distinta. El sesgo, por otro lado,
es el error que comete f al intentar aproximar la realidad.
41 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
4. Modelado

● Decisiones a tomar : Overfitting

El objetivo principal de un modelo de aprendizaje automático es generalizar bien. Aquí, la


generalización define la capacidad de un modelo de ML para proporcionar un buen resultado en un
conjunto de datos desconocido.

Under-fitting Optimal-fitting Over-fitting


42 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados

● Evaluación : ¿Cómo sabemos cuán bueno es nuestro


modelo?

- La performance del modelo SIEMPRE se evalúa en los


datos de test

- En general, siempre vamos a tener que establecer un


benchmark
(un piso) que incluya no solo alguna métrica objetiva sino
también
algún indicador relacionado al problema que busca
resolver el modelo
43 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados

● Evaluación : ¿Cómo sabemos cuán bueno es nuestro modelo?

Si estamos evaluando un algoritmo de regresión, las


métricas más comunes son:

- Error Medio Absoluto (MAE).


- Error Medio Cuadrado (MSE)
- Error Cuadrático Medio (RMSE)

Otras:
- R2 y R2 ajustado
44 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados

● Evaluación : ¿Cómo sabemos cuán bueno es nuestro modelo?

Si estamos evaluando un algoritmo de clasificación, las métricas más comunes se calculan a


partir de la matriz de confusión:
45 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados

● Evaluación : ¿Cómo sabemos cuán bueno es nuestro modelo?

Si estamos evaluando un algoritmo de clasificación, las métricas más comunes se calculan a


partir de la matriz de confusión:

Accuracy

Es una de las métricas más populares (aunque no


de las más recomendadas) y mide la proporción de
datos bien clasificados sobre el total de datos
46 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados

● Evaluación : ¿Cómo sabemos cuán bueno es nuestro modelo?

Si estamos evaluando un algoritmo de clasificación, las métricas más comunes se calculan a


partir de la matriz de confusión:

Sensitividad

También se conoce como recall o tasa de


verdadero positivo. Mide la proporción de positivos
reales que están bien clasificados.
47 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados

● Evaluación : ¿Cómo sabemos cuán bueno es nuestro modelo?

Otra métrica muy utilizada en problemas de clasificación es la Curva ROC. La curva ROC
(receiver operating characteristics) es un gráfico popular para mostrar simultáneamente los dos
tipos de errores para todos los umbrales posibles.
48 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
5. Comunicación de resultados

● Evaluación : ¿Cómo sabemos cuán bueno es nuestro modelo?

En el caso de un algoritmo de clustering, más que métricas objetivas, se usan algunas


heurísticas, pero la decisión final la termina tomando el área que toma las decisiones respecto
al problema a resolver:

- Método del codo (elbow)


- Calinski and Harabasz
- Silhouette Coefficient

K-means: Elbow Method and Silhouette +INFO


¿TERMINAMOS?

PARTE 1
49 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
6. Puesta en producción y monitoreo de los modelos

Una vez que finalizamos la etapa de modelado y estamos de conformes con los resultados
obtenidos, tenemos definir dónde vamos a “guardar” el modelo y cómo lo vamos a “consumir” en el
futuro.
¡AHORA, SI!

PARTE 1
PARTE 2
50 CASO PRÁCTICO

Hoy en día, la mayoría de las tareas que


involucra la etapa de modelado, están al
alcance de la mano o, mejor dicho, al
alcance de un click.

Cada vez más plataformas y


desarrolladores implementan soluciones
de Ciencia de Datos que casi no requieren
de nuestra intervención.
51 CASO PRÁCTICO

Presentación del problema a resolver

Una organización que tiene una alta tasa de churn (abandono) nos contrata como consultores para
que desarrollemos un modelo que prediga la probabilidad de que un cliente/beneficiario deje de
serlo (pierda el vínculo con la organización).

EXIT
52 CASO PRÁCTICO

Entorno de trabajo

Vamos a trabajar usando Google Colab, Python y GitHub. Toda la información que necesitamos, la
vamos a encontrar en:

https://colab.research.google.com/drive/1skA-G-sc2uJBnn1P83sCLZfcrxOZYh7T?usp=sharing
53 BONUS TRACK

● Links útiles
- Comunidad MeT
- Cassie Kozyrkov
- DataGénero - Observatorio
- Instituto Humai (YouTube)
- StatQuest (YouTube)
- An Introduction to Statistical Learning (libro)

● Ética

Hoy en día los algoritmos están interviniendo cada vez más en los procesos de toma de
decisiones de las organizaciones (privadas, públicas, etc) y en nuestra vida en general. Como
profesionales de estos ámbitos, es importante que cuestionemos y auditemos el uso que se le
está dando a los datos a los que tenemos acceso, la construcción de los algoritmos, la
representación de los distintos grupos demográficos (sobre todo de minorías) si utilizamos
datos de personas, entre otros. Recomendación: Sesgos en los algoritmos (Charla)
54 BONUS TRACK

● Teoría vs Práctica

Es muy difícil que siempre trabajemos en problemas que fluyan sin ningún tipo de stoppers y para el
cual encontremos el modelo perfecto en el primer intento.
Es importante que asumamos eso desde el comienzo, que seamos pacientes y metódicxs.
¡MUCHAS GRACIAS!

También podría gustarte