Workshop Intro-CienciaDeDatos

1 PRESENTACIÓN
Daiana Duarte (She/Her/Ella)
💻 Data Scientist
📚 Economía & Maestría en Ciencia de Datos
🎨 Me gusta el baile, el teatro, las artesanías y el arte

en general.
2
AGENDA
➔ Parte 1:
◆ Definiciones
◆ El ciclo de un proyecto de Ciencia de Datos:
- Definición del problema
- Análisis y exploración de datos
- Tratamiento de variables
- Modelado
- Resultados
➔ Parte 2:
◆ Hands on! -> Presentación y desarrollo de un caso práctico
➔ Parte final:
◆ ¿Por dónde seguir?
3 CONTEXTO
¿QUÉ ES LA CIENCIA DE DATOS?
3 CONTEXTO
¿Cuánto saben sobre Ciencia de Datos?
https://www.menti.com/alftz24hvhaf
4 CONTEXTO
Conjunto de disciplinas que utiliza

métodos científicos para obtener
conocimientos a partir de los datos
dándoles un mayor valor.
5 CONTEXTO
USOS Y APLICACIONES
Clasificación de emails Asistentes personales Recomendadores en base a

Spam – Correo no deseado Siri - Google now comportamientos
Netflix - Spotify - Amazon
Procesamiento de
lenguaje natural
Chatbots Detección de
Asesores Reconocimiento
Facial, Voz, Huellas enfermedades
de
Cáncer basada en
compras
imágenes -
Predicción de epidemias
6 CONTEXTO
STACK TECNOLÓGICO
LENGUAJES BASES DE DATOS VISUALIZACIÓN OTROS

7 CONTEXTO
STACK TECNOLÓGICO
LENGUAJES BASES DE DATOS VISUALIZACIÓN OTROS
(*) MUST
PARTE 1
8 PRIMERO, LO PRIMERO
★ No es posible abarcar TODO en detalle en 2 horas
El objetivo es llevarse una

idea general del mundo
de la Ciencia de Datos
★ Simple ≠ Fácil
★ Para cada tema, van a tener artículos/libros para profundizar en el ícono +INFO
9 CICLO DE UN PROYECTO DE CIENCIA
DE DATOS
● Es un proceso iterativo
● Cada etapa nos da insights para la
siguiente
● No son todos los proyectos iguales
● Dependiendo de nuestro rol, algunos
pasos pueden recaer sobre nosotres
más que otros
DE DATOS
1. Definición del problema
El primer paso en un proyecto de ciencia de datos es el entendimiento del negocio o del contexto
en el cuál vamos a trabajar. Conocer las motivaciones y expectativas detrás del proyecto marcará el
norte a seguir por nosotres.
¿Cuál es la pregunta que se busca responder?
¿Qué sabemos hasta ahora sobre eso?
¿Cuáles son las hipótesis que hay al respecto?
¿Cómo se viene resolviendo hasta ahora?

DE DATOS
Una vez definido el problema, hay dos cosas importantes a determinar:

● La muestra
● El tipo de problema a modelar, en término de la ciencia de datos
DE DATOS

● La muestra
Ejemplo
Objetivo : Determinar causas de
deserción en escuelas secundarias
Población -> Estudiantes de escuelas
secundarias
Muestra -> 2000 Estudiantes de
escuelas secundarias
Muestra estadística +INFO

DE DATOS

● La muestra
+INFO
Supervised vs
Unsupervised Learning
DE DATOS
Una vez definida la muestra y el tipo de problema a resolver, se arma una primera versión del
dataset a utilizar como input de todo el proceso de modelado.
Se recolecta y condensa los datos,

combinando distintas fuentes,
centralizándolos en un solo lugar y
formato.
DE DATOS
2. Análisis y exploración de datos
Esta etapa marca nuestro primer contacto con los datos. Incluye en general:
● Sanity Check ➔ Dataset entero

● Univariados ➔ Cada variable
● Bivariados ➔ Relación variables - target
En esta etapa buscamos tener insights sobre la calidad de los datos en general y sobre cada
variable, en particular (missing values, outliers, invarianza, variables altamente correlacionadas,
variables explicativas).
DE DATOS
● Sanity Check
Los chequeos básicos para asegurar una mínima calidad en los datos con los que vamos a trabajar
son:
- Duplicados : deberíamos tener un registro único por cada unidad de análisis

- Missing values (valores faltantes) : identificar variables con valores faltantes y el % de
valores faltantes
- Inconsistencia en los datos : Detectar valores que no se ajustan a los que se espera
de los datos
- Tipo de dato : es importante que el tipo de dato de cada variable sea el correcto.
DE DATOS
● Sanity Check
Ejemplo:
-5
DE DATOS
● Sanity Check
Ejemplo:
tipo de
dato
duplicados incorrecto
-5
Inconsistencia Missing
values
DE DATOS
● Univariados
Con apoyo de la estadística descriptiva, se busca tener una idea general sobre la distribución de
los datos.
La estadística descriptiva es el conjunto de métodos estadísticos que nos ayudan a describir y/o
caracterizar un conjunto de datos.
La distribución de una variable, por otro lados, nos da información importante sobre qué valores
puede tomar y con qué frecuencia lo hace.
DE DATOS
● Univariados
+INFO
7 Statistical Distributions that every

Data Scientist should know
DE DATOS
● Univariados
TÉCNICA DESCRIPCIÓN GRÁFICOS
O también promedio, es el valor

Media característico de una serie de valores
numéricos.
Representa el valor de la variable en el

Mediana punto medio de la distribución de los
datos.
Valor que aparece con mayor frecuencia

en el conjunto de datos.
Moda
DE DATOS
● Univariados
TÉCNICA DESCRIPCIÓN GRÁFICOS
Es una medida de dispersión o variación

Desvío
de los datos alrededor del valor
Estándar
promedio.
Son los nueve valores que dividen a un

conjunto de datos ordenados en diez
Deciles partes iguales. De modo que el primer,
segundo, tercer,… decil representa el
10%, 20%, 30%,… de la muestra.
DE DATOS
● Univariados
Vendedor Paquetes dataset (ordered) = 13 13 13 13 15 20 20 30 30

A 13 Media (or average) = Suma de todos los elementos/ Cantidad de elementos=
B 15 (13+13+13+13+15+20+20+30+30) / 9 = 18,55 paquetes
C 20 Mediana = 13 13 13 13 | 15 | 20 20 30 30 = 15 paquetes
D 13 Moda = Valor más frecuente = 13 paquetes
E 20 Desvío estándar = Dispersión de los datos en torno a la media= √[ (13-15,8)^2
F 13 +(13-15,8)^2+(13-15,8)^2+(13-15,8)^2+(15-15,8)^2+(20-15,8)^2+(20-15,8)^2+(30-15,8)^2
+(30-15,8)^2] / 9-1 = 7,09 paquetes
G 13
H 30 Deciles = Deci 3 = [3 * (9+1) ]/10= 3 -> en la posición 3 se encuentra el número 13 =

13 paquetes
I 30
DE DATOS
● Univariados
Además de aplicar estadística descriptiva, deberíamos poder

identificar:
- Variables con valores únicos

- Distribución de la variable target o dependiente
(si estamos en un problema supervisado)
- Valores atípicos o outliers
+INFO Outlier Detection in Machine Learning

DE DATOS
● Bivariados
Este tipo de análisis se aplica solo en problemas supervisados, en lo cuales conocemos el target o
variable dependiente/a predecir.
Dependiendo del modelo que vayamos a utilizar, algunas técnicas/tests nos van a resultar más
útiles que otras para detectar cuáles variables están más correlacionadas con el target:
- WOE (Weight of Evidence) and Information Value (IV)

+INFO - Churn Analysis Using Information Value and Weight of Evidence
- Mutual Information
DE DATOS
● Bivariados
Una de las medidas más populares en los análisis bivariados es el coeficiente de correlación.
Correlación: dos variables están correlacionadas cuando varían de igual forma sistemáticamente.
Correlación Positiva:
El valor del índice de correlación de Pearson está

entre -1 y +1. Cuanto más cercano a estos valores
Correlación Negativa: está, más alta es la correlación. Cuanto más
cercano a 0, más débil la correlación.
Sin Correlación: Coeficiente de correlación de

+INFO Pearson
DE DATOS
● Bivariados
CORRELACIÓN ≠
CAUSALIDAD
Que dos variables tengan alto

índice de correlación no
significa que una cause la
otra. Las relaciones de
causalidad son mucho más
difíciles de encontrar y
demostrar.
https://www.tylervigen.com/spurious-correlations
DE DATOS
● Visualizaciones
+INFO
https://python-graph-gallery.com/
DE DATOS
3. Ingeniería de variables o pre-procesamiento
Este paso incluye:
● Encoding categorical variables

● Missing values
● Escalar variables
DE DATOS
Este paso incluye:

● Missing values
Lo más importante es determinar si

la variable categórica es ordinal o
no.
+INFO All about Categorical Variable Encoding

DE DATOS
Este paso incluye:

● Missing values
A la hora de analizar los datos faltantes, es importante

determinar anta cuales de las siguientes situaciones
estamos:
- Missing at Random (MAR)
- Missing Completely at Random (MCAR) Fuente:
- Missing Not at Random (MNAR) https://medium.com/analytics-vidhya/different-types
-of-missing-data-59c87c046bf7
Scikit-learn : Imputation of missing values

+INFO Simple techniques for missing data imputation
DE DATOS
Este paso incluye:

● Missing values
En la mayoría de los algoritmos, re-escalar las

variables no es estrictamente necesario. En general,
si trabajamos con distancias o necesitamos que los
datos sigan cierta distribución, será necesario. De lo
contrario, será optativo.
+INFO Feature Scaling in Machine Learning

DE DATOS
4. Modelado
● No es necesario conocer todos los algoritmos

posibles (ni existe una persona que lo haga)
● Simple es mejor que complejo
● El costo del desarrollo de un modelo debe

superar a los beneficios
DE DATOS
4. Modelado
Cómo primer paso, antes de avanzar con el entrenamiento del (o los) algoritmo elegido, se debe
dividir la muestra en train-test.
(*) Lo estándar es usar

cortes como 70-30 u 80-20.
DE DATOS
4. Modelado
● Regresión
Si nos interesa predecir una variable cuantitativa y continua (ingresos, precios, stock, por ejemplo),
estamos ante un problema de regresión. A su vez, dentro de este tipo de algoritmos, el más
popular, es la regresión lineal.
Size = 3 + 0.38 * Weight
(*) Ajuste por mínimos

cuadrados (least squares)
DE DATOS
4. Modelado
● Clasificación
Hablamos de clasificación cuando la variable de respuesta (la que intentamos predecir/estimar) es

cualitativa, es decir, representa una categoría, clase o característica y no un número. Los algoritmos
más populares son la regresión logística y los algoritmos basados en árboles.
probabilidad
Regresión
logística
aprueba
no
aprueba
(*) Ajuste por
hs estudio hs estudio Maximum Likelihood
DE DATOS
4. Modelado
● Clasificación
Hablamos de clasificación cuando la variable de respuesta (la que intentamos predecir/estimar) es

cualitativa, es decir, representa una categoría, clase o característica y no un número. Los algoritmos
más populares son la regresión logística y los algoritmos basados en árboles.
Árboles de
Ingreso
decisión
<50k >50k
NO edad
<45 >45
SI NO
DE DATOS
4. Modelado
● Clasificación
¿Qué pasa con la búsqueda del mejor atributo?
Idea: que la creación de subnodos incremente la homogeneidad de los subnodos resultantes, o

bien, incremente la pureza respecto a la variable objetivo.
Árboles de
decisión
DE DATOS
4. Modelado
● Clustering
El objetivo de un análisis de cluster es encontrar grupos con características similares. En este caso
no existe un valor o categoría a predecir sino que se trata de encontrar un patrón o estructura en los
datos. El más conocido es K-Means.
+INFO
K-Means paso a paso

DE DATOS
4. Modelado
● Decisiones a tomar : Predicción vs Inferencia
Dado Ŷ = f(X),
donde Ŷ es nuestra estimación de Y; y f y X son el modelo y
las variables que usamos para realizar dicha estimación
Me interesa más qué tan Me interesa más conocer la

buena es la estimación relación entre X e Y
PREDICCIÓN INFERENCIA
DE DATOS
4. Modelado
● Decisiones a tomar : Sesgo vs. Varianza
¿Qué significan el sesgo y la varianza en un modelo estadístico? La varianza se refiere a cómo

cambia f (la estimación) cuando utilizamos una muestra de datos distinta. El sesgo, por otro lado,
es el error que comete f al intentar aproximar la realidad.
DE DATOS
4. Modelado
● Decisiones a tomar : Overfitting
El objetivo principal de un modelo de aprendizaje automático es generalizar bien. Aquí, la

generalización define la capacidad de un modelo de ML para proporcionar un buen resultado en un
conjunto de datos desconocido.
Under-fitting Optimal-fitting Over-fitting

DE DATOS
5. Comunicación de resultados
● Evaluación : ¿Cómo sabemos cuán bueno es nuestro

modelo?
- La performance del modelo SIEMPRE se evalúa en los

datos de test
- En general, siempre vamos a tener que establecer un

benchmark
(un piso) que incluya no solo alguna métrica objetiva sino
también
algún indicador relacionado al problema que busca
resolver el modelo
DE DATOS
● Evaluación : ¿Cómo sabemos cuán bueno es nuestro modelo?
Si estamos evaluando un algoritmo de regresión, las

métricas más comunes son:
- Error Medio Absoluto (MAE).

- Error Medio Cuadrado (MSE)
- Error Cuadrático Medio (RMSE)
Otras:
- R2 y R2 ajustado
DE DATOS
Si estamos evaluando un algoritmo de clasificación, las métricas más comunes se calculan a

partir de la matriz de confusión:
DE DATOS

Accuracy
Es una de las métricas más populares (aunque no

de las más recomendadas) y mide la proporción de
datos bien clasificados sobre el total de datos
DE DATOS

Sensitividad
También se conoce como recall o tasa de

verdadero positivo. Mide la proporción de positivos
reales que están bien clasificados.
DE DATOS
Otra métrica muy utilizada en problemas de clasificación es la Curva ROC. La curva ROC
(receiver operating characteristics) es un gráfico popular para mostrar simultáneamente los dos
tipos de errores para todos los umbrales posibles.
DE DATOS
En el caso de un algoritmo de clustering, más que métricas objetivas, se usan algunas

heurísticas, pero la decisión final la termina tomando el área que toma las decisiones respecto
al problema a resolver:
- Método del codo (elbow)

- Calinski and Harabasz
- Silhouette Coefficient
K-means: Elbow Method and Silhouette +INFO

¿TERMINAMOS?
PARTE 1
DE DATOS
6. Puesta en producción y monitoreo de los modelos
Una vez que finalizamos la etapa de modelado y estamos de conformes con los resultados
obtenidos, tenemos definir dónde vamos a “guardar” el modelo y cómo lo vamos a “consumir” en el
futuro.
¡AHORA, SI!
PARTE 1
PARTE 2
50 CASO PRÁCTICO
Hoy en día, la mayoría de las tareas que

involucra la etapa de modelado, están al
alcance de la mano o, mejor dicho, al
alcance de un click.
Cada vez más plataformas y

desarrolladores implementan soluciones
de Ciencia de Datos que casi no requieren
de nuestra intervención.
51 CASO PRÁCTICO
Presentación del problema a resolver
Una organización que tiene una alta tasa de churn (abandono) nos contrata como consultores para
que desarrollemos un modelo que prediga la probabilidad de que un cliente/beneficiario deje de
serlo (pierda el vínculo con la organización).
EXIT
52 CASO PRÁCTICO
Entorno de trabajo
Vamos a trabajar usando Google Colab, Python y GitHub. Toda la información que necesitamos, la
vamos a encontrar en:
https://colab.research.google.com/drive/1skA-G-sc2uJBnn1P83sCLZfcrxOZYh7T?usp=sharing
53 BONUS TRACK
● Links útiles
- Comunidad MeT
- Cassie Kozyrkov
- DataGénero - Observatorio
- Instituto Humai (YouTube)
- StatQuest (YouTube)
- An Introduction to Statistical Learning (libro)
● Ética
Hoy en día los algoritmos están interviniendo cada vez más en los procesos de toma de
decisiones de las organizaciones (privadas, públicas, etc) y en nuestra vida en general. Como
profesionales de estos ámbitos, es importante que cuestionemos y auditemos el uso que se le
está dando a los datos a los que tenemos acceso, la construcción de los algoritmos, la
representación de los distintos grupos demográficos (sobre todo de minorías) si utilizamos
datos de personas, entre otros. Recomendación: Sesgos en los algoritmos (Charla)
54 BONUS TRACK
● Teoría vs Práctica
Es muy difícil que siempre trabajemos en problemas que fluyan sin ningún tipo de stoppers y para el
cual encontremos el modelo perfecto en el primer intento.
Es importante que asumamos eso desde el comienzo, que seamos pacientes y metódicxs.
¡MUCHAS GRACIAS!

Workshop Intro-CienciaDeDatos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Workshop Intro-CienciaDeDatos

Cargado por

Copyright:

Formatos disponibles

1 PRESENTACIÓN

Daiana Duarte (She/Her/Ella)

📚 Economía & Maestría en Ciencia de Datos

🎨 Me gusta el baile, el teatro, las artesanías y el arte

¿Cuánto saben sobre Ciencia de Datos?

Conjunto de disciplinas que utiliza

Clasiﬁcación de emails Asistentes personales Recomendadores en base a

LENGUAJES BASES DE DATOS VISUALIZACIÓN OTROS

LENGUAJES BASES DE DATOS VISUALIZACIÓN OTROS

★ No es posible abarcar TODO en detalle en 2 horas

El objetivo es llevarse una

¿Cuál es la pregunta que se busca responder?

¿Qué sabemos hasta ahora sobre eso?

¿Cuáles son las hipótesis que hay al respecto?

¿Cómo se viene resolviendo hasta ahora?

Una vez deﬁnido el problema, hay dos cosas importantes a determinar:

Una vez deﬁnido el problema, hay dos cosas importantes a determinar:

Muestra estadística +INFO

Una vez deﬁnido el problema, hay dos cosas importantes a determinar:

Se recolecta y condensa los datos,

● Sanity Check ➔ Dataset entero

- Duplicados : deberíamos tener un registro único por cada unidad de análisis

7 Statistical Distributions that every

TÉCNICA DESCRIPCIÓN GRÁFICOS

O también promedio, es el valor

Representa el valor de la variable en el

Valor que aparece con mayor frecuencia

TÉCNICA DESCRIPCIÓN GRÁFICOS

Es una medida de dispersión o variación

Son los nueve valores que dividen a un

Vendedor Paquetes dataset (ordered) = 13 13 13 13 15 20 20 30 30

H 30 Deciles = Deci 3 = [3 * (9+1) ]/10= 3 -> en la posición 3 se encuentra el número 13 =

Además de aplicar estadística descriptiva, deberíamos poder

- Variables con valores únicos

+INFO Outlier Detection in Machine Learning

- WOE (Weight of Evidence) and Information Value (IV)

El valor del índice de correlación de Pearson está

Sin Correlación: Coeﬁciente de correlación de

Que dos variables tengan alto

Este paso incluye:

● Encoding categorical variables

Este paso incluye:

● Encoding categorical variables

Lo más importante es determinar si

+INFO All about Categorical Variable Encoding

Este paso incluye:

● Encoding categorical variables

A la hora de analizar los datos faltantes, es importante

Scikit-learn : Imputation of missing values

Este paso incluye:

● Encoding categorical variables

En la mayoría de los algoritmos, re-escalar las

+INFO Feature Scaling in Machine Learning

● No es necesario conocer todos los algoritmos

● Simple es mejor que complejo

● El costo del desarrollo de un modelo debe

(*) Lo estándar es usar

Size = 3 + 0.38 * Weight

(*) Ajuste por mínimos

Hablamos de clasiﬁcación cuando la variable de respuesta (la que intentamos predecir/estimar) es

Hablamos de clasiﬁcación cuando la variable de respuesta (la que intentamos predecir/estimar) es

¿Qué pasa con la búsqueda del mejor atributo?

Idea: que la creación de subnodos incremente la homogeneidad de los subnodos resultantes, o