Está en la página 1de 21

CHECKLIST

TODO LO QUE NECESITAS


SABER PARA SER UN GRAN
CIENTÍFICO DE DATOS
checklist. Todo lo que necesitas saber para ser un gran científico de datos

SOBRE
JORDI OLLÉ
CONCEPTOSCLAROS.COM

AUTOR DEL TRAINING ANALIZA TUS DATOS


Y EL BLOG CONCEPTOS CLAROS

Soy Jordi Ollé y estudié ingeniería industrial y al terminar me apunté a un máster en ingeniería
biomédica. Decidí presentar la tesis final sobre análisis de datos biomédicos en una base de datos
de pacientes.

Aunque el proyecto era muy ilusionante estaba totalmente perdido. No sabía interpretar los gráficos
ni usarlos para sacar valor de los datos, y mucho menos, modelizar mis datos con modelos o
algoritmos. Aunque estudié una carrera de números no tenía ni idea de cómo hacerlo. Me parecía
todo muy complejo.

Tuve la suerte de encontrar a mi primer mentor, empecé a ver todas las técnicas como herramientas
aplicables y no solo en ese proyecto sino en muchos otros de otras temáticas y sectores. Las utilicé
en proyectos I+D del sector eólico, en el sector médico, deportivo…. Lo mejor es que existe un
sistema, uno pasos, que se repiten en cualquier proyecto y se necesitan para trabajar los datos. Hoy
quiero que tú también los utilices para avanzar en tus proyectos y tu carrera profesional.

Todo el sistema y mi experiencia es el que trato de transmitir a mis alumnos y clientes para que ellos

lo puedan usar en sus proyectos

2
checklist. Todo lo que necesitas saber para ser un gran científico de datos

ÍNDICE

1- Conocimiento práctico vista de pájaro 4

2- Programación 6
Programación Python 6
Programación R 6

3- Bases estadísticas 7

4- Análisis exploratorio de los datos (EDA) 8

5- Estadística inferencial aplicada 10

6- Machine learning supervisado 12

7- Machine learning no supervisado 14

8- Proyectos tipo de machine learning 15

9- Introducción al deep learning 16

10- Bases de datos 17

11- Informes y presentación de resultados 18

12- Skills avanzados: 19

13- Skills avanzados de especialización 19

3
checklist. Todo lo que necesitas saber para ser un gran científico de datos

Te presento un checklist práctico de lo que necesitas ir aprendiendo a lo largo del


camino para convertirte en científico de datos.

Decirte que un científico de datos como todo científico está en constante


aprendizaje y superación. Así que no te agobies.

De lo que hay en está lista me faltan varias cosas a mi así que siempre tenemos
cositas que aprender y profundizar. Es la gracia de esta profesión.

Este checklist lo podemos dividir en:


- Conocimiento práctico vista de pájaro
- Programación
- Bases estadísticas
- Análisis exploratorio de los datos. EDA
- Estadística inferencial aplicada
- Machine learning
- Proyectos tipo de machine learning
- Introducción al deep learning
- Bases de datos
- Informes y presentación de resultados
- Skills avanzados
- Skills avanzados de especialización

¡Aquí te lo presento!

4
checklist. Todo lo que necesitas saber para ser un gran científico de datos

1- Conocimiento práctico vista de pájaro


Por experiencia con mis alumnos, es de vital importancia entender la parte
práctica y de usabilidad de las técnicas que vas a aprender. Por ello, me gusta
añadir este apartado para que te fuerces a entender a nivel genérico, SIN
DETALLES, a vista de pájaro, las posibilidades que ofrecen los datos.

Se trata de aprender a explicar las etapas de un proyecto de datos, los tipos de


técnicas y los tipos de proyectos como si se lo explicaras a tu abuela. No se trata
del detalle sino de los pasos genéricos.

En este apartado propongo que conozcas las etapas de un proyecto con datos de
principio a fin sin ejecutarlas, simplemente que conozcas el camino a recorrer.

Otro tema importante es que conozcas qué tipos de técnicas que existen a nivel
MUY GENÉRICO del tipo descriptivo e inferencial, y de machine learning para
terminar comprendiendo los tipos de proyectos de ciencia de datos

Aquí puedes ver más en detalle todo ello:

- Etapas de un proyecto con datos:


- Problema, objetivos
- Obtención de datos (importación de datos)
- Limpieza y manipulación de datos para el análisis
- Análisis exploratorio de los datos. EDA
- Análisis inferencial (modelado de datos estadístico)
- Machine learning y deep learning
- Presentación de resultados (informe, dashboard, herramienta)

- Tipos de técnicas:
- Técnicas descriptivas
- gráficos y estadísticos
- permiten comparar, relacionar
- Técnicas inferenciales
- test estadísticos de comparación y relación
- modelos causales o modelos estadísticos → causa-efecto
- Machine learning
- supervisadas:
- regresión
- clasificación
- no supervisado
- clustering
- reducción dimensional
- reglas de asociación
- Técnicas de Deep learning - redes neuronales convolucionales

5
checklist. Todo lo que necesitas saber para ser un gran científico de datos

- aplicado a clasificación y regresión

- Tipos de proyectos de ciencia de datos:


- proyecto exploratorio
- proyecto investigativo (inferencial)
- proyecto de regresión
- proyecto de clasificación
- proyecto de clustering
- proyecto de reglas de asociación
- proyectos específicos por temáticas especiales:
- proyecto de time series
- proyecto de procesado de lenguaje natural
- proyecto de computer vision

6
checklist. Todo lo que necesitas saber para ser un gran científico de datos

2- Programación
Una de las patas más importantes es la programación para un científico de datos
ya que vas a usar datos y necesitas manipularlos, graficarlos y hablar con esos
datos. Y para ello necesitas si o si la programación para ser lo más flexible posible y
puedas hacer casi todo lo que te dé la gana con los datos.

Para ello existen dos tipos de softwares: R y Python.

Elige uno de los dos softwares para empezar. Si eres más ingeniero o técnico usa
Python, si eres más científico y vas a usar más estadística usa R.

No hay una mala decisión, simplemente elige uno según el perfil que tengas. Una
vez aprendas uno de ellos es muy fácil saltar al otro, además son herramientas
que se comunican:

Programación Python
- User interface: Spyder, Jupyter o Google Colab
- Tipos de variables en Python
- Statements (if, for, while)
- Librerías:
- numpy para manipular vectores y matrices
- pandas para data frames y data wrangling
- matplotlib para gráficos
- seaborn para gráficos con data frames
- plotly para gráfico interactivos con data frames

Programación R
- User interface: Rstudio o Jupyter
- Tipos de variables en R (numeric, integer, factor, character, date …)
- Tipos de objetivos en R (array, vector, matrix, list, …)
- Statements (if, for, while)
- Librerías:
- dplyr: manipulación de data frames (data wrangling)
- ggplot2: gráficos con data frames
- plotly para gráfico interactivos con data frames

7
checklist. Todo lo que necesitas saber para ser un gran científico de datos

3- Bases estadísticas
Otra parte fundamental de un científico de datos es sin duda la estadística. Es
parte fundamental para poder hablar con los datos y descifrar sus patrones. Por
ello te listo los que tienes que ir aprendiendo sobre estadística básica y de gran
valor para sustentar la gran cantidad de técnicas y conceptos que vas a ir
aprendiendo:

- Tabla de datos y tipos de variable:


- tipos de variables:
- cuantitativas: contínuas y discretas
- cualitativas: nominales y ordinales
- Estructura de una tabla de datos: observaciones y variables

- Estadística descriptiva:
- tablas de frecuencia
- distribuciones variables numéricas
- distribuciones variables cualitativas
- Estadísticos descriptivos:
- medidas de centralidad: media, mediana
- medidas de dispersión: desviación estándar, varianza, rango
intercuartílico, error estándar
- medidas de posición: cuartiles, deciles, percentiles…

- Estadística inferencial
- intervalos de confianza de la media poblacional
- contraste de hipótesis:
- hipótesis nula
- hipótesis de investigación o alternativa
- p-valor
- test estadísticos paramétricos y no paramétricos
- conceptos modelos estadísticos:
- variable de entrada o independientes
- variables de salida o dependiente
- coeficientes del modelo
- p-valor e intervalos de confianza del modelo
- error modelo

8
checklist. Todo lo que necesitas saber para ser un gran científico de datos

4- Análisis exploratorio de los datos (EDA)


Ahora que ya estás situado, sabes programar en R o Python, conoces conceptos
estadísticos clave es momento de jugar con tus datos, pintar gráficos y encontrar
patrones. Para ello vamos a aplicar el análisis exploratorio de los datos (EDA):

- Exploración univariada:
- estadísticos descriptivos:
- media, mediana, IC, desviación, cuartiles, asimetría,
frecuencias relativas, absolutas …
- para variables numéricas:
- histograma
- histograma de densidad
- boxplot
- violin plot
- stripchart
- qqplot
- para variables cualitativas:
- diagramas de barras
- diagramas de sectores o circulares
- doghnuts

- Gráficos de exploración multivariada


- estadísticos descriptivos por grupos:
- media, mediana, IC, desviación, cuartiles, asimetría …
- tablas de contingencia: frecuencias relativas, absolutas,
condicionadas
- gráficos de relaciones:
- diagramas de dispersión
- diagramas de dispersión con línea de tendencia
- matrixplot
- matrixplot mixto
- correlograma o correlation plot
- bubble plot
- gráficos de comparaciones:
- boxplot de 1 o 2 factores
- diagramas de medias o de error de 1 o 2 factores
- violin plot de 1 o 2 factores
- diagramas de densidad de 1 factor
- diagramas de barras de 2 factores
- gráficos de series temporales:
- gráficos de tendencia

- Análisis de valores perdidos

9
checklist. Todo lo que necesitas saber para ser un gran científico de datos

- Análisis de outliers
- reglas univariadas: por ejemplo boxplot o Z-score
- reglas multivariantes: por ejemplo malahanobis distance
- Tratamiento de outliers

- Librerías uso con R:


- dplyr: manipulación de data frames (data wrangling)
- ggplot2: gráficos con data frames
- plotly para gráfico interactivos con data frames
- corrplot,
- Librerías uso con Python:
- pandas y numpy

10
checklist. Todo lo que necesitas saber para ser un gran científico de datos

5- Estadística inferencial aplicada


Ya sabes explorar datos y sabes encontrar patrones a nivel gráfico y estadístico.
Para ir un paso más allá podemos comparar y relacionar mediante test
estadísticos.

También podemos encontrar relaciones causa-efecto. Es decir, cómo influyen las


variables de entrada a las variables de salida aplicando modelos estadísticos:

- Diseño experimental y cálculo muestral:


- tipos de investigación
- cálculo muestral:
- una proporción
- una media
- comparación de medias
- comparación de proporciones
- …

- Comparación de medias:
- t-test y U de Mann Whitney
- ANOVA o wilcoxon test y pair comparison
- ANOVA de medidas repetidas
- ANOVA de 2 factores
- Modelos lineales generales
- Comparación y relación de proporciones
- Test exacto de fisher
- Chi cuadrado

- Correlación
- Pearson, spearman y kendall

- Modelos de regresión
- simple
- multivariante
- Validación de modelos de regresión clásicos

- Modelos lineales generalizados:


- Modelo de regresión con distribución normal
- Modelo de regresión con distribución lognormal, logarítmica
- Modelo de regresión logístico
- Modelo de regresión de Poisson y binomial negativo
- Modelo de regresión multinomial
- Validación de los modelos generalizados

- Librerías uso con R:

11
checklist. Todo lo que necesitas saber para ser un gran científico de datos

- base
- corrplot
- Librerías uso con Python:
- statsmodel
- sklearn.linear_model

12
checklist. Todo lo que necesitas saber para ser un gran científico de datos

6- Machine learning supervisado


Machine learning es el siguiente paso. Ahora ya tienes las bases y es momento de
comprender las técnicas de machine learning supervisado. Aquí vamos a abordar
problemas de regresión y de clasificación. El más común es el de clasificación.

No se trata de saber toda la matemática que hay detrás pero sí cómo funciona a
nivel práctico para que puedas usar y ser crítico con los resultados.

Aquí tienes listado el mundo de machine learning:

- Preparación de los datos:


- EDA aplicado a machine learning
- descripción univariada de la salida
- descripción univariada de las entradas
- descripción multivariada entradas vs salida
- Imputación de valores perdidos
- Imputación univariada: por zeros, por la media o mediana, por
la moda, …
- Imputación multivariada: regresión lineal múltiple, …
- Transformación de variables
- PCA, ICA, Estandarización, Normalización, Yule Johnson,...

- Características del training:


- data split
- resampling: k-fold validation, bootstrapping,...
- balanceo de los datos (sólo en clasificación): downsampling,
upsampling, SMOTE, …

- Algoritmos de clasificación:
- básicos o baseline:
- logistic regression, naive bayes, k-vecinos más cercanos KNN,
linear discriminant analysis LDA, support vector machine SVM,
classification tree..
- avanzados (bagging y boosting):
- random forest, gradient boosting, ada boost, …
- métricas de error:
- accuracy, sensibilidad, especificidad, true positive, false
positive, kappa, AUROC,...

- Algoritmos de regresión:
- básicos o baseline:
- logistic regression, naive bayes, k-vecinos más cercanos KNN,
support vector machine SVM, regression tree ..

13
checklist. Todo lo que necesitas saber para ser un gran científico de datos

- avanzados (bagging y boosting):


- random forest, gradient boosting, ada boost, …
- métricas de error:
- RMSE, MAE, R-squared

- Uso con Python: sklearn


- Uso con R: caret

14
checklist. Todo lo que necesitas saber para ser un gran científico de datos

7- Machine learning no supervisado


Otra rama del machine learning es el machine learning no supervisado, es decir,
cuando no tenemos información de salida y podemos buscar clusters o grupos
similares, reducir dimensiones e incluso reglas de asociación.
- Clustering:
- k-means
- clustering jerárquico
- gaussian mixture models GMM
- …

- Reducción dimensional:
- principal component analysis PCA
- multidimensional scaling MDS
- independent component analysis ICA

- Reglas de asociación:
- reglas a priori
- decisition tree solo caso supervisado

15
checklist. Todo lo que necesitas saber para ser un gran científico de datos

8- Proyectos tipo de machine learning

Volviendo al punto 1, ahora se trata de trabajar los proyectos que aprendistes de


manera global a aplicarlos en detalle paso por paso con datasets reales de kaggle
por ejemplo, o de alguna empresa o institución que puedas colaborar:

● Proyecto de clasificación binaria


● Proyecto de clasificación multinomial
● Proyecto de regresión
● Proyecto de clustering
● Proyecto de reducción dimensional
● Proyecto de reglas de asociación

16
checklist. Todo lo que necesitas saber para ser un gran científico de datos

9- Introducción al deep learning

El machine learning clásico tiene sus limitaciones ya que necesita la intervención


humana para calcular las características o features de entrada que sirven para
clasificar.

El deep learning hace eso por ti. Te calcula las características de entrada de
diferentes fuentes de datos con fuentes no estructurada y consigue clasificar
como si fuera un cerebro humano siempre y cuando tengas suficientes casos y
datos para lograrlo.

- Aspectos del deep learning a aprender:


- Diferencia entre machine learning y deep learning
- La idea intuitiva de la redes neuronales convolucionales
- La estructura de un problema de deep learning

- Ejecutar proyectos de clasificación con deep learning:


- Imágenes
- Time series
- Natural language processing

- Uso con Python: keras

17
checklist. Todo lo que necesitas saber para ser un gran científico de datos

10- Bases de datos

Hasta ahora has trabajado con datos estructurados y es momento de meterse de


lleno en las bases de datos y mySQL.

Un científico de datos necesita si o si hacer consultas de bases de datos para


poder leer datos, importarlos y utilizar herramientas de estadística, machine
learning o deep learning.

Consultas de bases de datos no estructuradas:

- Montar un servidor y tu propia base de datos


- Consultas a la base de datos con SQL: filtro, agrupación etc…
- Modelado de datos con Power BI

18
checklist. Todo lo que necesitas saber para ser un gran científico de datos

11- Informes y presentación de resultados

Otro tema necesario es tener skills de comunicación y presentación de resultados


porque todo el trabajo de un científico de datos tiene que ser comunicado al
cliente o a miembros del equipo.

Es una parte fundamental el saber transmitir los resultados e incluso crear


herramientas para que personas que no sepan usar los datos puedan utilizar las
metodologías creadas por los científicos de datos.

- Skills de comunicación
- Informe y presentación de resultados
- Informe automatizado con PDF o html
- Python o R: jupyter notebook
- R: Rmarkdown
- Creación de dashboards
- Python: plotly dash
- R: RShiny

19
checklist. Todo lo que necesitas saber para ser un gran científico de datos

12- Skills avanzados:

Una vez hayas llegado te queda ir trabajando patas de temas avanzados que cada
vez hay más demanda.

Por un lado, el uso de programación por versiones para poder trabajar en equipo e
incluso crearte un repositorio de github para guardar todos los códigos que vayas
generando a lo largo de los años.

Web scraping para leer datos de web y textos en web, una parte cada vez más
usada en ciencia de datos.

Las series temporales son cada vez más demandadas ya que nos interesa conocer
la evolución en el tiempo.

Finalmente, afianzar el uso de deep learning y la creación de redes neuronales


con Keras.

- Uso de github y programación por versiones


- Web scraping
- Time series:
- forecasting
- anomaly detection
- Deep learning +

13- Skills avanzados de especialización

No siempre es necesario a todo pero depende del proyecto o puesto de trabajo te


pueden pedir que trabajes en estos temas que listo a continuación:

- Text mining o procesado del lenguaje natural - NPL


- Computer vision
- Herramientas cloud
- Azure
- Google cloud
- Big Data
- Spark
- Hadoop
- ETL – pyspark

20
checklist. Todo lo que necesitas saber para ser un gran científico de datos

¡Deseo que esta guía tipo checklist te ayude en tu camino como científico de
datos y puedas seguir avanzando para convertirte en un profesional adaptado a la
era de los datos que aporta valor en las empresas y proyectos donde colaboras!

Si te ha ayudado la guía el siguiente paso es acceder al programa Analiza tus


Datos.

Es el programa para dominar el método de trabajar los datos y acabar


convirtiéndote en científico de datos.

Si quieres hablar conmigo o alguien de mi equipo puedes acceder a una sesión 1


a 1 dónde vamos a revisar tu caso y contestaremos a todas tus dudas:

>> Reserva sesión personalizada aquí

1 abrazo y hasta pronto.


Brindo por tus éxitos profesionales :)

Jordi Ollé

21

También podría gustarte