Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SOBRE
JORDI OLLÉ
CONCEPTOSCLAROS.COM
Soy Jordi Ollé y estudié ingeniería industrial y al terminar me apunté a un máster en ingeniería
biomédica. Decidí presentar la tesis final sobre análisis de datos biomédicos en una base de datos
de pacientes.
Aunque el proyecto era muy ilusionante estaba totalmente perdido. No sabía interpretar los gráficos
ni usarlos para sacar valor de los datos, y mucho menos, modelizar mis datos con modelos o
algoritmos. Aunque estudié una carrera de números no tenía ni idea de cómo hacerlo. Me parecía
todo muy complejo.
Tuve la suerte de encontrar a mi primer mentor, empecé a ver todas las técnicas como herramientas
aplicables y no solo en ese proyecto sino en muchos otros de otras temáticas y sectores. Las utilicé
en proyectos I+D del sector eólico, en el sector médico, deportivo…. Lo mejor es que existe un
sistema, uno pasos, que se repiten en cualquier proyecto y se necesitan para trabajar los datos. Hoy
quiero que tú también los utilices para avanzar en tus proyectos y tu carrera profesional.
Todo el sistema y mi experiencia es el que trato de transmitir a mis alumnos y clientes para que ellos
2
checklist. Todo lo que necesitas saber para ser un gran científico de datos
ÍNDICE
2- Programación 6
Programación Python 6
Programación R 6
3- Bases estadísticas 7
3
checklist. Todo lo que necesitas saber para ser un gran científico de datos
De lo que hay en está lista me faltan varias cosas a mi así que siempre tenemos
cositas que aprender y profundizar. Es la gracia de esta profesión.
¡Aquí te lo presento!
4
checklist. Todo lo que necesitas saber para ser un gran científico de datos
En este apartado propongo que conozcas las etapas de un proyecto con datos de
principio a fin sin ejecutarlas, simplemente que conozcas el camino a recorrer.
Otro tema importante es que conozcas qué tipos de técnicas que existen a nivel
MUY GENÉRICO del tipo descriptivo e inferencial, y de machine learning para
terminar comprendiendo los tipos de proyectos de ciencia de datos
- Tipos de técnicas:
- Técnicas descriptivas
- gráficos y estadísticos
- permiten comparar, relacionar
- Técnicas inferenciales
- test estadísticos de comparación y relación
- modelos causales o modelos estadísticos → causa-efecto
- Machine learning
- supervisadas:
- regresión
- clasificación
- no supervisado
- clustering
- reducción dimensional
- reglas de asociación
- Técnicas de Deep learning - redes neuronales convolucionales
5
checklist. Todo lo que necesitas saber para ser un gran científico de datos
6
checklist. Todo lo que necesitas saber para ser un gran científico de datos
2- Programación
Una de las patas más importantes es la programación para un científico de datos
ya que vas a usar datos y necesitas manipularlos, graficarlos y hablar con esos
datos. Y para ello necesitas si o si la programación para ser lo más flexible posible y
puedas hacer casi todo lo que te dé la gana con los datos.
Elige uno de los dos softwares para empezar. Si eres más ingeniero o técnico usa
Python, si eres más científico y vas a usar más estadística usa R.
No hay una mala decisión, simplemente elige uno según el perfil que tengas. Una
vez aprendas uno de ellos es muy fácil saltar al otro, además son herramientas
que se comunican:
Programación Python
- User interface: Spyder, Jupyter o Google Colab
- Tipos de variables en Python
- Statements (if, for, while)
- Librerías:
- numpy para manipular vectores y matrices
- pandas para data frames y data wrangling
- matplotlib para gráficos
- seaborn para gráficos con data frames
- plotly para gráfico interactivos con data frames
Programación R
- User interface: Rstudio o Jupyter
- Tipos de variables en R (numeric, integer, factor, character, date …)
- Tipos de objetivos en R (array, vector, matrix, list, …)
- Statements (if, for, while)
- Librerías:
- dplyr: manipulación de data frames (data wrangling)
- ggplot2: gráficos con data frames
- plotly para gráfico interactivos con data frames
7
checklist. Todo lo que necesitas saber para ser un gran científico de datos
3- Bases estadísticas
Otra parte fundamental de un científico de datos es sin duda la estadística. Es
parte fundamental para poder hablar con los datos y descifrar sus patrones. Por
ello te listo los que tienes que ir aprendiendo sobre estadística básica y de gran
valor para sustentar la gran cantidad de técnicas y conceptos que vas a ir
aprendiendo:
- Estadística descriptiva:
- tablas de frecuencia
- distribuciones variables numéricas
- distribuciones variables cualitativas
- Estadísticos descriptivos:
- medidas de centralidad: media, mediana
- medidas de dispersión: desviación estándar, varianza, rango
intercuartílico, error estándar
- medidas de posición: cuartiles, deciles, percentiles…
- Estadística inferencial
- intervalos de confianza de la media poblacional
- contraste de hipótesis:
- hipótesis nula
- hipótesis de investigación o alternativa
- p-valor
- test estadísticos paramétricos y no paramétricos
- conceptos modelos estadísticos:
- variable de entrada o independientes
- variables de salida o dependiente
- coeficientes del modelo
- p-valor e intervalos de confianza del modelo
- error modelo
8
checklist. Todo lo que necesitas saber para ser un gran científico de datos
- Exploración univariada:
- estadísticos descriptivos:
- media, mediana, IC, desviación, cuartiles, asimetría,
frecuencias relativas, absolutas …
- para variables numéricas:
- histograma
- histograma de densidad
- boxplot
- violin plot
- stripchart
- qqplot
- para variables cualitativas:
- diagramas de barras
- diagramas de sectores o circulares
- doghnuts
9
checklist. Todo lo que necesitas saber para ser un gran científico de datos
- Análisis de outliers
- reglas univariadas: por ejemplo boxplot o Z-score
- reglas multivariantes: por ejemplo malahanobis distance
- Tratamiento de outliers
10
checklist. Todo lo que necesitas saber para ser un gran científico de datos
- Comparación de medias:
- t-test y U de Mann Whitney
- ANOVA o wilcoxon test y pair comparison
- ANOVA de medidas repetidas
- ANOVA de 2 factores
- Modelos lineales generales
- Comparación y relación de proporciones
- Test exacto de fisher
- Chi cuadrado
- Correlación
- Pearson, spearman y kendall
- Modelos de regresión
- simple
- multivariante
- Validación de modelos de regresión clásicos
11
checklist. Todo lo que necesitas saber para ser un gran científico de datos
- base
- corrplot
- Librerías uso con Python:
- statsmodel
- sklearn.linear_model
12
checklist. Todo lo que necesitas saber para ser un gran científico de datos
No se trata de saber toda la matemática que hay detrás pero sí cómo funciona a
nivel práctico para que puedas usar y ser crítico con los resultados.
- Algoritmos de clasificación:
- básicos o baseline:
- logistic regression, naive bayes, k-vecinos más cercanos KNN,
linear discriminant analysis LDA, support vector machine SVM,
classification tree..
- avanzados (bagging y boosting):
- random forest, gradient boosting, ada boost, …
- métricas de error:
- accuracy, sensibilidad, especificidad, true positive, false
positive, kappa, AUROC,...
- Algoritmos de regresión:
- básicos o baseline:
- logistic regression, naive bayes, k-vecinos más cercanos KNN,
support vector machine SVM, regression tree ..
13
checklist. Todo lo que necesitas saber para ser un gran científico de datos
14
checklist. Todo lo que necesitas saber para ser un gran científico de datos
- Reducción dimensional:
- principal component analysis PCA
- multidimensional scaling MDS
- independent component analysis ICA
- Reglas de asociación:
- reglas a priori
- decisition tree solo caso supervisado
15
checklist. Todo lo que necesitas saber para ser un gran científico de datos
16
checklist. Todo lo que necesitas saber para ser un gran científico de datos
El deep learning hace eso por ti. Te calcula las características de entrada de
diferentes fuentes de datos con fuentes no estructurada y consigue clasificar
como si fuera un cerebro humano siempre y cuando tengas suficientes casos y
datos para lograrlo.
17
checklist. Todo lo que necesitas saber para ser un gran científico de datos
18
checklist. Todo lo que necesitas saber para ser un gran científico de datos
- Skills de comunicación
- Informe y presentación de resultados
- Informe automatizado con PDF o html
- Python o R: jupyter notebook
- R: Rmarkdown
- Creación de dashboards
- Python: plotly dash
- R: RShiny
19
checklist. Todo lo que necesitas saber para ser un gran científico de datos
Una vez hayas llegado te queda ir trabajando patas de temas avanzados que cada
vez hay más demanda.
Por un lado, el uso de programación por versiones para poder trabajar en equipo e
incluso crearte un repositorio de github para guardar todos los códigos que vayas
generando a lo largo de los años.
Web scraping para leer datos de web y textos en web, una parte cada vez más
usada en ciencia de datos.
Las series temporales son cada vez más demandadas ya que nos interesa conocer
la evolución en el tiempo.
20
checklist. Todo lo que necesitas saber para ser un gran científico de datos
¡Deseo que esta guía tipo checklist te ayude en tu camino como científico de
datos y puedas seguir avanzando para convertirte en un profesional adaptado a la
era de los datos que aporta valor en las empresas y proyectos donde colaboras!
Jordi Ollé
21