Python es ampliamente utilizado en ciencia de datos debido a su sintaxis simple y su vasta
colección de bibliotecas especializadas como Pandas, NumPy y Scikit-learn, que facilitan el
análisis, procesamiento y modelado de datos. Además, su integración con herramientas de Big
Data como PySpark lo hace ideal para trabajar con grandes volúmenes de información. Su
fuerte comunidad y abundante documentación proporcionan soporte constante. También es
versátil, permitiendo desarrollar desde análisis exploratorios hasta implementaciones de
aprendizaje automático y visualizaciones avanzadas.
Módulo 1: Introducción a la Ciencia de Datos y Python
1. Ciencia de Datos: Conceptos básicos
o ¿Qué es la ciencia de datos?
o Aplicaciones de la ciencia de datos
o Introducción al flujo de trabajo de un proyecto de ciencia de datos
2. Introducción a Python para Ciencia de Datos
o Instalación y configuración de entornos de trabajo: Anaconda, Jupyter, Google
Colab
o Sintaxis básica de Python
o Tipos de datos y estructuras (listas, tuplas, diccionarios, sets)
o Control de flujo y funciones
Módulo 2: Manipulación de Datos con Python
1. Introducción a la Librería Pandas
o Estructuras de datos: Series y DataFrames
o Carga de datos (CSV, Excel, JSON, SQL)
o Exploración de datos (resúmenes, estadísticas, tipos de datos)
2. Limpieza y Transformación de Datos
o Manejo de valores faltantes y duplicados
o Filtrado y selección de datos
o Transformación de columnas (crear, modificar, eliminar)
o Unión y concatenación de DataFrames
3. Manipulación Avanzada de Datos
o Pivot tables y tablas dinámicas
o Agrupaciones y agregaciones
o Manejo de fechas y tiempos
o Indexación jerárquica
Módulo 3: Visualización de Datos
1. Introducción a Matplotlib y Seaborn
o Creación de gráficos básicos: líneas, barras, dispersión
o Personalización de gráficos: colores, etiquetas, estilos
2. Visualización Avanzada
o Gráficos de distribuciones y relaciones (histogramas, boxplots, pairplots)
o Gráficos categóricos y de tiempo
o Mapas de calor y gráficos de correlación
3. Visualización Interactiva con Plotly
o Introducción a gráficos interactivos
o Dashboards básicos en Plotly y Dash
Módulo 4: Estadística Descriptiva e Inferencial
1. Conceptos Básicos de Estadística
o Medidas de tendencia central: media, mediana, moda
o Medidas de dispersión: varianza, desviación estándar
o Distribuciones de probabilidad (normal, binomial, poisson)
2. Inferencia Estadística
o Pruebas de hipótesis
o Intervalos de confianza
o Análisis de correlación y covarianza
o Análisis de regresión lineal simple
Módulo 5: Preprocesamiento y Preparación de Datos
1. Preparación de Datos para Modelos
o Escalado y normalización de datos
o Codificación de variables categóricas (One-hot encoding, label encoding)
o División de los datos en conjuntos de entrenamiento y prueba
2. Manejo de Datos Desbalanceados
o Técnicas para equilibrar clases (undersampling, oversampling, SMOTE)
o Evaluación de modelos en datos desbalanceados
Módulo 6: Aprendizaje Supervisado
1. Introducción al Aprendizaje Supervisado
o Diferencias entre aprendizaje supervisado y no supervisado
o Tipos de algoritmos supervisados: clasificación vs. regresión
2. Modelos de Clasificación
o Regresión logística
o Máquinas de soporte vectorial (SVM)
o K-Nearest Neighbors (KNN)
o Árboles de decisión y Random Forest
o Evaluación de modelos de clasificación (Matriz de confusión, precisión,
recall, F1)
3. Modelos de Regresión
o Regresión lineal múltiple
o Regresión Ridge y Lasso
o Evaluación de modelos de regresión (MAE, RMSE, R²)
Módulo 7: Aprendizaje No Supervisado
1. Introducción al Aprendizaje No Supervisado
o Clustering: K-means, DBSCAN, Hierarchical clustering
o Reducción de dimensionalidad: PCA (Análisis de componentes principales)
2. Análisis de Asociación
o Algoritmos de reglas de asociación (Apriori, FP-Growth)
o Uso en análisis de cesta de compras
Módulo 8: Evaluación y Optimización de Modelos
1. Validación Cruzada y Métricas de Evaluación
o K-fold cross-validation
o Validación leave-one-out
o Métricas de evaluación para clasificación y regresión
2. Optimización de Hiperparámetros
o Grid Search y Randomized Search
o Optimización Bayesiana
3. Ingeniería de Características
o Selección de características (feature selection)
o Extracción de características
Módulo 9: Deep Learning y Redes Neuronales
1. Introducción a Redes Neuronales
o Conceptos básicos de redes neuronales
o Perceptrón y redes neuronales multicapa
o Funciones de activación
2. Redes Neuronales Convolucionales (CNN)
o Aplicación en procesamiento de imágenes
o Capas convolucionales, de pooling y fully-connected
3. Redes Neuronales Recurrentes (RNN)
o Aplicación en series de tiempo y secuencias
o LSTM y GRU
Módulo 10: Ciencia de Datos en Producción
1. Implementación de Modelos en Producción
o Exportación y serialización de modelos (Pickle, joblib)
o APIs para servir modelos: Flask y FastAPI
2. Despliegue en la Nube
o Implementación de modelos en servidores o plataformas en la nube (Heroku,
AWS, Google Cloud)
o Monitorización y actualización de modelos
3. Documentación y Reportes
o Generación de reportes automáticos con Python (Jupyter, nbconvert)
o Buenas prácticas de documentación de proyectos
Módulo 11: Big Data con PySpark en Google Colab
1. Configuración de PySpark en Google Colab
o Introducción a Apache Spark y PySpark
o Instalación y configuración de PySpark en Colab
o Conceptos básicos de RDDs y DataFrames
2. Manipulación y Procesamiento de Grandes Conjuntos de Datos
o Carga de datos en formatos como CSV, JSON y Parquet
o Transformaciones y acciones en PySpark: filtrado, selección, agrupación
o Optimización de consultas y manejo de particiones
3. Procesamiento en Batch y Streaming con PySpark
o Procesamiento de grandes volúmenes de datos en batch
o Introducción al procesamiento en tiempo real con Spark Structured Streaming
o Agregaciones y manejo de ventanas de tiempo en datos en streaming
Módulo 12: Proyecto Final
1. Desarrollo de un Proyecto Completo de Ciencia de Datos
o Definición de la problemática y objetivos
o Recopilación y limpieza de datos
o Exploración y visualización de datos
o Modelado predictivo
o Presentación de resultados y conclusiones