0% encontró este documento útil (0 votos)
25 vistas6 páginas

Ciencia de Datos en Python

El documento detalla un curso de ciencia de datos utilizando Python, abarcando desde conceptos básicos hasta técnicas avanzadas de aprendizaje automático y Big Data. Incluye módulos sobre manipulación de datos, visualización, estadística, preprocesamiento, y la implementación de modelos en producción. Además, se destaca la integración de herramientas como PySpark para el manejo de grandes volúmenes de datos y la realización de un proyecto final completo.

Cargado por

Abraham Solis
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
25 vistas6 páginas

Ciencia de Datos en Python

El documento detalla un curso de ciencia de datos utilizando Python, abarcando desde conceptos básicos hasta técnicas avanzadas de aprendizaje automático y Big Data. Incluye módulos sobre manipulación de datos, visualización, estadística, preprocesamiento, y la implementación de modelos en producción. Además, se destaca la integración de herramientas como PySpark para el manejo de grandes volúmenes de datos y la realización de un proyecto final completo.

Cargado por

Abraham Solis
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 6

Python es ampliamente utilizado en ciencia de datos debido a su sintaxis simple y su vasta

colección de bibliotecas especializadas como Pandas, NumPy y Scikit-learn, que facilitan el


análisis, procesamiento y modelado de datos. Además, su integración con herramientas de Big
Data como PySpark lo hace ideal para trabajar con grandes volúmenes de información. Su
fuerte comunidad y abundante documentación proporcionan soporte constante. También es
versátil, permitiendo desarrollar desde análisis exploratorios hasta implementaciones de
aprendizaje automático y visualizaciones avanzadas.

Módulo 1: Introducción a la Ciencia de Datos y Python

1. Ciencia de Datos: Conceptos básicos

o ¿Qué es la ciencia de datos?

o Aplicaciones de la ciencia de datos

o Introducción al flujo de trabajo de un proyecto de ciencia de datos

2. Introducción a Python para Ciencia de Datos

o Instalación y configuración de entornos de trabajo: Anaconda, Jupyter, Google


Colab

o Sintaxis básica de Python

o Tipos de datos y estructuras (listas, tuplas, diccionarios, sets)

o Control de flujo y funciones

Módulo 2: Manipulación de Datos con Python

1. Introducción a la Librería Pandas

o Estructuras de datos: Series y DataFrames

o Carga de datos (CSV, Excel, JSON, SQL)

o Exploración de datos (resúmenes, estadísticas, tipos de datos)

2. Limpieza y Transformación de Datos

o Manejo de valores faltantes y duplicados

o Filtrado y selección de datos

o Transformación de columnas (crear, modificar, eliminar)

o Unión y concatenación de DataFrames

3. Manipulación Avanzada de Datos


o Pivot tables y tablas dinámicas

o Agrupaciones y agregaciones

o Manejo de fechas y tiempos

o Indexación jerárquica

Módulo 3: Visualización de Datos

1. Introducción a Matplotlib y Seaborn

o Creación de gráficos básicos: líneas, barras, dispersión

o Personalización de gráficos: colores, etiquetas, estilos

2. Visualización Avanzada

o Gráficos de distribuciones y relaciones (histogramas, boxplots, pairplots)

o Gráficos categóricos y de tiempo

o Mapas de calor y gráficos de correlación

3. Visualización Interactiva con Plotly

o Introducción a gráficos interactivos

o Dashboards básicos en Plotly y Dash

Módulo 4: Estadística Descriptiva e Inferencial

1. Conceptos Básicos de Estadística

o Medidas de tendencia central: media, mediana, moda

o Medidas de dispersión: varianza, desviación estándar

o Distribuciones de probabilidad (normal, binomial, poisson)

2. Inferencia Estadística

o Pruebas de hipótesis

o Intervalos de confianza

o Análisis de correlación y covarianza

o Análisis de regresión lineal simple

Módulo 5: Preprocesamiento y Preparación de Datos


1. Preparación de Datos para Modelos

o Escalado y normalización de datos

o Codificación de variables categóricas (One-hot encoding, label encoding)

o División de los datos en conjuntos de entrenamiento y prueba

2. Manejo de Datos Desbalanceados

o Técnicas para equilibrar clases (undersampling, oversampling, SMOTE)

o Evaluación de modelos en datos desbalanceados

Módulo 6: Aprendizaje Supervisado

1. Introducción al Aprendizaje Supervisado

o Diferencias entre aprendizaje supervisado y no supervisado

o Tipos de algoritmos supervisados: clasificación vs. regresión

2. Modelos de Clasificación

o Regresión logística

o Máquinas de soporte vectorial (SVM)

o K-Nearest Neighbors (KNN)

o Árboles de decisión y Random Forest

o Evaluación de modelos de clasificación (Matriz de confusión, precisión,


recall, F1)

3. Modelos de Regresión

o Regresión lineal múltiple

o Regresión Ridge y Lasso

o Evaluación de modelos de regresión (MAE, RMSE, R²)

Módulo 7: Aprendizaje No Supervisado

1. Introducción al Aprendizaje No Supervisado

o Clustering: K-means, DBSCAN, Hierarchical clustering

o Reducción de dimensionalidad: PCA (Análisis de componentes principales)

2. Análisis de Asociación
o Algoritmos de reglas de asociación (Apriori, FP-Growth)

o Uso en análisis de cesta de compras

Módulo 8: Evaluación y Optimización de Modelos

1. Validación Cruzada y Métricas de Evaluación

o K-fold cross-validation

o Validación leave-one-out

o Métricas de evaluación para clasificación y regresión

2. Optimización de Hiperparámetros

o Grid Search y Randomized Search

o Optimización Bayesiana

3. Ingeniería de Características

o Selección de características (feature selection)

o Extracción de características

Módulo 9: Deep Learning y Redes Neuronales

1. Introducción a Redes Neuronales

o Conceptos básicos de redes neuronales

o Perceptrón y redes neuronales multicapa

o Funciones de activación

2. Redes Neuronales Convolucionales (CNN)

o Aplicación en procesamiento de imágenes

o Capas convolucionales, de pooling y fully-connected

3. Redes Neuronales Recurrentes (RNN)

o Aplicación en series de tiempo y secuencias

o LSTM y GRU

Módulo 10: Ciencia de Datos en Producción

1. Implementación de Modelos en Producción


o Exportación y serialización de modelos (Pickle, joblib)

o APIs para servir modelos: Flask y FastAPI

2. Despliegue en la Nube

o Implementación de modelos en servidores o plataformas en la nube (Heroku,


AWS, Google Cloud)

o Monitorización y actualización de modelos

3. Documentación y Reportes

o Generación de reportes automáticos con Python (Jupyter, nbconvert)

o Buenas prácticas de documentación de proyectos

Módulo 11: Big Data con PySpark en Google Colab

1. Configuración de PySpark en Google Colab

o Introducción a Apache Spark y PySpark

o Instalación y configuración de PySpark en Colab

o Conceptos básicos de RDDs y DataFrames

2. Manipulación y Procesamiento de Grandes Conjuntos de Datos

o Carga de datos en formatos como CSV, JSON y Parquet

o Transformaciones y acciones en PySpark: filtrado, selección, agrupación

o Optimización de consultas y manejo de particiones

3. Procesamiento en Batch y Streaming con PySpark

o Procesamiento de grandes volúmenes de datos en batch

o Introducción al procesamiento en tiempo real con Spark Structured Streaming

o Agregaciones y manejo de ventanas de tiempo en datos en streaming

Módulo 12: Proyecto Final

1. Desarrollo de un Proyecto Completo de Ciencia de Datos

o Definición de la problemática y objetivos

o Recopilación y limpieza de datos

o Exploración y visualización de datos


o Modelado predictivo

o Presentación de resultados y conclusiones

También podría gustarte