Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprendizaje Esperado 3
Aprendizaje Esperado 3
Obtención de datos desde archivos
Aprendizaje Esperado 3
Recuperar datos desde distintas fuentes utilizando librerías utilitarias de
Python para su posterior utilización.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Contexto
La lectura y escritura de archivos en Python es una parte esencial en el
análisis de datos, ya que permite importar datos desde diversas fuentes,
como archivos CSV, Excel, bases de datos, y más, para luego procesar y
analizar estos datos. Con bibliotecas como Pandas y NumPy, Python
proporciona herramientas poderosas para leer y manipular datos tabulares
de manera eficiente. La capacidad de escribir datos procesados en
diferentes formatos también es crucial para generar resultados, informes
y visualizaciones. El manejo de archivos en Python es fundamental para la
recopilación, limpieza, transformación y visualización de datos, lo que lo
convierte en una herramienta clave en el análisis de datos y la toma de
decisiones basadas en datos.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
ARCHIVOS CSV
Definición
Los archivos CSV (Valores Separados por Comas, por sus siglas en inglés
Comma-Separated Values) son un formato de archivo utilizado para
almacenar datos tabulares, como hojas de cálculo o bases de datos, de una
manera simple y estructurada. Cada línea del archivo representa una fila
de datos, y los valores de cada fila están separados por comas (u otro
delimitador, como punto y coma o tabulación).
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Sin librerías
Con csv:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Con pandas:
Archivos Excel
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
XLRD
Librería xlrd
xlrd es una biblioteca en Python que se utiliza para leer datos y metadatos
de archivos de formato Excel (XLS y XLSX). Permite a los programadores
acceder a los contenidos de hojas de cálculo de Excel y trabajar con ellos
en sus programas.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Acceso a celdas y datos: xlrd te permite acceder a los datos en las celdas
de una hoja de cálculo, lo que facilita la extracción de información y su
procesamiento en tus programas.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Una vez que tengas una hoja de cálculo seleccionada, puedes acceder a
los datos en celdas específicas utilizando métodos como cell_value(fila,
columna):
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Ejemplo
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Para escribir un archivo Excel con pandas, puedes usar el método to_excel:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Ejercicio guiado
Si no los tienes instalados, puedes instalar Pandas y openpyxl (que permite
la lectura/escritura de archivos Excel) con pip:
import pandas as pd
df = pd.read_excel('ruta/a/datos.xlsx')
print(df.head())
Si el archivo Excel contiene múltiples hojas, puedes especificar una hoja por
nombre o índice:
df_hoja_especifica = pd.read_excel('ruta/a/datos.xlsx',
sheet_name='Hoja1')
df_hoja_por_indice = pd.read_excel('ruta/a/datos.xlsx',
sheet_name=1)
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
df.to_excel('ruta/a/datos_guardados.xlsx', index=False)
With
pd.ExcelWriter('ruta/a/datos_con_multiples_hojas.xlsx',
engine='openpyxl') as writer:
df_hoja_especifica.to_excel(writer, sheet_name='Datos
Secundarios', index=False)
df_columnas_especificas =
pd.read_excel('ruta/a/datos.xlsx', usecols='A:C')
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Referencias
● Programador Clic: Use Python para leer y modificar archivos de Excel
(incluidos archivos xls y xlsx) basados en módulos xlrd, xlwt y
openpyxl
https://programmerclick.com/article/9740120496/
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos
Módulo
Obtención y Preparación de Datos