Está en la página 1de 18

Módulo

Obtención y preparación de datos

Aprendizaje Esperado 3
Aprendizaje Esperado 3
Obtención de datos desde archivos

Aprendizaje Esperado 3
Recuperar datos desde distintas fuentes utilizando librerías utilitarias de
Python para su posterior utilización.

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

3. Obtención de datos desde archivos

Contexto
La lectura y escritura de archivos en Python es una parte esencial en el
análisis de datos, ya que permite importar datos desde diversas fuentes,
como archivos CSV, Excel, bases de datos, y más, para luego procesar y
analizar estos datos. Con bibliotecas como Pandas y NumPy, Python
proporciona herramientas poderosas para leer y manipular datos tabulares
de manera eficiente. La capacidad de escribir datos procesados en
diferentes formatos también es crucial para generar resultados, informes
y visualizaciones. El manejo de archivos en Python es fundamental para la
recopilación, limpieza, transformación y visualización de datos, lo que lo
convierte en una herramienta clave en el análisis de datos y la toma de
decisiones basadas en datos.

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

ARCHIVOS CSV

Definición
Los archivos CSV (Valores Separados por Comas, por sus siglas en inglés
Comma-Separated Values) son un formato de archivo utilizado para
almacenar datos tabulares, como hojas de cálculo o bases de datos, de una
manera simple y estructurada. Cada línea del archivo representa una fila
de datos, y los valores de cada fila están separados por comas (u otro
delimitador, como punto y coma o tabulación).

Cada fila generalmente representa un registro y las columnas contienen


los campos o atributos relacionados con ese registro. Los archivos CSV son
ampliamente utilizados en la transferencia de datos entre diferentes
aplicaciones, ya que son legibles tanto por humanos como por máquinas
y son compatibles con una variedad de programas de hojas de cálculo y
bases de datos. Este formato es especialmente útil para importar y
exportar datos entre aplicaciones y sistemas que manejan información
tabular.

Leyendo un archivo CSV


Existen varias formas de leer archivos CSV (o en general) en Python.

Por ejemplo, podemos usar funciones básicas de Python como open y


read:

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

También podemos hacerlo con la librería csv:

Pero quizás lo más fácil y conveniente sea hacerlo con pandas:

Escribiendo un archivo CSV


Al igual que la lectura, podemos escribir o exportar un archivo de datos
csv de distintas maneras:

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Sin librerías

Con csv:

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Con pandas:

Quizás utilizar pandas sea la forma más conveniente de trabajar con


archivos, ya que podemos leer y escribir directamente desde DataFrames
hacia archivos.

Archivos Excel

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Un archivo Excel es un tipo de archivo utilizado para crear, almacenar y


gestionar hojas de cálculo. Se asocia principalmente con Microsoft Excel,
que es una aplicación de software ampliamente utilizada para trabajar con
datos tabulares. Los archivos Excel pueden tener extensiones como .xls o
.xlsx, y contienen múltiples hojas de cálculo, cada una de las cuales está
compuesta por filas y columnas. En estas hojas de cálculo, los usuarios
pueden introducir datos numéricos, de texto, fechas y realizar diversas
operaciones matemáticas y lógicas.

Excel permite realizar cálculos, análisis de datos, gráficos y tablas


dinámicas, lo que lo convierte en una herramienta valiosa para tareas
financieras, contables, de planificación, seguimiento de inventario,
análisis estadístico y más. Además de Microsoft Excel, hay otras
aplicaciones de hojas de cálculo y software de oficina que también pueden
crear y abrir archivos Excel, lo que proporciona una interoperabilidad
amplia para compartir y trabajar con datos tabulares en diferentes
plataformas y sistemas operativos.

XLRD

Librería xlrd
xlrd es una biblioteca en Python que se utiliza para leer datos y metadatos
de archivos de formato Excel (XLS y XLSX). Permite a los programadores
acceder a los contenidos de hojas de cálculo de Excel y trabajar con ellos
en sus programas.

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Características principales de xlrd

Lectura de archivos Excel: xlrd se utiliza principalmente para la lectura de


archivos Excel, lo que significa que puede abrir y acceder a los datos en
hojas de cálculo Excel existentes.

Soporte para formatos antiguos: xlrd admite formatos de archivo Excel


más antiguos (XLS) y se utiliza para abrir y leer archivos XLS. Es ideal para
trabajar con archivos Excel en formato binario.

Lectura de metadatos: La biblioteca proporciona información sobre el


formato del archivo Excel, como los nombres de las hojas, los tamaños de
las hojas y la información de estilo, como colores y fuentes.

Acceso a celdas y datos: xlrd te permite acceder a los datos en las celdas
de una hoja de cálculo, lo que facilita la extracción de información y su
procesamiento en tus programas.

Leyendo un archivo Excel


Para leer un archivo Excel con xlrd, primero debes importar la biblioteca y
abrir el archivo:

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Selección de una hoja de cálculo

Un archivo Excel puede contener múltiples hojas de cálculo. Para


seleccionar una hoja específica, puedes usar el método sheet_by_name()
o sheet_by_index():

Acceso a los datos en celdas

Una vez que tengas una hoja de cálculo seleccionada, puedes acceder a
los datos en celdas específicas utilizando métodos como cell_value(fila,
columna):

Iteración a través de filas y columnas

Puedes utilizar bucles para recorrer las filas y columnas de la hoja de


cálculo:

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Ejemplo

Escribiendo un archivo Excel


Para escribir datos en un archivo Excel, puedes utilizar la biblioteca xlwt,
que es una alternativa a xlrd para escribir archivos Excel en formato XLS.
Asegúrate de tener xlwt instalado.

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Ejemplo:

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Lectura y Escritura de archivos Excel con


Pandas
Pandas proporciona funcionalidades para trabajar con archivos Excel de
manera conveniente

Escribir un archivo Excel con pandas

Para escribir un archivo Excel con pandas, puedes usar el método to_excel:

Leer un archivo Excel con pandas

Para leer un archivo Excel con pandas, puedes utilizar la función


read_excel

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Ejercicio guiado
Si no los tienes instalados, puedes instalar Pandas y openpyxl (que permite
la lectura/escritura de archivos Excel) con pip:

pip install pandas openpyxl

Como en cualquier script que utilice Pandas, comienza importando la


biblioteca:

import pandas as pd

Usaremos pd.read_excel() para leer un archivo Excel. Para este ejercicio,


asegúrate de tener un archivo Excel de prueba llamado 'datos.xlsx'.

# Leer un archivo Excel

df = pd.read_excel('ruta/a/datos.xlsx')

# Mostrar las primeras filas del DataFrame

print(df.head())

Si el archivo Excel contiene múltiples hojas, puedes especificar una hoja por
nombre o índice:

# Leer una hoja específica por nombre

df_hoja_especifica = pd.read_excel('ruta/a/datos.xlsx',
sheet_name='Hoja1')

# Leer una hoja específica por índice (ejemplo, la segunda hoja)

df_hoja_por_indice = pd.read_excel('ruta/a/datos.xlsx',
sheet_name=1)

Para guardar un DataFrame como un archivo Excel, usaremos df.to_excel().

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

# Escribir en un archivo Excel

df.to_excel('ruta/a/datos_guardados.xlsx', index=False)

Si deseas guardar los datos en una hoja específica de un libro de trabajo


existente o nuevo, puedes especificarlo.

# Escribir en una hoja específica

With
pd.ExcelWriter('ruta/a/datos_con_multiples_hojas.xlsx',
engine='openpyxl') as writer:

df.to_excel(writer, sheet_name='Datos Principales',


index=False)

df_hoja_especifica.to_excel(writer, sheet_name='Datos
Secundarios', index=False)

Puedes especificar columnas específicas para leer con el argumento usecols


al leer un archivo Excel.

# Leer columnas específicas, ejemplo: 'A:C' leerá las


columnas A, B y C

df_columnas_especificas =
pd.read_excel('ruta/a/datos.xlsx', usecols='A:C')

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Referencias
● Programador Clic: Use Python para leer y modificar archivos de Excel
(incluidos archivos xls y xlsx) basados en módulos xlrd, xlwt y
openpyxl
https://programmerclick.com/article/9740120496/

● Pharos: Leer y escribir archivos CSV en Python con Pandas


https://pharos.sh/python/leer-y-escribir-archivos-csv-en-python-
con-pandas/

● Youtube - Luis Cabrera Benito: Leer Archivos CSV con Python


https://youtu.be/qIgFO-fLXCk?si=5Fy5zxxQvfzsIYL2

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 3
Obtención de datos desde archivos

Módulo
Obtención y Preparación de Datos

También podría gustarte