Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Datos M3 AE2 v2
Analisis de Datos M3 AE2 v2
Aprendizaje Esperado 2
Aprendizaje Esperado 2
La librería Pandas
Aprendizaje Esperado 2
Manipular datos utilizando estructuras de Series y DataFrames acorde a
la biblioteca Pandas para resolver un problema.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
2. La librería Pandas
Contexto
Pandas desempeña un papel fundamental en el análisis de datos, ya que
proporciona a los profesionales y científicos de datos una potente
herramienta para gestionar, limpiar, explorar y transformar datos de
manera eficiente. Con Pandas, es posible cargar conjuntos de datos de
diversas fuentes, desde archivos CSV hasta bases de datos SQL, y
organizarlos en estructuras de datos tabulares conocidas como
DataFrames. Esta estructura tabular permite el acceso a los datos por
etiquetas y facilita la indexación y selección de subconjuntos de datos, lo
que es esencial para el análisis exploratorio.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
●
●
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Operaciones Lógicas
Funciones Personalizadas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Para filtrar una serie y quedarse con los valores que cumplen una
determinada condición se utiliza el siguiente método:
Filtrado Inverso
También puedes filtrar una Serie para obtener elementos que no cumplan
con ciertas condiciones. Esto se puede lograr negando la condición con el
operador ~.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Puedes ordenar una Serie en función de los valores de los elementos. Para
hacerlo, utiliza el método sort_values(). Por defecto, la ordenación es
ascendente, pero puedes especificar si deseas una ordenación
descendente con el parámetro ascending.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Los datos desconocidos representan en Pandas por NaN y los nulos por
None. Tanto unos como otros suelen ser un problema a la hora de realizar
algunos análisis de datos, por lo que es habitual eliminarlos. Para
eliminarlos de una serie se utilizan los siguientes métodos:
dropna()
fillna()
El método fillna() se utiliza para reemplazar los valores nulos por un valor
específico. Esto es útil cuando deseas llenar los valores nulos con un valor
predeterminado en lugar de eliminarlos.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
drop()
Un DataFrame contiene dos índices, uno para las filas y otro para las
columnas, y se puede acceder a sus elementos mediante los nombres de
las filas y las columnas.
Ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Creación de un DataFrame
Existen varios métodos para crear un datafram:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Por Atributo
Para seleccionar una fila por su índice, utiliza el método .loc[] y pasa el
índice de la fila deseada.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Puedes agregar una nueva columna asignando una Serie o una lista de
valores a un nombre de columna que aún no existe. Por ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
loc() (Localización por etiquetas): Debes usar loc() cuando quieras realizar
selecciones basadas en etiquetas de fila y columna. Esto significa que
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
iloc() (Localización por índices enteros): Debes usar iloc() cuando quieras
realizar selecciones basadas en índices enteros. Esto es útil cuando deseas
acceder a elementos por su posición numérica en el DataFrame. Por
ejemplo:
Algunos ejemplos
Ejemplos de loc:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejemplos de iloc:
Con listas:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Puedes utilizar la selección condicional para filtrar las filas en las que la
edad sea mayor que 30:
O más simple:
Otro ejemplo
DataFrame:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Reindexar un DataFrame
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Antes de reindex:
Después de reindex:
En este caso, añadimos una nueva fila con un índice faltante (3) y Pandas
completará los valores con NaN para las columnas existentes.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Un ejemplo completo:
Su salida antes:
Después:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejemplo:
Este ejemplo agrupa una lista de personas por sexo. Luego muestra cada
uno de los grupos y los nombres de las personas dentro de cada grupo.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Reestructurar un DataFrame
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejemplo:
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Suma (+): Puedes sumar dos o más columnas para obtener una nueva
columna que contenga la suma de los valores en las columnas
seleccionadas.
Resta (-): La resta se utiliza para calcular la diferencia entre dos columnas
o valores. Puedes crear una nueva columna con los resultados de la resta.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
exp(), log(), entre otras. Puedes aplicar estas funciones a columnas enteras
para realizar cálculos más avanzados.
Métodos:
head(n): Este método se utiliza para obtener las primeras n filas del
DataFrame. Es útil para obtener una vista previa de los datos sin mostrar
todo el DataFrame.
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ordenamiento de un DataFrame
En Pandas, puedes ordenar un DataFrame en función de los valores de una
o más columnas. El método principal que se utiliza para ordenar un
DataFrame es sort_values().
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Ejercicio guiado
Comienza cualquier script de python con la importación de la librería
Pandas:
import pandas as pd
datos = {
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
# Crear el DataFrame
df = pd.DataFrame(datos)
# Mostrar el DataFrame
print(df)
print(df['Nombre'])
print(df[['Nombre', 'Edad']])
print(df.iloc[1])
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
print(df_madrid)
print(df_mayores_30)
print(df)
df['Edad'] += 1
print(df)
print(df.describe())
print(df['Ciudad'].value_counts())
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Referencias
● Aprende con alf: La librería Pandas
https://aprendeconalf.es/docencia/python/manual/pandas/
● Pandas: Documentation
https://pandas.pydata.org/pandas-docs/stable/
Módulo
Obtención y Preparación de Datos
Aprendizaje Esperado 2
La librería Pandas
Módulo
Obtención y Preparación de Datos