Está en la página 1de 3

Hoja informativa: pandas para el

análisis de datos

Funciones y métodos
Importar pandas

import pandas as pd

Crear una tabla con el constructor DataFrame()

pd.DataFrame(data=, columns=)
# el argumento data almacena la lista con los datos
# el argumento columns almacena una lista de nombres de columnas

Mostrar las últimas filas: el método tail()

df.tail() # mostrando las últimas 5 filas


df.tail(15) # mostrando las últimas 15 filas

Leer archivos CSV: el método read_csv()

df = pd.read_csv('<file path>')

Mostrar las primeras filas: el método head()

df.head() # mostrando las primeras 5 filas


df.head(10) # mostrando las primeras 10 filas

Mostrar nombres de columnas: el atributo columns

print(df.columns)

Mostrar el tamaño de la tabla: el atributo shape

print(df.shape)

Mostrar los tipos de datos de la tabla: el atributo dtypes

Hoja informativa: pandas para el análisis de datos 1


print(df.dtypes)

Obtener información general sobre una tabla: el método info()

df.info()

Acceder a un elemento por su fila y columna: el atributo loc[row, column]

df.loc[:, 'column']

Tipo Aplicación
Una celda .loc[7, 'column']
Una columna .loc[:, 'column']
Varias columnas .loc[:, ['column_1', 'column_4']]
Múltiples columnas consecutivas (un slice) .loc[:, 'column_5': 'column_8']
Una fila .loc[1]
Todas las filas a partir de la fila dada .loc[1:]
Todas las filas hasta la fila dada .loc[:3]
Múltiples filas consecutivas (un slice) . loc[2:5]

Indexación lógica para obtener elementos que cumplan una determinada


condición

Tipo Aplicación Nombre corto

Todas las filas df.loc[df.loc[:,'column'] df[df['column'] == 'X']


donde se cumplan == 'X']
las condiciones

Columna df.loc[df.loc[:,'column'] df[df['column'] == 'X']['column']


donde se cumplan == 'X']['column']'
las condiciones

Aplicar df.loc[df.loc[:,'column'] df[df['column'] == 'X']


un método == 'X']['column'].count()

Indexación en un Serie

Tipo Aplicación Shortened notation


Un elemento df.loc[7] df[7]
Múltiples elementos df.loc[[5, 7, 10]] df[[5, 7, 10]]
Múltiples elementos consecutivos (un slice) df.loc[5:10] including 10 df[5:10] not including 10
Todos los elementos a partir del elemento dado df.loc[1:] df[1:]
Todos los elementos hasta el elemento dado df.loc[:3] including 3 df[:3] not including 3

Hoja informativa: pandas para el análisis de datos 2


Teoría

Librería
Un conjunto de objetos y métodos listos para usar para resolver tareas comunes.

CSV
Un formato de archivo especial. Cada línea es una fila de la tabla, donde todos los datos están
separados por comas (u otro separador). La primera fila almacena el encabezado (si lo hay)

Tupla
Una secuencia de datos inmutable unidimensional: (tuple[0], tuple[1])

Series
Una estructura de datos pandas unidimensional, a cuyos elementos se puede acceder mediante
índices. Las columnas DataFrame son objetos Series.

• Series almacena datos de un tipo.


• Series tiene un nombre, una longitud y un tipo de datos (dtype).
• La indexación en un Series es similar a la indexación en un DataFrame.

DataFrame
Una estructura de datos de pandas bidimensional donde cada elemento tiene dos índices: una fila y
una columna.

• DataFrame() es un constructor de pandas utilizado para construir objetos DataFrame. El nombre de


este constructor está precedido por el nombre de la librería: pd.DataFrame()
• Un DataFrame tiene características básicas cuyos valores pueden ser solicitados. Estas
características se llaman atributos. Por ejemplo, puedes encontrar el tamaño de la tabla ( df.shape ) u
obtener una lista de sus columnas ( df.columns ).
• En un DataFrame, se puede acceder a cada celda por su índice y nombre de columna. Este proceso
se llama indexación y puede ser aplicado de varias maneras.

Hoja informativa: pandas para el análisis de datos 3

También podría gustarte