Está en la página 1de 5

LIBRERIA DE PANDAS

Pandas es un popular paquete de Python


para la ciencia de datos y Machine
Learning, las razones son muchas y es que
ofrece estructuras de datos poderosas,
expresivas y flexibles que facilitan la
manipulación y análisis de datos. Entre las
estructuras más utilizadas se encuentra el
DataFrame.

Pandas es una librería de código abierto


de Python que proporciona herramientas
de análisis y manipulación de datos de alto
rendimiento utilizando sus potentes
estructuras de datos. El nombre de Pandas
se deriva del término “Panel Data” y es la
librería de análisis de datos de Python

Esta librería se desarrollo debido a la necesidad


de tener una herramienta flexible de alto
rendimiento para el análisis de datos.
Anteriormente Python se utilizaba para la
manipulación y preparación de datos por lo que
no era utilizado para Machine Learning, Pandas
resolvió este problema. Usando esta librería
podemos lograr cinco pasos típicos en el
procesamiento y análisis de datos,
independientemente del origen de los datos:
cargar, preparar, manipular, modelar y analizar.

Pero hablemos de que se trata un DataFrame que es la estructura fundamental de Pandas, estos son
estructuras de datos etiquetados bidimensionales con columnas de tipos potencialmente diferentes. Los
Pandas DataFrame consta de tres componentes principales: los datos, el índice y las columnas.

Adicionalmente con la estructura Pandas DataFrame puedes especificar los nombres de índice y columna.
El índice indica la diferencia en las filas, mientras que los nombres de las columnas indican la diferencia en
las columnas. Estos componentes son muy útiles cuando se requiera manipular los datos.

Pero veamos la diferencia fundamental entre

NumPy y Pandas. Los datos en NumPy se almacenan de la siguiente forma:


Como se puede observar son arreglos muy parecidos a las matrices en donde no se tiene las etiquetas de
las columnas ni filas, por lo que utilizar en la ciencia de datos o Machine Learning hace que se muy difícil.

Por su parte, Pandas estructura los datos de la siguiente forma:

Primeramente, tenemos las series, que serían matrices de una sola dimensión que son capaces de
almacenar datos de cualquier tipo, pero acá lo importante y diferente con NumPy es que tiene un
índice para las columnas, las cuales es asignada directamente por Pandas y que puede ser
manipulada por el programador. Adicional a esto, la serie puede contener datos homogéneos, de
tamaño inmutable y valores de datos mutables.

Por su parte los DataFrame son estructuras de dos dimensiones con columnas potencialmente
diferentes que cuentan con índices tanto en las columnas como en las filas y que, por supuesto,
pueden ser manipuladas por el programador. Otras características importantes de los DataFrame
es que tiene datos heterogéneos y el tamaño y los datos pueden ser mutables.
Entendiendo estas diferencias ahora podemos hablar sobre las características principales de la librería Pandas:

• Objeto DataFrame rápido y eficiente con indexación predeterminada y personalizada.


• Herramientas para cargar datos en objetos de datos en memoria desde diferentes formatos de archivo.
• Alineación de datos y manejo integrado de datos faltantes.
• Remodelación y giro de conjuntos de fechas.
• Etiquetado, corte, indexación y subconjunto de grandes conjuntos de datos.
• Las columnas de una estructura de datos se pueden eliminar o insertar.
• Agrupa por datos para agregación y transformaciones.
• Alto rendimiento de fusión y unión de datos.
• Funcionalidad de la serie de tiempo.
La instalación estándar de Python no viene con la librería Pandas instalada por lo que se utilizar el paquete de
instalación, pip. En caso de que estes utilizando el paquete de Python Anaconda, no te tienes que preocupar,
esta viene instalada por defecto.

Para utilizarla en tus programas de Machine Learning solamente debes importarla utilizando el alias pd, esta es
el estándar que se utiliza para esta librería, como lo es np, para la librería NumPy. Recuerda que cuando
codificas en tu propio entorno de Machine Learning no debes olvidar este paso tan importante.

importar pandas como pd


Ahora que no tienes dudas de qué se trata Pandas y sus DataFrame, qué pueden hacer y cómo se diferencia de
otras estructuras, es hora de empezar a utilizarlos, en una próxima entrada veremos esta librería de manera
práctica.

LIBRERIA DE PANDAS - PRACTICAS


En un nivel muy básico, Pandas puede ser considerado como una versión estructurada de matrices
NumPy en donde las filas y columnas son identificadas con etiquetas en vez de simples índices de
números, pero también Pandas proporciona herramientas, métodos y funcionalidad para estructuras
básicas de datos, pero por su puesto debes entender cómo manejar esta estructura de datos para
utilizarla correctamente, por lo que esta entrada se trata específicamente sobre esto.

Como cualquier otra librería en Python deberás importarla dentro de tu programa, en este caso se suele
usar el alias pd, mientras que para la librería NumPy se carga como np.
Como ya vimos en la teoría, Pandas se divide en Series, en donde se manejan matrices unidimensionales,
DataFrame, en donde se emplean estructuras bidimensionales y por último Paneles en donde
encontramos datos de 3 dimensionales. Como para Machine Learning utilizamos estructuras de datos de 2
dimensiones nos vamos a enfocar en explicar solamente los DataFrame.

Por lo tanto, crear los DataFrames es el primer paso en cualquier proyecto de Machine Learning con
Python, por lo que para crear una trama de datos desde una matriz NumPy debes pasarla a la función
DataFrame() en el argumento de datos.

Si observamos el resultado de este código, se fragmenta los elementos seleccionados de la matriz NumPy para
construir el DataFrame, primero se selecciona los valores que figuran en las listas que comienza con Fila1 y
Fila2, luego selecciona el índice o los números de fila Fila1 y Fila2 y luego los nombres de las columnas Col1 y
Col2.

La manera en que creamos este DataFrame será la misma para todas las estructuras.

A su vez crear un serie es sencillo.

Ten en cuenta que el índice de los DataFrame como de las Series, contienen las claves del diccionario original
y están ordenas, por lo que el primer índice siempre será 0. Por ejemplo Argentina será el índice en 0,
mientras que Perú será el índice en 3.

Una vez creado el DataFrame puedes explorarlo con todas las instrucciones con las que Pandas cuenta.

Comencemos conociendo la forma de los datos para ello utilizamos la instrucción shape. Con esta instrucción
podemos conocer las dimensiones del DataFrame, es decir el ancho y altura.

Por otra parte, podemos utilizar la función len() en combinación con la instrucción index para conocer la
altura del DataFrame.
Conociendo las estadísticas del DataFrame

Un comando muy útil es describe() que muestra estadísticas de resumen para columnas numéricas.

También podemos conocer la media de todas las columnas utilizando mean.

También podría gustarte