Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pero hablemos de que se trata un DataFrame que es la estructura fundamental de Pandas, estos son
estructuras de datos etiquetados bidimensionales con columnas de tipos potencialmente diferentes. Los
Pandas DataFrame consta de tres componentes principales: los datos, el índice y las columnas.
Adicionalmente con la estructura Pandas DataFrame puedes especificar los nombres de índice y columna.
El índice indica la diferencia en las filas, mientras que los nombres de las columnas indican la diferencia en
las columnas. Estos componentes son muy útiles cuando se requiera manipular los datos.
Primeramente, tenemos las series, que serían matrices de una sola dimensión que son capaces de
almacenar datos de cualquier tipo, pero acá lo importante y diferente con NumPy es que tiene un
índice para las columnas, las cuales es asignada directamente por Pandas y que puede ser
manipulada por el programador. Adicional a esto, la serie puede contener datos homogéneos, de
tamaño inmutable y valores de datos mutables.
Por su parte los DataFrame son estructuras de dos dimensiones con columnas potencialmente
diferentes que cuentan con índices tanto en las columnas como en las filas y que, por supuesto,
pueden ser manipuladas por el programador. Otras características importantes de los DataFrame
es que tiene datos heterogéneos y el tamaño y los datos pueden ser mutables.
Entendiendo estas diferencias ahora podemos hablar sobre las características principales de la librería Pandas:
Para utilizarla en tus programas de Machine Learning solamente debes importarla utilizando el alias pd, esta es
el estándar que se utiliza para esta librería, como lo es np, para la librería NumPy. Recuerda que cuando
codificas en tu propio entorno de Machine Learning no debes olvidar este paso tan importante.
Como cualquier otra librería en Python deberás importarla dentro de tu programa, en este caso se suele
usar el alias pd, mientras que para la librería NumPy se carga como np.
Como ya vimos en la teoría, Pandas se divide en Series, en donde se manejan matrices unidimensionales,
DataFrame, en donde se emplean estructuras bidimensionales y por último Paneles en donde
encontramos datos de 3 dimensionales. Como para Machine Learning utilizamos estructuras de datos de 2
dimensiones nos vamos a enfocar en explicar solamente los DataFrame.
Por lo tanto, crear los DataFrames es el primer paso en cualquier proyecto de Machine Learning con
Python, por lo que para crear una trama de datos desde una matriz NumPy debes pasarla a la función
DataFrame() en el argumento de datos.
Si observamos el resultado de este código, se fragmenta los elementos seleccionados de la matriz NumPy para
construir el DataFrame, primero se selecciona los valores que figuran en las listas que comienza con Fila1 y
Fila2, luego selecciona el índice o los números de fila Fila1 y Fila2 y luego los nombres de las columnas Col1 y
Col2.
La manera en que creamos este DataFrame será la misma para todas las estructuras.
Ten en cuenta que el índice de los DataFrame como de las Series, contienen las claves del diccionario original
y están ordenas, por lo que el primer índice siempre será 0. Por ejemplo Argentina será el índice en 0,
mientras que Perú será el índice en 3.
Una vez creado el DataFrame puedes explorarlo con todas las instrucciones con las que Pandas cuenta.
Comencemos conociendo la forma de los datos para ello utilizamos la instrucción shape. Con esta instrucción
podemos conocer las dimensiones del DataFrame, es decir el ancho y altura.
Por otra parte, podemos utilizar la función len() en combinación con la instrucción index para conocer la
altura del DataFrame.
Conociendo las estadísticas del DataFrame
Un comando muy útil es describe() que muestra estadísticas de resumen para columnas numéricas.