Está en la página 1de 2

Un DataFrame es una serie de Series Pandas indexadas por un valor.

En este artículo,
presentaremos la estructura de los DataFrames y luego veremos sus diferentes atributos y
métodos básicos, y explicaremos su utilidad y funcionamiento.
En esencia, un dataframe es una tabla de datos estructurada en filas y en columnas. Cada columna,
contiene los datos de un tipo de variable mientras que cada fila contiene todos los datos de un
mismo miembro. Pero bueno, en el vídeo los verás de forma más visual.

La librería panda de python nos permite limpiar conjuntos de datos, analizarlos, visualizarlos (junto
a matplotlib) y sacar conclusiones de estos. Es una gran herramienta que todo aquel que quiera
dedicarse a Data Sciente, Data Analysis o Machine Learning deberá utilizar en un momento u otro.

Primera vista del DataFrame

Cuando se importa la serie de datos, es necesario tener una visión general del DataFrame.
El primer paso es utilizar el atributo shape, que permite conocer la dimensión del DataFrame y
devolver una tupla (número_de_filas, número_de_columnas).
Para entender la serie de datos, hay tres métodos muy útiles para ver las filas del DataFrame:
El método head () devuelve las cinco primeras filas del DataFrame, si no se especifica un número
entre paréntesis.

Por otro lado, el método tail () permite visualizar las últimas cinco líneas del DataFrame.
Estos dos métodos permiten visualizar el principio y el final de la serie de datos.
Esto incluye una ventaja real para los datos de tipo Times Series, para tener una visión simple de la
evolución de los datos en el tiempo, pero también permite, en un caso más general, ver si los datos
mantienen un cierto sentido: si el principio del DataFrame difiere considerablemente del final del
mismo , es necesario comprender la causa e intentar resolver este problema antes de cualquier
manipulación de los datos.

Si se desea una visualización más aleatoria de las filas, se debe preferir el método sample ().
Devuelve las filas de forma aleatoria. Por defecto, el resultado solo devuelve una fila del
DataFrame.
Por lo tanto, es preferible escribir un número entero entre paréntesis para visualizar un mayor
número de filas y, en consecuencia, hacerse una mejor idea del contenido del DataFrame.

Los valores perdidos


Cuando se trabaja en un proyecto de Data Science es muy común lidiar con valores perdidos o
valores atípicos. Los DataFrames permiten resolver este problema con una facilidad
desconcertante. Por ejemplo, en el caso de datos cualitativos, uno de los métodos para sustituir los
valores que faltan es tratar el modo de la modalidad. Para ello, basta con utilizar el siguiente
código para conseguir esa manipulación: df[columna]. fillna(df[columnas].mode()[0]). O, por ejemplo,
sustituir los valores cuantitativos por la media.

https://www.youtube.com/watch?v=LnH_STJ2GXo
Conclusión
Alondra Catalina Garza Martines
En esta evidencia aprendí como usar las series y el dataframe en Python con mi equipo y Una
Series permite almacenar información de diversa tipología; sea por medio de cadena de texto,
flotante o enteros, dtype, entre otros.
permiten que los profesionales de la Data hagan que sus datos hablen, decidiendo las condiciones
y las manipulaciones que se van a realizar.
Como tal la información almacenada en las Series es fácil de graficar. Existen diversas formas de
mejorar dicha gráfica, sin embargo por razones pedagógicas este artículo intentó presentar una
forma más básica e intuitiva.

También podría gustarte