Está en la página 1de 34

ASCT806 - Programación y Arquitectura de Sistemas

Clase 14
Introducción a Pandas y
Dataframes 1|
Ciencia de Datos
● La ciencia de datos es la disciplina que permite encontrar patrones predecibles en
sets de datos estructurados y no estructurados.

Prof. Felipe López 2


Ciencia de Datos
● Lo importante son las herramientas usadas en ciencia de datos.
● Python es muy usado para poder hacer análisis e identificar patrones.
● Una de las librerías más usadas para el procesamiento de grandes volúmenes de
datos en Python es la librería llamada pandas.
● ¿Pero cómo podemos cargar estos grandes volúmenes de datos?

Prof. Felipe López 3


Archivos CSV
● Los archivos CSV son archivos de texto plano que replican
una matriz.
● Para ejemplificar un archivo CSV, digamos que tenemos
una base de datos de nombre “Empleados” con los datos
de los empleados de una empresa.
● Ésta tiene las siguientes características:
○ Nombre
○ Edad
○ Fecha de Nacimiento
○ RUT

Prof. Felipe López 4


Archivos CSV
● A continuación, un ejemplo de la base de datos:

Nombre Edad Fecha de Nacimiento RUT

Juan Pérez 27 31-01-1991 17.587.451-8

María Rojas 54 04-05-1964 9.475.362-4


Pedro
35 18-06-1983 13.748.645-2
Rodríguez

Soledad Ríos 21 03-03-1997 20.471.472-1

Prof. Felipe López 5


Archivos CSV
● En formato CSV se vería de la siguiente manera:

Prof. Felipe López 6


Archivos CSV
● En formato CSV se vería de la siguiente manera:

Prof. Felipe López 7


Archivos CSV
● En formato CSV se vería de la siguiente manera:

Prof. Felipe López 8


Archivos CSV
● En formato CSV se vería de la siguiente manera:

Prof. Felipe López 9


¿Qué es un Data Frame?
● Son la estructura más usada en la librería Pandas y podemos imaginarlos como
una matriz de datos, donde podemos agregar filas y columnas a nuestro antojo.

Prof. Felipe López 10


¿Cómo podríamos crear un Data Frame en Python?

Prof. Felipe López 11


Crear un Data Frame en Python
● De acuerdo a la tabla anterior, podemos crear el siguiente Data Frame:

Prof. Felipe López 12


Crear un Data Frame en Python
● Para poder nombrar las columnas al crear un data frame, ingresamos el
parámetro “columns”.

Prof. Felipe López 13


Crear un Data Frame en Python
● Para poder nombrar las columnas al crear un data frame, ingresamos el
parámetro “columns”.

Prof. Felipe López 14


5 minutos y asistencia

15
Data Frames y CSV

Prof. Felipe López 16


Cargando un CSV como Data Frame

Prof. Felipe López 17


Cargando un CSV como Data Frame

Prof. Felipe López 18


Errores comunes al cargar CSV como Data Frames

● La recomendación general es:

Autonomía para investigar cuando aparezcan errores (significa copiar el error que
aparecerá en la consola, y buscar en Google alguna solución)

Prof. Felipe López 19


Errores comunes al cargar CSV como Data Frames

Prof. Felipe López 20


Tipos de comando: dtypes
Con esta operación logramos ver los tipos de datos para cada columna:

Prof. Felipe López 21


Extraer columna
Permite mostrar la información de una sola columna. El comando general para df es:

Prof. Felipe López 22


Extraer fila
Permite mostrar la información de una sola fila. El comando general para df es:

Prof. Felipe López 23


Extraer fila
Permite mostrar la información de varias filas. El comando general para df es:

Prof. Felipe López 24


Extraer valor
Se usa para exponer la información de una celda, de una fila específica, de la matriz representada por el
Data Frame. El comando para df es:

Prof. Felipe López 25


Extraer valor
Se usa para exponer la información de una celda, de una fila específica, de la matriz representada por el
Data Frame. El comando para df es:

Prof. Felipe López 26


Extraer valor
Se usa para exponer la información de una celda, de una fila específica, de la matriz representada por el
Data Frame. El comando para df es:

Prof. Felipe López 27


Extraer valor
Se usa para exponer la información de una celda, de una fila específica, de la matriz representada por el
Data Frame. El comando para df es:

Prof. Felipe López 28


Ejercicios
1. Cargue el archivo CSV “clientes.csv” en un data frame.
2. Imprima el data frame.
3. Imprima los tipos de columna.
4. Imprima la columna “Nombre”.
5. Imprima la fila 75.
6. Imprima el valor de la columna “Puntaje Crediticio” en la fila 112.
7. Imprima las filas 0 a la 100.
8. Imprima las filas que tienen más de $150.000 pesos en su cuenta.
9. Imprima las filas que sean tipo de cliente “C”.
10. Imprima las filas que tengan un puntaje crediticio menor a 5.
11. Imprima las filas que tengan un puntaje crediticio menor a 5 y más de $150.000.
12. Imprima las filas que tengan un puntaje crediticio menor a 5 y más de $150.000.
13. Imprima las filas que tengan un puntaje crediticio menor a 5 y más de $150.000, ó sean clientes
tipo “A”.

Prof. Felipe López 29


Códigos de la clase
Todos los códigos de la clase los puede encontrar en este link:

https://replit.com/@FelipeLopez/ASCT806-Clase14

Prof. Felipe López 30


Bonus: Google Colaboratory
Otro lugar donde pueden probar código en Python (y de la librería pandas) es Google Colab. Pueden

1. Entrar a este link: https://colab.research.google.com/


2. Ingresar con su cuenta Google.
3. Hacer click en “+ New Notebook”.

Prof. Felipe López 31


Bonus: Google Colaboratory
Otro lugar donde pueden probar código en Python (y de la librería pandas) es Google Colab. Pueden
4. Escribir su código ahí:

5. Hacer click ahí para cargar archivpos (bases de datos)

Prof. Felipe López 32


Bonus: Google Colaboratory
Otro lugar donde pueden probar código en Python (y de la librería pandas) es Google Colab. Pueden
6. Hacer click ahí para cargar el archivo

Prof. Felipe López 33


ASCT806 - Programación y Arquitectura de Sistemas

Clase 14
Introducción a Pandas y
Dataframes 34|

También podría gustarte