Guía Adat Parcial 1

Por analítica debemos entender al conjunto de conocimientos y técnicas que nos
permiten descubrir patrones y comportamientos del mundo real a través de la

observación de los datos, ya sea en su forma pura, o tratados estadísticamente.
Por visualización debemos entender al conjunto de conocimientos y técnicas que

nos permiten mostrar los resultados de la analítica de tal manera que se facilite o
induzca la formación conclusiones y el soporte de argumentos o hipótesis.
La biblioteca de software de código abierto Pandas está diseñada específicamente

para la manipulación y el análisis de datos en el lenguaje Python.
El lenguaje de programación Python es potente, flexible y fácil de usar. Gracias

a Pandas, por fin se puede utilizar el lenguaje Python para cargar, alinear,
manipular o incluso fusionar datos. El rendimiento es realmente impresionante
cuando el código fuente del back-end está escrito en C o Python.
El nombre «Pandas» es en realidad una contracción del término «Panel Data» para
series de datos que incluyen observaciones a lo largo de varios periodos de
tiempo. La biblioteca se creó como herramienta de alto nivel para el análisis en
Python.
Un “ índice” es una etiqueta o identificador asociado a cada elemento de una

serie o data frame.
Los índices permiten acceder y referenciar los datos de manera eficiente.
Los índices pueden ser numéricos o etiquetas, y pueden ser personalizados o

generados automáticamente por Pandas.
La “importación de librerías” se refiere al proceso de cargar módulos o

bibliotecas externas en un programa para acceder a sus funciones y clases.
El uso de importaciones permite a los programadores utilizar código

previamente desarrollado y aprovechar sus funcionalidades en sus propios
programas.
Un analista de datos es un profesional que se encarga de recopilar, procesar,
analizar y visualizar datos con el objetivo de obtener información relevante para
la toma de decisiones en una organización.
Los analistas de datos utilizan herramientas y técnicas estadísticas, de minería

de datos y de visualización para identificar patrones, tendencias y relaciones
en los datos.
El trabajo de los analistas de datos ayuda a las empresas a comprender mejor su

rendimiento, tomar decisiones informadas y resolver problemas
empresariales.
Los datos son información o hechos que se recopilan o registran y que pueden
ser procesados, almacenados y analizados.
Los datos pueden tomar muchas formas, incluyendo números, texto, imágenes,
sonido, etc.
En el contexto de la analítica de datos, los datos son la materia prima que se

utiliza para obtener conocimientos y tomar decisiones.
Los datos pueden ser estructurados (organizados en tablas o formatos

específicos) o no estructurados (como texto libre o multimedia), y pueden ser
recopilados de diversas fuentes, como sensores, encuestas, registros, redes
sociales y más.
La analítica de datos es el proceso de examinar, limpiar, transformar y modelar

datos con el fin de descubrir información útil, patrones, tendencias y
conocimientos que pueden ser utilizados para tomar decisiones informadas.
La analítica de datos involucra el uso de herramientas estadísticas y técnicas

de minería de datos para extraer conocimientos a partir de grandes conjuntos de
datos.
La analítica de datos es una disciplina fundamental en la ciencia de datos y se

aplica en una variedad de campos, desde el marketing hasta la medicina y la
investigación científica.
Python es un lenguaje de programación utilizado para desarrollo de software,
ciencia de datos y el Machine Learning.
Python se empezó a desarrollar en diciembre de 1989 por Guido Van Rossum y

publicado el 20 de febrero de 1991. Describió que Python debería ser: Fácil e
intuitivo, ser comprensible como cualquier texto en ingles y de código abierto
para que cualquiera pudiera colaborar.
Las series son estructuras similares a los arrays, de una dimensión, sus
elementos tienen que ser del mismo tipo de dato.
Ejemplo:
Import pandas as pd
s = pd.Series([‘Programacion’, ‘Economia’, ‘Contabilidad’])
s
Ejemplo:
import pandas as pd
s = pd.Series({‘Programacion’: 9.8, ‘Economia’: 8.2, ‘Contabilidad’ : 7.9})
s
Ejemplo:
import pandas as pd
datos = {‘nombre’:[‘María’, ‘Luis’, ‘Carmen’, ‘Antonio’],
‘edad’:[18, 22, 20, 21],
‘grado’:[‘Economía’, ‘Medicina’, ‘Arquitectura’, ‘Economía’],
‘correo’:[‘maria@gmail.com’,‘luis@yahoo.es’,‘carmen@gmail.com’,‘antonio@gmail.
com’]
}
df = pd.DataFrame(datos)
df
Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma
de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos
de una misma columna son del mismo tipo, y las filas son registros que pueden
contender datos de distintos tipos.
Pandas es una librería de código abierto dentro de Python, usado dentro el

ámbito de la ciencia de datos y Machine Learning, ya que ofrece unas estructuras
muy poderosas y flexibles que facilitan la manipulación y tratamiento de datos.
(import pandas as pd)
Librería pandas alias pd
Pandas es una librería que permite el manejo eficiente de estructuras de datos

unidimensionales (Series) y bidimensionales (DataFrame).
La especialidad de Pandas es el manejo de estructuras de datos.
Las series en Pandas son estructuras unidimensionales de datos.
Los DataFrames en Pandas son estructuras bidimensionales de datos.
Las formas de crear series y datos es utilizando las funciones Series() y

DataFrame().
CREACIÓN DE SERIES
serie = pd.Series(<Origen>)
El origen puede ser una lista de Python, un arreglo de numpy, un diccionario de

python o incluso otro objeto de series.
#Series a partir de una lista Python

lista_python = [10, 20, 30, 40, 50]
edades_lista = pd.Series (lista_python)
edades_lista
Cuando se genera un objeto Series(), se genera un índice en forma de número
entero consecutivo, de base cero, excepto en el caso de los diccionarios, donde la
llave se asume como índice.
SERIES A PARTIR DE UN DICCIONARIO
#Series a partir de un diccionario
diccionario_python = {
‘A’:10,
‘B’:20,
‘C’:30,
‘D’:40,
‘E’:50
edades_diccionario = pd.Series(diccionario_python)
eedades_diccionario
VER ÍNDICES Y VALORES
#Para ver únicamente los valores de series

edades_arreglo.values
array([10, 20, 30, 40, 50])
#Para ver únicamente los índices
edades_arreglo.index
RangeIndex(start=0, stop=5, step=1)

Si los índices no son una serie numérica consecutiva (range()), entonces se
regresará una lista con los índices.
CAMBIAR LOS ÍNDICES
#Para cambiar los índices
Nuevos_indices = [‘a’,’b’,’c’,’d’,’e’]
edades_arreglo = pd.Series (arreglo_numpy, index=nuevos_indices)
edades_arreglo
DATAFRAME
Pandas es una biblioteca del lenguaje de programación Python, dedicada por

completo a la Data Science.
CREACIÓN DE DATAFRAME
Los DataFrame en Pandas son estructuras bidimensionales de datos.
Para crear un objeto DataFrame en Pandas, se utiliza el constructor DataFrame()
objeto_dataframe = pd.DataFrame(<Origen>)
Origen puede ser cualquier fuente que admita dos dimensiones: puede ser una
lista de listas, un arreglo de numpy o un diccionario.
CARGAR DATOS DESDE UN CSV
Uno de los orígenes más comunes son los archivos CSV (Comma Separated
Values).
Para cargar datos de un archivo CSV a un DataFrame, se utiliza la siguiente
sintaxis:
Objeto_dataframe = pd.read_csv(<ruta archivo>)
A partir de ese momento, los datos del archivo CSV estarán disponibles a través
del objeto_contenedor para su procesamiento en Pandas.
Para ver el contenido de datos de un DataFrame, hay varias formas de hacerlo en

una libreta Jupyter. La siguiente tabla muestra un resumen de ellas:
La estructura de un DataFrame se compone de columnas, tipos de datos de las

columnas y orden de las columnas.
Los tipos de datos que considera Pandas no son los mismos que considera
Python:
Para ver la estructura del DataFrame, o darnos una idea de su composición,
disponemos de los siguientes métodos y atributos.
DATAFRAME DESDE LISTA DE LISTAS
#Dataframe desde lista de listas

lista_python = [
[10,20,30,40],
[50,60,70,80],
[90,100,110,120]
]
df = pd.DataFrame(lista_python)
df
#dataframe desde lista de listas, especificando índices y columnas

Lista_python = [
[10,20,30,40],
[50,60,70,80],
[90,100,110,120]
]
filas = [‘a’,’b’,’c’]
columnas = [‘I’,’II’,’III’,’IV’]
df = pd.DataFrame(lista_python,
Index = filas, columns = columnas)
df
DATAFRAME DESDE DICCIONARIO DE LISTAS
#DataFrame desde un diccionario de listas

diccionario_listas={
‘Nombre’:[‘José’,’Ana’,’Esteban’],
‘Edad’:[‘22’,’45’,’32’],
‘Area’:[‘TI’,’RH’,’Producción’]
}
df = pd.DataFrame(diccionario_listas)
df
#DataFrame desde una lista de diccionarios

lista_diccionarios = [
{‘Nombre’: ’José’, ‘Edad’: ‘22’, ‘Area’: ‘TI’},
{‘Nombre’: ‘Ana’, ‘Edad’: ‘45’, ‘Area’: ‘RH’},
{‘Nombre’: ‘Esteban’, ‘Edad’: ‘32’, ‘Area’: ‘Producción’}
]
df = pd.DataFrame(lista_diccionarios)
df
DATAFRAME DESDE UN ARREGLO DE NUMPY
#DataFrame desde un arreglo numpy

arreglo_numpy = np.array([
[10,20,30,40],
[50,60,70,80],
[90,100,110,120]
]
filas = [‘a’,’b’,’c’]
columnas = [‘I’,’II’,’III’,’IV’]
df = pd.DataFrame(arreglo_numpy, index = filas, columns = columnas)
df
Código para crear un data frame a partir de un archivo csv
import pandas as pd
data_frame = pd.read_csv(‘archivo_csv’)

Guía Adat Parcial 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guía Adat Parcial 1

Cargado por

Copyright:

Formatos disponibles

Por analítica debemos entender al conjunto de conocimientos y técnicas que nos

permiten descubrir patrones y comportamientos del mundo real a través de la

Por visualización debemos entender al conjunto de conocimientos y técnicas que

La biblioteca de software de código abierto Pandas está diseñada específicamente

El lenguaje de programación Python es potente, flexible y fácil de usar. Gracias

Un “ índice” es una etiqueta o identificador asociado a cada elemento de una

Los índices permiten acceder y referenciar los datos de manera eficiente.

Los índices pueden ser numéricos o etiquetas, y pueden ser personalizados o

La “importación de librerías” se refiere al proceso de cargar módulos o

El uso de importaciones permite a los programadores utilizar código

Los analistas de datos utilizan herramientas y técnicas estadísticas, de minería

El trabajo de los analistas de datos ayuda a las empresas a comprender mejor su

En el contexto de la analítica de datos, los datos son la materia prima que se

Los datos pueden ser estructurados (organizados en tablas o formatos

La analítica de datos es el proceso de examinar, limpiar, transformar y modelar

La analítica de datos involucra el uso de herramientas estadísticas y técnicas

La analítica de datos es una disciplina fundamental en la ciencia de datos y se

Python se empezó a desarrollar en diciembre de 1989 por Guido Van Rossum y

Pandas es una librería de código abierto dentro de Python, usado dentro el

Librería pandas alias pd

Pandas es una librería que permite el manejo eficiente de estructuras de datos

La especialidad de Pandas es el manejo de estructuras de datos.

Las series en Pandas son estructuras unidimensionales de datos.

Los DataFrames en Pandas son estructuras bidimensionales de datos.

Las formas de crear series y datos es utilizando las funciones Series() y

El origen puede ser una lista de Python, un arreglo de numpy, un diccionario de

#Series a partir de una lista Python

SERIES A PARTIR DE UN DICCIONARIO

#Series a partir de un diccionario

VER ÍNDICES Y VALORES

#Para ver únicamente los valores de series

array([10, 20, 30, 40, 50])

#Para ver únicamente los índices

RangeIndex(start=0, stop=5, step=1)

CAMBIAR LOS ÍNDICES

#Para cambiar los índices

edades_arreglo = pd.Series (arreglo_numpy, index=nuevos_indices)

Pandas es una biblioteca del lenguaje de programación Python, dedicada por

Los DataFrame en Pandas son estructuras bidimensionales de datos.

Para crear un objeto DataFrame en Pandas, se utiliza el constructor DataFrame()

CARGAR DATOS DESDE UN CSV

Objeto_dataframe = pd.read_csv(<ruta archivo>)

Para ver el contenido de datos de un DataFrame, hay varias formas de hacerlo en

La estructura de un DataFrame se compone de columnas, tipos de datos de las

DATAFRAME DESDE LISTA DE LISTAS

#Dataframe desde lista de listas

#dataframe desde lista de listas, especificando índices y columnas

DATAFRAME DESDE DICCIONARIO DE LISTAS

#DataFrame desde un diccionario de listas

#DataFrame desde una lista de diccionarios

DATAFRAME DESDE UN ARREGLO DE NUMPY

#DataFrame desde un arreglo numpy

Código para crear un data frame a partir de un archivo csv

También podría gustarte