Está en la página 1de 10

Por analítica debemos entender al conjunto de conocimientos y técnicas que nos

permiten descubrir patrones y comportamientos del mundo real a través de la


observación de los datos, ya sea en su forma pura, o tratados estadísticamente.

Por visualización debemos entender al conjunto de conocimientos y técnicas que


nos permiten mostrar los resultados de la analítica de tal manera que se facilite o
induzca la formación conclusiones y el soporte de argumentos o hipótesis.

La biblioteca de software de código abierto Pandas está diseñada específicamente


para la manipulación y el análisis de datos en el lenguaje Python.

El lenguaje de programación Python es potente, flexible y fácil de usar. Gracias


a Pandas, por fin se puede utilizar el lenguaje Python para cargar, alinear,
manipular o incluso fusionar datos. El rendimiento es realmente impresionante
cuando el código fuente del back-end está escrito en C o Python.

El nombre «Pandas» es en realidad una contracción del término «Panel Data» para
series de datos que incluyen observaciones a lo largo de varios periodos de
tiempo. La biblioteca se creó como herramienta de alto nivel para el análisis en
Python.

Un “ índice” es una etiqueta o identificador asociado a cada elemento de una


serie o data frame.

Los índices permiten acceder y referenciar los datos de manera eficiente.

Los índices pueden ser numéricos o etiquetas, y pueden ser personalizados o


generados automáticamente por Pandas.

La “importación de librerías” se refiere al proceso de cargar módulos o


bibliotecas externas en un programa para acceder a sus funciones y clases.

El uso de importaciones permite a los programadores utilizar código


previamente desarrollado y aprovechar sus funcionalidades en sus propios
programas.
Un analista de datos es un profesional que se encarga de recopilar, procesar,
analizar y visualizar datos con el objetivo de obtener información relevante para
la toma de decisiones en una organización.

Los analistas de datos utilizan herramientas y técnicas estadísticas, de minería


de datos y de visualización para identificar patrones, tendencias y relaciones
en los datos.

El trabajo de los analistas de datos ayuda a las empresas a comprender mejor su


rendimiento, tomar decisiones informadas y resolver problemas
empresariales.

Los datos son información o hechos que se recopilan o registran y que pueden
ser procesados, almacenados y analizados.

Los datos pueden tomar muchas formas, incluyendo números, texto, imágenes,
sonido, etc.

En el contexto de la analítica de datos, los datos son la materia prima que se


utiliza para obtener conocimientos y tomar decisiones.

Los datos pueden ser estructurados (organizados en tablas o formatos


específicos) o no estructurados (como texto libre o multimedia), y pueden ser
recopilados de diversas fuentes, como sensores, encuestas, registros, redes
sociales y más.

La analítica de datos es el proceso de examinar, limpiar, transformar y modelar


datos con el fin de descubrir información útil, patrones, tendencias y
conocimientos que pueden ser utilizados para tomar decisiones informadas.

La analítica de datos involucra el uso de herramientas estadísticas y técnicas


de minería de datos para extraer conocimientos a partir de grandes conjuntos de
datos.

La analítica de datos es una disciplina fundamental en la ciencia de datos y se


aplica en una variedad de campos, desde el marketing hasta la medicina y la
investigación científica.
Python es un lenguaje de programación utilizado para desarrollo de software,
ciencia de datos y el Machine Learning.

Python se empezó a desarrollar en diciembre de 1989 por Guido Van Rossum y


publicado el 20 de febrero de 1991. Describió que Python debería ser: Fácil e
intuitivo, ser comprensible como cualquier texto en ingles y de código abierto
para que cualquiera pudiera colaborar.

Las series son estructuras similares a los arrays, de una dimensión, sus
elementos tienen que ser del mismo tipo de dato.

Ejemplo:
Import pandas as pd
s = pd.Series([‘Programacion’, ‘Economia’, ‘Contabilidad’])
s

Ejemplo:
import pandas as pd
s = pd.Series({‘Programacion’: 9.8, ‘Economia’: 8.2, ‘Contabilidad’ : 7.9})
s

Ejemplo:
import pandas as pd
datos = {‘nombre’:[‘María’, ‘Luis’, ‘Carmen’, ‘Antonio’],
‘edad’:[18, 22, 20, 21],
‘grado’:[‘Economía’, ‘Medicina’, ‘Arquitectura’, ‘Economía’],
‘correo’:[‘maria@gmail.com’,‘luis@yahoo.es’,‘carmen@gmail.com’,‘antonio@gmail.
com’]
}
df = pd.DataFrame(datos)
df
Un objeto del tipo DataFrame define un conjunto de datos estructurado en forma
de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos
de una misma columna son del mismo tipo, y las filas son registros que pueden
contender datos de distintos tipos.

Pandas es una librería de código abierto dentro de Python, usado dentro el


ámbito de la ciencia de datos y Machine Learning, ya que ofrece unas estructuras
muy poderosas y flexibles que facilitan la manipulación y tratamiento de datos.
(import pandas as pd)

Librería pandas alias pd

Pandas es una librería que permite el manejo eficiente de estructuras de datos


unidimensionales (Series) y bidimensionales (DataFrame).

La especialidad de Pandas es el manejo de estructuras de datos.

Las series en Pandas son estructuras unidimensionales de datos.

Los DataFrames en Pandas son estructuras bidimensionales de datos.

Las formas de crear series y datos es utilizando las funciones Series() y


DataFrame().

CREACIÓN DE SERIES

serie = pd.Series(<Origen>)

El origen puede ser una lista de Python, un arreglo de numpy, un diccionario de


python o incluso otro objeto de series.

#Series a partir de una lista Python


lista_python = [10, 20, 30, 40, 50]
edades_lista = pd.Series (lista_python)
edades_lista
Cuando se genera un objeto Series(), se genera un índice en forma de número
entero consecutivo, de base cero, excepto en el caso de los diccionarios, donde la
llave se asume como índice.

SERIES A PARTIR DE UN DICCIONARIO

#Series a partir de un diccionario

diccionario_python = {

‘A’:10,

‘B’:20,

‘C’:30,

‘D’:40,

‘E’:50

edades_diccionario = pd.Series(diccionario_python)

eedades_diccionario

VER ÍNDICES Y VALORES

#Para ver únicamente los valores de series


edades_arreglo.values

array([10, 20, 30, 40, 50])

#Para ver únicamente los índices

edades_arreglo.index

RangeIndex(start=0, stop=5, step=1)


Si los índices no son una serie numérica consecutiva (range()), entonces se
regresará una lista con los índices.

CAMBIAR LOS ÍNDICES

#Para cambiar los índices

Nuevos_indices = [‘a’,’b’,’c’,’d’,’e’]

edades_arreglo = pd.Series (arreglo_numpy, index=nuevos_indices)

edades_arreglo

DATAFRAME

Pandas es una biblioteca del lenguaje de programación Python, dedicada por


completo a la Data Science.

CREACIÓN DE DATAFRAME

Los DataFrame en Pandas son estructuras bidimensionales de datos.

Para crear un objeto DataFrame en Pandas, se utiliza el constructor DataFrame()

objeto_dataframe = pd.DataFrame(<Origen>)

Origen puede ser cualquier fuente que admita dos dimensiones: puede ser una
lista de listas, un arreglo de numpy o un diccionario.

CARGAR DATOS DESDE UN CSV

Uno de los orígenes más comunes son los archivos CSV (Comma Separated
Values).
Para cargar datos de un archivo CSV a un DataFrame, se utiliza la siguiente
sintaxis:

Objeto_dataframe = pd.read_csv(<ruta archivo>)

A partir de ese momento, los datos del archivo CSV estarán disponibles a través
del objeto_contenedor para su procesamiento en Pandas.

Para ver el contenido de datos de un DataFrame, hay varias formas de hacerlo en


una libreta Jupyter. La siguiente tabla muestra un resumen de ellas:

La estructura de un DataFrame se compone de columnas, tipos de datos de las


columnas y orden de las columnas.

Los tipos de datos que considera Pandas no son los mismos que considera
Python:
Para ver la estructura del DataFrame, o darnos una idea de su composición,
disponemos de los siguientes métodos y atributos.

DATAFRAME DESDE LISTA DE LISTAS

#Dataframe desde lista de listas


lista_python = [
[10,20,30,40],
[50,60,70,80],
[90,100,110,120]
]
df = pd.DataFrame(lista_python)
df

#dataframe desde lista de listas, especificando índices y columnas


Lista_python = [
[10,20,30,40],
[50,60,70,80],
[90,100,110,120]
]
filas = [‘a’,’b’,’c’]
columnas = [‘I’,’II’,’III’,’IV’]
df = pd.DataFrame(lista_python,
Index = filas, columns = columnas)
df

DATAFRAME DESDE DICCIONARIO DE LISTAS

#DataFrame desde un diccionario de listas


diccionario_listas={
‘Nombre’:[‘José’,’Ana’,’Esteban’],
‘Edad’:[‘22’,’45’,’32’],
‘Area’:[‘TI’,’RH’,’Producción’]
}
df = pd.DataFrame(diccionario_listas)
df

#DataFrame desde una lista de diccionarios


lista_diccionarios = [
{‘Nombre’: ’José’, ‘Edad’: ‘22’, ‘Area’: ‘TI’},
{‘Nombre’: ‘Ana’, ‘Edad’: ‘45’, ‘Area’: ‘RH’},
{‘Nombre’: ‘Esteban’, ‘Edad’: ‘32’, ‘Area’: ‘Producción’}
]
df = pd.DataFrame(lista_diccionarios)
df

DATAFRAME DESDE UN ARREGLO DE NUMPY

#DataFrame desde un arreglo numpy


arreglo_numpy = np.array([
[10,20,30,40],
[50,60,70,80],
[90,100,110,120]
]
filas = [‘a’,’b’,’c’]
columnas = [‘I’,’II’,’III’,’IV’]
df = pd.DataFrame(arreglo_numpy, index = filas, columns = columnas)
df

Código para crear un data frame a partir de un archivo csv

import pandas as pd
data_frame = pd.read_csv(‘archivo_csv’)

También podría gustarte