Está en la página 1de 6

PRESENTACIÓN

Nombre:
Jean Carlos Estévez Solís
Matrícula:
2022-1600
Materia:
Introducción a la Ciencia de los Datos
Tema:
Proyecto Final
Docente:
Jean Charly Joseph Saint
Fecha:
17 de diciembre de 2022
Santo Domingo Este, Rep. Dom.
LIBRERÍAS DE PYTHON
ORIENTADAS A LA ANALÍTICA Y CIENCIA DE LOS DATOS

Python es uno de los lenguajes de programación más empleados en el campo del análisis de
datos, por su versatilidad y sinfín de librerías adaptadas a dicho fin. La exploración y el análisis
de datos son la base de la ciencia de datos. Los científicos de datos necesitan conocer lenguajes
como Python para poder explorar, visualizar y manipular datos.

1. PANDAS
Pandas es la librería más utilizada y perfecta para el Data Wrangling. Permite realizar tareas de
manipulación, agregación y visualización de datos de forma más sencilla.
Pandas es hoy en día una de las librerías más usadas en Data Science pues nos facilita mucho el
manejo de datos. Con ella podemos leer archivos ó bases de datos de múltiples fuentes (csv,
sqlite, sqlserver, html) y hacer operaciones entre las columnas, ordenar, agrupar, dividir, pivotar,
totalizar.
Nos ayuda a detectar valores nulos, detectar ouliers, duplicados y también hacer merge ó joins
entre distintos orígenes. También nos permite guardar fácilmente nuestro nuevo dataset.
Esta librería de código abierto tiene una forma peculiar de operar, lo que hace es tomar una serie
de datos (formato CSV, TSV o base de datos SQL) y crea un objeto Python con filas y columnas
llamado marco de datos o “dataframe” en inglés.
El resultado de esta transformación es una tabla con una estructura muy similar a al de un
software estadístico, como pueda ser Excel. Es por ello por lo que Pandas es una de las librerías
más utilizadas, puesto que resulta sumamente fácil trabajar con ella.
2. NUMPY
NumPy significa Pitón Numérico y es el paquete más fundamental sobre el que se construyen
todas las bibliotecas científicas. Se trata de la librería por excelencia para aplicar informática
científica. En resumidas cuentas, proporciona potentes estructuras de datos, puedes implementar
matrices multidimensionales y realizar cálculos más complejos con matrices.
Es un estándar en Python y de hecho es utilizada como base por Pandas y por muchas otras
librerías que se apoyan en ella para operar. Ofrece una estructura crítica para el almacenamiento
y operaciones con datos: el array multidimensional. NumPy es una librería de bajo nivel sobre la
que se han desarrollado otras.
Contiene:
 Un poderoso objeto de arreglo N-dimensional
 Funciones (radiodifusión) sofisticadas
 Herramientas para integrar código en C/C++ y Fortran
 Útiles capacidades de álgebra lineal, transformación de Fourier y números aleatorios
Numpy nos permite crear todo tipo de estructuras numéricas, múltiples dimensiones, permite
transformarlas, operar aritméticamente, filtrar y es útil muchas veces para la inicialización de
datos aleatorios.
Es una librería especializada en el cálculo numérico y el análisis de datos, especialmente para un
gran volumen de datos. Incorpora una nueva clase de objetos llamados arrays que permite
representar colecciones de datos de un mismo tipo en varias dimensiones, y funciones muy
eficientes para su manipulación.
La ventaja de Numpy frente a las listas predefinidas en Python es que el procesamiento de los
arrays se realiza mucho más rápido (hasta 50 veces más) que las listas, lo cual la hace ideal para
el procesamiento de vectores y matrices de grandes dimensiones.
El principal beneficio de NumPy es que permite una generación y manejo de datos
extremadamente rápido. NumPy tiene su propia estructura de datos incorporada llamado arreglo
que es similar a la lista normal de Python, pero puede almacenar y operar con datos de manera
mucho más eficiente.
3. MATPLOTLIB
Matplotlib es la biblioteca más utilizada para crear visualizaciones de datos simples pero
potentes. Cuando se trata de crear gráficos de alta calidad listos para ser publicados, el paquete
de Matplotlib suele ser la opción más acertada. Además, admite una amplia gama de gráficos
rasterizados y vectoriales, tales como PNG, EPS, PDF y SVG.
Es la librería de visualización referencia en el entorno Python. Aun cuando ofrece herramientas
de bajo nivel y su uso no es especialmente amigable, sigue siendo obligado su conocimiento,
más cuando otras librerías de visualización se han construido sobre ésta.
Las distintas funciones de Matplotlib te ayudarán a presentar la información que contienen tus
análisis de una forma más entendible. La clave está en adaptar el formato de visualización al tipo
audiencia. No es lo mismo presentar tus conclusiones al equipo directivo que a tus compañeros
del departamento de analítica.

4. PLOTLY
Al realizar gráficas y visualización de los datos, muchas veces al momento de realizar el Análisis
exploratorio ó al estudiar los resultados obtenidos solemos utilizar el standard Matplotlib.pyplot
que realmente es muy buena librería. Sin embargo, echamos de menos no poder “pasar el cursor”
por encima de la gráfica e interactuar. También está Seaborn que embellece y expande mucho el
alcance de Matplot. Pero nos quedamos con Plotly que con relativamente poco esfuerzo nos
regala gráficas clicables, que nos aportan mayor información y nos ayudan en nuestra labor
diaria.
5. SCIPY
SciPy es la biblioteca de software para operaciones científicas como Álgebra Lineal, Estadística,
Optimización, etc. y está construida sobre la biblioteca NumPy.
Esta librería ofrece herramientas matemáticas de todo tipo: resolución de ecuaciones
diferenciales, distribuciones, gestión de matrices, etc. SciPy contiene módulos para optimización,
álgebra lineal, integración, interpolación, funciones especiales, FFT, procesamiento de señales y
de imagen, resolución de ODEs y otras tareas para la ciencia e ingeniería.
SciPy se basa en el objeto de matriz NumPy y es parte del conjunto NumPy, que incluye
herramientas como Matplotlib, Pandas y SymPy, y un conjunto en expansión de bibliotecas de
computación científica. Este conjunto está dirigido al mismo tipo de usuarios que los de
aplicaciones como MATLAB, GNU Octave, y Scilab. A veces también se hace referencia a este
conjunto de herramientas y bibliotecas como SciPy
La estructura de datos básica usada por SciPy es un vector multidimensional proporcionado por
el módulo NumPy. NumPy proporciona algunas funciones para el álgebra lineal, la transformada
de Fourier y la generación de números aleatorios. NumPy también puede ser usado como un
contenedor de datos multidimensional y efectivo con tipos de datos arbitrarios. Esto permite que
NumPy se integre de manera sencilla y rápida con una amplia variedad de bases de datos. Las
versiones antiguas de SciPy usan Numeric como un tipo de vector, sin embargo, ahora se
encuentra obsoleto en favor del nuevo código del vector NumPy.
Esta librería esta organiza por subpaquetes donde cada 1 esta enfocado a un tema de cálculos
específicos:
 Algebra lineal -> linalg
 Procesamiento de señales -> signal
 Funciones estadísticas -> stats
 Funciones especiales -> special
 Integración -> integrate
 Herramientas de interpolación -> interpolate
 Herramientas de optimización -> optimize
 Etc.
BIBLIOGRAFÍAS

1. https://unipython.com/librerias-python-mas-utilizadas-para-el-analisis-de-datos/

2. https://verneacademy.com/blog/articulos-ia/10-librerias-python-data-science-machine-

learning/

3. https://www.ironhack.com/es/es/blog/analisis-de-datos-con-python

4. https://aprendeconalf.es/docencia/python/manual/numpy/

5. https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-

computacion-cientifica-en-python/

6. https://unipython.com/scipy-funciones-principales/

También podría gustarte