0% encontró este documento útil (0 votos)
53 vistas37 páginas

M2U2. Librerías de Análisis de Datos y Machine Learning

El documento detalla diversas librerías de análisis de datos y machine learning en Python, organizadas en categorías como visualización, cálculo numérico, machine learning, deep learning, inteligencia artificial y procesamiento de lenguaje natural. Se describen librerías específicas como Matplotlib, Pandas, TensorFlow y NLTK, junto con sus características y aplicaciones. Además, se explican conceptos fundamentales de machine learning, incluyendo tipos de algoritmos y ejemplos de aplicación.

Cargado por

delgador.ignacio
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
53 vistas37 páginas

M2U2. Librerías de Análisis de Datos y Machine Learning

El documento detalla diversas librerías de análisis de datos y machine learning en Python, organizadas en categorías como visualización, cálculo numérico, machine learning, deep learning, inteligencia artificial y procesamiento de lenguaje natural. Se describen librerías específicas como Matplotlib, Pandas, TensorFlow y NLTK, junto con sus características y aplicaciones. Además, se explican conceptos fundamentales de machine learning, incluyendo tipos de algoritmos y ejemplos de aplicación.

Cargado por

delgador.ignacio
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

LIBRERÍAS DE ANÁLISIS DE DATOS Y MACHINE

LEARNING
Librerías de análisis de datos y Machine Learning
1. Librerías de Visualización 4. Librerías de Deep Learning
• Matplotlib • TensorFlow
• Seaborn • Keras
• Bokeh • PyTorch
2. Librerías de Cálculo Numérico y Análisis de 5. Librerías de IA
Datos • SHAP
• NumPy • LIME
• SciPy
6. Librerías de Procesamiento de Lenguaje Natural
• Pandas
• NLTK: Natural Language Toolkit
3. Librerías de Machine Learning
• genisim
• scikit-learn
• spaCy
1. Librerías de Visualización. Matplotlib
Matplotlib es la librería gráfica de python estándar y la más conocida. Es una librería
de gráficos, desde histogramas, hasta gráficos de líneas o mapas de calor.

Si quieres ver de lo que matplotlib es


capaz, mira sus gráficos de ejemplo y
su galería de gráficos.
1. Librerías de Visualización. Seaborn
Seaborn es una librería basada en matplotlib, se usa para hacer más atractivos
los gráficos e información estadística en Python. Su objetivo es darle una mayor
relevancia a las visualizaciones, dentro de las tareas de exploración e
interpretación de los datos.

Si quieres ver de lo
que seaborn es
capaz, mira su galería
de ejemplos. También
ofrecen un tutorial en
inglés.
1. Librerías de Visualización. Bokeh
Bokeh es una librería para visualizar datos de forma interactiva en un
navegador web. Con bokeh podemos crear gráficos versátiles, elegantes
e interactivos. Los desarrolladores de bokeh buscan un buen rendimiento
con gran cantidad de datos, incluso con datos que vayan llegando en
tiempo real.

Si quieres ver de lo
que bokeh es capaz,
mira su galería de
ejemplos. También
puedes consultar su
manual de usuario
en inglés.
2. Librerías de Cálculo Numérico. NumPy
NumPy proporciona una estructura de datos universal que posibilita el análisis de
datos y el intercambio de datos entre distintos algoritmos. Las estructuras de datos
que implementa son vectores multidimensionales y matrices (arrays) con
capacidad para gran cantidad de datos.
2. Librerías de Cálculo Numérico. SciPy
Acrónimo de Scientific Python. SciPy está construida sobre la librería
NumPy. Es una de las más útiles por la gran variedad que tiene de
módulos de alto nivel sobre ciencia e ingeniería, como transformada
discreta de Fourier, álgebre lineal, y matrices de optimización.
2. Librerías de Cálculo Numérico. Pandas
Pandas es una de las librerías de python más útiles para los científicos de datos. Las
estructuras de datos principales en pandas son Series para datos en una dimensión
y DataFrame para datos en dos dimensiones.
Estas son las estructuras de datos más usadas en muchos campos tales como
finanzas, estadística, ciencias sociales y muchas áreas de ingeniería. Pandas destaca
por lo fácil y flexible que hace la manipulación de datos y el análisis de datos.
Para aprender más, puedes mirar la documentación de pandas (en inglés).
3. Librerías de Machine Learning. Scikit Learn
scikit-learn es una librería de python para Machine Learning y Análisis de Datos.
Está basada en NumPy, SciPy y Matplotlib. La ventajas principales de scikit-learn
son su facilidad de uso y la gran cantidad de técnicas de aprendizaje automático
que implementa.
Con scikit-learn podemos realizar aprendizaje supervisado y no supervisado.
Podemos usarlo para resolver problemas tanto de clasificación y como de
regresión.

Para aprender más, puedes


mirar la documentación de
scikit-learn (en inglés).
4. Librerías de Deep Learning. Tensor Flow
TensorFlow es una librería de python, desarrollada por Google, para realizar cálculos
numéricos mediante diagramas de flujo de datos. Esto puede chocar un poco al principio,
porque en vez de codificar un programa, codificaremos un grafo. Los nodos de este grafo serán
operaciones matemáticas y las aristas representan los tensores (matrices de datos
multidimensionales).
Con esta computación basada en grafos, TensorFlow puede usarse para deep learning y otras
aplicaciones de cálculo científico.

Si te estás preguntando por qué necesitamos diseñar


un grafo en vez de un programa, es por la flexibilidad
de ejecución que TensorFlow permite. Por ejemplo, el
grafo que representa la red neuronal profunda y sus
datos, se podrá ejecutar en una o varias CPU o GPU
en un PC, en un servidor o en un móvil.

Para aprender más, puedes mirar el tutorial de


TensorFlow (en inglés).
4. Librerías de Deep Learning. Keras
Keras es un interfaz de alto nivel para trabajar con redes neuronales. El interfaz
de Keras es mucho más fácil de usar que el de TensorFlow. Esta facilidad de uso
es su principal característica.
Con Keras es muy fácil comprobar si nuestras ideas tendrán buenos resultados
rápidamente. Keras utiliza otras librerías de deep learning (TensorFlow, CNTK o
Theano) de forma transparente para hacer el trabajo que le digamos.

Para aprender más, puedes mirar


la documentación de Keras (en
inglés).
4. Librerías de Deep Learning. PyTorch
PyTorch es una librería de python, desarrollada por Facebook, que permite el cálculo
numérico eficiente en CPU y GPUs.
Puedes pensar en PyTorch como una librería que te la las capacidades de NumPy en
una GPU. En otras palabras, si tu tarjeta gráfica tiene un procesador gráfico (por
ejemplo, una NVIDIA moderna), tu código se puede ejecutar unas ¡10 20 veces más
rápido!
El aprendizaje profundo (deep learning) usa cálculos matriciales y de derivadas
masivos y paralelizables en GPUs. Por eso, PyTorch también se especializa en deep
learning.

Para aprender más, puedes mirar


los tutoriales de PyTorch y
su documentación (ambos en
inglés).
5. Librerías de IA. SHAP
SHAP es una librería para realizar Inteligencia Artificial Explicable (XAI por
sus siglas in inglés eXplainable Artificial Intelligence). Utiliza cálculos del
campo de la teoría de juegos para averiguar qué variables tienen más
influencia en las predicciones de las técnicas de machine learning.
6. Librerías de Procesamiento de Lenguaje
Natural. NLTK
NLTK es una de las librerías más antiguas en python para procesamiento de
lenguaje natural. Sigue siendo muy útil para tareas de preprocesado de
texto tales como la tokenización, lematización, exclusión de palabras
irrelevantes, etc. NLTK también se usa mucho como herramienta de estudio
y enseñanza de procesamiento del lenguaje.

Para aprender más, puedes leer el libro de NLTK (en inglés).


6. Librerías de Procesamiento de Lenguaje
Natural. gensim
gensim es una librería para el procesamiento de lenguaje natural creada por Radim
Řehůřek. El punto fuerte de Gensim es el modelado de temas. Es decir, puede
identificar automáticamente de que tratan un conjunto de documentos.

Además, Gensim es útil para construir o importar representaciones de vectores


distribuidas tales como word2vec. También podemos usar Gensim para analizar la
similaridad entre documentos, lo que es muy útil cuando realizamos búsquedas.

Para aprender más, mira los tutoriales de Gensim (en inglés).


6. Librerías de Procesamiento de Lenguaje
Natural. spaCy
spaCy es la librería de procesamiento natural más rápida que existe. Está diseñada para
usarse en aplicaciones reales y extraer información relevante. spaCy también es muy
útil para preparar texto para otras tareas de aprendizaje automático. Por ejemplo,
podemos preparar los datos para usarlos con TensorFlow, PyTorch, scikit-learn, Gensim,
etc.
Con spaCy también vamos a poder construir modelos lingüísticos estadísticos
sofisticados para muchos de los problemas de procesamiento de lenguaje natural.

Para saber más, mira la documentación de spaCy (en inglés).


LIBRERÍAS ESPECIALIZADAS. MACHINE LEARNING
¿Os acordáis de esto?
Paradigmas de
aprendizaje

Aprendizaje Aprendizaje No Aprendizaje


Supervisado Supervisado por Refuerzo

Reducción de
Clasificación Regresión Análisis Clúster
Dimensionalidad
¿Qué es el Machine Learning?

1. Machine learning o aprendizaje de máquinas o aprendizaje automático, es


el subcampo de las ciencias de la computación y una rama de la inteligencia
artificial, cuyo objetivo es desarrollar técnicas que permitan que las computadoras
aprendan.

2. Machine learning es un método de análisis de datos que automatiza la


construcción de un modelo analítico.

3. Machine learning permite a los ordenadores encontrar soluciones a problemas, sin


ser explícitamente programados para ello, gracias al uso de algoritmos, que
aprenden de los datos.
Procesos del Machine Learning
Tipos de algoritmos de Machine Learning

1. Aprendizaje supervisado: Este algoritmo necesita datos previamente


etiquetados (solucionados) para aprender a realizar el trabajo. En base a estos
datos, el algoritmo es capaz de aprender a resolver problemas futuros similares.

2. Aprendizaje no supervisado: Este algoritmo necesita indicaciones previas,


que le enseñan a comprender y analizar la información, para resolver
problemas futuros similares. No necesita datos previamente etiquetados.

3. Aprendizaje de refuerzo: Este algoritmo aprende por su cuenta, en base de


unos conocimientos previamente introducidos y a la práctica que realiza
sobre los problemas aprendiendo en función del éxito o fracaso que obtiene
al resolver los problemas.
Algoritmos de Machine Learning (I)

1. Regresión Lineal es una aproximación para modelar la relación entre una


variable escalar dependiente "y" y una o más variables explicativas "x".

2. Regresión Logística es un tipo de análisis de regresión, utilizado para


predecir el resultado de una variable categórica (una variable que puede
adoptar un número limitado de categorías) en función de otras variables
independientes.

3. k vecinos más próximos - KNN en el reconocimiento de patrones, este


algoritmo es usado como método de clasificación de objetos, basado en un
entrenamiento mediante ejemplos cercanos en el espacio de los elementos.
Algoritmos de Machine Learning (II)

4. Arboles de Decisión dado un conjunto de datos, se fabrican diagramas de


contracciones lógicas, que sirven para representar y categorizar una serie de
condiciones que ocurren de forma sucesiva, para la resolución de problema.

5. Bosques Aleatorios - Random Forest es una combinación de árboles de


decisión, donde cada árbol selecciona una clase y luego se combinan las
decisiones de cada árbol, para seleccionar una clase final ganadora.
Algoritmos de Machine Learning (III)

6. Máquinas de Vectores de Soporte - Support Vector Machine -


SVM representa los puntos de muestra en el espacio, separando las clases en
dos espacios lo más amplio posible mediante un hiperplano de separación,
denominado vector de soporte.

7. Algoritmo de K-Medias tiene como objetivo la partición de un conjunto de 'n'


objetivos en 'k' grupos, en el cada observación pertenece al grupo cuyo valor
medio es más cercano.
Algunos ejemplos
1. Regresión Lineal es una aproximación para modelar la relación entre una
variable escalar dependiente "y" y una o más variables explicativas "x".
Ejemplo: medir rentabilidad respecto a la liquidez que se tiene.
2. Regresión Logística es un
tipo de análisis de regresión,
utilizado para predecir el
resultado de una variable
categórica (una variable que
puede adoptar un número
limitado de categorías) en
función de otras variables
independientes.

Ejemplo: medir rentabilidad o


quiebra
3. k vecinos más próximos - KNN en el reconocimiento de patrones, este
algoritmo es usado como método de clasificación de objetos, basado en un
entrenamiento mediante ejemplos cercanos en el espacio de los elementos.
4. Arboles de Decisión dado un conjunto de datos, se fabrican diagramas de
contracciones lógicas, que sirven para representar y categorizar una serie de
condiciones que ocurren de forma sucesiva, para la resolución de problema.
5. Bosques Aleatorios - Random Forest es una combinación de árboles de
decisión, donde cada árbol selecciona una clase y luego se combinan las
decisiones de cada árbol, para seleccionar una clase final ganadora.
6. Máquinas de Vectores de Soporte - Support Vector Machine -
SVM representa los puntos de muestra en el espacio, separando las clases en
dos espacios lo más amplio posible mediante un hiperplano de separación,
denominado vector de soporte.
7. Algoritmo de K-Medias tiene como objetivo la partición de un conjunto de
'n' objetivos en 'k' grupos, en el cada observación pertenece al grupo cuyo valor
medio es más cercano.

También podría gustarte