Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Science
Introducción
Prof. Manuel Sigüeñas, M.Sc.(c)
Ir a inicio
Cifras:
* El 59% de toda la demanda de trabajo de Data Science and Analytics (DSA) está en Finanzas y Seguros,
Servicios Profesionales y TI.
Los trabajos de DSA son los más destacados en la industria de Finanzas y Seguros, donde
representan el 19% de todas las vacantes. Las industrias de servicios profesionales y TI siguen
con una demanda relativa de 18% y 17% para trabajos de DSA, respectivamente.
Out[15]:
Out[14]:
* Las habilidades de aprendizaje automático, big data y ciencia de datos son las más difíciles de reclutar y
potencialmente pueden crear la mayor interrupción para el desarrollo continuo de productos y las estrategias
de comercialización si no se cumplen.
Referencia: The Quant Crunch: How The Demand For Data Science Skills Is Disrupting The
Job Market.
Ir a inicio
¿Qué es la Ciencia de Datos?
Microsoft define la Ciencia de Datos como el estudio científico de datos para obtener
conocimientos. Este campo combina varias materias para extraer conocimientos de conjuntos
de datos masivos con el fin de tomar decisiones y predicciones informadas. Los científicos de
datos, los analistas de datos, los arquitectos de datos, los ingenieros de datos, los
estadísticos, los administradores de bases de datos y los analistas de negocios trabajan en el
campo de la ciencia de datos.
Fuente: https://www.ibm.com/developerworks/opensource/library/os-datascience
/figure1.png
Out[9]:
Ir a inicio
BANCA
In [1]: 4000/5000
Out[1]: 0.8
In [3]: 0.7*5000
Out[3]: 3500.0
Sensibilidad : 0.8
• 300000 registros
• Train 210000 (sirven para desarrollar proceso de aprendizaje) técnicas de aprendizajes se
llaman modelos: Random forest, SVM, Redes neuronales...
• Test 90000 (sirven para probar qué tan bueno ha sido proceso de aprendizaje)
Acciones empresariales
In [ ]: 20 usuarios o clientes
Sensibilidad : 0.8
febrero de 2022
Sensibilidad : 0.8
Arquitectura
Ir a inicio
Tipos de aprendizaje
Tres tipos de aprendizaje automático: supervisado, no supervisado y reforzado
Estos datos de entrenamiento etiquetados pueden ser discretos, conocidos como tarea de
clasificación, o continuos, conocidos como tarea de regresión
Out[20]:
Out[29]:
El agrupamiento es una técnica exploratoria de análisis de datos que nos permite organizar
un montón de información en subgrupos significativos (clústers) sin tener ningún
conocimiento previo de los miembros del grupo.
Ir a inicio
Plataformas y herramientas
Existen múltiples plataformas y herramientas modernas para generar y ejecutar modelos de
Machine Learning
•R
• Python
• RapidMiner
• Microsoft Azure ML Studio
• Knime
• Weka
• TensorFlow
• ... y muchas otras más
Anaconda es una distribución Python muy popular que aglutina varios paquetes para análisis
de datos y aprendizaje automática. Con Anaconda tenemos ya preparadas muchas otras
opciones, herramientas y librerías, sin tener que instalarlas una por una.
Jupyter Notebook
Jupyter es una consola como IPython, sólo que con éste podemos crear proyectos y acceder
desde un navegador y tenerlos disponibles de forma local o en repositorio en la nube. Para
instalar Jupyter lo podemos hacer de forma independiente o con Anaconda.
Out[42]:
Python tiene una cantidad abrumadora de paquetes que se pueden usar en una
configuración de aprendizaje automático. El ecosistema de aprendizaje automático de
Python se puede dividir en tres tipos principales de paquetes:
Out[47]:
Out[50]:
Out[45]:
Las GPU tarjeta gráfica como normalmente la conocemos (Graphic Proccess Unit), están
diseñadas para procesar enormes cantidades de operaciones matemáticas por segundo en
tiempo real.
Una forma sencilla de comprender la diferencia entre una GPU y una CPU es comparar la
forma en que procesan las tareas. Una CPU tiene unos cuantos núcleos optimizados para el
procesamiento en serie secuencial, mientras que una GPU cuenta con una arquitectura en
paralelo enorme que consiste de miles de núcleos más pequeños y eficaces, y que se
diseñaron para resolver varias tareas al mismo tiempo.
Out[59]:
Existen tareas dentro del aprendizaje profundo que no sería posible de procesar para una
única unidad de procesamiento. La cuestión es: ¿ Comó podemos abordar este problema de
un modo más eficaz?
La solución evidente a este problema es utilizar las GPU, que son verdaderos caballos de
batalla. Puedes pensar en una tarjeta gráfica como un pequeño grupo de ordenadores dentro
de tu ordenador. Otra ventaja es que las GPU´s modernas son relativamente económicas en
comparación con los CPU´s de vanguardia, como veremos en la siguiente tabla.
Out[61]:
Por el 70% del precio de un CPU de alta gama podemos tener un GPU con 450 veces más
nucleos y que es capaz de realizar unas 15 veces más calculos con decimales por segundo.
Así, ¿Qué nos impide utilizar la GPU para nuestras tareas de aprendizaje automático?
¿Qué es TensorFlow?
Es una interfaz de progrmación multiplataforma y escalable para implementar y ejecutar
algoritmos de aprendizaje automático, incluyendo wrappers preparados para aprendizaje
profundo.
PyCUDA esto le permite escribir código que se ejecutará en el GPU en lugar de su CPU y, por
lo tanto, es ideal para aplicaciones con muchos cálculos. Funciona mejor con problemas que
se prestan a ser paralelizados y necesitan poca información en comparación con el número
de ciclos informáticos requeridos. Un ejemplo es estudiar la solidez de sus predicciones
calculando miles de resultados diferentes basados en un solo estado de inicio.
Blaze le brinda estructuras de datos que pueden ser más grandes que la memoria principal
de su computadora, lo que le permite trabajar con grandes conjuntos de datos.
Dispy e IPCluster: estos paquetes le permiten escribir código que se puede distribuir en un
grupo de computadoras.
PP-Python se ejecuta como un proceso único de forma predeterminada. Con la ayuda de PP,
puede paralelizar los cálculos en una sola máquina o en clústeres.
A grandes rasgos se puede decir que Hadoop está compuesto por dos partes
Out[52]:
Out[54]:
Pydoop y Hadoopy conectan Python con Hadoop, un framework. común de big data.
Facebook permite que HDFS almacene y extraiga estos enormes datos, y utiliza Python como
el lenguaje de fondo para la mayoría de sus aplicaciones de Procesamiento de imágenes,
como el cambio de tamaño de imágenes, la extracción de imágenes faciales, etc.
Quora gestiona una increíble cantidad de datos textuales utilizando Hadoop, Apache Spark y
varias otras tecnologías de almacenamiento de datos. Dado que el back-end de Quora se
desarrolla en Python; Este lenguaje se utiliza para interactuar con el HDFS. Por lo tanto,
Quora usa Hadoop con Python para extraer la Pregunta después de la búsqueda o
sugerencia.
Amazon tiene una plataforma líder que sugiere productos preferibles a los usuarios
existentes en función de su patrón de búsqueda y compra. Su motor de aprendizaje
automático está construido con Python e interactúa con su sistema de base de datos, es
decir, Hadoop Ecosystem. Estas dos tecnologías funcionan en coherencia para ofrecer un
sistema de recomendación de productos de primera clase
PySpark conecta Python y Spark, un marco de big data en memoria. Apache Spark es un
marco de código abierto popular que garantiza el procesamiento de datos a la velocidad del
rayo y admite varios idiomas como Scala, Python, Java y R.
Out[65]:
Ir a inicio