Está en la página 1de 39

HERRAMIENTAS

ANALÍTICAS
OPEN SOURCE

Presentado por: Cesar Charria


“Los datos ya no serán como el
petróleo, serán como el agua:
accesible, limpia y disponible
donde esté la necesidad.”

IDC – Julio 21 de 2020


¿Qué es
analítica?
La analítica es un campo incluyente y
multidimensional que utiliza
matemáticas, estadísticas, modelos
predictivos y técnicas de aprendizaje
basado en máquina para hallar
patrones y conocimientos
significativos en datos.
TIPOS DE ANALÍTICA

BA
Valor para el negocio

¿Qué debemos hacer al


respecto? 4 Prescriptiva

BI
¿Qué sucederá?
3 Predictiva

¿Qué sucedió?
¿Por qué sucedió? 2 Descriptiva

Almacenamiento
1 Cimientos - datos

Tiempo
Según IDC – Julio 21 de 2020
• La Inteligencia Artificial es la clave para la nueva
normalidad.
• Todos van a desarrollar capacidades analíticas y de
machine learning.
• Las soluciones serán cada vez más automatizadas.
Machine
Learning

Análisis Análisis
Descriptivo Predictivo

 Predicción riesgos
 Perfiles de clientes
 Pronósticos de ventas
 Segmentación productos
 Retención clientes
 Anomalías
 Diagnósticos

No
supervisados Supervisados
Machine
Learning

No
Supervisados
supervisados

 Modelos aplicados a  Modelos aplicados a


datos que no cuentan con datos que si cuentan con
una variable objetivo o una variable objetivo la
ésta no se desea predecir cual se desea predecir
EJEMPLO

No
supervisados
EJEMPLO

Supervisados
Machine
Learning

No
supervisados

Segmentación o Reducción
Detección de anomalías
Clustering dimensionalidad

 Cluster Jerárquico
 Cluster K-Medias  Análisis factorial
 Anomalías
 Cluster Bietapico
 Redes Kohonen
Machine
Learning

Supervisados

Regresión: Predicción de Clasificación: Predicción


una variable continua de una variable categórica

 Regresión logística
 Regresión lineal  Arboles de decisión
 Arboles de decisión  Redes neuronales
 Redes neuronales  MSV
 Series de tiempo  Redes bayesianas
 SLRM
Herramientas
analíticas
Open
source
HERRAMIENTAS ANALÍTICAS

Hay diferentes opciones de herramientas para llevar a cabo proyectos analíticos.

¿Cuál usar?

La respuesta a esta pregunta dependerá de:

 Las necesidades propias del negocio, compañía o usuario.


 Los problemas que se están intentado resolver.
 Para quién se están resolviendo tales problemas.

 El rol que se esté desempeñando.


HERRAMIENTAS ANALÍTICAS
 Es el lenguaje más popular
en la ciencia de datos.
 Según la encuesta sobre
Ciencia de Datos y
Machine Learning de
Kaggle en 2019, el 80%
de los científicos de
datos usan la
librería Scikit-learn, un
paquete de Python que
contiene algoritmos para
la ciencia de datos.
¿POR QUÉ PYTHON?

Utilidad en diversas áreas Software libre

Interactivo y
fácil de aprender Potente, rápido y dinámico
Python cuenta con una amplia
librería para:

 Procesamiento de datos
 Manipulación y análisis de datos
 Visualización de datos
 Machine learning
 Deep learning
 Entre otros…
 Es el segundo lenguaje más
popular en la ciencia de datos.
 Según la encuesta sobre
Ciencia de Datos y
Machine Learning de
Kaggle en 2019, cerca del
40% de los científicos de
datos
usan RStudio en su
quehacer analítico.
¿POR QUÉ R?

Utilidad en diversas áreas Software libre

Es muy popular en
la academia Repositorio estadístico
USO DE R
Algunas diferencias entre Phyton y R

Análisis de datos amigable, modelos


Productividad y Propósito estadísticos y gráficos
legibilidad del código

Curva de aprendizaje
Curva de aprendizaje Aprendizaje difícil al inicio
gradual y corta

Investigadores,
Ingenieros, empresas. Usado por estadísticos.
Algunas diferencias entre Phyton y R

Integración con otros sistemas, Procesamiento en un


incorporación a bases de datos. Uso único equipo.

Implementación de algoritmos en Trabajo exploratorio, fácil


ambientes de producción. Tareas para principiantes.

Uso de paquetes para Análisis de datos


análisis de datos. Manejo de datos básico sin paquetes
adicionales.
Beneficios
Integración de
SPSS con Python
yR
Entendiendo la necesidad

Volumen
Volumen de
de Datos
Datos
Usuarios
Usuarios
Programadores
Programadores
Usuarios
Usuarios Novatos
Novatos

Informes
Informes Periódicos
Periódicos

Varias
Varias fuentes
fuentes

Integración
Integración

Estadística
Estadística Avanzada
Avanzada

ML
MLAvanzada
Avanzada

Presupuesto
Presupuesto
Integración con Herramientas IBM

 En general las herramientas de IBM se pueden integrar con Python y R, por lo cual se puede
contar con lo mejor de los dos mundos.
 Desde el código en Python se realizan los procesos requeridos y a su vez se controla los procesos
de SPSS siendo el código el que organiza la ejecución.
 La Ruta de Modeler se integra a procesos hacia R / Python teniendo en cuenta que el orquestador
del proceso será SPSS.
Beneficios de la integración con herramientas IBM

Utilizando SPSS
y R/Python se
obtiene lo mejor
de ambos
mundos.

Mejorar la
manipulación, el
análisis estadístico y
los algoritmos de
predicción usando
grandes cantidades de
datos.

Puede realizar
SPSS puede análisis
ejecutar sintaxis personalizados,
R/Python desde crear y trabajar con
su interfaz de datos de salida y
SPSS. dar valor agregado
a los análisis.
Beneficios de la integración con herramientas IBM

01 02 03
Cuando se utiliza R/Python SPSS es una plataforma ideal SPSS es de fácil uso, tiene la
desde SPSS, las limitaciones desde la que los usuarios de capacidad de permitir usar
de estas plataformas R/Python pueden manejar plataformas de software libre
(despliegue, interface, grandes conjuntos de datos, a una amplia gama de
conexión a datos, obtener gráficos de alta usuarios que no estén
colaboración) pueden calidad y otras formas de familiarizados con éstas.
superarse. producción.
¿Cómo realizar la integración?

Al momento de instalar IBM SPSS Modeler, se realiza la instalación


automáticamente de Python y R en sus ultimas versiones.

No se requiere de algún componente adicional, éstos se instalan por


defecto en la instalación de SPSS Modeler.

Hacer uso de alguno de las formas de integración.


Integración con
SPSS
Modeler
Formas de integración

1. Nodos de extensión
Formas de integración

2. Hub de extensión
Nodos creados por la comunidad
disponibles como licencia open source
por los usuarios de SPSS Modeler.
Formas de integración

3. Creación de nodos
de extensión
Ejemplos de
integración
con SPSS
Modeler
Extensión Transformación en Python

• Ejemplo: crear una nueva variable


• Importar librerías
• Crear el contexto Spark
• En data only mode:
• Traer la estructura de datos para añadir los
campos
• Configurar el esquema de salida
• En el modo de ejecución:
• Traer la estructura de datos y adicionar el campo
• Adicionar el nuevo campo usando RDD
• Convertir el resultado en un data frame de
pySpark
• Configurar el esquema de salida
Extensión Transformación en R

• Ejemplo: crear una nueva variable

• Identificar las entradas que se utilizarán en la


derivación.
• Realizar cálculos
• Agregar nueva variable a modelerData
• Crear metadatos para una nueva variable
• Actualizar modelerDataModel con nuevos
• metadatos
Iniciemos el camino juntos
¿Empezamos?

Infórmese Informese InformeseLa c/Informese

También podría gustarte