Está en la página 1de 11

Abrir en la aplicación Empezar

Publicado en Hacia la ciencia de datos

Te quedan 2 historias gratuitas solo para miembros este mes.


Regístrese en Medium y obtenga uno adicional

Joos Korstanje Seguir

5 de junio de 2020 · 8 minutos de lectura · Escucha

Guardar

Herramientas de arrastrar y soltar para


canalizaciones de aprendizaje automático: ¿vale
la pena probarlas?
Comparación de 6 herramientas de programación visual gratuitas para
aprendizaje automático sobre restricciones de versión gratuita,
interoperabilidad y zoo modelo.

Canalizaciones de aprendizaje automático de arrastrar y soltar frente a


herramientas de ciencia de datos
Hace unas semanas, habría dicho que las herramientas de aprendizaje automático de
arrastrar y soltar nunca pueden ser mejores que la flexibilidad de un lenguaje de
programación de código abierto, combinado con cuadernos si es necesario.

Como muchos científicos de datos, siempre he estado haciendo mi aprendizaje


automático con Python y R: desde la exploración de datos hasta la visualización, el ajuste
y comparación de modelos, etc.

Recientemente, he visto a varias personas a mi alrededor moviéndose a las herramientas


58
de aprendizaje automático de arrastrar y soltar, lo que me ha despertado la curiosidad.
Pensando en ello, consideré que si podía encontrar una herramienta de aprendizaje
automático de arrastrar y soltar que fuera gratuita, que tuviera todos los modelos
importantes y que pudiera exportar fácilmente los modelos ajustados a otros idiomas, al
Abrir en la aplicación Empezar
menos valdría la pena intentarlo.
Pasé un tiempo enumerando las herramientas existentes para este trabajo y verificando si
cumplen con esos requisitos básicos. Comparto mi punto de referencia en este artículo.

Las herramientas de arrastrar y soltar de este punto de referencia (Fuentes: dataiku.com, mljar.com,
orange.biolab.si, cs.waikato.ac.nz/ml/weka/, knime.com, rapidminer.com)

Canalizaciones de aprendizaje automático de arrastrar y soltar: The


Benchmark
El uso que le daría a esa herramienta es la comparación de modelos.

Requerimientos mínimos:

Evaluación comparativa de arrastrar y soltar de canalizaciones de aprendizaje


automático.

Más fácil de usar que Jupyter Notebooks (todo un desafío).

Las herramientas de AutoML están excluidas de este punto de referencia (ya que ese
no es el objetivo)

Aparte de eso probaré los productos en los siguientes puntos:


Aparte de eso, probaré los productos en los siguientes puntos:
Abrir en la aplicación Empezar

1. Gratis o al menos tener una versión gratuita razonable

Porque si no puedo ver el valor agregado con la versión gratuita, no consideraría


comprarla.

2. Interoperable con otros lenguajes de programación

Porque claramente no quiero obligar a nadie más a usar el producto, por lo que debe
haber una manera fácil de exportar lo que he hecho a otro lenguaje.

3. Buen zoológico modelo, que incluye aprendizaje profundo

Herramientas existentes para canalizaciones de aprendizaje automático de


arrastrar y soltar
Navegando por internet encontré varias herramientas. Algunos de ellos proponen una
versión gratuita, mientras que otros no. Realmente estoy buscando una herramienta
gratuita en este momento, así que no profundicé en las de pago.

Los que proponen una versión gratuita:


Estudio RapidMiner: https://rapidminer.com/products/studio/

Datos: https://www.dataiku.com/product/features/machine-learning/

Weka: https://www.cs.waikato.ac.nz/ml/weka/

MLjar: https://mljar.com/

KNIME: https://www.knime.com/knime-analytics-platform

Naranja: https://orange.biolab.si/

Los que no proponen una versión gratuita (los periodos de prueba no se consideran una
versión gratuita):
Modelador SPSS ( https://www.ibm.com/products/spss-modeler )

Minero empresarial SAS ( https://www.sas.com/en_us/software/enterprise-


miner.html )

IBM Watson Studio combinado con SPSS Modeler (


https://www ibm com/cloud/watson studio )
https://www.ibm.com/cloud/watson-studio )
Abrir en la aplicación Empezar

Análisis predictivo de Alteryx ( https://www.alteryx.com/products/apa-platform )

Logotipo de RapidMiner (fuente: rapidminer.com)

Reseña 1 — RapidMiner Studio


Enlace: https://rapidminer.com/products/studio/

Precios de RapidMiner o versión gratuita


Versión gratuita: 10 000 filas de datos, 1 procesador lógico, soporte comunitario,
prueba de 30 días de Enterprise

Versión profesional: $7500 POR USUARIO, POR AÑO: 100 000 filas de datos, 2
procesadores lógicos, soporte empresarial, Turbo Prep, modelo automático

Versión empresarial: $ 15,000 POR USUARIO, POR AÑO: filas de datos ilimitadas,
procesadores lógicos ilimitados, soporte empresarial, Turbo Prep, modelo automático,
operaciones de modelo automatizadas, ejecución de procesos en segundo plano

RapidMiner Interoperabilidad / Exportación de modelos


De acuerdo con la página de soporte en su sitio web, RapidMiner parece admitir PMML
para varios de sus modelos, pero no para todos.

Zoológico modelo RapidMiner


El zoológico modelo RapidMiner parece bastante bueno. Hay soporte para el aprendizaje
profundo usando H2O.

Conclusión de RapidMiner
La versión gratuita de RapidMiner solo admite 10000 filas de datos y 1 procesador lógico.
Esto es tan limitado que para mí no vale la pena probar su solución.
Esto es tan limitado que, para mí, no vale la pena probar su solución.
Abrir en la aplicación Empezar

Logotipo de Dataiku (fuente: dataiku.com)

Reseña 2 — Dataiku
Enlace: https://www.dataiku.com/product/features/machine-learning/

Precios de Dataiku o edición gratuita


La Edición Gratuita de Dataiku tiene dos posibilidades:

Install It Free Forever: procesamiento de datos ilimitado, datos en su infraestructura,


hasta 3 usuarios

O deje que Dataiku lo aloje: potencia de procesamiento limitada, solo archivos,


usuario único

Esta versión gratuita me parece aceptable, así que pasemos al siguiente punto.

Interoperabilidad de Dataiku / Exportación de modelos


Hay varias opciones para exportar modelos:

Puntuación en tiempo real utilizando la API de Dataiku.

Característica genial, pero por supuesto no está disponible en la versión gratuita.


Abrir en la aplicación Empezar

Uso de PMML

Interesante para mí, pero desafortunadamente esto requiere un "nivel de soporte de


nivel 2" que no voy a tener en la versión gratuita.

Exportar a un cuaderno de Python

Dataiku me asusta un poco con los avisos de advertencia que indican que "No todos los
algoritmos son compatibles con esta función" y que "Este cuaderno generado es solo para
fines educativos y explicativos. En particular, este portátil no reproduce todas las
capacidades de preprocesamiento de DSS y es solo una aproximación de mejor esfuerzo
del modelo entrenado en DSS”.

Zoológico modelo Dataiku


Dataiku puede usar scikitlearn de Python como motor de modelado. El número de
modelos es relativamente bueno. También hay soporte para Deep Learning.

Conclusión de Dataiku
Dataiku seems a good tool to check out. Dataiku’s interoperability would be the first thing
to test if I go on with it, but it is not a stopper for now.

Weka logo (source: https://www.cs.waikato.ac.nz/ml/weka/)

Review 3 — Weka
Link: https://www.cs.waikato.ac.nz/ml/weka/
Weka Pricing or Free Version
Abrir en la aplicación Empezar

Weka’s GUI is less smooth than RapidMiner and Dataik. It seems to be between a GUI tool
and a GUI wrapper for code, so I am not sure whether it has much advantage compared to
using Python notebooks for example.

But Weka is free and open source: that is awesome, and that is why I keep it in the list.

Weka Interoperability / Exporting models


I did not find whether Weka proposes a button-click option to export models. Weka uses
models from (amongst others) Scikit Learn, so it would be easy to use Weka for model
building and then re-fit the model using scikit learn.

3.3 Weka Model Zoo


As stated in the previous point, Weka uses Scikit Learn’s models, which is good for me. It
also supports deap learning with deaplearning4j.

3.4 Weka conclusion


Weka seems an acceptable tool: the big question is whether it has added value compared
to using Jupyter Notebooks. I would need to test it to check that out.

MLjar logo (Source: mljar.com)

Review 4 — MLjar
Review 4 MLjar
Link: https://mljar.com/ Abrir en la aplicación Empezar

MLjar Pricing or Free Version


MLjar has a free version that has a dataset limit of 0.25 GB, 30 days of project history and
5 credits to start with. 1 credit is 1 computational hour, so only 5 hours of usage are totally
free. This is far from enough to do something serious with it.

MLjar Interoperability / Exporting models


I did not find a way to export models from MLjar. They seem to have an API, but it is not
clear whether that is for model building only or also for prediction.

MLjar Model Zoo


The classification models of the MLjar model zoo are only binary classification. This is too
limited for me.

MLjar Conclusion
MLjar seems to be starting something interesting, but for now, their solution does not
seem good enough for the price and the very limited free version.

Knime logo (Source: knime.com)

Review 5 — Knime Analytics Platform


Link : https://www.knime.com/knime-analytics-platform

Knime Pricing or Free Version


Knime has a free and open-source version that seems quite powerful: great!

Knime Interoperability / Exporting models


Knime has the possibility to export models with PMML. Building an API is possible in the
id i
paid version.
Abrir en la aplicación Empezar

Knime Model Zoo


The Knime model zoo seems relatively good and also includes deep learning.

Knime conclusion
Knime gives me a very positive impression since they have a very elaborate free version,
good interoperability, and a good list of models. The GUI also looks quite smooth. And
open source! This is worth checking out.

Orange logo (Source: orange.biolab.si)

Review 6— Orange
Link: https://orange.biolab.si/getting-started/

Orange Pricing or Free Version


Orange is totally free and open source: awesome!

Orange Interoperability / Exporting models


It is possible to save a model as a pickle. Then this pickle can be imported in Python by
using orange. Using Pickle seems not the best solution for my need: I want to store the
model and be able to open it with another framework.

Orange model zoo


The Orange model zoo seems acceptable, but there is no support for
Abrir en la deep learning.
aplicación Empezar

Orange conclusion
Orange has quite some good features. It is open source and it seems quite smooth.
Unfortunately, the interoperability part is a real bummer on Orange.

And the winner is … Knime!


There are 2 tools that I will consider testing in more detail:

1. Knime seems the best option, as I really like that it is open source. Knime gives me a
very positive impression since they have a very elaborate free version, good
interoperability, and a good list of models. The GUI also looks quite smooth. And open
source! This is worth checking out.

2. Dataiku seems a good tool to check out. It’s paid version seems not too limited and it
seems quite powerful.

The other tools each have their specific disadvantage:

RapidMiner’s free version supports only 10000 data rows and 1 logical processor. This
is so limited that — for me — it’s not worth testing their solution.

Weka seems a good product to check out: the big question is whether it has added
value compared to using Jupyter Notebooks.

MLjar parece estar comenzando algo interesante, pero por ahora, su solución no
parece lo suficientemente buena para el precio solicitado y la versión gratuita muy
limitada.

Orange tiene algunas características bastante buenas. Es de código abierto y parece


bastante suave. Desafortunadamente, la parte de la interoperabilidad es un verdadero
fastidio en Orange.

Gracias por leer mi artículo, espero que te haya sido útil. ¡No dudes en estar atento a más!
Abrir en la aplicación Empezar

Regístrate en La Variable
Por Hacia la ciencia de datos

Todos los jueves, Variable ofrece lo mejor de Hacia la ciencia de datos: desde tutoriales prácticos e
investigaciones de vanguardia hasta funciones originales que no querrá perderse. Echar un vistazo. 

Recibe este boletín

También podría gustarte