Está en la página 1de 13

Minería�de�Datos:

Herramientas�de��
Minería�de�Datos
Camila Anna Sofía Estacuy Mazariegos
01
RapidMiner
Herramientas de Minería de Datos
Definición

RapidMiner es una herramienta de Minería de Datos ampliamente usada y probada a nivel internacional en aplicaciones empresariales, de
gobierno y academia. Implementa más de 500 técnicas de pre-procesamiento de datos, modelación predictiva y descriptiva, métodos de prueba
de modelos, visualización de datos, etc.

RapidMiner ha sido utilizada en más de cuarenta países y en compañías como Ford, Honda, E.ON, Nokia, IBM, Cisco, Hewlett Packard, Elexso,
Akzo Nobel, PharmaDM, Bank of America, Merrill Lynch, entre muchas otras.

En la encuesta anual (2015) del prestigioso portal internacional de Minería de Datos KDnuggets, RapidMiner obtuvo el segundo lugar
(despúes de R) como la herramienta de Data Mining más utilizada por expertos en Data Mining.
Componentes
1 2
RapidMiner�Studio RapidMiner�Server
Versión Servidor. Permite
Versión stand-alone para
trabajo colaborativo, escalable
analistas. Implementa todos los
y concurrente múltiples
operadores de data mining,
usuarios, capacidad de delegar
modelos predictivos, modelos
en bases de datos (In-Database
descriptivos, transformación de
Mining) y otras mejoras de
datos, series de tiempo, etc.
funcionalidad.
02
Proyecto�Weka
Herramientas de Minería de Datos
Definición

Weka (Waikato Environment for Knowledge Analysis) es una herramienta visual de libre distribución (licencia GNU) desarrollada por los
investigadores de la Universidad Waikato en Nueva Zelanda. Es un software que define 4 entornos para el análisis y extracción de
conocimiento a partir de datos:

• Simple CLI: entorno consola para acceder directamente con java a los paquetes de Weka.
• Explorer: entorno visual que ofrece una interfaz gráfica para el uso de paquetes.
• Experimenter: entorno que permite configurar un conjunto de experimentos completos y complejos de análisis mediante distintos
métodos de tratamiento y sobre distintos ficheros de datos.
• KnowledgeFlow: permite generar proyectos de minería de datos mediante la generación de diagramas de flujos de información.
El explorador de Weka se compone de varias ventanas dentro de un orden lógico
correspondiente a las diferentes etapas de extracción:
• Preparación de datos;
• Algoritmos de Data Mining para la construcción de modelos: clasificación,
clustering, reglas de asociación, selección de atributos;
• Visualización de datos y del modelo.

Entorno�Explorer
03
R�Data�Mining�and�
Machine�Learning�
Herramientas de Minería de Datos
Definición

R es un lenguaje funcional para el cálculo estadístico y los gráficos. Puede considerarse un dialecto del lenguaje S (desarrollado en AT&T)
por el que John Chambers recibió en 1998 el premio de software de la Association for Computing Machinery (ACM), que mencionaba que este
lenguaje "alteró para siempre la forma en que la gente analiza, visualiza y manipula los datos".

R puede ser bastante útil con sólo utilizarlo de forma interactiva en su línea de comandos. Aun así, usos más avanzados del sistema
llevarán al usuario a desarrollar sus propias funciones para sistematizar tareas repetitivas, o incluso a añadir o cambiar algunas
funcionalidades de los paquetes complementarios existentes, aprovechando que es de código abierto.
Definición
La presentación de informes es uno de los objetivos principales de la inteligencia empresarial y los dashboards suelen ser la plataforma
más común. Las herramientas de Machine Learning son softwares que recopilan de forma automática los datos disponibles en gráficos que
dan una idea del estado actual de una organización.

Podríamos resumir el Machine Learning como un método de análisis de datos que automatiza la construcción de modelos analíticos. Se trata
de una rama de la inteligencia artificial que se basa en la idea de que los sistemas pueden aprender de datos, identificar patrones y tomar
decisiones con una intervención humana mínima.

Algunas herramientas de Machine Learning para grandes empresas son:

• IBM COGNOS ANALYTICS


• INFORMATION BUILDERS
• MICROSOFT SSRS
• MICROSTRATEGY
01
Kaggle
Herramientas de Minería de Datos
Definición

Kaggle es una plataforma web que reúne la comunidad Data Science más grande del mundo, con más de 536 mil miembros activos en 194
países, recibe más de 150 mil publicaciones por mes, que brindan todas las herramientas y recursos más importantes para progresar al
máximo en data science. Kaggle, al igual que DataScientest, tiene una interfaz Jupyter Notebooks personalizable y sin configuración. Permite
acceder de manera gratuita a GPUs y a una gran cantidad de datos y códigos publicados por la comunidad.

Algunas de las empresas de data science más grandes del mundo, como Walmart o Facebook, confían en Kaggle. Esta plataforma permite a
los especialistas de datos y a otros desarrolladores participar en concursos y data challenges de Machine Learning, escribir y compartir
código y guardar conjuntos de datos.

Los temas que se tratan en Kaggle son muy variados, desde los intentos de predecir la aparición del cáncer con la examinación de fichas de
pacientes, hasta el análisis de los sentimientos generados por las críticas de una película. La plataforma propone proyectos interesantes y
estimulantes donde los contribuidores pueden aprender y entrenarse, y ofrece también la posibilidad de discutir con los líderes del sector
y con expertos.
¡Gracias!

También podría gustarte