2.7 Herramientas de Data Mining

Ingeniería de Software
Modalidad virtual
Grupo: Nombre del Maestro:

Jose Saúl de Lira Miramontes
Matrícula: Nombre del Alumno:
333823 Monica Coral
ACTIVIDAD: 2.7 FECHA ENTREGA:
TITULO: 2.7 Herramientas de Data Mining
OBJETIVO:
Conocer las diferentes herramientas de Data Mining
DESCRIPCIÓN:
Dar respuesta a diversas premisas sobre la minería de datos
INTERNAL
DESARROLLO:
Oracle Data Miner

1. Investigar los siguintes aspectos sobre las herramientas de Data Mining:
a. Características
 Flujo de trabajo interactivo, para crear, evaluar, modificar, compartir y
poner en marcha metodologías de ML
 Procesa datos estructurados en tablas y vistas, datos no estructurados,
datos transaccionales, agregaciones, y datos espaciales
 Donde existen multiples algoritmos para una técnica de ML, el modo
Build, automáticamente construye diversos modelos para compararlos
 Integración con R para ejecutar códigos definidos por el usuario
 Trabaja con Big Data SQL para accesar a los datosa través de diversas
fuentes.
b. Antecedentes
Oracle Data Miner fue intoducido en 2002. Fue el sucesor del conjunto de
herramientas Darwin desarrollado por Thinking machines corporation, en la
decada de los noventas y distribuido por Oracle después de la adquisión de la
empresa en 1999. De igual manera, el producto es un rediseño completo de la
aplicación, mientras que Darwin era un workbench analítico basado en GUI,
ODM es toda una plataforma de desarrollo e implementación integrada en la
base de datos de Oracle.
c. Funciones
Funciones de minería de datos supervisadas:
 Importancia de atributos. Identifica los atributos más importantes al
predecir un atributo.
 Clasificación. Asigna items a clases discretas y predice la clase a la que
pertenece.
 Regresión. Aproxima y prevee valores continuos.
Funciones no supervisadas:
INTERNAL
 Detección de anomalías. Identifica outliers que noo satisfacen las
características de datos normales.
 Reglas de asociación. Encuentra items que tienden a correlacionarse en
los datos y especifica las reglas que definen su correlación.
 Clustering. Encuentra agrupaciones naturales en los datos.
 Extracción de características. Crea nuevos atributos usando
combinaciones lineales de los atributos originales.
d. Componentes
Oracle Data Miner consiste en un servidor y uno o más clientes. ODM es el
cliente y es una característica integrada del Oracle SQL developer.
e. Modelos y técnicas de Data Mining

Algoritmos supervisados
 Árboles de decisión
 Análisis semántico explícito
 Modelos lineales generalizados
 Longitud de mínima descripción
 Naive Bayes
 Redes neurales
INTERNAL
 Random forest
 Máquinas de vector
Algoritmos no supervisados
 Apriori
 Decomposición de matriz CUR
 Maximización de la expectativa
 Análisis semántico explícito.
 K-means
 Factorización de matriz no negativa.
 Máquinas de vector de una clase
 Clustering por partición ortogonal
 Análisis de descomposión de un valor y componente principal.
f. Requerimientos de hardware y software

Los requisitos mínimos para la instalación de ODM son:
 Instalación de base de datos de Oracle versión 11.2.0.1 o superior.
 Un usuario con privilegios de minería de datos
 Espacio en disco de al menos 200 GB
g. Multiplataforma (Web, Móvil, Cloud, etc.)

Cloud
h. Precio/Costo de Licencias
Es gratis
i. Ventajas y desventajas de su uso
Ventajas: Es una de las herramientas de minería de datos más poderosas
debido a la facilidad que tiene de manejar datos de muchas fuentes, además
tiene mucha documentación para consultar.
Desventajas: Su uso definitivamente no es intuitivo, debes tener un conocimiento
profundo de la herramienta para sacarle el mayor provecho
INTERNAL
j. Caso de Éxito (Descripción de uso exitoso de la herramienta por parte de los
usuarios o clientes)
no hay información al respecto que sea de dominio público
k. Ejemplo de alguna función de la herramienta (video que describa algún
proceso o tarea de Data Mining) –incluir enlace al video-
INTERNAL
RapidMiner
a. Características
 Análisis de datos automatizado
 Flujo de trabajo analítico y visual
 Ciencia de datos basado en código
 Manejo de datos en tiempo real
b. Antecedentes
Rapidminer nace de un proyecto de ciencia de datos en la universidad de
Dortmund en Alemania, por alf Klinkenberg, Ingo Mierswa, y Simon Fischer en la
unidad de inteligencia artificial de su universidad.
c. Funciones
 ETL
 Procesamiento de datos
 Visualización de datos
 Análisis predictivo
 Modelos estadísticos
 Evaluación de modelos
d. Componentes
Usa un modelo de cliente, servidor. RapidMiner provee de una solución de
análisis avanzado a traves de frameworks basados en plantillas, lo que acelera
la velocidad de entrega y reduce los errores ya que casi elimina la necesidad de
escribir código.
 Naive Bayes
 Modelo linear generalizado
 Regresión logística
 Deep learning
 Árboles de decisión
 Random Forest
INTERNAL
 Gradient Boosted trees
 Support Vector Machine

 Dual core
 2GHz processor
 4GB RAM
 >1GB free disk space
 Resolution: 1280x1024

Web y cloud
De $999 USD a $2999 USD
Ventajas: Es un software sumamente amigable con el usuario, promueve que
pueda aprender a utilizar la plataforma con facilidad.
Desventajas: Es un software realmente caro y puede llegar a ser difícil obtener
información o guías que no sean del proveedor original.
Dominos utilizó la plataforma para automatizar y agilizar el código de una serie
de tiempo sumamente compleja desarrollada en R. De esta manera, el tiempo
de ejecución disminuyó así como los errores de desarrollo.
INTERNAL
a. Características
 Soperte a diversas fuentes de datos
 Implementación sencilla de modelos
 Preparación automática de datos
 Modelado automático
 Flujos de análisis visuales
 Análisis de textos
 Metodos de machine learning
b. Antecedentes
Las primeras versiones del software se llamaban Clementine y estaban basadas
en UNIX. La primera versión de este software se liberó en 1994. Fue
desarrollado por una compañía británica llamada Integral Solutions Limited en
colaboración con investigadores de la universidad se Sussex. En 1998 ISL es
adquirido por SPSS Inc. Quien lo vió con potencial paraser una herramienta de
minería de datos. La versión 14.0 de IBM SPSS Modeler fue la primera versión
lanzada por IBM en el 2010.
c. Funciones
d. Componentes
La interfaz gráfica de IBM está basada en nodos y flujos. Nodos son los íconoc
que representan opraciones en los datos. Los nodos están conectados en un
flujo que representa el movimiento de los datos a través de cada operación. Los
algoritmos son representados como un tipo especial de nodo llamado nodo de
modelado.
 ARMA
 ARIMA
 Suavizado exponencial
 Detección de valores atípicos.
 Modelado causa temporal
INTERNAL
 Máquina de vectores
 Series de tiempo
 Predicción espacio-temporal
 Redes de confrontación generativa

Windows 10 Enterprise, Windows 10 Pro, Windows 7 Enterprise, Windows 7
Professional, Windows Server 2012 Datacenter Edition, Windows Server 2012
R2 Datacenter Edition, Windows Server 2012 Essentials Edition, Windows
Server 2012 R2 Essentials Edition, Windows Server 2012 Foundation Edition,
Windows Server 2012 Standard Edition, Windows Server 2012 R2 Standard
Edition, Windows Server 2016 Datacenter Edition, Windows Server 2016
Essentials Edition, Windows Server 2016 Standard Edition.
Hardware
- Memory: 4 Gigabytes (GB) of RAM or more is required
- Minimum 20Gigabytes (GB) of available hard-disk space
No
desde $7430 a $12300 USD por usuario
Ventajas: Tiene muchas herramientas para todos los procesos de minería de
datos. El modelo de flujos es muy sencillo de comprender.
Desventajas: El personalizar un modelo puede llegar a ser complicado. Sus
gráficas tienen un estilo muy antiguo. La integración con otras herramientas es
muy complicada o inexistente.
Volvo utilizó la herramienta para mejorar sus técnicas de análisis predictivo. Este
tipo de análisis ya se realizaban, pero su implementación era sumamente
complicado. Con la herramienta han logrado optimizar los procesos.
INTERNAL
CONCLUSIONES:
La minería de datos es una de las tecnologías con más potencial para los años
siguientes, sus diversos usos y aplicaciones son de gran ayuda para la industria
y la investigación.
BIBLIOGRAFIA:
Mena, C. D. (2014, 6 agosto). Minería de datos: información precisa y relevante. Forbes
México. https://www.forbes.com.mx/mineria-de-datos-informacion-precisa-y-
relevante/#:%7E:text=La%20miner%C3%ADa%20de%20datos%20es%20el%20
proceso%20de,an%C3%A1lisis%20matem%C3%A1tico%20para%20deducir%2
0las%20tendencias%20que%20existen.
INTERNAL

2.7 Herramientas de Data Mining

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2.7 Herramientas de Data Mining

Cargado por

Copyright:

Formatos disponibles

Ingeniería de Software

Grupo: Nombre del Maestro:

ACTIVIDAD: 2.7 FECHA ENTREGA:

TITULO: 2.7 Herramientas de Data Mining

Conocer las diferentes herramientas de Data Mining

Dar respuesta a diversas premisas sobre la minería de datos

Oracle Data Miner

e. Modelos y técnicas de Data Mining

f. Requerimientos de hardware y software

g. Multiplataforma (Web, Móvil, Cloud, etc.)

f. Requerimientos de hardware y software

g. Multiplataforma (Web, Móvil, Cloud, etc.)

f. Requerimientos de hardware y software

También podría gustarte