Está en la página 1de 14

white paper

La Minera de Datos de la A a la Z:
Cmo Descubrir Conocimientos y Crear Mejores Oportunidades
Contenido
Introduccin.................................................................. 1

El Ciclo de Vida Analtico de SAS: Combinando


Datos, el Descubrimiento y la Implementacin....... 2

Qu Puede Ayudarle a Descubrir la Minera de


Datos? ........................................................................... 3

Un Vistazo al ROI de la Minera de Datos en el


Proceso de Descubrimiento....................................... 5

Paso 1: Convierta una Pregunta de Negocio en


una Hiptesis Analtica........................................... 5
Paso 2: Prepare los Datos para la Minera de
Datos ........................................................................ 5
Paso 3: Explore los Datos...................................... 5
Paso 4: Modele los Datos...................................... 6
Soluciones de Minera de Datos de SAS................ 6

Usando SAS Enterprise Miner para la


Minera de Datos y Machine Learning................ 6
Usando SAS Factory Miner para la
Automatizacin de la Minera de Datos.............. 8
Escalando su Proceso de Descubrimiento para
Manejar Big Data y los Problemas Complejos .. 8
La Integracin Facilita la Implementacin de
Modelos, el Monitoreo y la Gestin.................. 10
Conclusin................................................................... 11

Ms Informacin......................................................... 11
1

Introduccin Implementar rpidamente los conocimientos analticos asegura que


la conveniencia de sus modelos analticos no se pierda debido a
Hay tantos datos y una gran cantidad de decisiones que tomar. Las procesos lentos como son reescribir el cdigo para cada entorno,
organizaciones de todo el mundo se estn enfrentando a este dilema. revalidar los modelos reescritos y otros procesos manuales. Si usted
Los datos estn creciendo, pero y su capacidad para tomar decisiones puede implementar rpidamente sus modelos analticos, el contexto
de acuerdo con esos enormes volmenes de datos? Tambin estn y la relevancia de los modelos no se pierde, usted puede conservar su
creciendo? Para muchos, desafortunadamente, la respuesta es NO. ventaja competitiva.

Los datos fluyen a velocidades y volmenes nunca antes vistos, y de Por lo tanto, cmo crea usted un entorno que pueda ayudarle a su
todas partes. Pero tomar decisiones basadas en hechos no depende organizacin a lidiar con todos los datos que se estn recolectando,
de la cantidad de datos que uno tenga. De hecho, tener tantos datos con todos los modelos que se estn creando, y con todas las
puede ser un obstculo. Por dnde comenzar? Su xito depender decisiones que necesitan tomarse, todo a una mayor escala? La
de lo rpido que pueda descubrir conocimientos en todos esos datos respuesta es un ciclo de vida analtico iterativo que rena:
y utilizar dichos conocimientos para llevar a cabo mejores acciones
dentro de su organizacin. Datos el fundamento de las decisiones.
Descubrimiento el proceso de identificar nuevos conocimientos
Es ah donde la analtica predictiva, la minera de datos, el machine en los datos.
learning y la gestin de decisiones entran en accin. La analtica Implementacin el proceso de utilizar conocimientos
predictiva ayuda a evaluar lo que suceder en el futuro. La minera recientemente encontrados para impulsar acciones mejoradas.
de datos (Data Mining) busca los patrones ocultos en los datos
que pueden utilizarse para predecir el comportamiento futuro. Las
empresas, los cientficos y los gobiernos han utilizado este enfoque
por aos para transformar los datos en conocimientos proactivos.
La gestin de decisiones convierte esos conocimientos en acciones
que se utilizan en sus procesos operativos. De modo que mientras se
puedan seguir aplicando hoy los mismos enfoques, necesitan suceder
ms rpidamente y a una mayor escala, utilizando las tcnicas ms
modernas disponibles actualmente.

Las organizaciones innovadoras utilizan la minera de datos y la analtica Descubrimiento Implementacin


predictiva para detectar los fraudes y los problemas de seguridad
ciberntica, para gestionar los riesgos, anticipar las demandas
de recursos, aumentar las tasas de respuesta de las campaas de
marketing, generar las prximas mejores ofertas, reducir el abandono
de los clientes e identificar efectos adversos que tendran los
medicamentos durante las pruebas clnicas, entre otras muchas cosas.
Datos
Debido a que pueden producir conocimientos predictivos a partir
de datos diversos y de gran volumen, las metodologas de minera
de datos, el machine learning y el modelado analtico avanzado
son esenciales para identificar los factores que pueden mejorar el
desempeo organizacional y, cuando se automatiza en las decisiones
de todos los das, crear una ventaja competitiva. Y hoy que hay mucho
ms de todo (datos, poder de cmputo, preguntas de negocio, riesgos
y consumidores), la capacidad de aumentar su poder analtico es Figura 1: Se necesita una combinacin integrada de datos,
esencial para adelantarse a su competencia. descubrimiento e implementacin para impulsar y poner
en accin los conocimientos necesarios para tomar
decisiones escalables en poco tiempo.
2

El Ciclo de Vida Analtico de pasado, con las herramientas manuales para crear modelos, los
mineros de datos y los cientficos de datos podan crear varios
SAS: Combinando Datos, el modelos en una semana o en un mes. Actualmente, pueden
Descubrimiento y la Implementacin crear cientos o incluso miles. Pero cmo pueden encontrar de
manera rpida y confiable un modelo (de muchos) que tenga el
Si bien gran parte de este documento se enfoca en utilizar la minera mejor desempeo? Con torneos automatizados de algoritmos
de datos para descubrir conocimientos, echemos un vistazo al ciclo de de machine-learning y un modelo campen claramente definido,
vida analtico iterativo completo, porque eso es lo que hace posible el esto se ha convertido en un proceso sencillo. Los analistas y los
descubrimiento predictivo y le da ms valor a las acciones que de l se cientficos de datos ahora pueden invertir su tiempo en preguntas
derivan. e investigaciones ms estratgicas.
Implemente modelos. Aqu pasamos de la fase de
Haga una pregunta de negocio. Todo comienza aqu. El proceso descubrimiento a la implementacin tomando los
de descubrimiento se da al hacer preguntas de negocio que conocimientos aprendidos y ponindolos en accin usando
impulsen la innovacin. El primer paso se enfoca en explorar procesos automticos y repetibles. En muchas organizaciones
lo que usted necesita saber, cmo puede aplicar la analtica este es el punto en el que a menudo el proceso se hace
predictiva a sus datos para resolver un problema o mejorar un considerablemente lento debido a que no hay un choque de
proceso. manos definido entre el mundo del descubrimiento y el mundo
Prepare los datos. Actualmente recolectar datos no es un de la implementacin, mucho menos con la automatizacin. Unir
problema provienen de todos lados. Tecnologas como estos mundos para crear una transicin integrada ayuda a reducir
Hadoop y computadoras ms rpidas y ms accesibles han el tiempo para obtener valor para la analtica predictiva. Cuanto
permitido almacenar y utilizar ms datos, y ms tipos de datos, ms rpido su empresa pueda utilizar las respuestas generadas
que nunca antes. Pero an persiste el problema de unir los datos por la analtica predictiva para tomar mejores decisiones, se
en diferentes formas de diferentes fuentes y la necesidad de generar ms valor. Y, un proceso transparente es importante para
transformar los datos brutos en datos que puedan utilizarse como todos especialmente para los auditores.
una entrada a la minera de datos. Los cientficos de datos an Utilice la nueva informacin. Existen dos tipos de decisiones que
pasan mucho de su tiempo lidiando con estas tareas. pueden tomarse de acuerdo con los resultados analticos. Las
Explorar los datos. Las herramientas de visualizacin interactivas decisiones estratgicas son tomadas por los humanos que
necesitan servir a una amplia gama de usuarios en una observan los resultados y actan. Las decisiones operativas son
organizacin (desde el analista de negocio sin conocimientos automticas como las calificaciones de crdito o las mejores
analticos hasta un cientfico de datos) para permitir hacer ofertas recomendadas y no requieren de la intervencin
bsquedas de relaciones, tendencias y patrones para entender humana. Son cada vez ms las organizaciones que buscan
ms a fondo la informacin capturada por variables en los datos. automatizar las decisiones operativas y brindar respuestas
En este paso, la hiptesis formulada en la fase inicial del proyecto y resultados en tiempo real para reducir las latencias de las
se refinar y las ideas de cmo afrontar el problema de negocio decisiones. Basar las decisiones operativas en las respuestas de
desde una perspectiva analtica se desarrollan y se prueban. los modelos analticos tambin hace a las decisiones objetivas,
Mientras examina sus datos, puede surgir la necesidad de crear, repetibles y cuantificables. La integracin con herramientas de
seleccionar y transformar algunos datos para crear modelos gestin de decisiones empresariales permite a las organizaciones
enfocados con mayor precisin. Las herramientas interactivas crear flujos de decisiones operativas completos que combinen la
veloces ayudan a hacer de ste un proceso interactivo, el cual es analtica impulsada por los datos y las reglas de negocio para
crucial para identificar las mejores preguntas y respuestas. decisiones automticas ptimas.
Modele los datos. En esta etapa, el cientfico de datos aplica Evale los resultados. El siguiente paso y tal vez el ms
varios algoritmos de modelado analtico a los datos para importante- es evaluar el resultado de las acciones que produjo el
identificar representaciones robustas de las relaciones de los modelo analtico. Sus modelos predictivos produjeron resultados
datos que ayuden a responder a la pregunta de negocio. Las tangibles, como un aumento de los ingresos o una reduccin de
herramientas analticas buscan una combinacin de datos y de los costos? Con el monitoreo y medicin continuos del
tcnicas de modelado que predigan de manera confiable un desempeo de los modelos, usted puede evaluar el xito de estos
resultado deseado. Para encontrar la respuesta ms confiable, recursos y asegurarse de seguir produciendo los resultados
la clave es la experimentacin, y crear un modelo automtico deseados.
puede ayudar a reducir el tiempo para obtener los resultados
y aumentar la productividad de los equipos analticos. En el
3

Preparar Implementar
Explorar

Actuar
Descubrimiento Preguntar Implementacin

r Ev a l u
M o d ela Datos ar

Figura 2: El ciclo de vida analtico es un proceso iterativo de hacer descubrimientos en sus datos y aplicar nuevos conocimientos para mejorar
continuamente los modelos predictivos y sus resultados.

Pregunte una vez ms. Debido a que los datos estn creciendo
y cambiando continuamente, las relaciones de los datos que
Qu Puede Ayudarle a Descubrir
utilizan sus modelos para las predicciones tambin cambian con la Minera de Datos?
el tiempo. La evaluacin constante de sus resultados analticos
La minera de datos ofrece una serie de tecnologas que ayudan a
identificar la degradacin de la precisin de los modelos.
las organizaciones a anticipar resultados futuros, descubrir nuevas
Incluso los modelos ms precisos tendrn que renovarse con el
oportunidades y mejorar el desempeo del negocio. Puede aplicarse
tiempo, y las organizaciones necesitarn pasar por los pasos de
a una variedad de problemas de los clientes en todas las industrias
descubrimiento e implementacin una vez ms. Es un proceso
desde la segmentacin de clientes y la deteccin de fraudes y la
constante y en evolucin.
calificacin de riesgo de crdito, hasta identificar los efectos adversos
de un medicamente durante las pruebas clnicas.
SAS ofrece una plataforma analtica completa e integrada que maneja
cada paso del ciclo de vida analtico iterativo. Este es recordatorio
Un uso comn de la minera de datos y de las tcnicas de machine-
de que el documento se enfocar en la parte del descubrimiento de
learning es la segmentacin automtica de los clientes por
datos del ciclo de vida - y las herramientas de minera de datos que
comportamiento, demografas o actitudes- para entender mejor las
usted necesitar para crear rpidamente los modelos predictivos ms
necesidades de grupos especficos y atenderlos de una manera ms
precisos posible.
dirigida. Esta segmentacin analtica, o modelado sin supervisin,
ayuda a identificar a grupos de clientes que son similares y que
podran reaccionar a ciertas ofertas o actividades de manera parecida.
4

Utilizando estos segmentos, usted puede crear modelos para cada Debido a su potencial de producir conocimientos predictivos precisos
grupo para predecir la siguiente mejor oferta o actividad a la cual de enormes volmenes de datos diversos, la minera de datos
probablemente respondern. Para asegurar que usted slo llega a los ha demostrado ser un componente valioso de muchas iniciativas
clientes que quiere, puede complementar el modelo de adquisicin analticas. La minera de datos y el machine learning pueden ayudarle
con un modelo de calificacin de riesgos para averiguar quin es un a:
buen riesgo de crdito y que vale la inversin para adquirirlo o
retenerlo. Descubrir automticamente patrones, tendencias y relaciones
representadas en los datos
Otro uso importante para la minera de datos y machine-learning es Desarrollar modelos para entender y describir mejor las caracte-
ayudar a detectar los fraudes, lo que es importante a medida que los rsticas y actividades basadas en estos patrones.
defraudadores desarrollan tcticas ms sofisticadas. Pueden construirse Utilizar esos conocimientos para ayudar a evaluar las opciones
modelos para cruzar datos de una amplia variedad de fuentes, futuras y tomar decisiones basadas en hechos.
correlacionar variables no obvias con caractersticas conocidas para Crear cdigo de calificacin que exprese los clculos hechos para
identificar nuevos patrones de actividades fraudulentas. acciones adecuadas oportunas.

Aplicaciones Comunes para la Minera de Datos en las Industrias

Pregunta de Negocio Aplicacin Qu se predice?

Cmo dirigir mejor las ofertas de productos/ Perfiles y segmentacin. Los comportamientos de los clientes y sus
servicios? necesidades por segmento.

Qu producto/servicio recomendar? Venta cruzada y venta directa. Compras probables de los clientes.

Cmo aumentar los clientes valiosos y Adquisicin y retencin. Preferencias de los clientes y patrones de
retenerlos? compra.

Cmo dirigir la oferta correcta a la persona Gestin de campaas. El xito de las comunicaciones con los
correcta en el momento correcto? clientes.

En qu clientes invertir y cmo atraerlos mejor? Rentabilidad y valor de vida. Factores de valor futuro (margen y
retencin).

Aplicaciones de Minera de Datos para Industrias Especficas

Pregunta de Negocio Aplicacin Qu se predice?

Cmo evaluar y controlar el riesgo dentro del Calificacin de crdito (banca). Solvencia de grupos de clientes nuevos y
portafolio de consumo actual (o nuevo)? existentes.

Cmo incrementar las ventas con ventas Sistemas de recomendacin (retail en lnea). Productos que probablemente se compren
directas/cruzadas, programas de lealtad y la siguiente vez.
promociones?

Cmo reducir las interrupciones operativas y Mantenimiento de activos (servicios, Factores reales de falla de activos o equipo.
los costos de mantenimiento? manufactura, petrleo y gas).

Cmo reducir los costos de salud y satisfacer a Gestin de salud y condiciones (seguros de Pacientes en riesgo de sufrir enfermedades
los pacientes? salud). crnicas, tratables/prevenibles.

Cmo reducir las prdidas por fraudes y Gestin de fraudes y seguridad informtica Casos de fraude desconocidos y riesgos
disminuir los positivos falsos? (gobierno, seguros, bancos). futuros.

Cmo llevar rpidamente los medicamentos al Descubrimiento de medicinas (ciencias Compuestos que tienen los efectos
mercado y de forma efectiva? biolgicas). deseados.
5

Un Vistazo al ROI de la Minera de Datos En algunos casos para acelerar los procesos de modelado, usted podra
necesitar tomar una muestra de los datos esto es, crear un subconjun-
en el Proceso de Descubrimiento to ms pequeo de los datos que representan al conjunto de datos
La minera de datos y machine learning se encuentran en el centro objetivo. La minera de datos solamente puede descubrir los patrones
del proceso de descubrimiento. Pero hay ms por descubrir que que ya estn presentes en los datos, por lo que la muestra debe ser
slo crear un modelo analtico. Usted obtiene mejores resultados si representativa y lo suficientemente grande para contener la informacin
adopta un enfoque holstico iterativo. importante. La tabla base de analtica tambin se divide generalmente
en por lo menos dos conjuntos: el de capacitacin y el conjunto de
Paso 1: Convierta una Pregunta de Negocio en prueba. El primero se utiliza para capacitar a el algoritmo (s) de minera
una Hiptesis Analtica de datos y de machine-learning, al tiempo que el segundo se utiliza
El primer paso del proceso de descubrimiento es hacer una pregunta para verificar la precisin de los patrones encontrados.
de negocio (ver las tablas de la pgina 4). Normalmente, una
organizacin tiene una idea general de lo que quiere lograr algo Paso 3: Explore los Datos
como, Queremos reducir el abandono de nuestros clientes valiosos. Enseguida, usted querr explorar los datos y buscar relaciones
Para enfrentar estos problemas con la analtica, las preguntas deben ser anticipadas, tendencias no anticipadas y anomalas para entender la
detalladas o transformarse en hiptesis analticas. Por ejemplo, cada informacin con la que est trabajando y refinar ms las ideas y las
modelo predictivo requiere de un resultado bien definido, una etiqueta preguntas. Asimismo, la exploracin de datos puede ayudar a identificar
o un objetivo. Si usted quiere predecir el abandono de los clientes, los problemas de calidad de los datos como los errores, valores
necesita definilo como un resultado para el modelo. Sin embargo, faltantes
probablemente el abandono es definido de manera distinta en o distribuciones de datos que necesitan transformarse para la etapa de
diferentes organizaciones. Se refiere a alguien que cancela activamente modelado. Adems, usted puede usar varios otros tipos de tcnicas para
un contrato o a alguien que no tiene ninguna actividad? detectar patrones en los datos que puedan ayudarle a crear modelos
Cunto tiempo tiene que permanecer inactivo un cliente antes de ser predictivos ms precisos o ayudarle a crear datos de entrada adicionales
clasificado como alguien que potencialmente se alejar de la compaa? para su modelo predictivo.
Qu es valioso? Incluimos slo el valor histrico o el valor futuro
potencial (el valor de vida) de un cliente? El primer paso del proceso de Clustering (o modelado no supervisado) identifica grupos o estructu-
descubrimiento es identificar un problema y traducirlo en una pregunta ras en los datos que sean similares, ms all de las estructuras visibles
que pueda ser respondida con la analtica. en los datos.
El aprendizaje por asociacin de reglas busca relaciones entre
Paso 2: Prepare los Datos para la Minera de variables, como productos que se compran juntos con frecuencia
Datos (conocido como anlisis de la canasta del mercado), que puede llevar
a mayores recomendaciones de compra.
Para comenzar, usted debe determinar qu datos son necesarios para La analtica de textos puede ayudarle a crear nueva informacin es-
responder a la pregunta. De acuerdo con los detalles especficos de la tructurada a partir de datos de texto electrnicos. Estos nuevos datos
pregunta de negocio, un analista evala los datos que estn disponibles pueden ayudar a mejorar la precisin de sus modelos. Por ejemplo,
y decide si stos tienen el potencial de responder a la pregunta. Si no, integrar los comentarios de los clientes sobre sus productos o servi-
podran necesitarse datos externos o que se recolecten datos nuevos. A cios de las anotaciones hechas en el centro de atencin telefnica (call
menudo, los datos se encuentran en diferentes sistemas y es necesario center) o de las revisiones en los foros de medios sociales a menudo
tener acceso a ellos y convertirlos en un conjunto de datos que pueda produce modelos de prediccin de abandono ms precisos.
usarse para la minera de datos y machine learning. Los modelos La visualizacin interactiva de datos presenta los resultados de forma
predictivos o supervisados requieren de un solo registro por entidad grfica y le permite a los usuarios interactuar con stas grficas para
para modelarse. (Una tabla base analtica para hacer predicciones o identificar ms fcilmente los patrones importantes o las anomalas
para el anlisis del mercado lucir distinta a la tabla para el modelado con los datos que podran tener un impacto en la fase de creacin de
predictivo o supervisado). Si usted desea modelar la probabilidad de modelos.
que un cliente lo abandone, necesitar crear una sola tabla donde cada
Con frecuencia usted necesitar modificar sus datos antes de hacer el
registro contenga todos los atributos de datos para un solo cliente. Esto
modelado, de modo que debe planear un paso para crear, seleccionar
a menudo requiere gran cantidad de agregacin y transformacin de y transformar variables para enfocarse en su proceso de seleccin
datos. Una vez que se ha agregado una sola tabla base analtica para el de modelos. De acuerdo con sus descubrimientos en la fase de
anlisis, los otros aspectos del ciclo de vida entran en accin. Debido a exploracin, usted podra necesitar manipular sus datos para introducir
que es necesario experimentar con los datos, la etapa de preparacin nuevas variables, llenar los valores faltantes o buscar valores atpicos de
tambin es muy iterativa, y donde el analista prueba diferentes tipos de modo que usted puede reducir el nmero de variables a slo los ms
datos para obtener los resultados predictivos ms precisos. importantes.
6 6

Paso 4: Modele los Datos pueden experimentar para identificar rpidamente la estrategia
de modelado ganadora pueden ayudar a ahorrar mucho tiempo.
Despus de explorar y preparar cuidadosamente sus datos
Cuando usted est satisfecho con los resultados de sus esfuerzos
de entrada, usted est listo para crear modelos predictivos o
de modelado, entonces comienza el proceso de implementacin.
supervisados para buscar una combinacin de los datos que
Pero ya que es un proceso completamente iterativo, hay exmenes
predigan de modo confiable un resultado deseado. Dependiendo
y ajustes constantes. Como se dijo anteriormente, el proceso de
de los datos y los problemas que se tengan, usted puede escoger
desarrollo sigue varios pasos (vea la seccin Ciclo de Vida Analtico de
de una variedad de tcnicas modernas estadsticas y de machine-
SAS en la pgina 2). Para consultar ms informacin sobre el proceso
learning para resolver su problema incluyendo la clasificacin, la
de implementacin, lea Desde los Datos hasta la Decisin: Cmo
regresin, las redes neuronales, los bosques aleatorios, la mquina de
SAS Decision Manager Automatiza las Decisiones Operativas. Para
vectores de soporte, la respuesta gradual o la minera de datos por
saber ms sobre minera de datos y el descubrimiento, siga leyendo!
series de tiempo as como tcnicas de industrias especficas como la
calificacin de crdito en banca o primas para seguros.
Soluciones SAS de Minera de
La seleccin de las tcnicas ms adecuadas depende de varios Datos
factores: Es importante tener un modelo que prediga su resultado La minera de datos y el machine learning le permiten descubrir
deseado con la mayor precisin o es tambin (o incluso ms) conocimientos que mejoran la toma de decisiones. Con las soluciones
importante tener transparencia en las relaciones de datos que de minera de datos de SAS, usted puede agilizar el proceso de
impulsan las predicciones? Las tcnicas de machine-learning descubrimiento para desarrollar modelos ms rpidamente para que
automtica a menudo son demasiado complejas para permitir la pueda entender las relaciones clave y encontrar los patrones que ms
exploracin de los factores de negocio a partir de los resultados importan.
de los modelos, mientras que otras tcnicas estadsticas como la
regresin y los rboles de decisiones son ms transparentes y las Usando SAS Enterprise Miner para la
industrias reguladas las prefieren. Minera de Datos y Machine Learning
SAS Enterprise Miner es un banco de trabajo grfico completo para la
Para obtener al valor mximo de sus modelos predictivos, usted
minera de datos. Esta extensa plataforma ampliamente aclamada
querr evaluar constantemente la utilidad y la confiabilidad de los
ofrece capacidades para preparar los datos para la analtica
hallazgos de sus procesos de minera de datos. No todos los patrones
predictiva, identificar las variables ms importantes, desarrollar
encontrados por los algoritmos de la minera de datos sern vlidos.
modelos usando los algoritmos ms modernos de minera de datos y
Los algoritmos podran encontrar patrones en el conjunto de datos
machine-learning, validar fcilmente la precisin y aptitud del
de capacitacin que no estn presentes en el conjunto de datos
modelo(s), y generar activos que permiten una implementacin
general. (A esto se le llama sobreajuste overfitting). Con el fin de
sencilla de los modelos analticos en sus aplicaciones operativas para
solucionar esta preocupacin, los patrones son validados con un
la toma automtica de decisiones.
conjunto de datos de prueba. Los patrones aprendidos en los datos
de capacitacin se aplicarn al conjunto de prueba, y el resultado se
Las poderosas herramientas de preparacin de datos solucionan
compara con el resultado deseado (o conocido).
los problemas de calidad, como valores faltantes y valores atpicos,
y le ayudan a desarrollar reglas de segmentacin. La exploracin
Por ejemplo, un algoritmo de minera de datos que ha sido
interactiva de datos les permite a los usuarios crear grficos dinmicos
capacitado para distinguir transacciones con tarjetas de crdito
vinculados para identificar relaciones dentro de los datos. SAS
fraudulentas de las legtimas se aplicara al conjunto de prueba de
Enterprise Miner ofrece docenas de algoritmos estadsticos
transacciones en las que no haba sido capacitado. La precisin de los
avanzados y de machine-learning para el modelado descriptivo y
patrones puede entonces medirse a partir de cuntas transacciones
predictivo, incluyendo clustering, anlisis de vnculos y de la canasta
con tarjetas de crdito se clasificaron correctamente. Si los patrones
de mercado, anlisis de los principales componentes, rboles de
aprendidos no cumplen con los estndares deseados, se hacen
decisiones, potenciacin y empaquetado, redes bayesianas, redes
modificaciones a las tcnicas de pre-procesamiento y de minera
neuronales, bosques aleatorios, regresin lineal, regresin logstica,
de datos hasta que el resultado sea satisfactorio y los patrones
mquina de vectores de apoyo, minera de datos de series de tiempo
aprendidos puedan aplicarse exitosamente a los sistemas operativos.
y mucho ms.

Los cientficos de datos y los mineros de datos necesitan experimentar


Al final de la lnea de desarrollo de modelos, se entrega cdigo de
con varios algoritmos de modelado predictivo y de machine-learning
calificacin completo y optimizado para la implementacin sencilla de
con el fin de encontrar uno que funcione mejor para su problema
modelos no supervisados y supervisados en SAS, C, Java y PMML
especfico. Los torneos de modelado automtico donde los usuarios
7

para calificar datos en SAS as como en otros entornos. El cdigo de


calificacin tambin se entrega automticamente como una funcin
en la base de datos para calificar dentro de Hadoop as como en
bases de datos lderes de la industria como Teradata, IBM, Oracle,
Con SAS Enterprise Miner, usted puede:
Pivotal, Aster Data, SAP HANA, etc., para cada interaccin con
Crear series de datos de capacitacin y prueba de
aplicaciones de negocio y rpidos resultados operativos.
muestra con un alto valor predictivo.
Adems de generar cdigo de calificacin en diferentes lenguajes Explorar interactivamente las relaciones y anomalas
y formatos, SAS Enteprise Miner tambin genera muchos activos de los datos.
que permiten la implementacin, gestin y monitoreo sencillos Crear, transformar y seleccionar las variables ms
de modelos predictivos como parte de los procesos de negocio adecuadas para el anlisis.
operativos. Todos estos activos son soportados por metadatos Aplicar un rango de tcnicas de modelado para
para brindar la documentacin importante alrededor del proceso identificar los patrones en los datos.
completo. Validar la utilidad y confiabilidad de los hallazgos del
proceso de minera de datos.
El proceso de minera de datos de SAS Enterprise Miner es guiado
Crear todos los activos necesarios para la
por un diagrama de flujo de procesos que usted puede modificar,
implementacin, monitoreo y gestin de los
guardar y compartir. La GUI de arrastrar y colocar le permite a los
modelos.
analistas con poca experiencia estadstica navegar por el proceso de
minera de datos, mientras que el experto cuantitativo puede afinar
los modelos analticos en segundo plano.

Figura 3: Los rboles de decisiones son slo una de las muchas tcnicas de modelado que se incluyen con SAS Enterprise Miner. Pueden
desarrollarse interactivamente o en un modo en lote. Varias grficas de evaluacin ayudan a medir la estabilidad general de los rboles.
8

Usando SAS Factory Miner para la


Automatizacin de la Minera de Datos
A medida que las organizaciones aplican analticas ms dirigidas Con SAS Facotry Miner, usted puede:
a sus crecientes segmentos de clientes y de negocio, hay una Potenciar la productividad del descubrimiento.
necesidad de crear modelos an ms predictivos a niveles ms Automatizar el desarrollo de modelos.
granulares. Por ejemplo, en lugar de desarrollar un modelo para la
Explorar nuevas ideas ms rpidamente.
base de clientes completa, los departamentos de marketing quieren
Colaborar con sus colegas analticos en su
crear modelos especficos para muchos segmentos de clientes. Una
organizacin.
tienda tal vez quiera desarrollar modelos de ventas cruzadas para
Ampliar su reserva de talento analtico a travs del
un gran nmero de categoras de productos. O una compaa de
transporte querr crear modelos de mantenimiento predictivos para machine-learning de autoservicio automtico.
diferentes componentes de los vehculos que tiene en operacin. Y Poner grandes portafolios de modelos predictivos
si bien esto hace necesario crear muchos ms modelos, la mayora en produccin de forma ms eficiente y gestionarlos
de los analistas y cientficos de datos no tienen mucho tiempo para con facilidad.
eso.

Con SAS Factory Minter, usted tiene un entorno de modelado


predictivo interactivo que hace extremadamente sencillo crear, diferentes proyectos y otros usuarios del entorno consumen estas
modificar y evaluar cientos, o incluso miles, de modelos muy mejores prcticas bajo un modelo de autoservicio para obtener
rpidamente. Con solo unos clics, usted puede acceder, modificar resultados ptimos.
y transformar sus datos, elegir qu tcnicas de machine-learning
quiere aplicar y ejecutar los modelos en un entorno de torneo Y SAS Factory Miner no se detiene con la identificacin de un
automtico de modelos para identificar rpidamente al mejor para modelo campen para cada segmento. El cdigo completo se crea
cada segmento. Las tcnicas de modelado incluidas en SAS Factory automticamente para toda la lnea de calificacin (incluyendo las
Miner son: transformaciones de los datos) de cada modelo para implementarse
en SAS o en otros entornos, como las bases de datos o Hadoop.
Redes bayesianas.
rboles de decisiones. Adems, todos los activos de desarrollo de modelos y de
Potenciacin de gradientes. calificacin pueden registrarse en SAS Decision Manager, un
Redes neuronales. entorno centralizado basado en la Web para gestionar el ciclo de
Bosques aleatorios. vida y el gobierno de sus activos de modelado de SAS o de otros
Mquinas de vectores de soporte. proveedores, incluyendo la analtica de cdigo abierto.
Modelos lineales generalizados
Regresin Logstica La automatizacin, la facilidad de uso, la escalabilidad y las
capacidades de colaboracin de SAS Factory Miner aumentan su
Los usuarios pueden identificar fcilmente las excepciones de poder para crear modelos predictivos, incrementar la productividad
modelado (segmentos en los que el enfoque automtico no de su personal analtico, permitir la colaboracin de los equipos
genera modelos que cumplan con los criterios de aceptacin). analticos dispersos, as como ampliar su reserva de talento analtico
El diseo de caja blanca de SAS Factory Miner permite que los a travs de la democratizacin de las tcnicas de machine-learning.
usuarios modifiquen fcilmente las lneas de modelado predictivo
y afinen los parmetros de los componentes de las lneas para Escalando su Proceso de Descubrimiento
mejores resultados cuando es necesario. Pueden incluso crear para Manejar Big Data y los Problemas
sus propias lneas de modelado a la medida para sus proyectos Complejos
analticos favoritos, incluyendo la preparacin de datos, ingeniera Big data y los problemas complejos exigen grandes soluciones
de caractersticas y algoritmos de seleccin y de aprendizaje, y analticas. En SAS, ampliamos su poder de descubrimiento con
compartirlos con otros usuarios para crear un repositorio de mejores analtica en-memoria distribuida. La idea es sencilla pero poderosa.
prcticas organizacionales. Esta colaboracin en toda la organizacin Divida sus datos en piezas ms pequeas y distribuya el volumen
puede ayudar a ampliar la reserva de talento acadmico en su de los datos y la complejidad de los problemas entre sus motores
organizacin. El cientfico de datos acta como el productor de las de cmputo, ya sea en una sola mquina con varios ncleos de
lneas de modelado de mejores prcticas organizacionales para procesamiento (CPUs) o en una red de computadoras, como
9

Figura 4: Las tcnicas de evaluacin personalizables de SAS Factory Miner le permiten generar modelos campeones para cada
segmento de sus datos.

un cluster Hadoop. El proceso se realiza completamente en la colocar, as como poderosos mtodos descriptivos, predictivos
memoria cada vez que es posible, incluyendo la comunicacin y de machine-learning. Una variedad de tcnicas de modelado
entre las unidades de procesamiento (CPUs), lo que hace a este incluyendo bosques aleatorios, mquinas de vectores de soporte,
proceso realmente rpido. redes neuronales y clustering se combina con la preparacin de
datos, la exploracin de datos y las capacidades de calificacin.
El proceso analtico en-memoria distribuido de SAS aprovecha Gracias a que usted puede crear y ejecutar ms modelos ms
una infraestructura analtica altamente escalable y confiable rpidamente, puede hacer ms preguntas y traer nuevas ideas a su
incluyendo dispositivos de bases de datos como Pivotal Grenplum, proceso de minera de datos. SAS High-Performance Text Mining le
Teradata, Oracle y SAP HANA y hardware estndar que utilice permite obtener conocimientos rpidos de los grandes conjuntos
Hadoop de cdigo abierto, o Hadoop Cloudera y distribuciones de datos no estructurados que implican millones de documentos,
de Hortsonworks. Para los usuarios, no cambia mucho. Pueden correos electrnicos, notas, fragmentos de reportes, fuentes
trabajar desde la misma interfaz conocida para sus proyectos de medios sociales, etc. Se incluye el soporte para el anlisis, la
de minera de datos, de analtica predictiva y de machine- extraccin de entidades, derivacin automtica y deteccin de
learning, mientras que SAS In-Memory Analytics se encarga de la sinnimos, descubrimiento de temas y la descomposicin de
distribucin ptima de cargas de trabajo en el sistema disponible. valores singulares (SVD). Los resultados de la minera de datos
pueden utilizarse como entradas en la minera de datos de alto
SAS High-Performance Data Mining le permite analizar grandes desempeo para mejorar el poder del modelado predictivo.
volmenes de datos diversos usando una interfaz de arrastrar y
10

La Integracin Facilita la Implementacin de Adems, se utilizan reglas de negocio junto con los modelos analticos
Modelos, el Monitoreo y la Gestin para tomar decisiones ms flexibles y giles. Con SAS Decision
Manager, las reglas de negocio ayudan a definir las acciones de
Si bien este documento se enfoca en la minera de datos y en el
acuerdo con las condiciones especficas de los procesos de negocio.
proceso de descubrimiento analtico, usted realmente no puede
terminar una conversacin sobre minera de datos y machine
Anteriormente, TI era el encargado de realizar manualmente
learning para las aplicaciones de negocio sin abordar lo que sucede
la implementacin de un modelo predictivo en el entorno de
despus de que se crean los modelos predictivos y se eligen los
produccin, lo que a menudo provocaba grandes retrasos antes de
modelos campeones. Entonces, qu sucede? Usted pasa a la fase de
que el modelo pudiera utilizarse. Con las condiciones del mercado
implementacin (vea la Figura 2).
en constante cambio y la llegada continua de nuevos datos, es
posible que los modelos se vuelvan obsoletos antes de que siquiera
Despus de que se ha seleccionado el modelo campen, tiene
sean implementados. Con la integracin perfecta de las fases de
que implementarse en el entorno de produccin correcto. Las
descubrimiento y de implementacin del ciclo de vida analtico,
organizaciones utilizan modelos predictivos de diferentes maneras.
SAS permite que las organizaciones automaticen este proceso. SAS
Por ejemplo, podran utilizarse para seleccionar a clientes para las
Decision Manager ofrece una interfaz gil para implementar modelos
campaas de marketing al ejecutar un proceso de calificacin en
en los entornos de ejecucin en tiempo real o en lote sin volver
lote y entregar a marketing una lista de los clientes seleccionados.
a codificar los modelos para diferentes entornos. Esto maximiza
Un nmero cada vez mayor de organizaciones estn recurriendo a
la inversin en la analtica mediante la reutilizacin de los activos
procesos ms integrados y automticos para hacer que los resultados
analticos en los entornos y reduce los riesgos al eliminar la necesidad
de los modelos predictivos estn disponibles para tomar decisiones
de realizar la recodificacin manual y la posterior revalidacin:
operativas. En lugar de hacer que el proceso de calificacin se ejecute
desarrolle una vez, implemente varias veces.
en lote, les gustara que el modelo d las respuestas bajo demanda
como parte de una aplicacin de negocio. Las organizaciones tambin
Las organizaciones innovadoras estn encontrando nuevas formas
podran querer respuestas en tiempo real del flujo de datos (por
de ser ms eficientes y tomar mejores decisiones automticas. SAS
ejemplo, para la deteccin automtica de fraudes o el mantenimiento
Decision Manager ofrece las funcionalidades que las organizaciones
predictivo).
necesitan para la implementacin de modelos ms rpida y ms
sencilla en las situaciones de produccin.

Figura 5: SAS Decision Manager ayuda a acelerar el proceso de implementacin de modelos. Integra la automatizacin del desarrollo
de modelos con SAS Factory Miner y acelera las tareas manuales comunes, como la definicin de reglas de negocio y la generacin
automtica de vocabularios.
11

Conclusin Ms Informacin
Actualmente, ms organizaciones estn reconociendo el valor de Visite sas.com/datamining para consultar ms informacin sobre
los resultados de la analtica predictiva. Y eso es bueno porque nuestras soluciones de minera de datos y de descubrimiento de
si usted est recolectando y almacenando datos, debera estar datos.
usndolos para obtener el conocimiento que le dar una ventaja
competitiva. nase a la SAS Data Mining Community, donde los usuarios y los
empleados de SAS comparten consejos y otra informacin.
En especial si su organizacin le est pagando a la gente para
crear modelos analticos! Pero el truco siempre ha sido tener Para tener un panorama completo del ciclo de vida analtico, lea
todas las diferentes piezas y las partes que se mueven juntas para Gestione el Ciclo de Vida Analtico para la Innovacin Continua.
extraer el valor mximo de todos sus datos. SAS ofrece un proceso
completo del ciclo de vida analtico que ayuda a las organizaciones Para consultar ms informacin sobre la fase de implementacin,
a ir de los datos a las decisiones a una escala muy grande, de una lea Desde los Datos hasta la Decisin: Cmo SAS Decision
forma muy confiable. Manager Automatiza las Decisiones Operativas.

Comienza con el acceso a los datos y su preparacin (los


volmenes de datos no importan), pasa por el proceso de
descubrimiento de datos y de modelado analtico para producir
conocimientos predictivos, y contina con la implementacin y la
gestin de los resultados todo en un entorno integrado.

Aunque este documento present todas las fases del ciclo de vida
analtico, su principal enfoque fue la parte del descubrimiento.
Y en SAS, el descubrimiento significa usar la analtica predictiva
para encontrar conocimientos nuevos y confiables de los datos
de una manera rpida y sencilla. Con el software de minera de
datos reconocido por la industria como SAS Enteprise Miner, la
nueva solucin SAS Factory Miner, las tecnologas en memoria
y las capacidades de gestin de modelos empresariales, las
organizaciones son capaces de enfrentar cualquier problema de
analtica de big data.

SAS Factory Miner ofrece una solucin automtica basada en


la Web para crear y retener modelos predictivos en mltiples
segmentos. Potencia la productividad al permitir que los modela-
dores prueben rpida y fcilmente varios enfoques simultnea-
mente usando algoritmos de machine learning y estadsticos.
En situaciones en las que el modelado automtico no funciona,
SAS Enterprise Miner puede utilizarse para hacer a la medida
modelos predictivos avanzados estratgicos.
El cmputo en-memoria distribuido mantiene al procesamiento
movindose a mximas velocidades.
SAS Decision Manager agiliza la implementacin de modelos
analticos todo desde una sola interfaz.

Estas soluciones agilizan el proceso de descubrimiento de datos/


minera de datos, permitindole crear modelos predictivos y
descriptivos altamente precisos basados en el anlisis de datos en
su empresa.
Para contactar a SAS Mxico, visite por favor: sas.com/mexico
SAS y el resto de los nombres de productos y servicios de SAS Institute Inc. son marcas registradas o marcas comerciales de SAS Institute
Inc. en Estados Unidos y otros pases. indica el registro en Estados Unidos. Otros nombres de marcas y productos son marcas registradas
de sus respectivas compaas. Copyright 2015, SAS Institute Inc. Todos los derechos reservados. 104937_S149733.0116

También podría gustarte