Está en la página 1de 4

Objetivos de Negocio y Procesos de Minería de Datos Basados en

Sistemas Inteligentes
Paola Britos
Centro de Ingeniería del Software e Ingeniería del Conocimiento. Escuela de Postgrado. Instituto Tecnológico de
Buenos Aires. Argentina
Laboratorio de Sistemas Inteligentes. Facultad de Ingeniería. Universidad de Buenos Aires. Argentina.

pbritos@itba.edu.ar

Resumen

CRISP-DM es una metodología estándar que ha sido desarrollada para la construcción de


proyectos de minería de datos que propone un ciclo de vida cuya primer fase es comprensión
del negocio. Esta fase comprende las siguientes subfases: determinar los objetivos del
negocio, evaluación de la situación, determinar objetivos del proceso de explotación de datos
y realizar el plan del proyecto. En este trabajo se correlacionan algunos objetivos del negocio
detectables en la subfase de determinación los objetivos del negocio con algunas técnicas
identificables en la subfase de realización del plan del proyecto. En orden a esto, se se
enumeran los procesos de minería de datos: predicción, construcción de modelos,
descubrimiento de grupos, identificación de factores y detección de perfiles; se identifican
técnicas de sistemas inteligentes de utilidad para ejecutar dichos procesos, se asocia dichos
procesos con objetivos de negocio y se propone una abstracción del proceso involucrado.

1. Introducción minería de datos. Esta fase se estructura en las siguientes


subfases: determinar los objetivos del negocio,
CRISP-DM es una metodología estándar que ha sido evaluación de la situación, determinar objetivos del
desarrollada para la construcción de proyectos de minería proceso de explotación de datos y realizar el plan del
de datos [2]. La metodología propone para un proyecto proyectoDeterminar los objetivos del negocio abarca [a]
de minería de datos un ciclo de vida que consiste en las Entendimiento del negocio, [b] Objetivos del negocio y
siguientes seis fases: comprensión del negocio, [c] Criterios de éxito del negocio. La Evaluación de la
comprensión de los datos, preparación de los datos, situación abarca [a] Inventarios de recursos, [b]
modelización, evaluación e implementación.La Requisitos, supuestos y restricciones, [c] Riesgos y
comprensión del negocio abarca: [a] determinar los contingencias, [d] Terminología y [e] Costos y
objetivos del negocio, [b] evaluación de la situación, [c] beneficios. Determinar objetivos del proceso de
determinar objetivos del proceso de minería de datos y Explotación de Datos abarca [a] Metas del Proceso de
[d] realizar el plan del proyecto. La comprensión de los Explotación de Datos y [b] Criterios de éxito del Proceso
datos abarca: [a] recolectar los datos iniciales, [b] de Explotación de Datos. Realizar el plan del proyecto
descubrir datos, [c] exploración de los datos y [d] abarca [a] Plan de proyecto y [b] Evaluación de
verificación de calidad de datos. La preparación de los herramientas y técnicas.En este trabajo se correlacionan
datos abarca [a] seleccionar los datos, [b] limpiar los algunos objetivos del negocio detectables en la subfase de
datos, [c] estructurar los datos, [d] integrar los datos y [e] determinación los objetivos del negocio con algunas
formato de los datos. La modelización abarca: [a] técnicas identificables en la subfase de realización del
seleccionar una técnica de modelado, [b] generar el plan plan del proyecto. En la sección 2 se reseñan algunas
de pruebas, [c] construir el modelo y [d] evaluar el técnicas de sistemas inteligentes aplicables a minería de
modelo. La evaluación abarca: [a] evaluar resultado, [b] datos. En la sección 3 se enumeran los procesos de
revisión de lo hecho y [c] determinar próximos pasos. La minería de datos: predicción, construcción de modelos,
implementación abarca: [a] formulación del plan de descubrimiento de grupos, identificación de factores y
implantación, [b] formulación del plan de monitoreo y detección de perfiles; se identifican técnicas de sistemas
mantenimiento, [c] formulación del informe final y [d] inteligentes de utilidad para ejecutar dichos procesos, se
revisión del proyecto.La fase comprensión del negocio asocia dichos procesos con objetivos de negocio y se
pretende comprender los objetivos y los requerimientos propone una abstracción del proceso involucrado. En la
desde la perspectiva del negocio, para convertir este sección 4 se esbozan algunas conclusiones parciales y en
conocimiento en una descripción de problema para la la sección 5 se dan las referencias que apoyan el trabajo.

Reportes Técnicos en Ingeniería del Software. 7(1): 26-29


ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) 26
Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes

2. Técnicas de Sistemas Inteligentes aplicables a 3. Procesos de Minería de Datos, Técnicas y


Minería de Datos Abstracción de Objetivos de Negocio

Rumelhart y McClelland [1986] modificaron la red 3.1. Proceso de Predicción


Perceptron de Rosenblatt [1958] para que aprendiera la
asociación que existe entre los patrones de entrada y las Objetivos • Detección de las mejores
clases correspondientes de salidas. Para lograrlo, agregó del Negocio: perspectivas de ventas para
capas ocultas, con conexión hacia atrás y sin conexiones nuestros servicios.
recurrentes. Esto requirió modificaciones en el algoritmo • Detección de fraude para bancos y
de aprendizaje para que se ejecutase en forma no financieras
supervisada basado en la regla Delta Generalizada [22] • Detección de fraude para centros de
conociéndose en la actualidad como algoritmo de stock o corretaje
retopropagación (backpropagation). El algoritmo de • Detección de fraude para Gobierno
aprendizaje por retropropagación puede aplicarse en • Detección de elementos de
redes neuronales artificiales con más de dos capas de defectuosos en una línea de
neuronas y es capaz de representar el conocimiento en las producción
capas ocultas, logrando así la correspondencia entre las • Detección de cambios en el
entradas y las salidas. El funcionamiento general de una funcionamiento de una línea de
red neuronal artificial de este tipo puede dividirse en dos producción
partes: la etapa de entrenamiento y la etapa de
• ¿Qué comprarán los clientes?
producción. La primera consiste en aprender la
• ¿Cuánto gastaran los clientes?
correspondencia entre entrada y salida dados por
conjunto predefinido de observaciones empleando un • ¿Cuáles son los visitantes del
ciclo propagación-adaptación de dos fases [5]. La próximo mes?
segunda en predecir la salida a partir de una entrada no • ¿Qué clientes están en situación de
contenida en el conjunto predefinido de observaciones abandonar el negocio?
[18]. Abstracción: Cuando se quiere saber el valor que
Las redes bayesianas [19] son utilizadas en diversas áreas tomarán algunas variables del negocio
de aplicación como por ejemplo el diagnóstico médico variables dependientes en función del
[1]. Las mismas proveen una forma compacta de valor que tomarán otras variables
representar el conocimiento y métodos flexibles de independientes.
razonamiento - basados en las teorías probabilísticas - Técnica a Redes Neuronales «Back -Propagation»
capaces de predecir el valor de variables no observadas y Utilizar:
explicar las observadas. Entre las características que
poseen las redes bayesianas, se puede destacar que 3.2. Proceso de Construcción de Modelos
permiten aprender sobre relaciones de dependencia y
causalidad, permiten combinar conocimiento con datos Objetivos • Identificación de modelos
[7], [3], evitan el sobre-ajuste de los datos y pueden del Negocio: financieros para bancos y
manejar bases de datos incompletas [8], [9], [20]. financieras
Kohonen y Ruohonen [1973] desarrollaron un modelo de • Identificación de modelos
red neuronal con capacidad para formar mapas de financieros para centros de stock o
características a partir de un estímulo externo que por sí corretaje
solo es suficiente para forzar la formación de los mapas y • Identificación del modelo
establecer características comunes entre la distintas correspondiente a una cadena de
entradas a la red. Los mapas autoorganizados [10] o abastecimientos
redes SOM (Self Organizing Maps) se basan en el Abstracción: Cuando se quiere saber como la
principio de formación de mapas topológicos para variación de una o mas variables del
establecer características comunes entre la información negocio incidirá sobre la variación de
de entrada y las características de salida [11]. Son las otras variables.
modelos de redes con conexiones hacia delante Técnica a Redes Bayesianas
(feedforward), y conexiones laterales de inhibición Utilizar:
implícitas, para que cada una de las neuronas de salida
tenga influencia sobre sus vecinas. Esto permite el 3.3. Proceso de Descubrimiento de Grupos
entrenamiento de este tipo de redes, en donde solo una de
las neuronas de salida se activará dado un vector p de Objetivos • Segmentación de clientes para
atributos en la capa de entrada. El entrenamiento es del del Negocio: bancos y financieras
tipo no supervisado y competitivo, utilizando la técnica • Caracterización de tipos de
“Winner Takes All”. llamadas para empresas de

Reportes Técnicos en Ingeniería del Software. 7(1): 26-29


ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) 27
Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes

telecomunicación. •
perfil de los visitantes?
• ¿Cuál es el grupo oculto en los •
¿Cuál es el perfil de mercado de los
datos? visitantes rentables de web?
Abstracción: Cuando se requiere identificar clases en • ¿Cuál es el perfil de mercados de
el conjunto de registros de información los visitantes no rentables del
que se tienen del negocio. website?
Técnica a Mapas Auto Organizados (Kohonen) Abstracción: Cuando se requiere identificar los
Utilizar: factores de clases en el conjunto de
registros de información que se tienen
3.4. Proceso de Identificación de Factores del negocio.
Técnica a Mapas Auto organizados + Árboles de
Objetivos • ¿Cuáles son los factores de Utilizar: inducción
del Negocio: impactos de las ventas?
• ¿Cuáles son las características o
rasgos de mis clientes con alto 4. Conclusiones
grado de fidelidad a la marca?
• ¿Cuáles son los atributos mas En este trabajo se ha presentado una posible relación
importantes que llevan a la entre objetivos del negocio, los procesos de minería de
contracción de segmentos de datos que los satisfacen, las técnicas de sistemas
mercado? inteligentes de utilidad para ejecutar dichos procesos y se
• ¿Cuáles son los atributos claves que ha propuesto una abstracción de los procesos
convierten en vendible a un mencionados.
determinado producto? Constituye un problema abierto identificar los pasos para
• ¿Qué características tienen los la correcta aplicación de las técnicas a la satisfacción de
visitantes de un website que cada objetivo de negocio. En este proceso se presume que
seleccionan determinados se identificarán diferencias que permitirán platear
productos? taxonomías de subobjetivos de negocios.
• ¿Qué características tienen los
clientes que están mas identificados
con un nuevo producto? 5. Referencias
• ¿Qué características tienen los que
visitan nuestro website? [1] Beinlich, I., Suermondt, H., Chavez, R., Cooper,
• ¿Qué palabras clave buscan mas G. 1989. The ALARM monitoring system: A case
desde nuestro sitio? study with two probabilistic inference techniques
for belief networks. In proceedings of the 2nd
• ¿Qué atributos demográficos y
European Conference on Artificial Intelligence in
psicográficos distinguen a los
Medicine.
visitantes de nuestro website?
• ¿Que características tienen los [2] Chapman P ; Clinton, J ; Keber, R ; Khabaza, T ;
libros que se venden? Reinartz, T ; Shearer, C; Wirth, R. 2000. CRISP-
• ¿Que características tienen los DM 1.0 Step by step data mining guide. SPSS.
clientes a quienes se les vende un
[3] Diaz, F., Corchado, J. 1999. Rough sets bases
determinado producto?
learning for bayesian networks. International
• ¿A quien y en que local van los workshop on objetive bayesian methodology,
clientes? Valencia, Spain.
• ¿Quién compra que?
Abstracción: Cuando se requiere identificar cuales [4] García Martínez, R., Fritz, W., y Blanqué, J. 1987.
son los factores que inciden sobre Un algoritmo de aprendizaje de conceptos para
determinado resultado del negocio. sistemas inteligentes. Anales del V Congreso
Técnica a Algoritmos de Inducción (TDIDT) Nacional de Informática y Teleinformática.
Utilizar: Páginas 91-96. Buenos Aires. Junio. Argentina.
[5] García-Martínez, R.; Servente; M. y Pasquín, D.
3.5. Proceso de Detección de Perfiles 2003. Sistemas Inteligentes. Nueva Librería. ISBN
987-1104-05-7.
Objetivos • ¿Cuáles son los perfiles de clientes
del Negocio: más aprovechables? [6] Grossman, R., Kasif, S., Moore, R., Rocke, D. and
• ¿Cuál es la distribución y estructura Ullman, J. 1999. Data Mining Research:
de los datos de mi website? Opportunities and Challenges, A Report of three
• ¿Cuál es el rasgo en común del

Reportes Técnicos en Ingeniería del Software. 7(1): 26-29


ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) 28
Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes

NSF Workshops on Mining Large, Massive, and


Distributed Data, January 1999, Chicago
[7] Heckerman, D. 1995. A tutorial on learning
bayesian networks. Technical report MSR-TR-95-
06, Microsoft research, Redmond, WA.
[8] Heckerman, D., Chickering, M., Geiger, D. 1995.
Learning bayesian networks, the combination of
knowledge and statistical data. Machine learning
20: 197-243
[9] Heckerman, D., Chickering, M. 1996. Efficient
approximation for the marginal likelihood of
incomplete data given a bayesian network.
Technical report MSR-TR-96-08, Microsoft
Research, Microsoft Corporation.
[10] Kohonen, T. (1997). Self-Organizing Maps,
second edition. Berlin: Springer-Verlag.
[11] Kohonen, T. (1998). An introduction to neural
computing. Neural networks. Vol 1. p. 3-16.
[12] Kohonen, T.; Ruohonen, K. (1973) Representation
of associated data by matrix operations. IEEE
Trans. on Computers 22 (1973), p. 701-702.
[13] Michalski, R. Bratko, I. Kubat, M eds.1998.
Machine Learning and Data Mining, Methods and
Applications, John Wiley & Sons Ltd, West
Sussex, England

Reportes Técnicos en Ingeniería del Software. 7(1): 26-29


ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) 29

También podría gustarte