P. 1
Construccion de Un Modelo de Mineria de Datos Para

Construccion de Un Modelo de Mineria de Datos Para

|Views: 135|Likes:
Publicado porLuis Antonio Novoa

More info:

Published by: Luis Antonio Novoa on Apr 16, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

04/16/2012

pdf

text

original

IX Congreso Chileno de Investigación Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco – Chile Octubre 26-29, 2011

CONSTRUCCIÓN DE UN MODELO DE MINERÍA DE DATOS PARA LA SEGMENTACIÓN DE CLIENTES EN UNA EMPRESA DE TELECOMUNICACIONES A DATA MINING MODEL FOR CUSTOMER SEGMENTATION FOR A TELECOMMUNICATION COMPANY
SEBASTIÁN MALDONADO1 Y GASTÓN ROJAS2 Universidad de los Andes, Facultad de Ingeniería y Ciencias Aplicadas. Av. San Carlos de Apoquindo 2200, Santiago, Chile. smaldonado@uandes.cl
2 1

Departamento de Ingeniería Industrial, Universidad de Talca. Avenida 2 Norte 685, Talca, Chile. g_rojas86@hotmail.com

RESUMEN En la actualidad, las empresas de telecomunicaciones se encuentran en un mercado muy competitivo, donde los clientes se encuentran informados para tomar decisiones de compra. En estos mercados, la empresa que posea una mayor cantidad de información relevante podrá ejecutar estrategias comerciales efectivas, sobresaliendo del resto de las compañías. Extraer esta información es, sin embargo, un proceso complejo y costoso. En el presente documento utiliza estrategias de Minería de Datos, tales como segmentación con K-medias y técnicas de selección de atributos, con el fin de identificar segmentos de clientes que conduzcan a estrategias efectivas de retención de clientes. Los resultados obtenidos permiten cumplir con este objetivo, confirmando ciertas nociones sobre las variables cuantitativas que reflejan la fuga de clientes. Palabras clave: Minería de Datos, Análisis de Negocios, Segmentación, K-medias. ABSTRACT Telecommunication companies face a competitive market, which forces them to define commercial strategies. These strategies promote long term relationships between companies and their main costumers. Companies extracting relevant knowledge from their clients execute more effective commercial campaigns than those which do not, thus, allowing those companies to excel beyond others. However, extracting relevant information from customers is a complex process. This work applies data mining strategies, such as clustering via K-means and features selection techniques to a Chilean telecommunication company. Both techniques are used to develop a model that identifies customer clusters. The results obtained from this work allow us to accomplish this goal, confirming certain notions about the variables that reflects customer churn. These clusters may lead to effective retention campaigns. Key Words: Data Mining, Business Analytics, Clustering, K-means.

13% para Entel PCS. marca o mercado.94% para Claro (Subtel. 2011 . Temuco – Chile Octubre 26-29. servicio.8 usuarios por cada 100 habitantes (ver Figura 1). . que se encuentran en el grupo de Personas y Pyme C. La participación de mercado es de un 42. La gran cantidad de usuarios disponibles en el mercado hace que cada vez sea más difícil identificar los servicios idóneos que requieren cada uno de ellos. las cuales buscan la permanencia de los clientes en sus servicios. Por consiguiente. y es por esto que se ejecutan encuestas con respuestas guiadas permitan identificar las causas más relevantes. es posible encontrar un gran número de clientes con bajos periodos de permanencia en las empresas. siendo una constante preocupación para las estas. alcanzando en Chile durante el año 2008 una penetración de 87. OPTIMA 2011 Universidad de La Frontera. Logo Penetración de diferentes segmentos del sector Telecomunicaciones (Fuente: SUBTEL. en el servicio. 1. es realizando una mejora en los planes para que sean más convenientes alcanzando un porcentaje de alrededor del 30% de coincidencia entre los encuestados (ver Figura 2). Figura Nº1. y un 18. INTRODUCCIÓN La necesidad de mantenerse comunicado en todo momento trae consigo el desarrollo de nuevas tecnologías dedicadas a satisfacer las necesidades de las personas.92% para Movistar. Esto se ve reflejado en el mercado de telefonía móvil. Esta fuerte competencia ha provocado que los clientes se vuelvan cada vez más exigentes e informados al momento de adquirir un servicio. 2009). señala que la mejor forma de evitar un abandono voluntario. Para poder realizar mejores campañas de retención de clientes las compañías deben determinar las razones que provocan el abandono voluntario del cliente. 2009) El mercado de la telefonía móvil en Chile es de una fuerte competencia entre las tres empresas predominantes. Una de las maneras más eficaces en conocer los motivos es contando con la opinión directamente del cliente. 38. las cuales pueden ser causadas por el producto. Los resultados de un estudio aplicado a los clientes de una compañía de telefonía móvil.IX Congreso Chileno de Investigación Operativa.

en particular para el servicio de tráfico de datos. Fayyad. 1996). El presente trabajo se divide de la siguiente manera: la metodología utilizada es presentada en la Sección 2. La figura 3 explicita estos puntos. METODOLOGÍA En la presente sección se describe el procesamiento aplicado para desarrollar el modelo en términos generales. . la Sección 5 entrega las conclusiones del presente trabajo. los cuales se detallan a continuación. OPTIMA 2011 Universidad de La Frontera. mientras que la Sección 4 presenta un análisis con los principales descubrimientos que entregan los resultados. El proceso utilizado es el conocido como “descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases o proceso KDD. Finalmente. La Sección 3 destaca los principales resultados numéricos del trabajo. Temuco – Chile Octubre 26-29. el cual especifica los puntos para el correcto desarrollo de modelos de Minería de Datos.IX Congreso Chileno de Investigación Operativa. 2011 Figura Nº2. 2. Resultados de encuesta a clientes (Fuente: Compañía de Telecomunicaciones). El objetivo del presente trabajo es realizar un modelo de segmentación para una empresa de telecomunicaciones que permita tomar decisiones de manera eficiente mediante la aplicación de herramientas de Minería de Datos.

Proceso KDD (Fuente: Fayyad. 1999). o hacer más fácilmente accesible (Pyle. 2011 Figura Nº3. La lista de tareas que se incluyen en esta fase se . tales como variables socio-demográficas y características de los planes. para así considerar los mismos niveles de antigüedad entre clientes. este conjunto debe ser suficientemente grande para contener estos patrones. El propósito fundamental de esta fase es el de manipular y transformar los datos en bruto. Dado que se dispone de datos de esta naturaleza. 2. OPTIMA 2011 Universidad de La Frontera. Para problemas como el presentado un paso clave es la consolidación de datos de panel. pero a la vez suficientemente conciso para ser minado en un tiempo aceptable. En un paso posterior se evaluará el poder predictivo de estos indicadores de comportamiento. el máximo y el mínimo. El plazo de siete meses es considerado como el tiempo necesario que pasa hasta que el cliente alcanza su madurez dentro de la compañía. Para ello se utilizan estadísticos descriptivos básicos. información recopilada de forma periódica (en este caso mensual) de clientes. Recopilación y consolidación de los datos Antes de utilizar los métodos que permiten construir modelos predictivos. es decir.IX Congreso Chileno de Investigación Operativa. Temuco – Chile Octubre 26-29. el conjunto de datos objetivo debe construirse. que resuman el comportamiento en un plazo fijo. Pre-procesamiento de los datos La utilidad de la extracción de información de los datos depende en gran medida de la calidad de éstos. tales como la media. Otra decisión es el plazo a considerar. tales como el tráfico mensual de internet. dónde se decide tomar siete meses al momento de que el cliente entra.1. es necesario transformar los datos de panel a variables agregadas. 1996). de manera que la información contenida en el conjunto de datos pueda ser descubierta. Dado que el objetivo es revelar patrones ocultos presentes en los datos.2. 2. y características estáticas de los clientes.

la hipótesis nula se refiere a una distribución particular. función de distribución F*. por lo general utiliza el test de Kolmogorov-Smirnov. ¿qué tipo de estadísticas de prueba se puede utilizar para medir la discrepancia entre S (x) y F (x)?. se considera que la información disponible es una muestra aleatoria X1. Temuco – Chile Octubre 26-29. Xn. tales como el test Kolmogorov-Smirnov y el test Chi-Cuadrado. 1967).. de otro modo se rechaza. Una posible forma de superar esto es utilizar procedimientos no paramétricos. En esta prueba. los más relevantes en este trabajo son las estrategias selección de atributos mediante test de independencia no paramétricos. mientras que para valores bajos. S(x).….IX Congreso Chileno de Investigación Operativa. 2011 puede resumir en tres: limpieza de datos (eliminación de inconsistencias y valores perdidos). no especificadas por los parámetros. Para evaluar la bondad de ajuste de una distribución de la función. calculada usando los valores observados. no existe evidencia suficiente para rechazar la hipótesis nula. transformación (proceso de adecuar los datos al posterior proceso de construcción de modelos.Smirnov Un modelo paramétrico se suele especificar al hacer una hipótesis acerca de la distribución y con el supuesto que esta hipótesis es verdadera. Esta es la estadística sugerido por Kolmogorov: (2) Para los valores altos de T1. Test de Kolmogorov. con el fin de mejorar su capacidad predictiva) y reducción (eliminación de ejemplos o atributos que no sean relevantes para la información inherente a la base de datos). son bastante similares). Un modelo no paramétrico sólo asume que las observaciones proceden de una cierta función de distribución F. OPTIMA 2011 Universidad de La Frontera. Por lo tanto se tiene: un se de de (1) Para contrastar H0 contra H1. 1994. Como S(x) calcula F(x) es lógica a la hipótesis de una "distancia" entre S(x) y F(x). con la teórica. La lógica de la estadística de . la hipótesis nula es rechazada. que eliminan la necesidad de especificar la forma de la distribución. Maldonado & Weber. La idea es comparar la función de distribución observada. que llamaremos F *(X). Pero esto a menudo puede ser difícil o incierto. Si S(x) y F(x) son lo suficientemente cercanos (es decir. Una de las medidas es la altura de la distancia vertical entre las dos funciones. El concepto de KolmogorovSmirnov es simple e inteligente (Chakravart et al. la hipótesis nula puede ser aceptada. Pero. Dentro de los métodos que utilizan comúnmente en esta etapa. Las estrategias de selección de atributos son de vital importancia para el éxito de modelo predictivo (Langley. 2009).

los cuales buscan similitudes dentro de los datos estudiando las distancias entre las observaciones. Para probar independencia. La hipótesis nula corresponde a que las muestras son independientes (no poseen efectos en la discriminación entre las clases). 2. 1975). calculada sobre la base de los datos disponibles. la cual se evalúa comúnmente bajo un nivel de significancia de un 95 por ciento. pero el cálculo de la distribución de probabilidad es más complicado. El algoritmo tiene el siguiente comportamiento de aglomeración para la generación de clúster: . Dentro de los métodos que se utilizan comúnmente para esta tarea. los modelos de Minería de Datos utilizados son las estrategias de segmentación o clustering. Estas medidas se comparan con las frecuencias observadas (fo). Métodos Jerárquicos Aglomerativos Métodos de agregación jerárquica permiten obtener una familia de particiones. Construcción de los modelos predictivos Esta etapa consiste en la construcción de modelos predictivos que conduzcan a patrones potencialmente útiles para la toma de decisiones. en este caso los clientes de la compañía. llamado árbol jerárquico de agrupación o dendrograma. cada una asociada con los niveles posteriores de la agrupación entre las observaciones. Este razonamiento es fácilmente extensible a dos muestras a modo de test de independencia considerando una variable continua y una dicotómica. se construye una tabla con las frecuencias esperadas (fe) para cada fila y columna a partir de las distribuciones marginales de cada variable con respecto a la otra. vistos como vectores multidimensionales en un plano. los más relevantes son los métodos jerárquicos aglomerativos y el método de particionamiento K-medias (Hartigan. donde S(x) y F*(x) pasan a ser las distribuciones marginales de la variable continua para cada valor de la variable dicotómica. Las diferentes familias de las particiones pueden representarse gráficamente a través de una estructura de árbol. A partir de estos valores. Temuco – Chile Octubre 26-29. el estadígrafo toma la siguiente forma: (3) Este estadístico posee distribución chi-cuadrado.3. En este caso. 2011 T1 es evidente. asumiendo independencia. que corresponden a la cantidad de casos que posee cada valor de la tabla de contingencia resultante entre ambas variables. partiendo del supuesto que dichas variables son independientes. Test Chi-cuadrado El test Chi-Cuadrado es usado para medir la independencia de dos variables categóricas.IX Congreso Chileno de Investigación Operativa. OPTIMA 2011 Universidad de La Frontera.

no existe una medida de distancia única para la selección del punto b). Actualización: La matriz de las distancias y el número de grupos se actualizan. en función de una medida de distancia definida. OPTIMA 2011 Universidad de La Frontera. Temuco – Chile Octubre 26-29. Las medidas de distancia comúnmente utilizadas entre grupos son: a) Distancia Mínima (single linkage): la distancia entre los dos grupos se define como el mínimo de n1 x n2 distancias entre cada observación del grupo C1 y cada observación de C2 de grupo: (4) b) Distancia Máxima (complete linkage): la distancia entre los dos grupos se define como la máxima distancia en n1xn2 entre cada observación de un grupo y cada uno de la observación del otro grupo: (5) c) Distancia media (average linkage): la distancia entre los dos grupos se define como la media aritmética promedio en n1xn2 distancias entre cada una de las observaciones de un grupo y cada una de las observaciones del otro grupo: (6) . por ejemplo. Como los clúster se definen como un conjunto de uno o más registros. Término: el procedimiento se detiene cuando todos los elementos que se incorporan en un único clúster.1 veces. cada elemento representa inicialmente un grupo en sí mismo. El algoritmo divisivo se diferencia del aglomerativo en su estrategia de construcción del árbol: éste parte de la raíz como un clúster único y se van haciendo divisiones paulatinas hasta llegar a las hojas que representa a la situación en que cada ejemplo es un grupo. la norma euclidiana. Repetición: los pasos b) y c) se realizan n .IX Congreso Chileno de Investigación Operativa. Selección: se unen los dos grupos más cercanos entre sí. 2011 a) b) c) d) e) Inicialización: dadas n observaciones a agrupar.

Interpretación y evaluación de los patrones minados Esta última etapa considera la evaluación de los patrones minados. K-medias presenta soluciones más robustas. 2.xkn} (7) Una vez con los grupos se arman.. mientras que en K-medias no existe una medida de este tipo. se definen aleatoriamente k centroides en el plano de los datos. Temuco – Chile Octubre 26-29. llamado centroide. xk 2. Ambos métodos descritos presentan ventajas y desventajas: • Clustering jerárquico presenta una solución única. dado que iterativamente se van ajustando las asignaciones a los distintos centros. para cada ejemplo xi.. Después de haber introducido todos los ejemplos. Dada la naturaleza del problema. desplazándolos hacia el centro de masas de su conjunto de ejemplos: m ∑x Ak = i =1 ki m (8) Este procedimiento se repite el procedimiento hasta que ya no se desplacen los centroides. mientras que en K-medias distintas distribuciones iniciales de centroides pueden producir distintos grupos. es necesario ajustar los centroides. El procedimiento es el siguiente: Primero. la interpretación de estos patrones y la implementación final del modelo. Para clustering jerárquico existen medidas de distancia clara que permiten determinar el número adecuado de grupos. donde por lo general se cuenta con un número importante de registros.IX Congreso Chileno de Investigación Operativa. resolver el problema de forma óptima es inviable.4. 2011 K-medias El método de particionamiento K-medias tiene como objetivo minimizar la suma de las distancias entre cada vector de entrada y el centro de su correspondiente clase. • • Cabe destacar que la solución óptima para el problema de agrupar observaciones minimizando la distancia entre-grupos es combinatorial al número de observaciones. y por ende se recurre a heurísticas como las planteadas en esta sección. identificando su real potencial en la generación de conocimiento. Luego. cada grupo k tendrá un conjunto de ejemplos a los que representa: l(Ak ) = {xk1.. . ya que se requiere evaluar todas las agrupaciones posibles entre observaciones.. OPTIMA 2011 Universidad de La Frontera. se calcula la distancia entre éste y el centro más próximo Ak y se incluye en la lista de ejemplos en el grupo. mientras que en clustering jerárquico si se agrupan dos observaciones no se podrán volver a separar.

A continuación se presentan los resultados obtenidos en cada una de las etapas señaladas: • Consolidación y pre-procesamiento: Debido a que muchas variables presentaban un alto porcentaje de valores faltantes. tipo de plan de voz (suscripción o prepago). Porcentaje de observaciones en cada clúster. donde se consideran variables demográficas (región metropolitana u otra región). considerando clustering jerárquico (izquierda) y K-medias (derecha). incluyendo variables demográficas y de tráfico de datos de acuerdo a los planes de telefonía móvil. sólo seis pasan este filtro. OPTIMA 2011 Universidad de La Frontera. RESULTADOS La información disponible corresponde al período comprendido entre Septiembre de 2008 hasta Junio de 2009. Temuco – Chile Octubre 26-29. muchas de éstas fueron eliminadas a priori. El método sugiere un total de cinco utilizando enlace promedio. el máximo y el promedio de los siete meses. 2011 3. como se muestra en la figura 4: • • Figura Nº4. Un total de 15 variables se consideran en esta etapa. Las variables de tráfico mensual se transforman a variables descriptivas considerando el mínimo. Finalmente las variables numéricas se escalan en un mismo rango. antigüedad e indicadores de tráfico (tráfico promedio y tráfico mínimo mensual en un lapso de siete meses). De las 15 variables disponibles. mientras que las categóricas se llevan a variables dummies.618 clientes. Esta última solución resulta ser mucho más robusta en términos de balance entre los clústeres. La muestra considera un total de 8. tipo de persona (natural o pyme).IX Congreso Chileno de Investigación Operativa. Selección de Atributos: Considerando como variable objetivo el desempeño del usuario en los siete meses. considerando dos tipos de personas (naturales y empresas). Segmentación: En una primera etapa se utiliza clustering jerárquico divisivo para determinar el número de clústeres adecuado para el problema. se utilizan los test señalados para filtrar las variables que son independientes con la variable objetivo. . Para las variables con información suficiente se considera eliminación de observaciones con valores perdidos. La solución encontrada se compara con la que se obtiene realizando K-medias sobre la base de cinco grupos utilizando medidas de distancia mixtas.

. se estudia cada clúster de acuerdo a sus características. para un clúster dado. donde se marca con una “X” la presencia del atributo (nominal). Para las variables numéricas. OPTIMA 2011 Universidad de La Frontera.IX Congreso Chileno de Investigación Operativa. Tabla Nº1. 4. La Tabla 2 presenta las características principales de cada clúster. Esto se realiza promediando cada atributo para cada clúster. Tabla Nº2. como se muestra en la Tabla 1. A partir de esta tabla se describirá cada clúster en la siguiente sección. medio o alto en relación al promedio de la variable). Descripción de los atributos desagregado por clúster. Promedio de los atributos desagregado por clúster. DISCUSIÓN A partir de la Tabla 1 se describe cada clúster de acuerdo a la relación entre las variables y la media global. los clientes tienen una presencia promedio. se describen mediante rangos de valor (bajo. Temuco – Chile Octubre 26-29. 2011 • Interpretación y Descripción de clústeres: Considerando la solución de K-medias. la ausencia de la característica viene dada por un espacio y un guión indica que.

con una utilización promedio en términos de tráfico de datos. . De esta forma se evita imponer una cantidad arbitraria de grupos ante el desconocimiento de los datos. Por otro lado. es primordial contar con una base de datos que posee variables relevantes para la creación de algún modelo. OPTIMA 2011 Universidad de La Frontera. como se muestra en la Tabla 3. el Grupo 3 está conformado por clientes naturales antiguos. y por ende sus características son deseables el momento de captar nuevos clientes. de la Región Metropolitana. 2011 A modo de ejemplo. que no pertenecen a la Región Metropolitana. sin embargo. se describen los clústeres de acuerdo a su tamaño y al porcentaje de clientes que se mantienen (variable objetivo). por lo que sus características deben ser estudiadas con el fin de aplicar políticas de retención de clientes. Temuco – Chile Octubre 26-29. conlleva a mejores resultados en términos de minimización de distancia y balance en los clústeres. Descripción de los clústeres. el Grupo 1 está conformado por clientes antiguos del tipo Pyme. Tabla Nº3. pero con un tráfico mínimo (el menor durante los seis meses de estudio) bajo con respecto a la media. A partir de la Tabla 3 se observa que el Grupo 1 presenta el menor porcentaje de churn (clientes que dejan la compañía). es por esto que se realizó una selección de atributos para identificar la dependencia que se produce entre las variables. lo que muestra cierta irregularidad. Para finalizar. mientras que el Grupo 3 presenta el mayor porcentaje de churn. El método K-medias.IX Congreso Chileno de Investigación Operativa. CONCLUSIONES Para la realización de un modelo de Minería de Datos. 5. con una alta utilización en términos de tráfico promedio. Los métodos de agrupaciones jerárquicas son una buena herramienta para determinar número óptimo de clústeres para el estudio. con plan de suscripción. por lo tanto se prefiere la solución entregada por este método frente a la obtenida utilizando métodos jerárquicos.

A. Como trabajo futuro se plantea la necesidad de considerar información más detallada de cada cliente.. G. N. Wiley. Piatetsky-Shapiro. (1999). Shmueli. & Weber. Wiley. G. Temuco – Chile Octubre 26-29. The KDD process for extracting useful knowledge from volumes of data. R. es que los clientes pertenecientes a Pymes son más estables en términos de pertenencia a la compañía que los clientes Personas. Maldonado. Gracias a los resultados obtenidos se logran identificar los grupos de clientes de mayor riesgo. (2009). R.C. 39(11): 27-34. & Roy. en este caso la fuga de clientes de la compañía. analizando las características de los clientes de segmentos de bajo riesgo se diseñan estrategias de Marketing orientadas a captar nuevos clientes con baja probabilidad de retirarse de la compañía en los primeros meses. U. Pyle. Langley. logrando de este modo reducir el número de migraciones. J.. 2208-2217. In Proceedings of the AAAI Fall Symposium on Relevance. Patel. Data preparation for data mining. Una de las conclusiones generales que se infieren en esta categorización. Laha. de llamadas. S. Morgan Kaufmann Publishers. Selection of relevant features in machine learning. pre-seleccionadas de acuerdo a su correlación con una variable objetivo. & Bruce P. 1994. considerando no sólo el tráfico de datos sino también información de pago de cuentas. y gracias a esto es posible tomar decisiones estratégicas a partir de los atributos que representan. Data Mining for Business Intelligence. M. Informe Anual del Sector Telecomunicaciones 2009. (2006). R. G. (1996). 140–144. .. Wiley. (1994). D. Otra tarea de análisis de negocios interesantes es la elaboración de modelos de clasificación que permitan identificar de forma más directa los clientes con mayor riesgo de churn. Fayyad. Subsecretaría de Telecomunicaciones (2009). A wrapper method for feature selection using Support Vector Machines. 2011 Los resultados entregados por el modelo permiten concluir que los clientes poseen características y patrones de comportamiento capaces de ser aislados en grupos. (1967). Una de las estrategias que se puede utilizar es describir los grupos de acuerdo a las variables que los representan. De la misma forma. con el fin de implementar políticas de retención de clientes con mayor información cuantitativa.. OPTIMA 2011 Universidad de La Frontera. REFERENCIAS Chakravart. Handbook of Methods of Applied Statistics. Information Sciences 179 (13). Este hecho tiene sentido para el servicio de transmisión de datos (caso de estudio). Hartigan. J. Clustering Algorithms. si se considera que los clientes Pymes normalmente contratan este servicio con el objetivo de ocuparlo en sus negocios y mantener comunicación con sus clientes y proveedores de manear rápida y directa. definidos como aquellos con mayor probabilidad de abandono del servicio en términos agregados. (1975). I. Communications of the ACM. Conociendo las características y patrones de conducta de estos grupos se focalizan estrategias de marketing de retención.IX Congreso Chileno de Investigación Operativa.. ARPU e información sociodemográfica adicional que permita construir perfiles más completos. & Smyth P. P.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->