IX Congreso Chileno de Investigación Operativa, OPTIMA 2011 Universidad de La Frontera, Temuco – Chile Octubre 26-29, 2011

CONSTRUCCIÓN DE UN MODELO DE MINERÍA DE DATOS PARA LA SEGMENTACIÓN DE CLIENTES EN UNA EMPRESA DE TELECOMUNICACIONES A DATA MINING MODEL FOR CUSTOMER SEGMENTATION FOR A TELECOMMUNICATION COMPANY
SEBASTIÁN MALDONADO1 Y GASTÓN ROJAS2 Universidad de los Andes, Facultad de Ingeniería y Ciencias Aplicadas. Av. San Carlos de Apoquindo 2200, Santiago, Chile. smaldonado@uandes.cl
2 1

Departamento de Ingeniería Industrial, Universidad de Talca. Avenida 2 Norte 685, Talca, Chile. g_rojas86@hotmail.com

RESUMEN En la actualidad, las empresas de telecomunicaciones se encuentran en un mercado muy competitivo, donde los clientes se encuentran informados para tomar decisiones de compra. En estos mercados, la empresa que posea una mayor cantidad de información relevante podrá ejecutar estrategias comerciales efectivas, sobresaliendo del resto de las compañías. Extraer esta información es, sin embargo, un proceso complejo y costoso. En el presente documento utiliza estrategias de Minería de Datos, tales como segmentación con K-medias y técnicas de selección de atributos, con el fin de identificar segmentos de clientes que conduzcan a estrategias efectivas de retención de clientes. Los resultados obtenidos permiten cumplir con este objetivo, confirmando ciertas nociones sobre las variables cuantitativas que reflejan la fuga de clientes. Palabras clave: Minería de Datos, Análisis de Negocios, Segmentación, K-medias. ABSTRACT Telecommunication companies face a competitive market, which forces them to define commercial strategies. These strategies promote long term relationships between companies and their main costumers. Companies extracting relevant knowledge from their clients execute more effective commercial campaigns than those which do not, thus, allowing those companies to excel beyond others. However, extracting relevant information from customers is a complex process. This work applies data mining strategies, such as clustering via K-means and features selection techniques to a Chilean telecommunication company. Both techniques are used to develop a model that identifies customer clusters. The results obtained from this work allow us to accomplish this goal, confirming certain notions about the variables that reflects customer churn. These clusters may lead to effective retention campaigns. Key Words: Data Mining, Business Analytics, Clustering, K-means.

Para poder realizar mejores campañas de retención de clientes las compañías deben determinar las razones que provocan el abandono voluntario del cliente. es realizando una mejora en los planes para que sean más convenientes alcanzando un porcentaje de alrededor del 30% de coincidencia entre los encuestados (ver Figura 2). en el servicio. 1. marca o mercado.92% para Movistar. Esto se ve reflejado en el mercado de telefonía móvil. y es por esto que se ejecutan encuestas con respuestas guiadas permitan identificar las causas más relevantes. . que se encuentran en el grupo de Personas y Pyme C. siendo una constante preocupación para las estas. Figura Nº1.IX Congreso Chileno de Investigación Operativa. 2009). las cuales pueden ser causadas por el producto. Logo Penetración de diferentes segmentos del sector Telecomunicaciones (Fuente: SUBTEL. alcanzando en Chile durante el año 2008 una penetración de 87. La participación de mercado es de un 42. Temuco – Chile Octubre 26-29. INTRODUCCIÓN La necesidad de mantenerse comunicado en todo momento trae consigo el desarrollo de nuevas tecnologías dedicadas a satisfacer las necesidades de las personas. La gran cantidad de usuarios disponibles en el mercado hace que cada vez sea más difícil identificar los servicios idóneos que requieren cada uno de ellos. servicio.94% para Claro (Subtel. 2011 . Esta fuerte competencia ha provocado que los clientes se vuelvan cada vez más exigentes e informados al momento de adquirir un servicio. las cuales buscan la permanencia de los clientes en sus servicios. y un 18.13% para Entel PCS. 2009) El mercado de la telefonía móvil en Chile es de una fuerte competencia entre las tres empresas predominantes. OPTIMA 2011 Universidad de La Frontera. Por consiguiente.8 usuarios por cada 100 habitantes (ver Figura 1). Una de las maneras más eficaces en conocer los motivos es contando con la opinión directamente del cliente. Los resultados de un estudio aplicado a los clientes de una compañía de telefonía móvil. 38. es posible encontrar un gran número de clientes con bajos periodos de permanencia en las empresas. señala que la mejor forma de evitar un abandono voluntario.

IX Congreso Chileno de Investigación Operativa. 1996). 2. Temuco – Chile Octubre 26-29. OPTIMA 2011 Universidad de La Frontera. El proceso utilizado es el conocido como “descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases o proceso KDD. el cual especifica los puntos para el correcto desarrollo de modelos de Minería de Datos. los cuales se detallan a continuación. . El presente trabajo se divide de la siguiente manera: la metodología utilizada es presentada en la Sección 2. Fayyad. mientras que la Sección 4 presenta un análisis con los principales descubrimientos que entregan los resultados. en particular para el servicio de tráfico de datos. El objetivo del presente trabajo es realizar un modelo de segmentación para una empresa de telecomunicaciones que permita tomar decisiones de manera eficiente mediante la aplicación de herramientas de Minería de Datos. La figura 3 explicita estos puntos. Finalmente. METODOLOGÍA En la presente sección se describe el procesamiento aplicado para desarrollar el modelo en términos generales. Resultados de encuesta a clientes (Fuente: Compañía de Telecomunicaciones). 2011 Figura Nº2. La Sección 3 destaca los principales resultados numéricos del trabajo. la Sección 5 entrega las conclusiones del presente trabajo.

1. que resuman el comportamiento en un plazo fijo. tales como variables socio-demográficas y características de los planes. Temuco – Chile Octubre 26-29. de manera que la información contenida en el conjunto de datos pueda ser descubierta. OPTIMA 2011 Universidad de La Frontera. 2. El plazo de siete meses es considerado como el tiempo necesario que pasa hasta que el cliente alcanza su madurez dentro de la compañía. 2. La lista de tareas que se incluyen en esta fase se . tales como el tráfico mensual de internet. para así considerar los mismos niveles de antigüedad entre clientes. información recopilada de forma periódica (en este caso mensual) de clientes. Dado que el objetivo es revelar patrones ocultos presentes en los datos. 1999). el máximo y el mínimo. Dado que se dispone de datos de esta naturaleza. Recopilación y consolidación de los datos Antes de utilizar los métodos que permiten construir modelos predictivos. El propósito fundamental de esta fase es el de manipular y transformar los datos en bruto. 2011 Figura Nº3.2. es decir. En un paso posterior se evaluará el poder predictivo de estos indicadores de comportamiento. Otra decisión es el plazo a considerar. Para problemas como el presentado un paso clave es la consolidación de datos de panel. 1996).IX Congreso Chileno de Investigación Operativa. o hacer más fácilmente accesible (Pyle. Para ello se utilizan estadísticos descriptivos básicos. pero a la vez suficientemente conciso para ser minado en un tiempo aceptable. Pre-procesamiento de los datos La utilidad de la extracción de información de los datos depende en gran medida de la calidad de éstos. es necesario transformar los datos de panel a variables agregadas. dónde se decide tomar siete meses al momento de que el cliente entra. el conjunto de datos objetivo debe construirse. tales como la media. y características estáticas de los clientes. este conjunto debe ser suficientemente grande para contener estos patrones. Proceso KDD (Fuente: Fayyad.

calculada usando los valores observados. Pero. 1967). OPTIMA 2011 Universidad de La Frontera. mientras que para valores bajos. que llamaremos F *(X). Dentro de los métodos que utilizan comúnmente en esta etapa.Smirnov Un modelo paramétrico se suele especificar al hacer una hipótesis acerca de la distribución y con el supuesto que esta hipótesis es verdadera. tales como el test Kolmogorov-Smirnov y el test Chi-Cuadrado. Si S(x) y F(x) son lo suficientemente cercanos (es decir. se considera que la información disponible es una muestra aleatoria X1. con el fin de mejorar su capacidad predictiva) y reducción (eliminación de ejemplos o atributos que no sean relevantes para la información inherente a la base de datos). El concepto de KolmogorovSmirnov es simple e inteligente (Chakravart et al. La lógica de la estadística de . En esta prueba. Una posible forma de superar esto es utilizar procedimientos no paramétricos. S(x). función de distribución F*. La idea es comparar la función de distribución observada. Test de Kolmogorov.…. no existe evidencia suficiente para rechazar la hipótesis nula. por lo general utiliza el test de Kolmogorov-Smirnov. transformación (proceso de adecuar los datos al posterior proceso de construcción de modelos. la hipótesis nula puede ser aceptada. son bastante similares). 2011 puede resumir en tres: limpieza de datos (eliminación de inconsistencias y valores perdidos). los más relevantes en este trabajo son las estrategias selección de atributos mediante test de independencia no paramétricos.IX Congreso Chileno de Investigación Operativa. Xn. Por lo tanto se tiene: un se de de (1) Para contrastar H0 contra H1. Para evaluar la bondad de ajuste de una distribución de la función. Una de las medidas es la altura de la distancia vertical entre las dos funciones. Las estrategias de selección de atributos son de vital importancia para el éxito de modelo predictivo (Langley. Como S(x) calcula F(x) es lógica a la hipótesis de una "distancia" entre S(x) y F(x). Un modelo no paramétrico sólo asume que las observaciones proceden de una cierta función de distribución F. no especificadas por los parámetros. Maldonado & Weber. que eliminan la necesidad de especificar la forma de la distribución. Esta es la estadística sugerido por Kolmogorov: (2) Para los valores altos de T1. Pero esto a menudo puede ser difícil o incierto. la hipótesis nula es rechazada. 1994.. la hipótesis nula se refiere a una distribución particular. Temuco – Chile Octubre 26-29. de otro modo se rechaza. con la teórica. ¿qué tipo de estadísticas de prueba se puede utilizar para medir la discrepancia entre S (x) y F (x)?. 2009).

donde S(x) y F*(x) pasan a ser las distribuciones marginales de la variable continua para cada valor de la variable dicotómica. Test Chi-cuadrado El test Chi-Cuadrado es usado para medir la independencia de dos variables categóricas. Dentro de los métodos que se utilizan comúnmente para esta tarea. Para probar independencia. La hipótesis nula corresponde a que las muestras son independientes (no poseen efectos en la discriminación entre las clases). 2011 T1 es evidente. En este caso. los modelos de Minería de Datos utilizados son las estrategias de segmentación o clustering. El algoritmo tiene el siguiente comportamiento de aglomeración para la generación de clúster: . los más relevantes son los métodos jerárquicos aglomerativos y el método de particionamiento K-medias (Hartigan. OPTIMA 2011 Universidad de La Frontera. Las diferentes familias de las particiones pueden representarse gráficamente a través de una estructura de árbol.3. vistos como vectores multidimensionales en un plano. Construcción de los modelos predictivos Esta etapa consiste en la construcción de modelos predictivos que conduzcan a patrones potencialmente útiles para la toma de decisiones. 2. Este razonamiento es fácilmente extensible a dos muestras a modo de test de independencia considerando una variable continua y una dicotómica. A partir de estos valores. cada una asociada con los niveles posteriores de la agrupación entre las observaciones. Métodos Jerárquicos Aglomerativos Métodos de agregación jerárquica permiten obtener una familia de particiones. calculada sobre la base de los datos disponibles. la cual se evalúa comúnmente bajo un nivel de significancia de un 95 por ciento. 1975).IX Congreso Chileno de Investigación Operativa. los cuales buscan similitudes dentro de los datos estudiando las distancias entre las observaciones. asumiendo independencia. en este caso los clientes de la compañía. pero el cálculo de la distribución de probabilidad es más complicado. llamado árbol jerárquico de agrupación o dendrograma. Temuco – Chile Octubre 26-29. que corresponden a la cantidad de casos que posee cada valor de la tabla de contingencia resultante entre ambas variables. el estadígrafo toma la siguiente forma: (3) Este estadístico posee distribución chi-cuadrado. Estas medidas se comparan con las frecuencias observadas (fo). partiendo del supuesto que dichas variables son independientes. se construye una tabla con las frecuencias esperadas (fe) para cada fila y columna a partir de las distribuciones marginales de cada variable con respecto a la otra.

El algoritmo divisivo se diferencia del aglomerativo en su estrategia de construcción del árbol: éste parte de la raíz como un clúster único y se van haciendo divisiones paulatinas hasta llegar a las hojas que representa a la situación en que cada ejemplo es un grupo.IX Congreso Chileno de Investigación Operativa. Temuco – Chile Octubre 26-29. no existe una medida de distancia única para la selección del punto b). Término: el procedimiento se detiene cuando todos los elementos que se incorporan en un único clúster. Como los clúster se definen como un conjunto de uno o más registros. 2011 a) b) c) d) e) Inicialización: dadas n observaciones a agrupar. OPTIMA 2011 Universidad de La Frontera.1 veces. por ejemplo. cada elemento representa inicialmente un grupo en sí mismo. la norma euclidiana. Actualización: La matriz de las distancias y el número de grupos se actualizan. Las medidas de distancia comúnmente utilizadas entre grupos son: a) Distancia Mínima (single linkage): la distancia entre los dos grupos se define como el mínimo de n1 x n2 distancias entre cada observación del grupo C1 y cada observación de C2 de grupo: (4) b) Distancia Máxima (complete linkage): la distancia entre los dos grupos se define como la máxima distancia en n1xn2 entre cada observación de un grupo y cada uno de la observación del otro grupo: (5) c) Distancia media (average linkage): la distancia entre los dos grupos se define como la media aritmética promedio en n1xn2 distancias entre cada una de las observaciones de un grupo y cada una de las observaciones del otro grupo: (6) . Repetición: los pasos b) y c) se realizan n . en función de una medida de distancia definida. Selección: se unen los dos grupos más cercanos entre sí.

mientras que en clustering jerárquico si se agrupan dos observaciones no se podrán volver a separar. Temuco – Chile Octubre 26-29. Para clustering jerárquico existen medidas de distancia clara que permiten determinar el número adecuado de grupos. donde por lo general se cuenta con un número importante de registros. desplazándolos hacia el centro de masas de su conjunto de ejemplos: m ∑x Ak = i =1 ki m (8) Este procedimiento se repite el procedimiento hasta que ya no se desplacen los centroides. cada grupo k tendrá un conjunto de ejemplos a los que representa: l(Ak ) = {xk1. Después de haber introducido todos los ejemplos. 2011 K-medias El método de particionamiento K-medias tiene como objetivo minimizar la suma de las distancias entre cada vector de entrada y el centro de su correspondiente clase. y por ende se recurre a heurísticas como las planteadas en esta sección..IX Congreso Chileno de Investigación Operativa. ya que se requiere evaluar todas las agrupaciones posibles entre observaciones. El procedimiento es el siguiente: Primero.. dado que iterativamente se van ajustando las asignaciones a los distintos centros.. Luego. K-medias presenta soluciones más robustas. Interpretación y evaluación de los patrones minados Esta última etapa considera la evaluación de los patrones minados.4. identificando su real potencial en la generación de conocimiento. es necesario ajustar los centroides. mientras que en K-medias no existe una medida de este tipo. resolver el problema de forma óptima es inviable.. mientras que en K-medias distintas distribuciones iniciales de centroides pueden producir distintos grupos. se calcula la distancia entre éste y el centro más próximo Ak y se incluye en la lista de ejemplos en el grupo. para cada ejemplo xi. xk 2. . llamado centroide. Dada la naturaleza del problema. 2. se definen aleatoriamente k centroides en el plano de los datos. la interpretación de estos patrones y la implementación final del modelo.xkn} (7) Una vez con los grupos se arman. Ambos métodos descritos presentan ventajas y desventajas: • Clustering jerárquico presenta una solución única. • • Cabe destacar que la solución óptima para el problema de agrupar observaciones minimizando la distancia entre-grupos es combinatorial al número de observaciones. OPTIMA 2011 Universidad de La Frontera.

Selección de Atributos: Considerando como variable objetivo el desempeño del usuario en los siete meses. considerando clustering jerárquico (izquierda) y K-medias (derecha). como se muestra en la figura 4: • • Figura Nº4. La solución encontrada se compara con la que se obtiene realizando K-medias sobre la base de cinco grupos utilizando medidas de distancia mixtas. donde se consideran variables demográficas (región metropolitana u otra región). el máximo y el promedio de los siete meses. La muestra considera un total de 8. sólo seis pasan este filtro. muchas de éstas fueron eliminadas a priori. mientras que las categóricas se llevan a variables dummies. tipo de persona (natural o pyme). antigüedad e indicadores de tráfico (tráfico promedio y tráfico mínimo mensual en un lapso de siete meses). incluyendo variables demográficas y de tráfico de datos de acuerdo a los planes de telefonía móvil. Un total de 15 variables se consideran en esta etapa. De las 15 variables disponibles. tipo de plan de voz (suscripción o prepago). Temuco – Chile Octubre 26-29. El método sugiere un total de cinco utilizando enlace promedio. considerando dos tipos de personas (naturales y empresas). Finalmente las variables numéricas se escalan en un mismo rango. Segmentación: En una primera etapa se utiliza clustering jerárquico divisivo para determinar el número de clústeres adecuado para el problema. Esta última solución resulta ser mucho más robusta en términos de balance entre los clústeres. OPTIMA 2011 Universidad de La Frontera.IX Congreso Chileno de Investigación Operativa.618 clientes. Las variables de tráfico mensual se transforman a variables descriptivas considerando el mínimo. RESULTADOS La información disponible corresponde al período comprendido entre Septiembre de 2008 hasta Junio de 2009. . A continuación se presentan los resultados obtenidos en cada una de las etapas señaladas: • Consolidación y pre-procesamiento: Debido a que muchas variables presentaban un alto porcentaje de valores faltantes. 2011 3. Porcentaje de observaciones en cada clúster. Para las variables con información suficiente se considera eliminación de observaciones con valores perdidos. se utilizan los test señalados para filtrar las variables que son independientes con la variable objetivo.

como se muestra en la Tabla 1. se describen mediante rangos de valor (bajo. DISCUSIÓN A partir de la Tabla 1 se describe cada clúster de acuerdo a la relación entre las variables y la media global. 2011 • Interpretación y Descripción de clústeres: Considerando la solución de K-medias.IX Congreso Chileno de Investigación Operativa. Descripción de los atributos desagregado por clúster. la ausencia de la característica viene dada por un espacio y un guión indica que. los clientes tienen una presencia promedio. donde se marca con una “X” la presencia del atributo (nominal). se estudia cada clúster de acuerdo a sus características. Tabla Nº2. Promedio de los atributos desagregado por clúster. Tabla Nº1. Esto se realiza promediando cada atributo para cada clúster. Para las variables numéricas. Temuco – Chile Octubre 26-29. . medio o alto en relación al promedio de la variable). La Tabla 2 presenta las características principales de cada clúster. para un clúster dado. A partir de esta tabla se describirá cada clúster en la siguiente sección. OPTIMA 2011 Universidad de La Frontera. 4.

el Grupo 3 está conformado por clientes naturales antiguos. El método K-medias. por lo tanto se prefiere la solución entregada por este método frente a la obtenida utilizando métodos jerárquicos. Por otro lado. y por ende sus características son deseables el momento de captar nuevos clientes. Para finalizar. con una alta utilización en términos de tráfico promedio. Temuco – Chile Octubre 26-29. es primordial contar con una base de datos que posee variables relevantes para la creación de algún modelo. con plan de suscripción. CONCLUSIONES Para la realización de un modelo de Minería de Datos. por lo que sus características deben ser estudiadas con el fin de aplicar políticas de retención de clientes. Tabla Nº3. se describen los clústeres de acuerdo a su tamaño y al porcentaje de clientes que se mantienen (variable objetivo). conlleva a mejores resultados en términos de minimización de distancia y balance en los clústeres. 5. es por esto que se realizó una selección de atributos para identificar la dependencia que se produce entre las variables. como se muestra en la Tabla 3. Descripción de los clústeres. lo que muestra cierta irregularidad. De esta forma se evita imponer una cantidad arbitraria de grupos ante el desconocimiento de los datos. con una utilización promedio en términos de tráfico de datos. 2011 A modo de ejemplo. sin embargo. . OPTIMA 2011 Universidad de La Frontera. el Grupo 1 está conformado por clientes antiguos del tipo Pyme. Los métodos de agrupaciones jerárquicas son una buena herramienta para determinar número óptimo de clústeres para el estudio. pero con un tráfico mínimo (el menor durante los seis meses de estudio) bajo con respecto a la media.IX Congreso Chileno de Investigación Operativa. de la Región Metropolitana. que no pertenecen a la Región Metropolitana. A partir de la Tabla 3 se observa que el Grupo 1 presenta el menor porcentaje de churn (clientes que dejan la compañía). mientras que el Grupo 3 presenta el mayor porcentaje de churn.

definidos como aquellos con mayor probabilidad de abandono del servicio en términos agregados. considerando no sólo el tráfico de datos sino también información de pago de cuentas. & Weber. P. U. OPTIMA 2011 Universidad de La Frontera. analizando las características de los clientes de segmentos de bajo riesgo se diseñan estrategias de Marketing orientadas a captar nuevos clientes con baja probabilidad de retirarse de la compañía en los primeros meses. & Smyth P. M. Shmueli. Pyle.. Laha. D. ARPU e información sociodemográfica adicional que permita construir perfiles más completos. de llamadas. Communications of the ACM. Selection of relevant features in machine learning. Hartigan. Una de las estrategias que se puede utilizar es describir los grupos de acuerdo a las variables que los representan. A wrapper method for feature selection using Support Vector Machines. Wiley. G. pre-seleccionadas de acuerdo a su correlación con una variable objetivo. logrando de este modo reducir el número de migraciones. Maldonado. S. Temuco – Chile Octubre 26-29. I. y gracias a esto es posible tomar decisiones estratégicas a partir de los atributos que representan. Wiley. (2006). 1994. Patel. De la misma forma. Subsecretaría de Telecomunicaciones (2009). Otra tarea de análisis de negocios interesantes es la elaboración de modelos de clasificación que permitan identificar de forma más directa los clientes con mayor riesgo de churn. con el fin de implementar políticas de retención de clientes con mayor información cuantitativa. Informe Anual del Sector Telecomunicaciones 2009. J. Este hecho tiene sentido para el servicio de transmisión de datos (caso de estudio). 39(11): 27-34.. Information Sciences 179 (13). Handbook of Methods of Applied Statistics. Fayyad. 2208-2217. In Proceedings of the AAAI Fall Symposium on Relevance. A. R. REFERENCIAS Chakravart. Langley. G. G.IX Congreso Chileno de Investigación Operativa. Conociendo las características y patrones de conducta de estos grupos se focalizan estrategias de marketing de retención. J.C. R. Piatetsky-Shapiro. es que los clientes pertenecientes a Pymes son más estables en términos de pertenencia a la compañía que los clientes Personas. Data Mining for Business Intelligence.. 140–144. Como trabajo futuro se plantea la necesidad de considerar información más detallada de cada cliente. The KDD process for extracting useful knowledge from volumes of data. (1975). Una de las conclusiones generales que se infieren en esta categorización. si se considera que los clientes Pymes normalmente contratan este servicio con el objetivo de ocuparlo en sus negocios y mantener comunicación con sus clientes y proveedores de manear rápida y directa. (1996). & Bruce P. Morgan Kaufmann Publishers. Data preparation for data mining. Wiley. . (1999). N.. (2009). Gracias a los resultados obtenidos se logran identificar los grupos de clientes de mayor riesgo. (1967). & Roy.. (1994). R. Clustering Algorithms. en este caso la fuga de clientes de la compañía. 2011 Los resultados entregados por el modelo permiten concluir que los clientes poseen características y patrones de comportamiento capaces de ser aislados en grupos.

Sign up to vote on this title
UsefulNot useful