Está en la página 1de 191

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/318102801

Investigación Comercial y de Mercados: Una guía paso a paso.

Book · April 2015

CITATIONS READS

0 548

1 author:

Cesar Augusto Salazar Olarte


THINKING MARKETING INTELLIGENCE
7 PUBLICATIONS   13 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

The Asymmetry of the brain and the choice of purchase: An application of Electroencephalography – EEG evidence on consumer neuroscience tests View project

The importance of perfect synchronization of data in neuromarketing tests: An example case and how to avoid errors in the implemented EEG, Eyetracker and GSR
findings. View project

All content following this page was uploaded by Cesar Augusto Salazar Olarte on 15 August 2017.

The user has requested enhancement of the downloaded file.


INVESTIGACIÓN
COMERCIAL
Y DE MERCADOS
UNA GUÍA PASO A PASO

-4 -3 -2 -1 0 1
68%
95%
99,7%

Incluye el software Cesar Salazar Olarte


Gandia Barbwin 7
para la aplicación
de los ejemplos
INVESTIGACIÓN
COMERCIAL
Y DE MERCADOS
UNA GUÍA PASO A PASO

Cesar Salazar Olarte


Salazar Olarte, Cesar
Investigación Comercial y de Mercados: Una Guía Paso a Paso.
186p.; 17 x 24 cm.

ISBN 978-9-584-65697-1

Editorial independiente

© 2014, Cesar Salazar Olarte

Diseño y Maquetación: Marta Jaunarena - @maquetatutesis

Reservados todos los derechos. No se permite la reproducción total o parcial de esta


obra, ni su incorporación a un sistema informático, ni su transmisión en cualquier
forma o por cualquier medio (electrónico, mecánico, fotocopia, grabación u otros)
sin autorización previa y por escrito de los titulares del copyright. La infracción de
dichos derechos puede constituir un delito contra la propiedad intelectual.

ISBN 978-9-584-65697-1
CESAR A SALAZAR OLARTE

Administrador de Empresas de la Universidad


Externado de Colombia, Doctor “Cum Laude”
en Nuevas Tendencias en Dirección de Em-
presas por la universidad de León-España. Por
más de quince años se ha desempeñado como
profesor universitario y consultor en investiga-
ción comercial y de mercados. Autor del ma-
nual “Cómo desarrollar el Plan Estratégico de
Mercadeo”. En la actualidad es Gerente Gene-
ral de TESI Colombia, para la región Andina de
Naciones (Colombia, Ecuador, Perú, Venezue-
la). Experto en investigación comercial y de
mercados, Investigación Online, Datamining
y Business Intelligence.
Prólogo
Conocí a César A. Salazar Olarte el año 1998, en Madrid, con motivo
de una estancia suya en la universidad de León, por un doctorado en
Metodología de Investigación de Mercado y Opinión. Ya entonces descubrí
en César su inquietud e incesante trayectoria de perfeccionamiento,
ampliación y constante puesta al día en una de las técnicas más potentes
e imprescindibles del Mercadeo moderno: la Investigación Comercial.

Y, además, César se me mostró con una visión de futuro muy remarcable


sobre la incidencia que las nuevas tecnologías informáticas --entonces
aún en un estado incipiente-- iban a tener en la aplicación práctica de la
investigación por encuestas.

Han pasado muchos años y mi relación ininterrumpida con él como


Delegado para los Países Andinos de TESI --la empresa que fundé en
1984 y que hoy presido-- no ha hecho otra cosa que reafirmarme en
aquella primera impresión: rigurosidad científica y ansia de propagación
de sus conocimientos, impresión que se manifiesta en su triple faceta:
comercial, técnica y universitaria.

Impresión que hoy queda reflejada más que nunca en la huella que él dejará
en el lector de este libro, puesto que va mucho más allá de un simple manual
de uso de Gandia BarbWin, uno de los programas informático-estadísticos
más utilizados en el mundo profesional de la investigación por encuesta.

Así pues, mi enhorabuena y mi felicitación más sincera al autor por el


acierto en publicarlo y al lector que lo tiene en sus manos por el provecho
enorme que obtendrá de su lectura.

Gandia, 1 de Septiembre de 2014


Josep Múria Albiol
Presidente de TESI
ÍNDICE
Capítulo 1: Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Capítulo 2: Análisis Previo De Los Datos.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Capítulo 3: Análisis Descriptivo De Los Datos.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Capítulo 4: La Inferencia Estadística y La Investigación De Mercados. . . 47

Capítulo 5: Segmentación de Mercados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Capítulo 6: El Valor Estratégico de Conocer sus Clientes. . . . . . . . . . . . . . . 133

Bibliografía. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
1

CAPÍTULO 1
Introducción
Capítulo 1: Introducción
La nueva generación de la información de marketing exige
nuevos hábitos en el manejo de la misma. Hoy en día en
un mundo multidimensional de información imperfecta,
es importante para los investigadores de marketing
reemplazar sus habilidades técnicas con una amplia
apreciación del proceso global de la toma de decisiones
basada en la información.

La investigación comercial y de mercados es un método


adoptado y adaptado por aquellas personas dedicadas
al marketing, como gestores de marketing (En adelante los
llamaremos “Marketers”) o como académicos del marketing.
La investigación comercial o de mercados ha sido influenciada
por diversas disciplinas y teorías del conocimiento, tales
como la economía, sociología, psicología y la estadística. Sin
embargo la investigación comercial y de mercados acoge los
pasos del método científico.

En este punto es importante en aras de la simplicidad entender


que el método científico en la investigación comercial y de
mercados, como la aplicación de una serie ordenada de
etapas que permitan captar datos de un mercado para
convertirlos en información replicable ha dicho mercado en
estudio y que sean evaluados y aceptados por la comunidad
científica. En términos más prácticos y que debería ser la
principal tarea de los marketers es la de la búsqueda
constante de la renovación de los paradigmas, como lo dice
2

Thomas Kuhn (1962, p 186): “¿Qué son las revoluciones científicas y cuál
es la función que desempeñan en el desarrollo de la ciencia?... consideramos
como revoluciones científicas aquellos episodios de desarrollos no acumulativo
en los que un paradigma antiguo se ve sustituido en todo o en parte por otro
nuevo incompatible con él”. De esta forma tanto los marketers como los
académicos, permanecen en una búsqueda continua de nuevos paradigmas
generalizables a su entorno o mercado.

El primer episodio ocurrió cuando los economistas clásicos expusieron su


teoría de la maximización de la utilidad esperada, en términos por los
cuales los seres humanos en el momento de tomar decisiones de compra,
siempre buscan aquella solución que les maximiza su utilidad esperada,
es decir, obtener el mayor provecho de lo que reciben frente a lo que
entregan. Esta teoría fue criticada y debatida por los ganadores del
premio nobel Kahneman & Tversky (1979) en su obra ampliamente
conocida y difundida “PROSPECT THEORY: AN ANALYSIS OF DECISION
UNDER RISK” exponiendo que los individuos constantemente violan la
teoría de siempre buscar maximizar su utilidad (en términos económicos),
dentro del proceso de elección y compra.

El acto de discriminación, selección y compra de cualquier producto


responde a un proceso complejo que implica la participación de múltiples
potencialidades de la mente humana, en ella se involucran tanto los
fenómenos socio culturales como la predisposición y utilización del bagaje
filogenético (de la especie), como del ontogenético (del individuo),
comprendiendo entonces el comportamiento desde su constitución biológica
así como la participación de lo cultural, sin que en la realidad llegue a
primar uno sobre otro. La comprensión y descripción de los comportamientos
humanos relacionados con el consumo, su implicación en el mercado y las
aplicaciones de estos conocimientos al marketing da cuenta de un hecho
real y es que el comportamiento de consumo no se reduce a una situación
3

binaria, de corte sociológico, en la que se da una respuesta a un estímulo,


o acaso una relación simple de causa y efecto exclusivamente, tal como se
considera desde la investigación tradicional en marketing. Esta comprensión
del entendimiento del consumidor y su comportamiento se extiende por
áreas tales como la investigación comercial y de mercado con apoyo en el
campo de la psicología social, la econometría, la atención o la motivación,
así como en otras ciencias sociales y áreas científicas, claro está.

A continuación se exponen los pasos o etapas sugeridas para el desarrollo


adecuado de la investigación comercial o de mercado.

Diseño de la Investigación

Paso 1. Definir el propósito de la investigación.

La idea una investigación completamente libre de presunciones acerca del mundo


es una ilusión. Todo el conocimiento se construye en creencias previas. Partiendo
de nuestras hipótesis “provisionales”.

Comprender el contexto en donde fue recogida la información de marketing, es muy


importante y se puede convertir en la razón por la cual algunos investigadores de
mercados fracasan en la captura de un contexto amplio del problema, es porque
uno de los principales objetivos y métodos de la ciencia es comprender el mundo
descomponiéndolo en partes simples que puedan ser manejados y probados de
forma controlada.

¿Se requiere resolver un problema? ¿Se requiere identificar una oportunidad?


Por lo general estas son las preguntas que se debe plantear el marketer y a
partir de allí formular las preguntas complementarias.
4

Paso 2. Definir los objetivos generales y específicos de la investigación.

Los objetivos tanto generales como específicos en la investigación comercial y de


mercados, permiten al “Marketer” allanar el camino para solucionar el problema/
oportunidad de la investigación.

Es recomendable nunca perder o desconocer los objetivos planteados en el


diseño de la investigación. Estos objetivos deben ser concretos, alcanzables, que
no es más que permitan la solución del problema/oportunidad de la investigación.
Redactados para la fácil comprensión de los mismos. Encaminados a guiar el
proceso metodológico y el trabajo de campo.

Paso 3. Plantear Hipótesis fáciles de contrastar.

Se debe diferenciar dos tipos de hipótesis, su forma de redactarlas y su validación.


El primer tipo de hipótesis a plantear son las del negocio, es decir, redactarlas
en relación a las creencias (Fundamentadas) o puntos de vista, en términos
muy simples y comprensibles en el lenguaje común del negocio o actividad. Por
ejemplo, en el negocio de alguna bebida láctea: La marca “A” está perdiendo
participación en el mercado frente a su principal competidor, la marca “F”, debido
a que el consumidor prefiere comprar la marca “F” por su mejor sabor.

El segundo tipo de hipótesis a plantear, es convertir la hipótesis de “negocio”


en hipótesis estadística. Continuando con el ejemplo anterior, la hipótesis
estadística sería:

Hipótesis nula: No existen diferencias significativas en la preferencia del


sabor por parte de los consumidores de las marcas “A” versus “F”.

Hipótesis alterna: Si existen diferencias significativas en la preferencia del


sabor por parte de los consumidores de las marcas “A” versus “F”.
5

Paso 4. Definición de la muestra y el método de recolección de los datos.

En este paso se deben adelantar las siguientes sub-etapas:


• Definir el marco muestral o universo objeto del estudio. Debe ser lo
más específico posible, que se pueda acceder con facilidad. Muy importante
es que las características de los individuos o sujetos a estudiar sean muy
homogéneos o parecidos en referencia al propósito del estudio o investigación.
Por ejemplo fumadores de tabaco o cigarros, consumidores de yogurt,
usuarios de tarjetas de crédito, etc. La importancia de su correcta definición
es que de allí vamos a seleccionar una muestra aleatoria para nuestro estudio.
• Determinar el tamaño de la muestra. En el día a día de las empresas
esta determinación del tamaño de la muestra se impacta por el presupuesto o
dinero que se cuenta. Dado que a menor error que se espera obtener en los
resultados, hay que incrementar el número de individuos a encuestar. Y viceversa,
a menor número de individuos o sujetos a encuestar, mayor nivel de error en
los resultados. El tamaño de la muestra está determinado por el nivel de error
deseado o admitido por quien al final va a tomar las decisiones de negocio y el nivel
de confianza que se quiere obtener con los resultados hallados. Con el software
GBW7 es muy fácil calcular el tamaño de la muestra, sea para poblaciones infinitas
o para poblaciones finitas. Por ejemplo: Deseamos calcular el tamaño de muestra
necesario para un universo de 12 millones de consumidores de telefonía móvil.
Adicionalmente solo permitiremos un error máximo del 1.5% y queremos contar
con un nivel de confianza del 95%, de que cual sea la muestra que tomemos,
siempre obtendremos resultados similares. Para resolver este ejemplo, abrimos
el GBW7 y sin necesidad de abrir ningún fichero o datos, pulsamos en la barra de
herramientas en el menú “Análisis” y posteriormente en el ícono “calculadora” y
nos aparece una ventana emergente, en donde ingresamos los datos de nuestro
ejemplo; tamaño de la población, nivel de confianza y por último el margen de
error. Oprimimos en la parte inferior de la ventana emergente el botón “calcular” y
obtendremos el resultado de 4.268 encuestas. Ver figura 1.1
6

FIGURA 1.1 CÁLCULO DEL TAMAÑO DE LA MUESTRA.

En la figura 1.1 aparecen las celdas “Probabilidad p” y “Probabilidad q”, quiere


decir que se debe conocer o plantear la probabilidad que un individuo seleccionado
al azar del marco muestral (Los doce millones) posea la característica “p” (posea
un smartphone) y el complemento 1-p, es la “Probabilidad q”, quiere decir que
no posea un smartphone. Por defecto el GBW7 plantea la máxima variabilidad
posible, 50% para “p” y 50% para “q”.

En nuestro ejemplo partimos de la hipótesis (O suposición) que no sabemos qué


individuos del marco muestral o universo poseen un smartphone. Planteando que,
si preguntamos a cualquier individuo del marco muestral si posee un Smartphone,
vamos a obtener la máxima diversidad en la respuestas, que el 50% diga “Si poseo
un smartphone” y el 50% diga “No poseo un smartphone”. Invitamos al lector a
que realice algunas pruebas de comprobación, cambiando los valores “p” y “q” y
constatará lo anteriormente expuesto, el máximo número o diversidad de encuestas
estará en “p=50%” y “q=50%”.
7

Los otros valores, nivel de error y nivel de confianza, se interpretan así: El error
máximo propuesto en nuestro ejemplo de telefonía móvil es del 1.5%. Ahora bien,
supongamos que el 60% de los encuestados respondieron “Si poseo un smart
phone” se interpreta como: Entre el 58.5% y el 61.5, del mercado (Población)
de telefonía móvil posee un smartphone. Es el resultado de restar 1.5% al 60% y
sumar 1.5% al 60%.

El nivel de confianza del 95% (No hay ninguna magia en este “famoso” 95%), se
interpreta como si de cada cien veces que hagamos el mismo estudio (Telefonía móvil/
Posee smartphone), nos equivocaremos cinco veces en hallar el 60% de encuestados
que si poseen un smartphone. O lo mismo, de cada 100 diseños muestrales diferentes
en el mismo universo, nos equivocaremos cinco veces en los resultados.

Ahora bien, entendiendo cada uno de los valores de la figura 1.1, qué pasa si
esos doce millones de usuarios de telefonía móvil están en diferentes países,
por ejemplo cuatro millones en México, dos millones en Guatemala, un millón
en Honduras, un millón en Nicaragua, un millón en El Salvador, dos millones
en Venezuela y un millón en Ecuador. Solo ingresamos cada país en la ventana
emergente de la figura 1.1, y vamos calculando cada tamaño de la muestra y su
nivel de error correspondiente. Ver figura 1.2
8

FIGURA 1.2 CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA CADA SEGMENTO.

Trabajo de campo. Teniendo el cálculo del tamaño(s) de la muestra(s), se debe


definir el trabajo de campo. Debe planearse cómo y en donde se van a abordar
a los individuos del marco muestral o universo que se van a encuestar. Se debe
recordar que cada individuo del universo o marco muestral debe poseer la misma
probabilidad de ser escogido. El trabajo de campo o de aplicación y recolección de
las encuestas debe ser rigurosamente supervisado con el propósito de minimizar
los errores potenciales. Teniendo especial cuidado en la selección de cada uno de
los individuos o sujetos a encuestar, y que sea aleatoria su elección, obviamente
seleccionado del marco muestral definido.

Paso 5. Análisis de los datos recogidos.

La clave del éxito en el uso de la información de marketing es saber cómo pesar


o ponderar el conocimiento explicito entrante frente al existente conocimiento
implícito. Este es el corazón del éxito del análisis holístico de los datos de
marketing. Smith & Fletcher (2001).
9

Terminado el trabajo de campo, es decir la aplicación y recolección de las


encuestas se debe realizar la supervisión de dicho trabajo. Generalmente se
escoge el diez por ciento al azar, del total de encuestas aplicadas y se les hace
un seguimiento a sus respuestas a través del contacto con el encuestado. Con el
propósito de que las respuestas coincidan con lo consignado en la encuesta. Si
dentro de este diez por ciento se detecta algún error por pequeño que sea, se
debe revisar todo el trabajo de campo realizado en la zona a la que pertenezca
la encuesta. Si sigue persistiendo errores, lo recomendable es volver a realizar
todo el trabajo de campo para dicha zona.

Como se puede percibir, el trabajo de campo es una etapa álgida dentro de la


investigación comercial y de mercados. Hay que procurar blindar el trabajo de
aplicación y recolección de las encuestas de cualquier posible fuente de error. De
lo contrario se pone en riesgo la aleatoriedad, y por lo tanto la representatividad.

Finalizada la supervisión y comprobación del trabajo de campo, se procede a la


grabación (Si las encuestas proceden del papel), codificación y procesamiento.
En resumen es presentar ordenadamente las encuestas en una matriz de datos
similar a una hoja electrónica.

Teniendo la matriz de datos se inicia el análisis de los datos obtenidos. Es muy


recomendable redactar un “Plan de análisis” que es un documento sencillo en
donde se consignan que tipos de herramientas y técnicas estadísticas se aplicarán
a los datos con la misión de cumplir con los objetivos e hipótesis planteados en
el diseño de la investigación. Allí se explica que se va a hacer con los datos y que
tipos de análisis, univariado, bivariado, multivariado.

Paso 6. Conclusiones y redacción del informe final.

En el informe final se redactan las conclusiones y hallazgos de la investigación.


Se sugiere redactar las conclusiones en el orden de los objetivos planteados y
10

soportadas en las técnicas estadísticas que se aplicaron para poder concluir e


inferir sobre la población en estudio.

Las conclusiones deben ser muy concretas y resolviendo las inquietudes


planteadas en los objetivos e hipótesis de la investigación.

Adicionalmente este tipo de informes se basa fuertemente en la representación


gráfica, con el fin de hacerlo más comprensible y agradable. Se debe evitar
el lenguaje demasiado técnico y sofisticado, evitando confundir y por lo tanto
generar dudas sobre la investigación. Si la investigación fue rigurosamente
diseñada y aplicada, sobran los tecnicismos sobredimensionados y que no
aportan al resultado del estudio.
11

CAPÍTULO 2
Análisis previo de los datos

Capítulo 2: Análisis Previo De Los Datos.


DEPURAR

Después de finalizado el trabajo de campo o recogida de los


datos en un estudio específico, se debe realizar un recorrido
sobre los datos con el propósito de validar, contrastar y
depurar los datos recibidos, frente al instrumento utilizado
para la recogida de los mismos, que generalmente es un
cuestionario o encuesta, aplicada a través del papel (cada
vez menos…) o por cualquier medio digital, CATI (Computer
Asisted Telephone Interview), Web, Smart Phone, Tablet, etc.

Los datos deben estar presentados en tipo matriz, en donde


las columnas serán las variables (Preguntas del cuestionario) y
en las filas estarán los registros (Cada uno de los encuestados),
como se puede ver en la figura 2.1:

FIGURA 2.1. MATRIZ DE DATOS


12

En la figura 2.1, se observa que en la primera fila aparece el número


2048, que representa el número de la encuesta o cuestionario aplicado.
De esta forma se observan todas las respuestas obtenidas de este número
de encuesta, leyéndolas horizontalmente y desplazándose de izquierda a
derecha sobre esta fila.

El siguiente paso es verificar esta matriz de datos con la secuencia lógica o


“flujo” de preguntas consignadas en el cuestionario, verificando que cada
pregunta o columna, contenga el tipo de variable establecida, es decir, si
es categórica nominal, ordinal, discreta, continua, de respuesta múltiple,
fecha, etc. A continuación se “define” cada una de las escalas:

• Variable categórica nominal: Atributos o cualidades subjetivas


que pueden agruparse en categorías. No existe ningún orden o
jerarquía entre las categorías. Por ejemplo la variable género
puede contener dos categorías Hombre, Mujer. Sin que pertenecer
a uno u otro género sea más importante o establezca un orden.
Otro ejemplo puede ser la variable “región” y contiene a su interior
un grupo de países o categorías, Guatemala, Salvador, Costa Rica,
Nicaragua, Panamá, Honduras.
• Variable Ordinal: La única diferencia con la definición de la
variable categórica nominal, es que en la ordinal si existe un
orden entre las categorías. Por ejemplo la variable “Nivel de
Edad” puede tener cuatro categorías a su interior; 18 a 25 años,
26 a 35, 36 a 45, 45 o más. El orden se establece en relación
a la categoría que se pertenezca. Otro ejemplo podría ser el
“Nivel de Estudios” y las categorías serían, Primaria, Secundaria,
Universitaria, Posgrado. El orden se establece en relación a la
categoría que se pertenezca, se puede pensar que aquel que
posee un título de posgrado tiene “más” estudios que aquel que
pertenece a la categoría de Universitario.
13

• Variable Discreta: Es aquella que en un rango o intervalo


determinado solo puede adoptar números enteros. Por ejemplo:
Número de tarjetas de crédito que posee; Número de automóviles,
Número de personas en el hogar.
• Variable Continua: Es aquella que en un rango o intervalo
determinado puede adoptar cualquier número y su fracción. Por
ejemplo: Peso en kilogramos, Estatura en centímetros, Ingreso,
Kilómetros o millas recorridas.
• Variable de Respuesta Múltiple: Es aquella similar a la categórica
nominal, pero que permite varias respuestas en una misma pregunta.
Por ejemplo: Marcas que conoce o ha oído mencionar, Actividades
que practica, Pasa tiempo preferido, etc.
• Variable Fecha: Fecha de inicio como cliente o consumidor, fecha
de nacimiento.

Las anteriores definiciones de “tipos” de variable son muy importantes de


dominar previo al análisis de datos. Debido a que las técnicas estadísticas
permiten generalmente algún tipo de variable especifico. Por ejemplo, no
es recomendable calcular un promedio aritmético a una variable de tipo
categórica nominal. Las variables de tipo discreto o continuo se pueden
convertir en variables nominales u ordinales, pero no al revés (Con algunas
excepciones de transformación). Por lo tanto, y dependiendo del objetivo
de la investigación y del tipo de análisis planteado previamente, es
recomendable tener en una encuesta o cuestionario más variables de tipo
continuo y/o discreto, que nominales y ordinales.

Teniendo las datos estructurados, es decir en tipo matriz, se procederá


a verificar que todos los saltos (Si responde “si” en la pregunta # 10,
pase a la pregunta 35), filtros (La diferencia con el “salto” es que
se realiza antes de ingresar el nuevo dato en la matriz de datos),
14

por ejemplo, verificar si cumple la condición de haber encuestado solo


mujeres, de determinada edad y determinado nivel socioeconómico). Y
por último los controles (Después de ingresados los datos en la matriz
de datos, todos ellos estén correctamente ubicados de acuerdo al flujo
del cuestionario).

Por ejemplo, si respondió la marca “x” en la pregunta correspondiente


al “Top of Mind”, esta marca no debería estar registrada en las
respuestas a la pregunta “Otras menciones espontaneas”. Dado que
son mutuamente excluyentes.

Es muy común que se contrate con alguna empresa de investigación de


mercados o con una empresa que solo realice el trabajo de campo, y
esta a su vez entregue los datos en un archivo plano o un archivo de hoja
electrónica como lo es el Excel de Microsoft.

Previamente habiéndole solicitado a dicha empresa que entregue


los datos como se vio en la figura 2.1, se procede a la validación y
depuración del archivo o fichero recibido. Esto significa que cada
variable este bien nombrada, que el texto exacto de la pregunta se
encuentre incluido, que la variable este bien definida de acuerdo a su
tipo, nominal, ordinal, discreta, continua, múltiple. Que los códigos de las
variables estén incluidos y guarden rigurosamente los planteados en el
cuestionario. A continuación en la figura 2.2 se presenta un ejemplo de
la correcta estructura de cada variable:
15

FIGURA 2.2. DEFINICIÓN DE LA VARIABLE.

Como se presenta en la figura 2.2, estando en la tabla de datos del GBW7


se da doble clic en la variable de interés, para este ejemplo es la variable
“IMAGEN_MARCA” e inmediatamente aparece la ventana denominada
“propiedades de la variable IMAGEN_MARCA” que a su vez contiene cuatro
“Pestañas”: Características, grabación, generales, tabulación y análisis. En la
primera pestaña, “Características” aparece el tipo de variable “Múltiple”
y en la casilla “Texto extra” se ingresa la pregunta original del cuestionario
para la variable correspondiente.

Luego se pulsa el botón “Gestión de Códigos” y aparece la ventana que


contiene los códigos definidos para la variable. En la siguiente pestaña
“Grabación” ver figura 2.3, aparecen tres botones muy importantes en el
proceso de verificación de los datos; Saltos, Filtros, Controles.
16

FIGURA 2.3. PROPIEDADES DE LA VARIABLE, PESTAÑA “GRABACIÓN”.

Con estos botones se debe indicar que tipos de saltos, filtros, controles, se
deben aplicar a los datos para que correspondan con lo definido en el
cuestionario o encuesta.

En la pestaña “Tabulación y análisis” ver figura 2.4, se puede establecer


la forma en la que deseamos aparezcan las tablas de resultados junto
17

con las bases o número de registros, si los códigos aparecen en qué


orden, en relación a las frecuencias obtenidas, si se desea no totalizar
en la base los no sabe / no responde, no contesta, los filtros, eliminar
porcentajes de fila o columna. Esta instrucción es muy útil cuándo
solo se desea presentar las respuestas con porcentajes mayores a un
determinado número, etc.

FIGURA 2.4. PROPIEDADES DE LA VARIABLE, PESTAÑA “CARACTERÍSTICAS”


18

ESCALAS, FIABILIDAD Y VALIDEZ

Los instrumentos o cuestionarios que se aplican en un determinado estudio


deben comprender todos los aspectos inherentes a su calidad, es decir, que:

• Cumplan con el objetivo de la investigación.


• Sean “simples” es decir, fáciles de comprender por los encuestados,
fáciles de responder, concretos.
• El flujo del cuestionario (la numeración lógica) sea sencilla de
entender y aplicar por quien realiza el trabajo de campo o la
recogía de los datos.

Seguramente en la etapa del diseño de la investigación de mercado o del


estudio requerido, se abordó en profundidad el tipo de escalas a aplicar, la
validez necesaria de los resultados y la fiabilidad misma de la escala. Estos
conceptos son importantísimos para cualquier tipo de investigación y deben
comprenderse y asegurarse que cumplen con el mínimo sugerido y requerido.

Escala. Como lo planteado en el apartado anterior, la escala es la


puntuación o la forma de capturar la(s) respuesta(s) del encuestado con el
propósito de alcanzar el objetivo planteado en el estudio o investigación.
Las escalas más utilizadas en investigación social y de mercados, son las
escalas tipo Lickert (1932). Estas escalas son muy utilizadas para medir
“actitudes” del individuo. Por actitud se puede entender como una opinión
expresada en palabras o de forma verbal. Y su escala por lo general está
medida en niveles “De acuerdo” “Desacuerdo” con una serie de frases o
ítems presentados al entrevistado o sujeto de estudio.

Fiabilidad. La fiabilidad de la escala, nos permite establecer si con las


frases o ítems presentados al sujeto de estudio, se mide con exactitud lo
19

que se pretende medir. Por ejemplo en la cotidianeidad decimos que una


persona es “fiable” según su comportamiento en el tiempo. El jugador
número uno del tenis en el mundo, cuándo va a disputar un partido o
encuentro, partimos de lo base que muy posiblemente va a ganar
independiente del rival. Esto significaría que es un jugador “fiable”. Con
esta analogía se pretende ilustrar que una escala es “fiable” cuándo mide
lo que tiene que medir en el tiempo y en diferentes individuos o sujetos.

Validez. Con los datos recogidos, ¿podemos extrapolarlos o hacer


inferencias acerca del comportamiento del universo o marco de estudio?
¿Acertadamente?
21

CAPÍTULO 3
Análisis Descriptivo de los Datos

Capítulo 3: Análisis Descriptivo De Los Datos.


El análisis descriptivo de los datos permite únicamente tomar
decisiones sobre la muestra que se está analizando, si se
desea hacer inferencia, es decir, tomar decisiones o concluir
sobre la población estudiada, se debe recurrir al análisis
de inferencia que se basa primordialmente en las pruebas
de hipótesis.

El análisis descriptivo no deja de ser muy importante dado


que nos permite acercarnos a los datos, a conocer su
distribución, a realizar unas tablas resumen, a filtrarlos,
a equilibrarlos en relación a la población objeto o marco
muestral definido, etc.

A continuación se presenta paso a paso un ejemplo del análisis


descriptivo de los datos, previo a los análisis más avanzados.
Tomando el ejemplo de la base de datos “TABACO” que
aparece en la figura 3.1:
22

Paso 1. Revisión de cada una de las variables, su escala de medida, sus


códigos.

Como se puede apreciar en la figura 3.1, tabla de variables del fichero


tabaco.gbw7:

FIGURA 3.1 TABLA DE VARIABLES

Aparecen tres columnas:


• Nombre: Nombre de la variable definido.
• Tipo: Tipo de variable o escala utilizada. Por ejemplo, nominal, ordinal,
numérica, etc.
• Texto extra: Es el texto de la pregunta.

Si damos un clic en la fila 11 de la tabla de variables, encima de la variable


“ocupación”, aparecerá la tabla de propiedades para esta variable, figura 3.2.
23

FIGURA 3.2. PROPIEDADES DE LA VARIABLE OCUPACIÓN

Allí aparece el nombre de la variable, tipo, texto extra. Si damos clic sobre el
botón “Gestión de códigos” aparece una nueva ventana con todos los códigos de
la variable ocupación.

De esta forma podemos desplazarnos a lo largo de la tabla de variables y revisando


cada una de las variables contenidas en nuestra base de datos. Cotejando si el
nombre de la variable se corresponde con el texto de la pregunta, si los códigos
están bien numerados en relación al cuestionario o instrumento aplicado, etc.

Paso 2. Revisión de la distribución de los datos.

En esta etapa es recomendable revisar la distribución de los datos variable por


variable, teniendo en cuenta el tipo o escala utilizada. Recordemos que para
variables de tipo o escala cualitativa se debe acudir a la distribución de frecuencias
y para aquellas variables de tipo o escala cuantitativa, debemos acudir a los
24

estadísticos de tendencia central y de dispersión. A continuación se presentará


un ejemplo, figura 3.3, por cada tipo de variable en el fichero “TABACO”.

FIGURA 3.3. DISTRIBUCIÓN DE FRECUENCIAS DE LAS VARIABLES NOMINALES.

Dando clic en el botón que aparece en la pestaña “TABULACIÓN” en la


barra de herramientas, se despliega una ventana y damos clic en “marginales de
frecuencias”, nos aparece la venta que aparece en la figura 3.3, e incluimos la
variable “Ocupación” y damos clic en aceptar. De inmediato aparece el resultado
de la tabla de frecuencias de la variable “Ocupación” ver figura 3.4.
25

FIGURA 3.4. MARGINALES DE FRECUENCIAS VARIABLE OCUPACIÓN.

Se observa en la figura 3.4 la tabla resultado de las frecuencias solicitadas para


la variable ocupación. Allí aparecen tres columnas. La primera columna con el
número 2087 que significa el número de encuestas o casos registrados en la
base de datos. A continuación la columna “Porcentajes %” que corresponde
a la división de cada una de las categorías sobre el total de la muestra. Para
el primer porcentaje 40.2%, es el resultado de dividir 838 individuos que
manifestaron tener una ocupación de “empleado” sobre el total de la muestra
2087. En la tercera columna aparece “Acumulado” que es el resultado de ir
sumando cada uno de los porcentajes iniciando con el primero. De esta forma
el porcentaje 68.6 es el resultado de sumar 40.2 más 28.5 (la diferencia de un
decimal es resultado de la sumatoria de los decimales en cada calculo).

Un ejemplo muy interesante es la tabla de frecuencias para una pregunta de


respuesta múltiple, en el caso de nuestro archivo “TABACO” la primera respuesta
múltiple es la variable nombrada “espontáneos” que recoge todas las marcas
de cigarrillos, cigarros o tabaco que conoce cada encuestado. Quiere decir
26

que en cada celda pueden aparecer tantas marcas o códigos de respuesta,


que haya respondido el encuestado. En la figura 3.5 se presenta un ejemplo
de dichas celdas. En la variable o columna “Top_of_mind” se registra única y
exclusivamente la primera marca o respuesta que dice el encuestado, por tal
motivo en dicha columna solo aparece un número o código de respuesta. En la
siguiente variable o columna “Espontáneos” se registran las demás marcas o
respuestas que contesto el encuestado, por tal motivo aparece en dicha columna
varios números o códigos de respuesta. Por esta razón a este tipo de variables
se les denomina de respuesta múltiple. Antes de solicitar la tabla de frecuencias
de nuestra variable “Espontáneos” debemos decidir como la deseamos, si los
resultados se presentan dividiéndolos sobre el total de encuestados, para este
caso 2087, o sobre el total de las respuestas obtenidas. Recordemos que cada
encuestado puede responder más de una marca y por lo tanto las respuestas van
a superar los 2087. El GBW7 es muy fácil tabular este tipo de variables.

FIGURA 3.5. EJEMPLO VARIABLE MÚLTIPLE “ESPONTÁNEOS”


27

Como se observa en la figura 3.6, damos doble clic sobre la variable “Espontáneos”
y aparecerá la tabla de propiedades de dicha variable. Nuevamente damos doble
clic en la pestaña “Tabulación y análisis” y podemos definir en la parte inferior de
la tabla como deseamos que se presente la tabla de frecuencias, para nuestro
ejemplo vamos a dar clic sobre cada una de las tres opciones que nos permite.

FIGURA 3.6. PROPIEDADES DE LA VARIABLE ‘ESPONTÁNEOS”

Ahora procederemos a calcular una a una de las tablas según lo solicitado, la


primera tabla será la que contiene la media sobre las menciones, la segunda los
casos que mencionan y la tercera el porcentaje sobre las respuestas obtenidas.
28

FIGURA 3.7. FRECUENCIAS DE LA VARIABLE “ESPONTÁNEOS” CON BASE EN LA MEDIA


SOBRE LAS MENCIONES

Al final de la tabla de frecuencias de la figura 3.7 aparece la media de las


menciones (2.038) y la desviación (1.009). Si sumamos las menciones por cada
una de las marcas (360+653+552+550+662+711+133) = 3621 menciones
totales. Otro dato importante es 1777 que aparece en la parte superior izquierda
de la tabla. Este valor significa que de la muestra total de 2087 encuestados, solo
respondieron a esta pregunta de “Espontáneos” 1777 individuos. Si dividimos
3621 respuestas en 1777 individuos, nos da el promedio de menciones de
2.038. Y con desviación de 1.009. Esto nos dice que cada individuo respondió en
promedio que conoce dos marcas de tabaco.
29

FIGURA 3.8. FRECUENCIAS DE LA VARIABLE “ESPONTÁNEOS” CON BASE EN LOS CASOS


QUE MENCIONAN

Observando la figura 3.8 vemos que de los 2087 encuestados solo se obtuvo
respuestas para la variable “Espontáneos” de 1777 individuos. Si se divide
1777/2087 nos dice que del 100% de la muestra solo se obtuvieron respuestas
del 85.1%. La suma de las respuestas de todas las marcas es de 3621. Ahora
bien, si se divide 360 respuestas obtenidas para la marca “Camel” en 1777
individuos, se obtiene el 20.3% de los individuos mencionan que conocen dicha
marca. Así sucesivamente se calcula cada uno de los porcentajes de las marcas.
Si se suman cada uno de los porcentajes el resultado será mayor al 100% dado
que se está teniendo en cuenta que cada individuo menciono más de una marca
que conoce o a oído mencionar.
30

FIGURA 3.9. FRECUENCIAS DE LA VARIABLE “ESPONTÁNEOS” CON BASE EN EL PORCENTAJE


SOBRE LAS RESPUESTAS

En la figura 3.9 se observa el cambio de la base frente a la figura 3.8. La base


es el número de respuestas obtenido de 3621. Si se divide 3621 en 2087, se
obtiene 173.5% de respuestas sobre el total de la muestra. El primer porcentaje
de 9.9% es el resultado de 360/3621, y así sucesivamente por cada una de las
marcas. Si se suma todos los porcentajes sí que darán el 100% dado que se
calcularon sobre el total de 3621 respuestas obtenidas.

Terminado el análisis descriptivo para las variables “cualitativas” se procede a


realizar el mismo análisis descriptivo pero para las variables “cuantitativas”. En
el fichero TABACO.GBW7 se observan este tipo de variables, un ejemplo de este
tipo de variables es el que se presenta en la figura 3.10.
31

FIGURA 3.10. VARIABLES CUANTITATIVAS

El análisis descriptivo para las variables “cuantitativas” es muy sencillo y su


propósito general es conocer la distribución de las variables, su medida de
tendencia central y la dispersión de los datos. En tal sentido volvemos al fichero
de datos TABACO GBW7 damos clic nuevamente en el botón ubicado en la
barra de herramientas del menú principal; se despliega una lista de comandos y
elegimos el de “Marginales de Estadísticos” ver la figura 3.11. Allí nos aparece una
ventana emergente en donde vamos seleccionar las variables “cuantitativas” que
deseamos analizar, las pasamos al lado derecho de la ventana y seleccionamos el
botón “Estadísticos” y seleccionamos las opciones que deseamos aparezcan en
la tabla de resultados y damos clic en el botón aceptar.
32

FIGURA 3.11. CALCULO DE LOS MARGINALES ESTADÍSTICOS PARA VARIABLES CUANTITATIVAS

De inmediato aparece la tabla de resultados que se presenta en la figura 3.12 y


procedemos a interpretar los resultados que allí se presentan.

FIGURA 3.12. TABLA DE RESULTADOS DE LOS MARGINALES ESTADÍSTICOS.


33

Por ejemplo en la variable ¿Cuántos cigarrillos fuma en un día? Se puede ver que
la media o promedio de cigarrillos que fuma en un día es de siete cigarrillos con
una desviación típica de 6.5 cigarrillos y un coeficiente de variación del 93%. Este
último, el coeficiente de variación, es de gran importancia porque viene calculado
de dividir la desviación típica en la media aritmética.

Para este caso sería dividir 6.5/7. El coeficiente de variación nos dice que
porcentaje de la media es la desviación típica. Es muy conveniente (Por no decir
obligatorio) interpretar los estadísticos en conjunto y no separadamente. Por
ejemplo solo interpretar la media aritmética puede conducir a errores dado que
la media está influenciada por los valores máximos y los valores mínimos.

Pero si se interpreta la media aritmética en conjunto con la desviación típica y el


coeficiente de variación, sí que aportara información al estudio. Para este caso
el coeficiente de variación nos está diciendo que la dispersión de los datos es
alta (93%), que hay individuos que fuman un cigarrillo al día como hay individuos
que fuman 50 cigarrillos al día. Este coeficiente de variación también nos arroja
indicios de las variables a seleccionar en el proceso de segmentación. Dado que
las variables con un alto porcentaje de variación serán aquellas que servirán para
incluirlas como variables de segmentación.

Paso 3. Análisis bivariado y tabulación cruzada

En investigación comercial y de mercados es muy útil ordenar o presentar las


tabulaciones de los datos en dos vías, bivariada o conocido comúnmente como
tabulación cruzada.

Siempre sin olvidar los objetivos planteados en la investigación. En estos


objetivos y en las hipótesis se plantean una o más variables dependientes y una
o más variables independientes. Sin olvidar esto, vamos explicar cada uno de los
posibles casos en la tabulación cruzada y análisis bivariado:
34

Dos variables cualitativas

En nuestro ejemplo del fichero TABACO.GBW7, supongamos que se desea conocer


un perfil preliminar del consumidor de tabaco o cigarrillos, en relación a la marca
que conoce y a la marca que compra. En GBW7 es muy sencillo obtener estas
tablas de resultados. Nuevamente damos clic en el botón , damos clic
en la lista de opciones “Frecuencias cruzadas” y aparece la ventana emergente
en donde debemos asignar las variables que irán en las columnas y las variables
que irán en las filas. Es este punto es muy importante tener claro los objetivos
del estudio o investigación. La o las variables independientes se pasarán a las
columnas y las variables dependientes en las filas. La determinación de las
variables independientes o dependientes se ha establecido en los objetivos y en
las hipótesis a contrastar. Sin embargo un “atajo” interesante en la determinación
que variables van en las columnas y cuáles en las filas, es reflexionar acerca de
cuál influye en cual. En nuestro ejemplo del tabaco o cigarrillos está inquietud
podría ser: ¿La marca de tabaco o cigarrillo que consume influye en la edad del
consumidor? o mejor ¿La edad del consumidor influye en la marca de tabaco o
cigarrillo que consume? la respuesta de la variable que influye la llevaremos a
las columnas y la otra variable a las filas. Ahora bien, procedemos a asignar las
variables “NIV_EDAD”; “NV_SEL”; “CIUDAD”; “GÉNERO”; “ESTADO_CIVIL”. En las
columnas. En las filas asignaremos las variables “TOP_OF_MIND” Y “MARCA_
PPL”. Ver figura 3.13.
35

FIGURA 3.13. TABULACIÓN DE FRECUENCIAS CRUZADAS.

En la figura 3.14 se observa la tabla resultado, y se sugiere en principio


interpretar por las columnas. Pero podemos ver que los datos de la tabla están
presentados en valores absolutos y se puede dificultar un poco la interpretación,
entonces, vamos a la parte inferior de la venta y damos clic en el botón
y aparece la ventana emergente en donde decidimos como queremos nuestra
tabla. Damos clic en el botón “VER” y clic en aceptar y ya está, el resultado
aparece en la figura 3.15.
36

FIGURA 3.14. DEFINICIÓN DE PORCENTAJES COLUMNA.

Ya en la figura 3.15 se presentan los resultados en porcentaje por columna.


Todas las tablas solicitadas aparecen en una misma ventana y van apareciendo
a medida que vamos desplazándonos hacia la derecha de la pantalla. Veamos
la primera tabla, en la primera columna está la variable “CIUDAD” y en las filas
“TOP_OF_MIND” y “MARCA_PPAL”. Vemos que la primera ciudad es México DF,
con 836 encuestados. Del 100% de los encuestados en ciudad de México (836)
el 17.3% conocen la marca L&M, el 1.4% conocen la marca CAMEL, el 16.4%
la marca MARLBORO, el 14.6% la marca BOSTON, el 9.3% la marca KOOL y el
11.2% la marca DERBY.

Si sumamos todos estos porcentajes nos dará el 100% de las respuestas


de México DF en la variable “TOP_OF_MIND”. De esta forma podemos
ver que la marca CAMEL es muy conocida en ciudades como San Salvador
y Managua.
37

Otra interpretación interesante puede ser que, en la ciudad de México la marca


de tabaco o cigarrillo que más se conoce es GREEN. Si observamos en la misma
ciudad de México pero que marca de tabaco o cigarrillo es la que más se vende,
es MARLBORO seguida de LUCKY STRIKE. Podríamos suponer que en el momento
en que se realizó la investigación de TABACO, estaría pautando fuertemente en
medios masivos la marca GREEN en ciudad de México.

FIGURA 3.15. TABULACIÓN CRUZADA EXPRESADA EN PORCENTAJES DE COLUMNA.

Una variable cualitativa y una variable cuantitativa

Existen casos en que deseamos conocer la distribución de una variable


cuantitativa a lo largo de las categorías de una variable cualitativa. Por ejemplo
en el archivo TABACO.GBW7, se desea establecer el consumo promedio diario
de cigarrillos o tabaco y su dispersión, por las variables, CIUDAD, NIV_EDAD y
NIV_SEL. En la barra de herramientas damos clic en el botón “Tabulación”, en
38

seguida damos clic en el icono de la barra de herramientas y del menu


que se despliega damos clic en “Estadísticos cruzados”, aparece una ventana
emergente en donde vamos a incluir en la casilla de columnas las variables,
CIUDAD; NIV_EDAD; NIV_SEL. En las filas incluimos la variable CONSUMO_DIA.
Estando esta última variable iluminada en color azul, damos clic en el botón
“Estadísticos” que está ubicado al lado derecho de la pantalla emergente, y
seleccionamos lo que se nos solicitó en el párrafo anterior, “Media”, “Desviación
típica” y “Coeficiente de variación”. Damos clic en el botón aceptar y nuevamente
en el botón aceptar. Ver figura 3.16.

FIGURA 3.16. TABULACIÓN CRUZADA DE VARIABLES CUALITATIVAS VS CUANTITATIVAS.

De inmediato aparece en la figura 3.17 la tabla de resultados de los solicitados


en la figura 3.16. En las columnas observamos las variables CIUDAD; NIV_SEL;
NIV_EDAD, seguidas de cada una de sus categorías.
39

En las filas se presenta el valor promedio o medias aritméticas de la variable


CONSUMI_DIA, con su desviación típica y coeficiente de variación. Se observa
claramente que las dispersiones de todas las categorías son muy similares (Ver fila
coeficiente de variación) estando muy cerca del 90%. Las ciudades de San Salvador
y Quito son aquellas en donde el consumo promedio diario de cigarrillos o tabaco
es superior al resto de ciudades. Adicionalmente si dividimos el valor promedio de
San Salvador (9.4) y de Quito (9.4) en el valor promedio total (7.0), obtendremos
que estas ciudades se fuma un 34% más de cigarrillos diarios en promedio que en
todas las ciudades estudiadas y en conjunto con los mayores de 45 años.

FIGURA 3.17. RESULTADOS DE LA TABULACIÓN DE LAS VARIABLES CUALITATIVAS VS LAS


VARIABLES CUANTITATIVAS.
40

Importancia de las “Bases” del estudio

Generalmente en las investigaciones de mercado se desea efectuar análisis de los


datos, más allá de la base total de encuestados. Para nuestro ejemplo del archivo
TABACO.GBW7, la base total del estudio o investigación es de 2087 entrevistas
o encuestas realizadas. A continuación presentaremos unos ejemplos de cómo
“jugar” con las diferentes bases del estudio, con el propósito en entender y
describir muy bien los datos recolectados.

En la figura 3.18, estando en la ventana de “datos” vamos a la barra de herramientas


y pulsamos en el botón “Tabulación” y damos clic en el botón y de inmediato
aparece la ventana “Asistente para la creación de condiciones”. Seleccionamos las
variables CIUDAD; NV_SEL; NV_EDAD. Las desplazamos con la flecha a la ventana a la
derecha e inmediatamente nos va a ubicar cada una de las variables solicitadas con
cada uno de los códigos correspondientes. En la casilla “Nombre de la base o sufijo”
ingresamos “Base 1” Lo demás lo dejamos por defecto y clic en el botón “Aceptar”.

FIGURA 3.18. ESTABLECIMIENTO DE BASES DEL ESTUDIO


41

Definida la primera “Base” vamos al botón y solicitamos “frecuencias


Cruzadas” y en las columnas ingresamos la variable “Género” y en las “Filas”
la variable “Lugar de compra”. Damos clic en el botón “Bases” a la derecha de
la variable columna y seleccionamos la base que deseamos. Para este ejemplo
queremos que nos presente solo a los jóvenes menores de 34 años y que vivan
en la ciudad de México. Ver figura 3.19.

FIGURA 3.19. CÓMO CREAR “BASES” UNITARIAS

Después de dar clic en el botón “aceptar” de la ventana de “bases” y nuevamente


“aceptar” en la ventana activa, nos aparece la tabla solicitada en la figura 3.20.
42

FIGURA 3.20. TABLA DE FRECUENCIAS CRUZADAS UTILIZANDO LA OPCIÓN “BASES”

Como se observa en la figura 3.20, aparecen tres tablas diferentes. La primera


representa a 836 encuestados en la ciudad de México, de los cuales 502 son
“Hombre” y 334 “Mujer”. En la segunda tabla aparece el rango de edad de “18
a 24 años” para un subtotal de 565 encuestados. En la tercera tabla aparece el
rango de edad de “25 a 34 años” para un subtotal de 597 encuestados.

Sin embargo, deseamos que en la cabecera de la tabla solo aparezca la base


solicitada, es decir: “Los jóvenes de la ciudad de México”.

Para tal propósito deberemos agrupar en una sola categoría al rango de edad de 18
a 24 y de 25 a 34 años. Para tal fin, damos doble clic en la variable NIV_EDAD y nos
aparece la tabla de propiedades de dicha variable y en el botón gestión de códigos
creamos la nueva categoría “Jóvenes” cuyos códigos serán 1_2, que significa que
agrupe los códigos número uno y dos en un solo código. Ver figura 3.21.
43

FIGURA 3.21. PROCEDIMIENTO DE AGRUPACIÓN DE CÓDIGOS

Habiendo creado la nueva categoría “Jóvenes” dentro de la variable NIV_EDAD,


se procede a crear la nueva base: MEXICO-JOVENES.

Como se puede apreciar en la figura 3.22, damos clic en la barra de herramientas


en el botón de tabulación, enseguida clic en el botón , y clic en “Bases de
cálculo”. Ingresamos en la casilla correspondiente al texto de la base “Jóvenes”
damos “Enter” y ubicados en la casilla “Condición de la base” damos clic en el
botón “Calculadora” ubicado en el extremo izquierdo inferior de dicha ventana
y nos parece una nueva ventana en donde seleccionaremos la condición que
deseamos, de acuerdo a la figura 3.22.
44

FIGURA 3.22. PROCEDIMIENTO DE CREACIÓN DE “BASES” PERSONALIZADAS

Hasta aquí hemos creado nuestra nueva base, ahora solicitaremos nuevamente
la tabulación cruzada: Jóvenes menores de 34 años y que vivan en la ciudad de
México. Con esta base se desea conocer en donde compran tabaco o cigarrillos
los consumidores y cuál es su género.

Nuevamente vamos al botón de tabulación de la barra de herramientas, damos


clic en “Frecuencias cruzadas”; ingresamos en columnas la variable “Género”
estando seleccionada, damos clic en el botón “Bases” y ya nos aparece nuestra
nueva base “Jóvenes” la seleccionamos y damos aceptar. Ingresamos en las
variables fila, la variable “Lugar de compra” y damos aceptar. Ver figura 3.23.
45

FIGURA 3.23. TABLA DE FRECUENCIAS CRUZADAS CON LA BASE “JÓVENES”

En la figura 3.24, se puede apreciar la nueva tabla tal y como la solicitamos, es


decir. De los 2087 encuestados totales, existen 567 jóvenes (de 18 a 34 años)
que viven en la ciudad de México. De los cuales 346 son hombres y 221 son
mujeres. Con sus respectivas frecuencias del lugar en donde compran tabaco
o cigarrillos.
46

FIGURA 3.24. TABULACIÓN CRUZADA CON BASE “JÓVENES DE LA CIUDAD DE MÉXICO”

Ya hemos abordado el procedimiento básico para la solicitud de las


bases de cálculo. El GBW7 es un software muy completo en este tipo
de procedimientos que son demandados diariamente por las empresas
dedicadas a la investigación comercial y de mercados.
47

CAPÍTULO 4
La inferencia estadística y
la investigación de mercados
Capítulo 4: La Inferencia Estadística y La Investigación De Mercados.
En este capítulo se abordarán aquellas herramientas
estadísticas de mayor utilización en la investigación
comercial y de mercados, en referencia a la inferencia de los
resultados obtenidos de una muestra hacia el marco muestral
o población objeto del estudio.

Sin embargo hay que dedicar especial énfasis en la muestra


obtenida. Si la muestra fue recolectada aleatoriamente y
perteneciente al marco muestral definido en el diseño de la
investigación, sí que se puede “inferir” los resultados de la
muestra al universo estudiado. Si no existió la rigurosidad
pertinente a la recolección de la muestra, no se pueden
“inferir” los resultados a la población.

Pero se debe ser optimista y basarse en lo simple sin caer


en la tentación de la utilización de términos muy técnicos
y la potencialización de lo “complicado”. Con el objetivo
de satisfacer el “ego” de quien analiza, interpreta o
enseña, los resultados. Solo logrando transmitir confusión
y desasosiego.

En la realidad empresarial, en el constante dilema de la toma


de decisiones diarias, hay tiempo suficiente para entender
los conceptos generales y la importancia del rigor de los
supuestos matemáticos. Pero no hay tiempo para “descifrar”
complicados informes y entender las demostraciones
48

matemáticas de las técnicas estadísticas empleadas. Para esto último


existen en el mercado un gran número de libros de texto y programas
informáticos que le “ahorran” este proceso a quienes trabajan cada día
en la toma de decisiones empresariales o corporativas.

Dado lo anterior, deseo citar la reflexión de Fernández y Fernández


(2009,184), en referencia al análisis de los datos y el contraste de
hipótesis,

“Las tareas de reflexionar sobre los datos y de enseñar a reflexionar


sobre los datos han sido históricamente insuficientes. Los aprendices de
investigador y, en consecuencia, los investigadores, no hemos adquirido
el hábito de aprender a reflexionar sobre los datos. La formación
marcadamente formalista y algorítmica, fruto del emparejamiento entre
matemáticas y estadística, que alcanza su culmen en la SE (Significación
Estadística), podría explicar tal limitación.

Reflexionar sobre los datos nunca es un proceso completo y acabado en


el que la respuesta sea final, definitiva. Este proceso de razonamiento
es más bien circular, los datos se van interpretando volviendo siempre
hacia atrás, para reexaminar si la hipótesis planteada era verosímil,
y simultáneamente, tratando de comprender como hemos realizado
ese mismo razonamiento, y hacia adelante, volviendo a interrogarnos
con cuestiones de tipo: ¿Qué hemos aprendido de ellos? ¿Cómo hemos
aprendido de ellos? ¿Podemos seguir aprendiendo?

La naturaleza epistemológica de todo contraste de hipótesis es


eminentemente interdisciplinar, más filosófica que matemática, más de
pensamiento que de herramientas auxiliares, más de ideas potentes y
diferentes que de artefactos de las tecnologías de la información y
del procesamiento, mas social y compartida que individual y solitaria.
49

Incluso, para reflexionar sobre los datos, necesitaríamos bases teóricas


(Teorías metacognitivas) que orientasen e iluminasen la acción.

Comprender además, el contexto en el que se generan una serie


de datos es absolutamente esencial, y no tras una simple recogida
de datos accedemos a la comprensión de ese contexto. La riqueza
contextual necesita una exploración más compleja. De aquí surge otra
notable cuestión:

¿Cómo influye el conocimiento del contexto en la reflexión sobre los


datos disponibles? ¿Es posible operar de forma precisa con los datos
sin un nivel de comprensión significativo del contexto?

Al enfrentarnos a la tarea de reflexionar sobre los datos es inevitable


una sensación de inseguridad e incluso de falta de competencia. Sólo
el tiempo y la innegable fertilidad de la propuesta harán superable
tal sensación”

A continuación en el diagrama 1, se presentan los pasos o etapas para


la inferencia estadística en la investigación de mercados. Es importante
resaltar que las etapas expuestas en dicho diagrama son las más utilizadas
en el día a día en la investigación de mercados tanto en las empresas
que ofrecen este tipo de servicio como las que las contratan. En otras
disciplinas muy seguramente estas etapas serán reemplazadas por otras
que más se adecuen al negocio.

De regreso al diagrama 1, se observan dos caminos o alternativas que


suelen ser complementarias más que excluyentes. Depende del objetivo
de la investigación y de la escala contenida en las variables de interés. Si
son variables medidas en escala “cuantitativa” se aplicarán las pruebas
50

t y el análisis de la varianza unidireccional. Estas pruebas corresponden


a los contrastes paramétricos. Si por el contrario son variables medidas
en escala “cualitativa” se aplicarán el Ji cuadrado y la correlación de
Sperman. Estas pruebas corresponden a los contrastes no paramétricos.
Pero atención, las anteriores no son las únicas pruebas de contraste de
hipótesis, hay múltiples pruebas que como se citó anteriormente, depende
del tipo de investigación, la naturaleza de los datos y el buen juicio
del investigador.

DIAGRAMA 1. ETAPAS DE LA INFERENCIA EN LA INVESTIGACIÓN DE MERCADOS


51

Enseguida enumeraremos los pasos a seguir en la inferencia para la


investigación de mercados:

Los Paramétricos

• Paso 1: Proceso de aleatoriedad. Asegurarse y verificar que en el diseño


del trabajo de campo o recogida de los datos, se le dio a cada individuo de
la población objeto del estudio, igual probabilidad de ser seleccionado para
aplicarle la encuesta.

• Paso 2: Volver en el tiempo (Recordar la distribución normal).

El teorema del límite central y la distribución normal son conceptos básicos


estadísticos que casi toda persona del área de marketing conoce o por lo menos
lo conoció y estudio. La distribución normal o el supuesto de normalidad de los
datos son aplicados en los contrastes de hipótesis “paramétricos”.

Esto significa que los datos deben provenir de una población homogénea o de
características similares, que los datos de dicha población deben ser de tipo
cuantitativo continuos, cuya media aritmética es cero y desviación típica uno, que
la media, mediana y moda, coinciden en el centro de una distribución simétrica,
etc. Sin embargo y más adelante se abordará con más detalle, generalmente en la
investigación comercial y de mercados, difícilmente se cumplen los supuestos para
los contrastes paramétricos, es decir, no se cumple el supuesto de normalidad.
Simplemente debido a que los datos que se recogen del consumidor en su mayoría
son datos de tipo o escala “cualitativa”. En estos casos se acude a los contrastes
“No paramétricos” que presentan menos restricciones que los “paramétricos”.
52

La distribución normal es el supuesto que los datos deben cumplir para poder
aplicar algunas técnicas de análisis de datos que así lo requieren.

-4 -3 -2 -1 0 1 2 3 4
68%
95%
99,7%

FIGURA 4.1. CURVA DE LA DISTRIBUCIÓN NORMAL

En la figura 4.1 se aprecia la forma o distribución de los datos que cumplen dicho
supuesto (normalidad), como se puede ver el valor central es “cero” y valores
a la derecha se incrementan de uno en uno. A su vez, valores a la izquierda
del “cero” decrecen a partir de menos uno y de uno en uno. La pregunta que
cabría hacer es: ¿Qué significan estos números? La respuesta es muy simple, los
datos recolectados de una muestra deben “normalizarse” es decir volverlos a
una escala de medida que sirva para cualquier propósito.
53

Está “normalización de los datos” se denomina como “puntuación z” y es el


resultado de tomar cada uno de los datos de la variable que se desea analizar y
aplicar la siguiente fórmula:

Z = en donde “Xi” es el dato especifico o valor, restando el promedio aritmético


y dividiendo el resultado de esta resta en la desviación típica. Pero veámoslo en
un ejemplo. En el archivo de ejemplo TABACO.GBW7, vamos a analizar la variable
“Edad” que en este fichero se denomina “EXACT_EDAD” y vamos a convertir
cada una de las edades en su respectivo valor “z”. Lo primero que hacemos
es calcular el promedio aritmético de la variable “Edad” y su correspondiente
desviación típica. Estando con el fichero TABACO.GBW7 abierto, damos clic en
el botón “Tabulación” , en seguida clic en “Marginales de Estadísticos” e
ingresamos la variable “EXACT_EDAD” y en el botón “Estadísticos” seleccionamos
“media” y “desviación típica” y botón “aceptar”. Ver figura 4.2.

FIGURA 4.2. MARGINALES DE ESTADÍSTICOS PARA LA VARIABLE EDAD


54

De la anterior instrucción obtenemos que la media o promedio aritmético es de


35 años de edad y la desviación típica es de 12.9 años de edad.

Con estos datos vamos a “normalizar” o lo mismo, convertir en puntuación


“z” a la edad del primer encuestado. Por lo tanto, vamos a la primera fila que
corresponde a la encuesta número “10701” y nos desplazamos a la derecha
y detectamos la edad para este encuestado, que es de “64 años”, y ya está.
Reemplazamos en la fórmula de la puntuación z, así: Z = = 2.24. Esto quiere
decir que el valor “z” para el encuestado número “10701” es de 2.24. Como lo
estarán pensando, hacer manualmente este cálculo por sencillo que sea es un
“ladrillo”. Vamos a nuestra ventana de datos del fichero TABACO GBW7 y damos
clic en el botón “Análisis” y clic en el botón y en la ventana que aparece
ingresamos la variable “Exact_edad” y aceptar. Ver figura 4.3.

FIGURA 4.3. NORMALIZACIÓN DE VARIABLES

Vemos como resultado, la creación automática de una nueva variable “$Exact_


edad_1” que es el valor “z” de cada uno de los encuestados y para el encuestado
55

número 10701 su valor “z=2.23918” igual al que calculamos manualmente en el


párrafo anterior con las diferencias mínimas de los decimales.

Solo falta calcular la media o promedio aritmético y la desviación típica para


esta nueva variable normalizada “$Exact_edad_1”. Vamos a “Tabulación”’
“Marginales de estadísticos” ingresamos la nueva variable “$Exact_edad_1”
solicitamos “media” y “desviación típica” y el resultado es de “0” para la “media”
y de “1” para la “desviación típica”.

En este punto, vamos a la figura 4.1 (Curva normal) y ahora si podemos entender
los números que allí aparecen. El número “0” que está en el centro de la curva
corresponde a la media de los valores “z” en nuestro ejemplo de la variable
“edad”. El “+1” significa que al valor medio de “0” se le suma “1” desviación
típica. El “+2” que al valor medio de “0” se le suman “2” desviaciones típicas. El
valor “3”que al valor medio de “0” se le suman “3” desviaciones típicas. Ahora
bien al lado izquierdo del valor “0” en la figura 4.1. El “-1” significa que al valor
medio de “0” se le resta “1” desviación típica. El “-2” que al valor medio de “0”
se le restan “2” desviaciones típicas. El valor “3” que al valor medio de “0” se le
restan “3”desviaciones típicas.

Para nuestro ejemplo de la variable edad normalizada el valor obtenido para el


encuestado 10701 de 2.23918 se situaría muy cercano al número “+2” de la
figura 4.1.

Finalizando la interpretación de la figura 4.1, en letra azul aparece un “68%” que


significa que el 68% de todos los datos de cualquier variable en estudio, estarán
ubicados en la zona comprendida entre el “-1” y “+1” desviaciones típicas. El
95% de los datos se ubicarán en la zona comprendida entre el “-2” y el “+2”
desviaciones típicas. Y el 99.7% de los datos se ubicarán en la zona comprendida
entre el “-3” y el “+3”desviaciones típicas.
56

• Paso 3: Significancia o Significación.

Estos términos son intercambiables y se utilizan para establecer si las diferencias


que se presentan en el análisis o comparación de dos variables, son “reales” o
se deben a la casualidad.

Por tal motivo, es bien común escuchar en el mundo del marketing la siguiente
pregunta: ¿Hay diferencias estadísticamente significativas en los resultados
obtenidos? La respuesta es muy sencilla solo debemos determinar cuál es la zona
de aceptación y la zona de rechazo de los resultados obtenidos en el estudio
o investigación.

Por lo tanto se debe decidir entre dos zonas, de aceptación y de rechazo. En


investigación de mercados es generalizada la zona de aceptación del 95% y la
zona de rechazo, expresada por el símbolo “α” es del 5%. No olvidar que los
datos deben ser convertidos o normalizados a “puntuaciones z” y aquellos que se
encuentren dentro de la zona de aceptación del 95% no representan diferencias
estadísticamente significativas, y aquellos que se encuentren dentro de la zona
de rechazo, 5%, sí que presentan diferencias estadísticamente significativas.

Regresando a la figura 4.1, los datos normalizados que se encuentren en la


zona delimitada por la línea verde o 95%, serán aquellos que no presentan
diferencias estadísticamente significativas, y los datos que se encuentren por
fuera de los límites de la línea verde serán aquellos que si presentan diferencias
estadísticamente significativas.

Ahora bien, estas “zonas” de aceptación y “rechazo” están irrestrictamente


ligadas a los conceptos de hipótesis nula (Ho) y de hipótesis alterna (H1).
Queriendo decir que la “zona” de aceptación hace referencia siempre a la
hipótesis nula (Ho) y la “zona” de rechazo hace referencia siempre a la hipótesis
alterna (H1). Entonces, la Hipótesis nula (Ho) siempre va a estar en el 95%
57

(Entre la línea verde de la gráfica 31) y la hipótesis alterna (H1) siempre va a


estar en el 5% (por fuera de la línea verde de la gráfica 31).

¿Y qué significa hipótesis nula y alterna? Con un ejemplo sencillo, una hipótesis
es una suposición o alguna idea no comprobada en la realidad.

De tal manera que la hipótesis nula o hipótesis cero, se puede explicar cómo el
punto de partida de esta suposición o idea inicial. Por ejemplo si no conocemos
cuál es el consumo semanal de cigarrillos o tabaco, por la variable género,
entonces, partimos del supuesto que el consumo semanal de cigarrillos o
tabaco es igual en hombres y en mujeres. Esta sería la hipótesis nula o “Ho”. La
hipótesis alterna o “H1” sería que el consumo semanal de cigarrillos o tabaco
es diferente en hombres y en mujeres. También se pueden plantear hipótesis
puntuales o cuantificadas y también se pueden plantear hipótesis secundarias.
Pero lo importante es entender el concepto básico de que es la hipótesis nula
y que es la hipótesis alterna.

Procedamos a ilustrar con ejemplo en nuestro archivo TABACO.GBW7, lo


anteriormente expuesto, en los siguientes pasos:

1. Plantear las hipótesis


a. Ho: El consumo promedio diario de tabaco o cigarrillos es igual para las
variables género, edad y nivel socioeconómico.
b. Hi: El consumo promedio diario de tabaco o cigarrillos es diferente para
las variables género, edad y nivel socioeconómico.
2. Determinar zona(s) de aceptación
a. 90%
b. 95%
58

c. 99%
3. Determinar zonas de rechazo
a. 10%
b. 5%
c. 1%
4. Establecer el estadístico de contraste. Para nuestro ejemplo y dado que
estamos planteando las hipótesis alrededor de una variable cuantitativa
(Consumo diario de tabaco/cigarrillo), el más común es la prueba t-student.
5. Establecer las reglas de decisión. De tipo, si el nivel de significación de
la prueba t-student se ubica en la zona de rechazo, quiere decir que se
rechazara la hipótesis nula planteada en el punto número uno. Si por
el contrario se ubica por fuera de los valores determinados en el punto
número dos, quiere decir que la hipótesis nula no se rechaza.
6. Presentar las conclusiones aplicadas al negocio o al propósito de la
investigación sin caer en la “trampa” de las explicaciones y demostraciones
sofisticadas y confusas.

Ahora ejecutemos todos los puntos anteriores en el GBW7 y nuestro archivo de


ejemplo TABACO y veremos lo sencillo y rápido de la respuesta.

Teniendo abierto el fichero de datos TABACO, iniciaremos solicitando la tabulación


de las variables planteadas en las hipótesis. Atención que se desea establecer si
hay diferencias estadísticamente significativas en el consumo promedio diario de
cigarrillos o tabaco, por género, nivel socioeconómico y nivel de edad. Dado que
estas tres últimas variables son de tipo cualitativo, procederemos a dar clic en el
botón y damos clic en “Estadísticos cruzados” y nos aparece una ventana
emergente como se observa en la figura 4.4.
59

FIGURA 4.4. ESTADÍSTICOS CRUZADOS PARA LA PRUEBA T-STUDENT

En la variable “Consumo_dia” damos clic en el botón “Estadísticos y seleccionamos


“Media”. Dando clic en los botones de aceptar nos aparece el resultado solicitado
en la figura 4.5.

Se puede observar que todos los promedios de consumo diario de cigarrillo


o tabaco son “Diferentes”, pero lo que no sabemos aún es si esos promedios
son “Estadísticamente diferentes” o en el vocabulario común del marketing seria
“Diferencias significativas” entre dichos promedios.

Estando todavía en la figura 4.5 damos clic en la parte inferior de dicha ventana en el
botón y aparece la ventana emergente “Estadísticos de frecuencias” damos clic
en el botón “Pruebas significación” y aparece la ventana emergente de la figura 4.6.
60

FIGURA 4.5. CONSUMO PROMEDIO DIARIO DE CIGARRILLOS/TABACO

En la ventana presentada en la figura 4.6 se observan las dos primeras opciones


para las pruebas de significancia estadística. La primera, la Ji cuadrado que se
aplica cuando se están analizando dos variables de tipo cualitativo, es decir,
medidas en escala nominal u ordinal. La segunda, la t student que se aplica
cuando una de las dos variables que se estén analizando sea de tipo cuantitativo
o medida en escala de intervalo o de razón.

Ahora bien, para el ejemplo que estamos presentando seleccionamos la casilla


“Prueba de significación t-student” y seleccionamos las demás casillas tal
y como se presenta en la figura 4.6, y damos clic en el botón “Aceptar” y
nuevamente “Aceptar”.
61

FIGURA 4.6. VENTANA PRUEBA T-STUDENT

En seguida aparece la figura 4.7 con los resultados de la prueba. Allí se ven debajo
de los promedios por columna unas letras en mayúscula y unas en minúscula.

Si observamos la cabecera de la tabla vemos que a cada categoría de las variables


cualitativas se les asigno una letra. Para género se le asignó la letra A para los
hombres y la letra B para las mujeres, de igual forma para las variables edad y
nivel socioeconómico.
62

Entonces muy sencillo, si aparecen letras mayúsculas con asterisco, se interpreta


que hay diferencias significativas al 99% entre las columnas por “pares”. Es claro
que para la columna de edad de “45 a 54 años” que le correspondió la letra “D”
presenta diferencias estadísticamente significativas al 99% en el consumo promedio
de cigarrillos al día, con los rangos de edades pertenecientes a las columnas
“A”,”B”,”C”. De otra parte, si se presentan letras mayúsculas (SIN asterisco) debajo
de los promedios solicitados, se interpreta como diferencias significativas al 95%. En
nuestro ejemplo no aparece ninguna letra mayúscula sin el asterisco. Pero aparece
una letra minúscula y es la letra “a” en la columna “B” correspondiente al rango de
edad comprendido entre 25 a 34 años de edad. Se interpreta como la diferencia
estadísticamente significativa al 90% en el consumo promedio de cigarrillos en un día,
entre los rangos de edad de 25 a 34 años frente al rango de edad de 18 a 24 años.

FIGURA 4.7. PRUEBAS T-STUDENT, CONSUMO PROMEDIO DIARIO DE CIGARRILLOS/TABACO


63

Pero atención, las pruebas solicitadas y explicadas en el párrafo anterior se


efectúan entre las categorías de cada variable cualitativa y no entre las variables.
Entonces se interpreta las categorías de la variable “Genero” frente a la variable
“Consumo diario promedio de cigarrillos”. La variable “Edad” frente a la variable
“Consumo diario promedio de cigarrillos”. Y la variable “Nivel socioeconómico”
frente a la variable “Consumo diario promedio de cigarrillos”.

En conclusión desde la perspectiva del negocio del tabaco, se puede afirmar que
existen diferencias estadísticamente significativas en el consumo promedio diario
de tabaco o cigarrillos siendo los adultos mayores de 45 años quienes consumen
en promedio más cigarrillos o tabacos al día, observándose en su mayoría a
los hombres. Sin embargo, el nivel socioeconómico no incide en el consumo de
cigarrillos promedio en un día.

Análisis de la Varianza

A continuación se presenta la utilidad y supuestos del análisis de la varianza:

• Sirve para constatar si existen diferencias estadísticamente significativas en la


comparación de dos o más grupos o muestras.
• La fórmula es la misma de la desviación típica pero elevada al cuadrado
σ2= ∑(Xi- )2
N

• La varianza es una medida o cuantificación de la dispersión de los objetos en


referencia al promedio aritmético de los mismos.
• Lo importante es poder explicar el ¿por qué? De la variación de los datos y de
donde provienen las diferencias.
• Se considera que dos grupos son diferentes si la variación de las medias entre
los grupos es mayor que la variabilidad de las medias dentro de los grupos.
64

• Los supuestos del análisis de la varianza son:


a. La métrica o escala debe ser de intervalo.
b. La variable dependiente debe distribuirse normalmente.
c. Homogeneidad de la varianza de las muestras estudiadas.

A continuación se realiza un ejemplo del análisis de la varianza del archivo TABACO.


GBW7 en donde la hipótesis nula o Ho es la igualdad en el consumo promedio
diario de cigarrillos o tabaco entre las marcas que se venden y se prefieren en
el mercado. La hipótesis alterna o Hi es la existencia de diferencias significativas
en el consumo promedio diario de tabaco entre las marcas que se venden y se
prefieren en el mercado.

Y en términos más coloquiales del negocio del tabaco, es que se desea conocer si
existen diferencias estadísticamente significativas en el consumo promedio diario
de tabaco o cigarrillos entre las marcas que compiten en el mismo.

De tal manera, vamos al menú de herramientas del archivo TABACO y damos


clic en el botón “Análisis” y clic en el botón de análisis de la varianza .
Enseguida aparece la ventana y nos pregunta si será de “un factor” o “dos
factores”. Seleccionamos “un factor” y aparece la ventana emergente en
donde incluimos como variable independiente la variable cualitativa “marca_
ppal” y en la variable a contrastar la variable cuantitativa “consumo_día”,
damos clic en “bilateral” (Es decir a dos colas) y pulsamos el botón aceptar.
Ver figura 4.8.
65

FIGURA 4.8. SOLICITUD DEL ANÁLISIS DE LA VARIANZA

Después de dar clic en botón “Aceptar” aparecen los resultados en el editor de


resultados: Figura 4.9.
66

FIGURA 4.9. RESULTADOS DEL ANÁLISIS DE LA VARIANZA.

Al inicio de la figura 4.9 se observa la tabla resumen de los promedios diarios de


consumo por marca junto a su desviación típica, error e intervalos de confianza.

En seguida aparece la tabla del Test de Levene o estadístico de Levene, dicho


test contrata la hipótesis nula o Ho de la igualdad de varianzas.

El estadístico de Levene es de 21.5 con un nivel de significancia de 0.000.


Rechazando la hipótesis nula dado que el valor p es menor a 0.05. En otras
palabras, al rechazarse la hipótesis nula significa que las varianzas son
diferentes y por tal motivo se estará violando uno de los supuestos del análisis
de la varianza, el de la homogeneidad de las varianzas.

La última tabla “ANOVA” presenta los resultados del análisis, interesándonos


la columna del valor “F” de 27.8 que es simplemente el dividir los valores de
los cuadrados medios 1090.8/39.2. Presentándonos una diferencia sustancial
67

entre la varianza “entre grupos” frente a la varianza “intra grupos”. Es mayor


la variación entre las marcas que dentro de las marcas de tabaco o cigarrillos.

La significación es de 0.0000, invitándonos a rechazar la hipótesis de


igualdad en los promedios. Permitiéndonos concluir que existen diferencias
estadísticamente significativas en el consumo promedio diario de cigarrillos
o tabaco por marca consumida.

Observando estas diferencias podemos identificar tres grandes grupos de marcas


por consumo promedio diario, primero las de gran consumo que estarían las
marcas Winston y Camel. Las de consumo medio, L&M y Derby. Por último las de
bajo consumo que serían Marlboro, Lucky Strike y Kool.

Sin embargo, recordemos que este ejemplo que se ha presentado no satisface el


supuesto de normalidad de la igualdad de varianzas.

Pero observando los resultados se ven las diferencias en los promedios.


Entonces la cuestión surgida es ¿Se puede confiar en los resultados obtenidos
dado el incumplimiento de los supuestos del modelo de análisis de la varianza?
La respuesta obvia desde el rigor de la estadística sería intentar transformar la
variable “consumo_día” por su logaritmo natural e ir buscando transformaciones
que permitan cumplir con los supuestos del modelo da análisis de la varianza.
Pero, en las transformaciones se puede perder información en los datos….

La respuesta desde la perspectiva del gestor de marketing es que sí sirven los


resultados dado que nos muestran las diferencias significativas en los consumos
promedios diarios.

Ahora bien, a continuación se va a presentar un ejemplo en donde se cumplen los


supuestos para el análisis de la varianza.
68

Damos clic en el botón análisis de la barra de herramientas, nuevamente clic en


el botón de un factor e incluimos como variable independiente la variable
“marca_ppal” y como variable a contrastar “evaluación_marca”. En este variable
se le preguntaba al encuestado ¿Cuál es su opinión general de su marca principal?
Y respondía en una escala numérica de 1 a 6 en donde 1 era una mala evaluación
en general y 6 una excelente evaluación en general.

Se desea determinar si existen diferencias estadísticamente significativas en las


evaluaciones promedio, entre las marcas consumidas.

Estadístico de Levene (medias) gl1 gl2 Sig.


2,4 6 2080 0,1

TABLA 1. TEST DE LEVENE

En la tabla número uno se observa que la significación (Sig es de 0,1) no


rechazando la hipótesis nula de la igualdad en las varianzas. Por lo tanto se
cumple el supuesto de homogeneidad de las varianzas para este ejemplo.

En la tabla número 2 se presentan los estadísticos descriptivos para la variable


“evaluación_marca”. Con estos estadísticos podemos determinar si dicha variable
se aproxima a una distribución normal.
69

EVALUACION_MARCA
Número de casos total 2087
Casos válidos 2087
Códigos especiales 0
Media aritmética 5,4
Error estimado 0
Intervalo confianza 90% ±0.0
Intervalo confianza 95% ±0.0
Intervalo confianza 99% ±0.0
Mediana 6
Primer cuartil 5
Tercer cuartil 6
Moda 6
Suma de casos 11247
Máximo 6
Mínimo 1
Rango 5
Desviación típica 0,8
% Varianza explicada 0,6
Coef. de variación 14,50%
Coef. de asimetría -1
Coef. aplanamiento 2,2

TABLA 2. ESTADÍSTICOS DESCRIPTIVOS VARIABLE “EVALUACIÓN_MARCA”

Se puede apreciar que los estadísticos de tendencia central como la media,


mediana y modo son muy cercanos y los coeficientes de asimetría y aplanamiento
también nos permiten determinar que dicha variable no se puede aproximar a
la distribución normal.

Con una concentración de los datos hacia los valores máximos y un aplanamiento
un poco inferior a lo acostumbrado. Por tal motivo también se estaría violando el
supuesto de normalidad.
70

En la tabla número 3 se presentan los resultados del análisis de la varianza:


Tabla N Media Desviación Error Interv. Interv. Mínimo Máximo
típica típico confianza confianza
límite límite
inferior superior
(95%) (95%)
L&M 418 5,3 0,9 0 5,2 5,3 1 6
CAMEL 300 5,4 0,8 0 5,3 5,4 3 6
DERBY 317 5,4 0,8 0 5,3 5,5 2 6
KOOL 203 5,4 0,7 0 5,3 5,5 3 6
MARLBORO 570 5,5 0,7 0 5,4 5,6 1 6
WINSTON 78 5,5 0,7 0,1 5,4 5,7 3 6
LUCKY 201 5,3 0,7 0,1 5,2 5,4 3 6
STRIKE
Total 2087 5,4 0,8 0 5,4 5,4 1 6

TABLA 3. DESCRIPTIVOS DEL ANÁLISIS DE LA VARIANZA.

Estableciéndose unos promedios por marca entre 5,3 y 5,4. Con desviación típica
que oscila entre 0,7 y 0,9. En la tabla número 4, se observa la significancia y el
valor F.
Tabla Suma Grados Cuadrados Prueba F Significación
cuadrados libertad medios
Entre-grupos 16,9 6 2,8 4,7 0,00024
Intra-grupos 1251,2 2080 0,6    
Total 1268,1 2086      

TABLA 4. ANÁLISIS DE LA VARIANZA PARA LA VARIABLE “EVALUACIÓN_MARCA”

En la última columna de la tabla 4 aparece la significación igual a 0,00024


menor al valor p de 0,05. Rechazándose la hipótesis nula de la igualdad en
71

los promedios de evaluación de las marcas consumidas. Se puede afirmar que


existen diferencias estadísticamente significativas en las evaluaciones promedio
entre las marcas consumidas.

Ahora bien, para fines prácticos del negocio del tabaco ¿son muy diferentes
aquellas evaluaciones de 5,3 frente a las de 5,4? Pero el modelo nos dice que
SI que son diferentes…. ¿Sirve para algo más allá que todas las marcas están
bien evaluadas?

En conclusión de los dos ejemplos expuestos para el análisis de la varianza, es


el buen criterio del responsable de dichos análisis quien debe decidir cuál de los
dos le aporta mayor valor analítico para su negocio.

Los NO Paramétricos

En los contrastes de hipótesis no paramétricos, vamos a hacer énfasis en el más


utilizado en la investigación comercial y de mercados y es el contraste Ji cuadrado
o Chi2. Pero es importante iniciar la explicación con una herramienta que nos
ayudará en la fácil comprensión del tema y son los residuos.
• Análisis de residuos. En investigación comercial y de mercados el análisis de
los residuos en las tablas de contingencia o tablas cruzadas es muy útil en la
ayuda del planteamiento de las hipótesis. Para entender la gran utilidad del
análisis de los residuos, se explicará en cinco pasos:

¿Qué es una frecuencia observada y una esperada?

En marketing es muy común el análisis de los datos obtenidos en una investigación


comercial o de mercados, a través de las tablas cruzadas o tablas de contingencia,
da tal manera que los datos recolectados y agrupados en una tabla cruzada, se
72

denominan “Frecuencias observadas”. Ahora bien, si las dos variables que se


están analizando en una tabla cruzada son “independientes”, ninguna influye en
el resultado de la otra, estaremos en el caso de las “Frecuencias esperadas”,
que son los resultados que “podríamos esperar o teóricos” si hay independencia
entre las dos variables. Ilustraremos lo anterior con un ejemplo:

En nuestro archivo de ejemplo TABACO.GBW7 tenemos dos variables, la variable


“Género” y la variable “Nivel de Edad”. Sabemos que nuestro archivo contiene
2087 encuestas o registros. Sabemos que en la variable “Género” hay dos
categorías; “Hombre” “Mujer”. A su vez la variable “Nivel de Edad” contiene
cinco categorías de edades; “18 a 24” “25 a 34” “35 a 44” “45 a 54” “55
a 64”.

Ahora bien, si solo poseemos esta información que acabamos de enunciar, ¿Cuál
sería la distribución esperada o teórica de los 2087 encuestados? Pues lo más
sencillo sería dividir los 2087 encuestados en dos géneros y cinco categorías
cada uno, así: por género 2087/2 = 1043.5 (lo aproximaríamos a 1043 hombres
y 1044 mujeres). En seguida dividimos a los 1043 hombres en cinco edades
1043
/5 = 209 hombres por cada rango de edad y dividimos a las 1044 mujeres
en cinco edades 1044/5 = 209. La tabla quedaría:

EDAD MUJERES HOMBRES TOTAL


18 a 24 209 209 418
25 a 34 209 209 418
35 a 44 209 209 418
45 a 54 209 209 418
55 1 64 208 207 415
TOTAL 1044 1043 2087

TABLA 5. DISTRIBUCIÓN DE FRECUENCIAS ESPERADAS O TEÓRICAS


73

Observando la tabla número 5, se puede entender fácilmente el concepto de


frecuencia esperada o teórica, independientemente de ser hombre o mujer, todas
las celdas tienden a obtener el mismo o casi mismo número de encuestados.

Observemos en la figura 4.10. La distribución de las frecuencias observadas de


nuestras dos variables “Género” y “Nivel de Edad”.

FIGURA 4.10. TABULACIÓN CRUZADA GÉNERO – RANGOS DE EDAD

Sin embargo, en la realidad de los estudios de mercado y siendo rigurosos a


la aleatoriedad de las observaciones, para nuestro ejemplo seguramente la
variables “Género” no estará exactamente distribuida equitativamente.

Vemos que hay 1368 mujeres y 719 hombres. Y los niveles o rangos de edad
son bien diferentes. En estos casos y por no decir en todos debemos acudir
a la siguiente formula con el propósito de calcular las frecuencias esperadas
o teóricas:
74

Total Fila (De la celda) x Total Columna (De la celda)


Frecuencia Esperada =
Gran Total de la Tabla

Calculemos la frecuencia esperada para la celda número uno de la figura 34. Esta
primera celda corresponde a los “Hombres” de “18 a 24 años”. Y sería

Frecuencia Esperada = 565 x 1368


/2087 = 370

Si volvemos a nuestro archivo de ejemplo TABACO.GBW7, veremos lo fácil que es


calcular cada una de las frecuencias esperadas de una tabla cruzada. Vamos a
la barra de herramientas y clic en el botón “Tabulación” clic en el botón
y seleccionamos de la lista desplegada “Frecuencias cruzadas”, asignamos la
variable género a las columnas y la variable Niv_edad en las filas y aceptamos
y aparece nuestra figura 38. Notemos que la tabla que nos aparece solo nos
presenta las frecuencias observadas y queremos ver también las frecuencias
esperadas. Vamos al inferior de la ventana y damos clic en el botón . En la
ventana emergente damos clic en la casilla “Combinar” y clic en el botón “Fe”
como aparece en la figura 4.11.

FIGURA 4.11. SOLICITUD DE LAS FRECUENCIAS ESPERADAS


75

Damos clic en “Aceptar” y “Aceptar” y vemos que nuestra figura 4.10 cambio por
la figura 4.12 y ya contiene ambas, las frecuencias observadas y las esperadas.
Cotejando la primera frecuencia esperada es igual a la que calculamos manualmente
en el párrafo anterior. Allí aparece en la primera fila de la celda uno, 381 frecuencias
observadas frente a 370 frecuencias esperadas. Significando que se observaron
más individuos en esta casilla que los esperados “teóricamente”. Así sucesivamente
cada casilla de la figura 4.12 contiene dos filas la primera corresponde a los valores
reales-observados y la segunda a las frecuencias esperadas o teóricas.

FIGURA 4.12. FRECUENCIAS OBSERVADAS Y FRECUENCIAS ESPERADAS

Si restamos a los valores de las frecuencias observadas los valores de las


frecuencias esperadas obtendremos un “Residuo”, estos “residuos” son muy
importantes en el planteamiento de las hipótesis.

En la figura 4.11 vemos tres botones adicionales “R”( residuo) es la diferencia


entre la frecuencia observada y la esperada; “RN” (Residuo Normalizado) es
76

tomar el residuo obtenido y dividirlo en la raíz cuadrada de la frecuencia esperada


con el objetivo de minimizar la incidencia de los valores extremos.

“RC” (Residuo Corregido), Toma el “RN” (Residuo Normalizado) y lo “tipifica”


dividiéndolo en la varianza estimada. Generalmente se les denomina residuos
ajustados de Haberman (1978) con µ = 0 y ᵟ = 1. Siendo extremadamente
útiles y fáciles de entender para el análisis de los residuos. Si estos residuos
normalizados corregidos, se sitúan a la derecha de “+ 2” desviaciones típicas, o
a la izquierda de “- 2”desviaciones típicas, (Ver figura 4.1). Se puede concluir que
existe una probabilidad de aproximadamente el 95%, que el residuo en estudio
sea significativamente diferente con aquel que se le compara.

Ahora bien, expuesto el cálculo de los residuos y que su procedencia es de la


diferencia entre las frecuencias observadas en una tabla de contingencia y las
esperadas o teóricas. Vamos a solicitarlos al GBW7.

En la barra de herramientas vamos al botón “Análisis” y damos clic en el botón


nos aparece la ventana emergente de la figura 4.13 y allí asignamos la
variable “Genero” en las columnas y la variable “Niv_edad” en las filas y dejamos
seleccionada por defecto la casilla “Residuos corregidos” y clic en aceptar.
77

FIGURA 4.13. ANÁLISIS DE RESIDUOS NORMALIZADOS CORREGIDOS

Como resultado aparece en la figura 4.14 los residuos solicitados. Apareciendo


en cada celda tres datos, el primero corresponde a la frecuencia observada,
el segundo corresponde a la frecuencia esperada y el tercero corresponde
al residuo normalizado corregido el cual es el que se interpreta a la luz de la
distribución normal explicada con anterioridad.

Ahora bien, y acogiéndonos a la “costumbre” del famoso nivel de confianza del


“95%”, vamos a plantear una regla de decisión muy simple: Los residuos (tercer
dato de cada celda) que sean mayores a 1.96 o menores a -1.96, serán los que
78

“llamen” la atención del investigador. Los que se encuentren entre -1.96 y 1.96,
serán aquellos residuos que no interesen al investigador. Indicando que residuos
superiores a 1.96 presentan una fuerte atracción en las categorías y los residuos
menores a 1.96 presentan un fuerte rechazo entre dichas categorías.

Volviendo a la figura 4.14, se observa que todos de los residuos normalizados


corregidos están dentro de la zona de +1.96 y -1.96, interpretándose que no
hay una asociación en las variables estudiadas.

FIGURA 4.14. TABLA RESULTADO RESIDUOS NORMALIZADOS CORREGIDOS

Si deseamos establecer si la marca de cigarrillos o tabaco se asocia con los


diferentes rangos de edad, vamos al botón “Análisis” de la barra de herramientas
79

y damos clic en el botón e ingresamos la variable “Niv_edad” en las


columnas y “Marca_PPAL” en las filas y damos clic en el botón aceptar y nos
aparece la figura 4.15.

Allí se sugiere analizar columna por columna e ir detectando valores superiores


a 1.96 y los inferiores a -1.96. En el primer rango de edad de 18 a 24 años
se observa la fuerte atracción hacia la marca “Marlboro” con un residuo de
12,017 y el rechazo a las demás marcas, excepto “Lucky strike” que no presenta
asociación. En el rango de edad de 25 a 34 años hay fuerte asociación a la marca
“Kool” con un residuo de 2,931 y rechazo a las marcas “Winston” (-4,166) y
“Camel” (3,150). En el rango de edad de 35 a 44 años, se evidencia un fuerte
rechazo a la marca “Marlboro” y atención, no hay asociaciones significativas con
las demás marcas. Sería muy interesante profundizar en las necesidades y deseos
de este nivel de edad. En el rango de edad de 45 a 54 años se presentan fuertes
atracciones hacia las marcas “Winston” y “Camel” y un fuerte rechazo hacia la
marca “Marlboro”. En el rango de edad de 55 a 64 años se presentan fuertes
asociaciones hacia las marcas “Winston”, “Camel”, “L&M”, y rechazo hacia las
marcas “Marlboro” y “Kool”.
80

FIGURA 4.15. ANÁLISIS DE RESIDUOS “EDAD” FRENTE A “MARCA PRINCIPAL”

Como lo puede estar pensando el lector, la utilidad, claridad y sencillez del análisis
de residuos, empieza a abrirnos los caminos a una mejor comprensión y por lo
tanto a una mejor interpretación de los resultados.

Ahora vamos a redactar las hipótesis para el modelo Ji cuadrado con un ejemplo aplicado.
1. Plantear las hipótesis
a. Ho: La edad del consumidor de cigarrillos no se asocia con la marca
principal consumida.
b. Hi: La edad del consumidor de cigarrillos si se asocia con la marca
principal consumida.
81

2. Determinar zona(s) de aceptación


a. 95%
3. Determinar zonas de rechazo
a. 5%
4. Establecer el estadístico de contraste. Para nuestro ejemplo y dado que
estamos planteando las hipótesis alrededor de dos variables cualitativas,
el más común es la prueba Ji-Cuadrado.
5. Establecer las reglas de decisión. De tipo, si el nivel de significación de la
prueba Ji-Cuadrado se ubica en la zona de rechazo, quiere decir que se
rechazara la hipótesis nula planteada en el punto número uno. Si por el
contrario se ubica dentro de los valores determinados en el punto número
dos, quiere decir que la hipótesis nula no se rechaza.
6. Presentar las conclusiones aplicadas al negocio o al propósito de la
investigación sin caer en la “trampa” de las explicaciones y demostraciones
sofisticadas y confusas.

Para resolver este planteamiento, vamos al botón “Análisis” de la barra de


herramientas y damos clic en el botón y nos aparece la ventana emergente
de la figura 4.16. Ingresamos la variable “Niv_edad” en las columnas y “Marca_
PPAL” en las filas. Seleccionamos “Prueba JI Cuadrado” y el “Coeficiente de
Contingencia”. Damos clic en el botón “Aceptar”.
82

FIGURA 4.16. SELECCIÓN PRUEBA JI-CUADRADO

Nos aparece el resultado en la figura 4.17, el primer dato que debemos analizar
es el que aparece después de la tabla como “Significación” dado que elegimos el
95% de nivel de confianza como zona de aceptación, observamos como resultado
un valor de significación de 0.000 que al ser menor al 5%, está dentro de la zona
de rechazo de la hipótesis nula planteada, sugiriendo el rechazo de la misma y la
adopción de la hipótesis alterna. Queriendo decir, que SI existe asociación entre
la variable nivel de edad y la variable marca principal.

El otro valor solicitado fue el “Coeficiente de Contingencia” que aparece como


“C=0.359”. Dicho coeficiente nos brinda la “Fuerza de la asociación” y está
contenido en un rango entre el 0% y el 100%. Para nuestro caso y dado la
naturaleza de los datos un 35.9% de “Fuerza” en la asociación nos puede indicar
una asociación aceptablemente consistente.
83

FIGURA 4.17. TABLA RESULTADO PRUEBA JI-CUADRADO


84

Por último y en términos de aplicación al negocio del tabaco o cigarrillos,


podemos concluir que existe una asociación aceptablemente fuerte entre las
variables nivel de edad y marca principal. Sugiriendo que el nivel de edad del
consumidor de cigarrillos o tabaco incide directamente en la marca principal
consumida, con las diferencias puntuales ya mencionadas en las conclusiones
del análisis de los residuos.

Finalmente, toda la exposición de los contrastes de hipótesis se realiza dentro


del contexto de la “realidad” empresarial o corporativa de la investigación de
mercados, sin la pretensión de exponer con la profundidad requerida de un libro
de texto.

Invito al lector a consultar a autores como (Fernández y Fernández 2009) y


Llobel et.al (2004), quienes exponen sus planteamientos críticos frente a la
significación estadística y las pruebas de hipótesis. Resaltando que se ha querido
dar importancia desmesurada a la significancia estadística y la dificultad en
“convencer” a los académicos e investigadores, en la cruda realidad de lo débil y
frágil de este tipo de pruebas.
85

CAPÍTULO 5
Segmentación de Mercados

Capítulo 5: Segmentación de Mercados


La segmentación de mercados es el proceso por el cual el
mercado de referencia se particiona o divide en unos grupos
homogéneos en su interior y heterogéneos entre sí. En relación
a unas variables de interés. Se sugiere revisar “American
Marketing Asotiation Core Marketing Knowledge:
Segmentation (2005)”.

A continuación se presentan unos consejos para un proceso


exitoso de segmentación:

• Los segmentos se descubren, No se construyen. Es muy


común encontrar en las empresas y en sus áreas de
marketing, la tendencia generalizada a construir los
segmentos de acuerdo a los intereses de quien lo hace
basados en la “firmografia”; variables construidas
desde la empresa y no desde el mercado o el cliente.
• Definir correctamente el mercado de referencia. Es
importante definir el mercado en el que se participa
en relación a las necesidades, deseos, expectativas de
los clientes, la competencia que participa, el entorno
que la envuelve y las formas o tecnologías para
acceder al mismo. No se trata en definir qué es lo que
hace la empresa, por ejemplo en una empresa de
telecomunicaciones definir el mercado de referencia
como la venta de soluciones de comunicación. El primer
paso sería definir quienes necesitan comunicarse,
86

cuáles son sus necesidades, deseos y expectativas. Cómo desean


comunicarse, en donde desean o necesitan comunicarse. Quienes
son los principales competidores y que ofrecen. Cómo impacta el
entorno al negocio de las telecomunicaciones. Qué tan fácil es el
acceso a las tecnologías de la comunicación, etc.
• Descubrir los segmentos. En este punto es muy importante tanto el
conocimiento y experiencia en el negocio como el conocimiento de
las técnicas y herramientas en el tratamiento de los datos y de
la información. Para descubrir los segmentos hay que descubrir
las variables que inciden en las necesidades y deseos del cliente
como aquellas variables que activan la compra. Una palabra muy
utilizada para tal fin son los ‘drivers” de la marca o el producto.
Las variables clave o “drivers” hay que descubrirlas preguntando
al consumidor o cliente y ojalá complementándolas con datos de
comportamiento obtenido de las transacciones realizadas.
• Distinguir variables de segmentación frente a variables de perfilación.
Tradicionalmente en los libros de texto de marketing se describen
las variables de segmentación como las geográficas, demográficas,
psicográficas. Como se expuso en párrafos anteriores, las variables
de segmentación se descubren a la luz de las necesidades,
deseos, expectativas de los clientes. Descubriendo estas variables
clave que diferencias a unos consumidores o clientes de otros, se
deben perfilar los segmentos descubiertos, por sus características
geográficas, demográficas y pictográficas.
• La segmentación debe ser efectiva. Para que pueda servir de foco para
la estrategia de marketing. Se deben evitar los errores comunes de la
“Firmografia”, es decir construir los segmentos. Los clientes o consumidores
están cada día evolucionando y por lo tanto la segmentación es un
proceso continuo y riguroso. Se deben construir modelos y constructos
que permitan descubrir efectivamente los segmentos.
87

• Los segmentos son multidimensionales. El cliente o consumidor en su


comportamiento de compra no es unidimensional o bidimensional.
Su comportamiento es multidimensional. Por lo tanto no es
pertinente intentar “enmarcar” el comportamiento del consumidor
solamente en dos dimensiones. Esto es muy común en el famoso
análisis matricial que por lo general propone la inclusión de dos
variables, olvidando el precepto de la multidimensionalidad. Por
lo tanto se debe acudir a aquellas técnicas avanzadas de análisis
de datos que permitan descubrir las variables clave de cada uno
de los segmentos.

TÉCNICAS MÁS UTILIZADAS EN LA SEGMENTACIÓN DE MERCADOS.

• Análisis de Conglomerados (Cluster Analysis).


• Análisis Discriminante.
• Regresión Logística.
• AID (Automatic Interaction Detection)
• CHAID

SEGMENTACIÓN AID

La segmentación AID (Automatic Interaction Detection) de sus siglas en el idioma


inglés, desarrollado por Sonquist, Baker y Morgan (1971), es un conjunto de
reglas que permite descubrir grupos homogéneos dentro de un gran grupo
heterogéneo, en relación a una variable dependiente o a explicar.

En este caso en particular la variable dependiente o variable a explicar es


una variable métrica o continua. Las variables independientes o variables
explicativas son variables de tipo cualitativo o de categorías.
88

Las reglas del algoritmo AID se basan en pruebas sucesivas del análisis de
la varianza de la variable dependiente por cada una de las categorías
de la variable independiente.

Se considera que dos grupos son diferentes si la variación de las medias


entre los grupos es mayor que la variabilidad de las medias dentro de
los grupos. Los supuestos del análisis de la varianza son: La métrica o
escala debe ser de intervalo, la variable dependiente debe distribuirse
normalmente, homogeneidad de la varianza de la muestras estudiadas.

Las reglas de parada o condiciones de parada del algoritmo AID se


pueden establecer de acuerdo al número mínimo de casos en cada nodo
y/o en el nivel de significancia mínimo. Los árboles de decisión también
pueden ser utilizados para estimar el valor de una variable continua, sin
embargo existen otras técnicas más adecuadas para este trabajo.

Adicionalmente y de destacada importancia es que la proporción de casos


en una deseada clase, pueden ser un score que frecuentemente son más
provechosos que la sola clasificación.

Vamos ilustrar con un ejemplo de nuestra base de datos TABACO, lo sencillo


que resulta el planteamiento del modelo AID, sus resultados y lo más
importante, cómo se aplican estos al descubrimiento de nuevos segmentos que
posteriormente servirán para el establecimiento de la estrategia “Targeting”.

Vale recordar que la primera sugerencia es el planteamiento del


objetivo de la segmentación. En tal sentido y para nuestro ejemplo del
mercado de tabaco o cigarrillos, deseamos determinar a qué se debe el
comportamiento de la variable “Consumo semanal de cigarrillos”. Es decir,
explicar que variables conducen a las diferencias en el consumo semanal
de tabaco o cigarrillos del mercado de referencia.
89

Ya establecido el objetivo de la segmentación, procedemos en la solicitud


del algoritmo AID. Escogemos dicho algoritmo dado que la variable que
deseamos estudiar o explicar es una variable de tipo métrico o cuantitativo
tal como es la variable “CONSUMO_SEMANAL”.

Ahora bien, ubicados en el archivo TABACO, figura 5.1, damos clic en el botón
“Análisis Avanzado” luego clic en “Clasificación” luego clic en “Segmentación”.

FIGURA 5.1 SOLICITUD DEL MODELO AID

De inmediato aparece la ventana activa que se presenta en la figura 5.2, y


asignamos como variable dependiente la variable “CONSUMO_SEMANAL” y en las
variables independientes: “MARCA_PPAL”, “$EVALUACION_MARCA”, “NOVEDAD”,
90

“CALIDAD1”, “DISPONIBILIDAD1”, “PRECIO1”, “MARCA_LOCAL1”, “EMPAQUE1”,


“SABOR_SUAVE1”, “SABOR_FUERTE1” y “PRESTIGIO1”.

En este punto es bien interesante detenernos un poco en reflexionar, acerca de nuestro


planteamiento de la segmentación. Nótese que no estamos incluyendo ninguna variable
de tipo demográfico. Excepto la marca que compra, todas las demás variables incluidas
son aquellas que el encuestado evalúo en referencia a su percepción de desempeño.

De tal manera, estamos planteando que deseamos conocer cuáles de las variables
independientes incluidas en el modelo AID, discriminan más el comportamiento de
la variable dependiente o a explicar.

FIGURA 5.2. INCLUSIÓN DE VARIABLES AL MODELO AID


91

Después de incluir las variables en nuestro modelo de segmentación, seleccionamos


los botones inferiores, enfatizando que nuestras reglas de parada son “Dividir el
árbol en subárboles de 5 nodos”, “El número mínimo de casos aceptado es de
100” y “La significación máxima considerada es de 0.05”.

Sin más, damos clic en el botón “Aceptar” y lo primero que descubrimos es que
el software nos ha creado una nueva variable resultado de la segmentación
solicitada al final de la base de datos TABACO con el nombre de “$SEGMEN_1”. Y
que si damos doble clic sobre dicha variable nos resulta la figura 5.3. En donde
observamos que partiendo del nodo inicial ha descubierto 6 segmentos basados
en el algoritmo AID.

FIGURA 5.3. PRESENTACIÓN DE LAS CARACTERÍSTICAS DE LA VARIABLE “$SEGMEN_1”


92

En la figura 5.4 observamos la salida del árbol solicitado. En extremo superior


izquierdo del árbol, se observan tres “Pestañas”: Resultados, Tabla de códigos,
Segmento 1. La primera pestaña presenta el árbol de segmentación.

Allí se observa que inicia en el nodo raíz con 1984 casos válidos y con un
promedio aritmético de 43 cigarrillos o tabacos de consumo semanal. En seguida
vemos que la primera variable que discrimina e incide en el resultado del consumo
semanal de cigarrillos es la variable “Marca Principal”.

Esta variable se divide a su vez en dos nodos el nodo número 1.1 que contiene
las marcas de códigos 0 y 5 (Ver figura 5.5) que corresponden a las marca L&M
y Winston respectivamente. Con 477 casos que son los consumidores de dichas
marcas y que consumen semanalmente en promedio 58 cigarrillos (57.59).

Qué sucede si dividimos 477 en 1984 y 58 en 43. Significaría que el 24%


del mercado son consumidores de las marcas L&M y Winston, y consumen en
promedio 35% más cigarrillos que el total de las marcas que se venden en el
mercado. ¿Dato interesante verdad?

En referencia al nodo 1.2 observamos que es el resto de las marcas, siendo


1507 casos, con un consumo promedio de cigarrillos de 38 (38.49).

Significando que el 76% del mercado consume en promedio un 17% por debajo del
consumo promedio semanal del total del mercado. Finalmente ambos segmentos
poseen un nivel de significancia similar de 0.000, inferior a la regla de parada del 0.05.

Si vamos a los nodos 1.1.1 y 1.1.2 podemos observar que la variable que
discrimina a la de “Marca Principal” es la variable “Sabor Fuerte”. Allí en el nodo
1.1.1 están 116 casos o consumidores que les parece muy importante el “Sabor
Fuerte” de las marcas L&M Y Winston. Y consumen semanalmente en promedio
72 cigarrillos o tabacos (71.59).
93

Dividiendo este último valor en el total del mercado 43, se obtiene que este
segmento consume en promedio semanalmente un 67% más cigarrillos o tabacos
que el total del mercado. Que corresponden a un 5.8% del total del mercado.

Este nodo el 1.1.1 sería potencialmente un segmento descubierto para los fines
estratégicos del “Targeting”. De esta forma se pueden seguir analizando uno a
uno los nodos y establecer en relación al criterio del “Marketer” cuál de los otros
segmentos serían también de alto potencial.

FIGURA 5.4. ÁRBOL DE SEGMENTACIÓN AID.

Las figuras 5.5 y 5.6 nos presentan el resultado de dar clic en las otras dos
pestañas del modelo AID, que son la tabla de códigos y la tabla de resultados de
nodo a nodo, tal como se explicó en párrafos anteriores.
94

FIGURA 5.5 TABLA DE CÓDIGOS DEL MODELO AID

FIGURA 5.6 TABLA DE RESULTADOS DEL MODELO AID


95

La figura 5.7 contiene las frecuencias absolutas y relativas de cada uno de los
nodos descubiertos por el modelo AID.

FIGURA 5.7 DISTRIBUCIÓN DE FRECUENCIAS DE LOS NODOS DEL MODELO AID.

Finalmente es importante puntualizar que de las diez variables incluidas en el


modelo como variables independientes o explicativas del consumo semanal
de cigarrillos o tabacos, únicamente tres de las mismas satisfacen las tres
reglas de paradas estipuladas al inicio del modelo AID (Marca Principal,
Sabor Fuerte, Novedad).

Adicionalmente las reglas de parada obedecen al buen criterio, juicio y experiencia


del “Marketer” previo al diseño del modelo de segmentación.
96

SEGMENTACIÓN JHI2

A diferencia del modelo AID expuesto anteriormente, el modelo Jhi2 se basa en el


algoritmo Jhi2, que contrasta la hipótesis nula de la independencia de dos variables
cualitativas. Sugiere por lo tanto que la variable dependiente o a explicar es una
variable de tipo cualitativo medida al menos en escala nominal y la o las variables
independientes también son de tipo cualitativo medidas al menos en escala nominal.

Nuevamente y similar a lo expuesto para el modelo AID, contrastaremos los


resultados obtenidos con el modelo AID pero con el modelo Jhi2.

Esto significa que vamos a utilizar exactamente las mismas variables seleccionadas
para el modelo AID en el modelo Jhi2. Lo importante de este método de
contrastación es poder comparar los resultados de ambos modelos y seleccionar
aquel que se ajuste mejor a los objetivos de la segmentación.

Dado que para el modelo Jhi2 necesitamos una variable cualitativa como variable
dependiente o a explicar y en el modelo AID dicha variable fue la del consumo semanal
de cigarrillos o tabacos que es una variable numérica métrica. Debemos convertir esta
variable numérica métrica en una variable de tipo cualitativo de categorías ordinales.

En tal sentido explicaremos a continuación como con la ayuda del software GBW7,
es muy fácil transformar una variable cuantitativa en una variable cualitativa.

Primero que nada vamos a dividir los datos de la variable consumo semanal de
cigarrillos o tabacos en tres partes o categorías: Los Heavy Consumers, Los
Medium Consumers y Los Low Consumers.

Paso seguido a la definición de las categorías procederemos a definir los criterios


de la transformación. Este criterio de transformación será el de la normalización
de la variable original en puntuaciones “z”.
97

A continuación los límites de cada categoría serán: Aquellas puntuaciones “z”


superiores o iguales a 1, se asignarán a la categoría “Heavy consumers”.
Aquellos valores mayores o iguales que 0 y menores a 1, se asignarán a la
categoría “Medium consumers”. Las puntuaciones inferiores o a 0, se asignarán
a la categoría “Low consumers”.

Como se presenta en la figura 5.8, damos clic en el botón “Análisis” seguido


de clic en “Normalizar” e incluimos la variable que deseamos normalizar. En
nuestro caso es la variable numérica métrica CONSUMO_SEMANAL, y damos clic
en el botón aceptar. Ya nos aparecerá en la base de datos la nueva variable
normalizada, nombrada automáticamente como “$$CONSUMO_SEMANAL1”.

FIGURA 5.8 NORMALIZACIÓN DE LA VARIABLE CONSUMO_SEMANAL


98

Obtenida la nueva variable normalizada “$CONSUMO_SEMANAL1”, se debe


transformar de acuerdo al criterio explicado en párrafos anteriores, como
puntuación “Z”.

En la figura 5.9 aparece la ventana de inclusión de este criterio “Z”. Previamente


hemos dado clic en el botón “Datos”, clic en el botón “Codificar” y clic
en “Recodificar”.

Se debe asignar a la ventana de variable a recodificar “$CONSUMO_SEMANAL1”


y en la ventana inferior asignar los nuevos “Códigos”.

FIGURA 5.9. RECODIFICACIÓN DE LA VARIABLE “$CONSUMO_SEMANAL1”


99

Después de dar clic en el botón aceptar de la figura 5.9, nos aparece


una nueva variable en la base de datos denominada “$$Consumo_semanal1”
y con la distribución de frecuencia que se presenta en la figura 5.10,
obtenida a través de la solicitud de los marginales de frecuencias de la
respectiva variable.

FIGURA 5.10 NUEVA VARIABLE “$$CONSUMO_SEMANAL1”

Como se presenta en la figura 5.11, damos clic en el botón “Análisis


avanzado”, clic en “Clasificación”, clic en “Segmentación” y finalmente clic
en “Segmentación Jhi”.
100

FIGURA 5.11. COMO SOLICITAR EL MODELO JHI2.

Ahora bien, pero si nuestra nueva variable “Consumo_semanal1” posee tres


categorías, significa que debemos crear un árbol por cada una de las categorías,
repitiendo exactamente las mismas variables independientes o a explicar del
modelo AID. Empezamos con el árbol de los “Heavy consumers”.

En la figura 5.12 damos clic sobre la nueva variable creada “Consumo_semanal1”


en nuestra base de datos y la ubicamos en el cuadro de dialogo “Códigos” y
damos clic en la categoría “Heavy” y la subimos al cuadro de “Expresión Lógica”.
Finalmente en el cuadro “Descripción” nombraremos nuestro segmento como los
“Heavy”. Sin más damos clic en el botón de aceptar.
101

FIGURA 5.12.ÁRBOL PARA LOS “HEAVY CONSUMERS”

Efectuada la selección de la primera categoría los “Heavy” es decir


consumidores de alto consumo de cigarrillos o tabaco a la semana, se procede
a la selección de las variables independientes o explicativas para el modelo de
segmentación Jhi2.

Recordemos que se deben incluir las mismas variables independientes o


explicativas incluidas en el modelo de segmentación AID y con sus mismas
tres reglas de parada: Mínimo número de casos 100; Cinco nodos y nivel de
significación de 0.05. Ver figura 5.13.
102

FIGURA 5.13. SOLICITUD DEL ÁRBOL DE SEGMENTACIÓN JHI2


PARA LOS “HEAVY CONSUMERS”

En la figura 5.14 se expone el resultado de la segmentación para los “Heavy


Consumers”, es sorprendente apreciar que el resultado es igual al obtenido con el
modelo AID, es decir, con las mismas variables predictoras y el mismo número de
casos. Arrojando información adicional como el número de casos por cada nodo.

La figura 5.14 nos presenta la primera variable de mayor asociación a los Heavy
consumers es la variable “marca principal”, y para el nodo 1.1 se representa
por las marcas L&M y Winston. Nos dice que el 20.3% de los casos satisface la
condición de ser “Heavy Consumers” de las citadas marcas.

Entonces, calculamos el 20.3% a los 477 casos del nodo 1.1 y obtenemos que
son 97 consumidores los que pertenecen a dicha categoría. Y si dividimos estos
97 consumidores en el total del mercado, obtendremos que el 4.9% de los
consumidores son “Heavy consumers” y pertenecen a las marcas L&M y Winston.
Adicionalmente al 35% de estos consumidores les parece muy importante el
sabor fuerte y al 65% no les parece importante el sabor fuerte. Toda esta
información es la que aparece en la pestaña “Resultados” de la figura 5.14, la
pestaña correspondiente a los “Códigos” se presenta en la figura 5.15.
103

FIGURA 5.14. ÁRBOL DE SEGMENTACIÓN JHI2 PARA LOS “HEAVY CONSUMERS”

FIGURA 5.15. TABLA DE CÓDIGOS PARA EL SEGMENTO “HEAVY CONSUMERS”


104

Ahora procederemos al desarrollo del modelo para los “Medium Consumers”,


sencillamente realizamos los mismos pasos de los “Heavy Consumers” a diferencia
como se presenta en la figura 5.16 seleccionamos para la casilla “Descripción” a
los “Medium Consumers”.

FIGURA 5.16

Como se puede apreciar en la figura 5.17 al solicitar el árbol de segmentación


al modelo Jhi2, aparece en la casilla “Descripción” la palabra “Medium”
que corresponde a la segunda categoría creada para la variable consumo
semanal de cigarrillos o tabacos. Manteniendo los mismos criterios o reglas
de parada.
105

FIGURA 5.17. SOLICITUD DEL ÁRBOL DE SEGMENTACIÓN PARA LOS “MEDIUM CONSUMERS”

Después de dar clic en el botón “Aceptar” aparece la figura 5.18, y nuevamente


la variable “Marca principal” se presenta como la variable que más se asocia
al consumo semanal de cigarrillos o tabacos. En el nodo 1.1 aparecen tres
marcas: L&M, Winston y Camel. Y en el nodo 1.2 las demás marcas. Se puede
afirmar que los consumidores del segmento “Medium” asocian su consumo
únicamente a la marca que compran principalmente.
106

FIGURA. 5.18. ÁRBOL DE SEGMENTACIÓN PARA LOS “MEDIUM CONSUMERS”.

Finalmente debemos solicitar al modelo Jhi2 nuestra última categoría que


corresponde a los “Low Consumers”. Debemos realizar todos los pasos
seguidos para las dos categorías iniciales “heavy Consumers y Medium
Consumers”. Solo debemos no olvidar cambiar la última categoría como
aparece en la figura 5.19.
107

FIGURA 5.19. DESCRIPCIÓN DE LA CATEGORÍA “LOW CONSUMERS”

En la figura 5.20 se observa la solicitud del árbol de segmentación para los


“Low Consumers”, con las mismas variables independientes o explicativas
aplicadas a los modelos de segmentación anteriores y con exactamente las
mismas regalas de parada.
108

FIGURA 5.20. SOLICITUD DEL ÁRBOL DE SEGMENTACIÓN PARA LOS “LOW CONSUMERS”

En la figura 5.21 están los resultados del árbol de segmentación solicitado

FIGURA 5.21. ÁRBOL DE SEGMENTACIÓN PARA LOS “LOW CONSUMERS”


109

Aquí se ve claramente como el árbol de segmentación se despliega en seis niveles,


dado también por el tamaño de la categoría “Low Consumers”.

El primer nivel contiene el 70% de los casos que corresponden a la categoría en


estudio. El segundo nivel y la primera variable independiente en importancia es la
“Marca Principal” que se divide en dos nodos, el nodo número 1.1 que contiene a
las marcas L&M, Camel y Winston. El nodo número 1.2 que contiene a las marcas
Kool, Marlboro, Derby y Lucky Strike. Este último nodo el 1.2 no se presenta dado
que el tamaño total del árbol excede el formato de página, pero este nodo se
detiene allí y no se desarrolla más.

Volviendo al nodo 1.1, que contiene 450 casos que cumplen la condición de “Low
Consumers” en las marcas citadas. 450/1984 = 23%, concluyendo que el 23%
del mercado de cigarrillos o tabaco, son “Low Consumers” y que consumen las
marcas L&M, Camel y Winston. Con una significancia de 0.000.

La siguiente variable en importancia después de la marca principal es la variable


“Disponibilidad”. Con una significancia de 0.0088. En donde se divide a su vez
en dos nodos, a aquellos consumidores para los cuáles la disponibilidad es muy
importante y para aquellos consumidores que la disponibilidad no es importante
(274/1984) el 13.8% del mercado. Y el 9% del total del mercado. Para los que
no le es importante la disponibilidad.

Ahora bien, la siguiente variable predictora en importancia es la variable


“Pertenencia”, con una significancia de 0.0418, para aquellos consumidores que le
es muy importante la pertenencia (102 consumidores). Y la variable “Precio” para
aquellos consumidores que no le es importante la pertenencia (171 consumidores).

El árbol se sigue desarrollando solo para aquellos consumidores que la variable


“Pertenencia” es muy importante. Y se divide en consumidores que valoran
como un nivel importante la variable “Calidad” (73 consumidores), y para los
110

consumidores que no les importa la “Calidad” (30 consumidores), con una


significancia de 0.0134.

De los 73 consumidores para los cuales la “Pertenencia” y la “Calidad” son


importantes, a 59 consumidores les parece muy importante “El Prestigio” de la
marca. Con una significancia de 0.0259.

Finalmente se ha podido apreciar la magnitud del proceso de segmentación y en donde


se cumple con el propósito principal de la segmentación: Descubrir y no construir los
segmentos. A partir de este punto, el “Marketer” es el responsable de seleccionar su
target y desde allí plantear su plan de marketing. Ver tabla resumen número 6.

CATEGORÍAS SEGMENTOS DESCRIPCIÓN


Heavy Consumers Segmento 1 Con un tamaño del 3.2% del mercado, no es
importante el sabor fuerte y son consumidores de las
marcas L&M (47 Cigarrillos semanales) y Winston (95
Cigarrillos semanales).
Segmento 2 Con un tamaño del 1.7% del mercado, el sabor
fuerte si les importa y consumen semanalmente 65
cigarrillos de L&M. 93 cigarrillos de Winston.
Medium Consumers Segmento 1 Con un tamaño del 11% del mercado, su consumo esta
guiado por la marca principal. Siendo los consumos
para las marcas L&M de 51 cigarrillos semanales;
Camel con 41 cigarrillos semanales; Winston con 94
cigarrillos semanales.
Segmento 2 Con un tamaño del 13% del mercado, su consumo es
guiado por la marca principal. Siendo los consumos
para las marcas; Marlboro con 33 cigarrillos
semanales; Derby con 44 cigarrillos semanales, Kool
con 37 cigarrillos semanales, Lucky Strike con 31
cigarrillos semanales.
111

Low Consumers Segmento 1 Con un tamaño del 3% del mercado, es muy importante
el prestigio, muy importante la calidad, muy importante
la pertenencia, muy importante la disponibilidad.
Consumidores de las marcas L&M con 54 cigarrillos
semanales; Camel 63 cigarrillos semanales; Winston
con 98 cigarrillos semanales.
Segmento 2 Con un tamaño del 0.7% del mercado. No es importante
el prestigio, muy importante la calidad, muy importante
la pertenencia y muy importante la disponibilidad. Son
consumidores de las marcas L&M con 52 cigarrillos
semanales; camel con 72 cigarrillos semanales y winston
con 114 cigarrillos semanales.
Segmento 3 Con un tamaño del 1.5% del mercado. No les importa
ni la calidad ni la pertenencia, es muy importante la
disponibilidad. Son consumidores de las marcas L&M
con 42 cigarrillos semanales; camel con 49 cigarrillos
semanales y Winston con 30 cigarrillos semanales.
Segmento 4 Con un tamaño del 8.5% del mercado. No les importa
la pertenencia pero si les importa la disponibilidad. Son
consumidores de las marcas L&M con 55cigarrillos
semanales; camel con 48 cigarrillos semanales y
Winston con 92 cigarrillos semanales.
Segmento 5 Con un tamaño del 2.6% del mercado.Les importa
mucho el precio y la disponibilidad. Son consumidores
de las marcas L&M con 60 cigarrillos semanales;
camel con 46 cigarrillos semanales; Winston con 73
cigarrillos semanales.
Segmento 6 Con un tamaño del 6.6% del mercado. No les importa
el precio, pero si les importa la disponibilidad. Son
consumidores de las marcas L&M con 40 cigarrillos
semanales; camel con 41 cigarrillos semanales; Winston
con 107 cigarrillos semanales.
Segmento 7 Con un tamaño del 47% del mercado. Son consumidores
de las marcas marlboro con 33 cigarrillos semanales;
derby con 44 cigarrillos semanales; kool con 37
cigarrillos semanales; lucky strike con 31 cigarrillos
semanales.

TABLA 6. RESUMEN DE LOS SEGMENTOS DESCUBIERTOS EN EL MODELO JHI2.


112

MAPAS PERCEPTUALES

Los tan conocidos mapas perceputales por los ‘Marketers” pertenecen a una
de las técnicas del análisis multimidensional, que permiten como su nombre lo
indica, en transformar los juicios del consumidor de similitud o preferencia, en
distancias representadas en un espacio multidimensional.

Los preceptos básicos de las técnicas multidimensionales podrían ser:

• Gran número de técnicas para innumerables aplicaciones.

• Puede ser complejo para quien no está familiarizado.

• Complejidad algorítmica.

• Saber qué técnica es apropiada y para qué.

Dentro de estas técnicas se encuentra el análisis de correspondencias, que


puede ser simple o múltiple. Este tipo de análisis (Correspondencias simple) será
el que abordaremos con el propósito de perfilar los segmentos descubiertos en
el epígrafe anterior.

A continuación se va a presentar algunas consideraciones previas al análisis de


correspondencias, creado por Benzécri (1982):

• Obedece a la necesidad de apoyarnos en los gráficos para entender más


fácilmente los fenómenos de marketing que estudiamos.

• Datos: Vienen por lo general en escalas nominales u ordinales y presentados en


forma de tabla de contingencia. No es lo mismo analizar una tabla de contingencia
de dos columnas por tres filas, que una de 27 columnas por 68 filas.
113

• Distribución de los datos: Distribución real u observada y distribución teórica


o esperada vista en el capítulo de tablas cruzadas.
• En el mapa perceptual o de correspondencias las categorías más asociadas
se ubicaran muy cercanas. Y lejos con aquellas que no tienen asociación,
Heir et.al (1999).
• Palabras clave del análisis de correspondencias: Coordenadas, Peso,
Distancia, Jorisati y Lizasoain (1999).
»» Coordenadas: Posición relativa del sujeto en relación a los ejes.
»» Peso: Asociar un peso a los sujetos pertenecientes a un grupo
determinado en relación al total de sujetos.
»» Distancia: La proyección de los sujetos frente a los factores.
• Identificar las dimensiones subyacentes determinantes en las evaluaciones
de los productos/servicios, por parte de los clientes.
• Comparación de calidades físicas (gustos alimenticios, olor, sabor, etc).
• Percepciones.
• El análisis multidimensional se basa en las comparaciones entre objetos. Un
objeto puede ser, producto, servicio, imagen, aroma, tiene dimensiones
objetivas y percibidas.
»» Dimensiones objetivas: Características intrínsecas del producto. Como
color, especificaciones, rendimientos, etc.
»» Dimensiones percibidas: Los clientes pueden percibir un producto caro,
malo, feo, etc.

De acuerdo a la exposición anterior, vamos a “clarificar” con nuestro ejemplo de


la segmentación, la facilidad en la interpretación de los mapas perceptuales, sin
caer en la “Trampa” de la complejidad algorítmica.
114

Dados los segmentos obtenidos en la segmentación Jhi2, tomaremos como base


inicial para nuestro análisis de correspondencias simple, las nuevas variables
creadas por el software GBW7, ver figura 5.22.

FIGURA 5.22. VARIABLES NUEVAS PARA LA SEGMENTACIÓN.

Estas son las nuevas variables que íbamos creando a lo largo de la aplicación
del modelo Jhi2, dado que tuvimos que desarrollar un árbol para cada una
de las categorías que creamos, los Heavy consumers, Medium consumers,
Low consumers.

En la tabla número cinco, en donde se resumió el proceso de segmentación,


se describieron los segmentos para cada una de las categorías. Resultando
dos segementos para los Heavy consumers, dos segmentos para los Medium
consumers y siete segmentos para los Low consumers.
115

Allí se describen los segmentos pero no se perfilan. La perfilación consiste en


determinar las características demográficas y psicográficas de cada uno de
los segmentos descubiertos. Para tal fin dado que debemos analizar múltiples
variables simultáneamente, debemos recurrir al análisis de correspondencias.

MAPA DE PERFILACIÓN PARA LOS “HEAVY CONSUMERS”.

El análisis de correspondencias simple que vamos a utilizar para la perfilación


de los segmentos, se aplicara con propósito descriptivo y permitirá entender
de mejor manera todo el proceso de segmentación y “Targeting” dentro de la
estrategia general de marketing de la empresa.

Ubicados en nuestra base de ejemplo TABACO, damos clic en la barra de


herramientas botón de análisis, clic en el botón análisis avanzado, clic en reducción
de datos y clic en correspondencias simple. Aparece tal como se presenta en
la figura 5.23 e incluimos en el cuadro de columnas a la categoría “Heavy”
(Heavy consumers).

En el cuadro de las filas introducimos las variables de perfilación que deseamos


asociar a las columnas, tales como: Nivel socioeconómico, Nivel de Edad, Género,
Estado Civil, AIO’S (Actividades, Intereses, Opiniones). Dejamos las restantes
celdas por defecto y damos clic en el botón “Aceptar”.
116

FIGURA 5.23.

De inmediato nos aparece el resultado de la figura 5.24 con cuatro pestañas


simultáneamente: Dimensiones, Contribuciones, Coordenadas, D1-D2.

FIGURA 5.24.
117

Damos clic en la primera pestaña “Dimensiones” y nos aparece la tabla de la figura


5.24. Esta tabla nos arroja tres datos muy importantes: “Valor Propio” que se
puede interpretar como la importancia de cada dimensión y su aporte a la solución.

Se sugieren valores superiores a 1.00. En este caso el valor propio para la


dimensión uno es de 0.786, que para nuestro propósito descriptivo lo podríamos
aceptar. EL segundo dato que nos arroja la tabla es el número de dimensiones,
dado que es un análisis de correspondencias simple, siempre presentará dos
dimensiones, como si fuese una tabla cruzada. El tercer dato es el porcentaje de
varianza que explica cada dimensión y en la dimensión uno el valor es del 91.57%
del total de la varianza es explicado por dicha dimensión. Podemos observar que
la dimensión uno explica casi la totalidad de la solución. La dimensión dos solo
explica el restante 8.43% de la varianza.

Dando clic en la segunda “Pestaña” obtenemos la tabla de las contribuciones de


cada categoría a cada dimensión. Esta tabla es muy importante en el momento
de analizar un mapa perceptual (Este caso correspondencias simple), dado que
nos permite clarificar y evitar errores de interpretación si solo nos remitimos al
gráfico o mapa.

Aparecen dos columnas, Contribuciones Absolutas y Contribuciones Relativas. Se


sugiere interpretar en principio las contribuciones relativas dado que nos está
dando el porcentaje de contribución a la inercia por cada una de las categorías a
la dimensión. Y por lo tanto se hace más simple y clara la interpretación.

Iniciemos con la primera variable (Los Heavy), si sumamos las contribuciones de


forma horizontal debe dar el 100% y por lo tanto estaremos estudiando el total
de variación por cada categoría. Recordemos que la dimensión que más aporta
a la solución total es la dimensión uno y por allí iniciamos. Los segmentos que
más aportan a la dimensión uno son el H3 y el H2 respectivamente y el que más
aporta a la dimensión dos es el segmento H1.
118

Así analizaremos categoría por categoría. En la variable “Nivel Socioeconómico”


el mayor aporte proviene de los estratos 5 y 6, y del estrato 2. Para la dimensión
uno. Para la dimensión dos el que más aporta es el estrato 3. En referencia a la
variable “Edad” se observa que todas las edades excepto la categoría de edad
de 25 a 34 años. Aportan a la dimensión uno, la restante aporta a la dimensión
dos. Las dos categorías de la variable “Género” aportan a la dimensión uno
siendo mayor la categoría “Hombre”.

La variable estado civil aporta con todas sus categorías en contribuciones


similares a la dimensión uno. Por último la variable “AIO’S” existen dos categorías
que aportan en mayor proporción a las demás; los “Sociales” y los “Vanidosos”
a la dimensión uno. Y por otra parte las categorías de los “No metalizados”
“Lochos” y “Laboriosos” contribuyen a la dimensión dos.

FIGURA 5.25. TABLA DE CONTRIBUCIONES PARA LOS “HEAVY CONSUMERS”

En la figura 5.26 se presentan las coordenadas de la nube de punto en relación


a su distancia del baricentro.
119

FIGURA 5.26. TABLA DE COORDENADAS PARA LOS “HEAVY CONSUMERS”

Finalmente se procede a interpretar el mapa perceptual o de correspondencias


en la pestaña “D1-D2”. Y contrastaremos todos los hallazgos obtenidos en los
análisis anteriores y encontraremos el sentido al mapa.

FIGURA 5.27. MAPA DE CORRESPONDENCIAS PARA LOS “HEAVY CONSUMERS”


120

Vamos a realizar la interpretación por cada uno de los segmentos descubiertos


para los “Heavy Consumers”:
H3: Son consumidores sociales y vanidosos pertenecientes a los niveles
socioeconómicos más altos (5 y 6). Cercanos a los 25 años de edad. En su
mayoría mujeres solteras.
H2: Son consumidores arriesgados pertenecientes a los niveles socioeconómicos
bajos (2), cercanos a los 40 años de edad y casados.
H1: Son consumidores mayores a los 45 años de edad y que viven en unión libre.

MAPA DE PERFILACIÓN PARA LOS “MEDIUM CONSUMERS”.

Solicitamos nuevamente al análisis de correspondencias como se hizo para los


“Heavy Consumers” pero con la diferencia que cambiaremos en columnas por la
variable “Medium Consumers”, ver figura 5.28. Danos clic en el botón “Análisis
avanzado” luego clic en “Reducción de datos” y clic en “Correspondencias simple”.

FIGURA. 5.28. SOLICITUD DEL MAPA DE CORRESPONDENCIAS PARA LOS


“MEDIUM CONUSMERS”.
121

El resultado aparece en la figura 5.29, dando clic en la pestaña “Dimensiones”


podemos observar que la solución se representa por dos dimensiones, pero con
valores propios muy débiles (Muy lejanos a 1.00). Pero con nuestro propósito
exclusivamente descriptivo, continuaremos con el mismo. La dimensión uno
explica el 77.73% de la varianza y la dimensión dos el 22.27% de la varianza.
De tal manera, que el análisis recaerá fuertemente en la dimensión por su mayor
contribución al total de la varianza.

FIGURA 5.29. DIMENSIONES PARA LOS “MEDIUM CONSUMERS”.

En la figura 5.30, habiendo dado clic en la pestaña “Contribuciones”, se procede


a interpretar detalladamente las contribuciones relativas, haciendo especial
hincapié en la dimensión uno que representa la mayor varianza acumulada del
modelo. Los segmentos tanto el M1 como el M2 hacen presencia similar en
la dimensión uno. El nivel socioeconómico tres en la dimensión uno y el nivel
socioeconómico dos en la dimensión dos. Las edades 18 a 24; 25 a 34; 45 a
54; años, contribuyen a la dimensión uno y las edades 55 a 64; 35 a 44; años
122

contribuyen a la dimensión dos. La variable género contribuye similarmente a


la dimensión uno.

Los solteros y casados contribuyen más en la dimensión uno. Los metalizados,


no metalizados y los vanidosos contribuyen a la dimensión uno y los sociales,
laboriosos e inmediatista a la dimensión dos.

FIGURA 5.30. CONTRIBUCIONES DE LOS “MEDIUM CONSUMERS”

En la figura 5.31 se presenta el mapa o gráfico de correspondencias, con los


segmentos delimitados en relación al análisis de contribuciones relativas.
123

FIGURA 5.31. MAPA DE CORRESPONDENCIAS PARA LOS “MEDIUM CONSUMERS”.

Se observan tres regiones delimitadas por color. La zona delimitada en color


café o camel, es el segmento M1 que se corresponde fuertemente con la
categoría de 18 a 24 años de edad. La segunda zona delimitada en color
azul y corresponde al segmento M2, se subdivide a su vez en dos “Micro
segmentos” los “Hombres” vanidosos, metalizados y sociales. Solteros de nivel
socioeconómico tres de edades entre los 35 y 44 años. Por otro lado las
“Mujeres” cuyo estado civil puede ser la unión libre o casada. De edades entre
los 25 a 34 años, no metalizadas, arriesgadas y lochos (Es un término para
describir al perezoso).

La región o zona verde, podría interpretarse como un “Nicho” o “Oportunidad”


de mercado, dado que son los mayores a 45 años de edad, inmediatistas
y laboriosos y de estratos o nivel socioeconómico, cuatro, cinco y seis. Lo
recomendable sería profundizar más en este “Nicho” en relación a su atractivo
y potencial.
124

MAPA DE PERFILACIÓN PARA LOS “LOW CONSUMERS”

Nuevamente solicitamos al software GBW7 el análisis de correspondencias para


los “Low Consumers”. Dar clic en el botón “Análisis” de la barra de herramientas;
clic en “Análisis avanzado”; clic en “Reducción de datos”; clic en “Análisis de
correspondencias simple”. Ver figura 5.32.

FIGURA 5.36.
BASE DE DATOS
AGREGADA DE
TELEFONÍA MÓVIL

FIGURA 5.32. SOLICITUD DEL ANÁLISIS DE CORRESPONDENCIAS PARA LOS


“LOW CONSUMERS”.

Al dar clic en el botón “Aceptar” aparece la figura 5.33 que contiene las pestañas
para el análisis iniciando con la pestaña “Dimensiones”.

Se observa que esta solución es aceptable dado que el valor propio de la primera
dimensión es mayor que 1.00 (1.891). Adicionalmente en las dos primeras
dimensiones se recoge el 88.57% de la varianza total, siendo la dimensión uno
la que más varianza explica con el 79.35%, seguido de la dimensión dos que
125

explica el 9.21% de la varianza. Por tal razón explicaremos los dos primeros
factores o dimensiones.

FIGURA 5.33. DIMENSIONES PARA LOS “LOW CONSUMERS”.

En la figura 5.34 se presentan las contribuciones para cada dimensión siendo los
segmentos L7 y L2 los que más contribuyen a la dimensión uno, seguidos de los
segmentos L1, L6 y L5. Los niveles socioeconómicos que más contribuyen a la
dimensión unos son el dos y el cuatro.

El nivel socioeconómico cinco y seis contribuyen en mayor proporción a la


dimensión dos. Se reflejan las edades menores a 24 años y los mayores a 45
años con los rangos de edad que más contribuyen a la dimensión 1. La variable
género contribuyen en similar proporción para hombres y mujeres a la dimensión
uno. En relación al estado civil las categorías que más contribuyen son los casados
y los solteros seguidos de la unión libre. Los sociales, lochos (Perezosos) y no
metalizados contribuyen a la dimensión dos.
126

FIGURA 5.34. CONTRIBUCIONES PARA LOS “LOW CONSUMERS”.

Por último solicitamos el mapa o gráfico de correspondencia para los “Low


Consumers”. Ver figura 5.35, allí se observa el mapa con los siete segmentos
descubiertos desde el L1 hasta el L7. Se puede observar que hay tres segmentos
claros que actúan como “Centroides” en el modelo de perfilación.

El primero de ellos es el L7 y que en la tabla cinco es el que corresponde a las grandes


“marcas” del mercado y con un tamaño del 47% del mercado. Este segmento son
mujeres solteras, de nivel socioeconómico cuatro, de 25 a 34 años de edad, que se
caracterizan por ser sociales, vanidosas, no metalizadas y vanidosas.

El siguiente “Centroide” el L6 que a su vez se corresponde con los L1, L5 y L3. Estos
son consumidores hombres, pertenecientes a los niveles socioeconómicos dos y tres,
de edades entre los 35 y 44 años, metalizados, arriesgados y que viven en unión libre.

El último “Centroide” el L4 y cercano al L2, siendo los mayores de 45 años


y casados.
127

FIGURA 5.40.
MAPA PERCEPTUAL
TELEFONÍA MÓVIL

FIGURA 5.35. MAPA DE CORRESPONDENCIAS PARA LOS “LOW CONSUMERS”.

Finalmente hemos recorrido el camino del proceso de segmentación de


mercados, iniciando y basados en la premisa primordial de “Los segmentos se
descubren y no se construyen”. Se escogió el algoritmo de segmentación basado
en el modelo Jhi2, partiendo de la variable dependiente “Consumo semanal de
cigarrillos o tabaco” con el objetivo de descubrir aquellas variables predictoras
que nos explicaran el comportamiento de esta variable dependiente. Después de
haber desarrollado todos los árboles propuestos, descubrimos los segmentos
plasmados y descritos en la tabla resumen número cinco.

Posterior al descubrimiento de los segmentos y apoyados en el Análisis de


Correspondencias Simple, como técnica descriptiva de la segmentación de
mercado, desarrollamos un modelo para cada grupo de segmentos procediendo
a su explicación y perfilación a la luz de nuestras variables psico-demográficas.

Comprobando que la información proveniente de los datos centra los esfuerzos


de marketing en la segmentación de las necesidades de los consumidores e
128

incrementa la asignación de recursos a través de la comprensión y la predicción


de las preferencias de los consumidores, Berry & Linoff (2004).

MAPAS PERCEPTUALES PARA DATOS AGREGADOS

Para finalizar este capítulo de segmentación, se explicará la manera muy práctica


y sencilla por medio de la cual el software GBW7 es un gran alivio si el “Marketer”
solo dispone de información agregada, tal como, publicaciones en revistas,
informes sectoriales o de gremios, informes de asociaciones, periódicos, tablas
de contingencia de estudios ajenos a la empresa, etc. Y desea construir sus
propios mapas de percepción o correspondencias.

En la figura 5.36 se dispone de la información agregada sobre la evaluación


general de las empresas de telefonía móvil en Latinoamérica. Obsérvese que los
datos son promedios aritméticos de la evaluación general realizada por el usuario
de dicho servicio.

FIGURA 5.36. BASE DE DATOS AGREGADA DE TELEFONÍA MÓVIL.


129

Teniendo los datos ingresados en el GBW7, solo es solicitarle el análisis de


correspondencias de acuerdo a la figura 5.37.

FIGURA 5.37. SOLICITUD DEL ANÁLISIS DE CORRESPONDENCIAS PARA


TELEFONÍA MÓVIL.

Dando clic en la barra de herramientas en el botón “Analisis”; clic en el botón


“Análisis avanzado”; clic en “Reducción de Datos” y clic en “Correspondencias
simple”. Se ingresa la variable “Empresas” en las columnas, y las variables de
evaluación en las filas. Pero atención, se debe dar clic en el botón “Medias” en
el extremo inferior del cuadro de dialogo y enseguida clic en el botón “Aceptar”.
Aparece la figura 5.38 con las pestañas para el análisis. La solución es muy
buena dado que le valor propio para la dimensión uno es de 5.088 y para
la dimensión dos de 3.632. Explicando ambas dimensiones el 95.45% de la
varianza total. Siendo del 55.69% para la dimensión uno y del 39.76% para
la dimensión dos.
130

FIGURA 5.38. DIMENSIONES PARA TELEFONÍA MÓVIL.

En la figura 5.39 se presentan las contribuciones siendo América Móvil para la dimensión
uno y AT&T para la dimensión dos. Seguidas de claro en ambas dimensiones. Precio
bajo, Mal servicio y Mala cobertura, contribuyen en la dimensión uno. Calidad mala,
Precio alto, Buena cobertura y Buena calidad, aportan a la dimensión dos.

FIGURA 5.39. CONTRIBUCIONES PARA LA TELEFONÍA MÓVIL.


131

En la figura 5.40, se representa el mapa perceptual para el ejemplo de la Telefonía


Móvil. Se puede ver que la empresa mejor evaluada es América Móvil cercana a
los atributos Buena cobertura, Buen servicio, Buena calidad. La empresa Claro
es mal evaluada en Cobertura y Servicio. La empresa Movistar es evaluada como
de precio bajo. Y por último la empresa Movistar que es evaluada como de mala
calidad y precio alto.

FIGURA 5.40. MAPA PERCEPTUAL TELEFONÍA MÓVIL.


133

CAPÍTULO 6
El Valor Estratégico de Conocer
sus Clientes
Capítulo 6: El Valor Estratégico de Conocer sus Clientes

LA BASE DE DATOS DE CLIENTES

Conocer sus clientes = Incrementar sus ventas !!

Algunos años atrás, en la gran mayoría de las empresas


no existía la preocupación por satisfacer las necesidades y
deseos de los clientes, o la preocupación por agregarles valor
y servirles adecuadamente; afortunadamente hoy en día esto
ha cambiado, y cada vez más las empresas se preocupan
realmente por conocer a sus clientes, con el propósito de
mejorar y adecuar su oferta a sus necesidades y deseos.

Actualmente el centro de gestión de la empresa está en el


cliente, buscando establecer relaciones duraderas a través
del tiempo, y preocupándose por cómo conocerlo mejor,
cómo interactuar con él, conocer sus necesidades presentes
y futuras, cómo dialogar con él, cómo contactarlo mejor,
etc. Para todo esto se necesita un sistema de información
adecuado que capture los datos del consumidor y los
almacene en un repositorio de donde se puedan realizar las
consultas y análisis de los datos del cliente que necesitemos;
ése sistema de información se conoce como “base de datos
de clientes”. Ver figura 6.1.

Los datos provenientes de fuentes externas de la empresa


provienen de múltiples fuentes o recursos. Uno de ellos es
134

la investigación del cliente, que se puede realizar a través de diversas


plataformas informáticas e ingresan al gran repositorio de datos
denominado comúnmente “Metabase”. Otra fuente o recurso es el “Call
Center” o centro de llamadas de la empresa. Allí se recibe telefónicamente
cantidades de información diaria que debe dirigirse a la “Metabase”. La
página web de la empresa en conjunto con la explotación de las redes
sociales con fines comerciales, es también una fuente incalculable de
información. Las redes sociales, haciéndose imprescindibles en la generación
de estrategias de marketing. Por ejemplo, en estudios de comportamiento
del consumidor, se ha determinado que el 75% de los consumidores
consultaran con un amigo o persona cercana, antes de comprar cierto
producto o servicio. ¿Cuál sería el efecto multiplicador sobre una base de
datos de una red social de más de un millón de miembros? Si adicionamos
más datos, el 68% de los consumidores decide su compra de acuerdo a
las experiencias anteriores relacionadas al producto o servicio que va a
adquirir. El 22% de los consumidores decide su compra por recomendación
de alguna revista de su agrado. El 15% de los consumidores decide su
compra influenciados por algún tipo de publicidad masiva y solo el 8% de
los consumidores deciden su compra por la página web de la compañía
que vende el producto o servicio. Ahora bien, si usted fuese la persona en
la empresa quien decide en donde invertir en publicidad, ¿en cuál de los
anteriores medios o canales lo haría?

Las redes sociales y las bases de datos de clientes se relacionan siempre,


por lo tanto cuando las empresas con sus productos y marcas, que deseen
crear sus propias redes sean conscientes del valor estratégico de la red, no
serán más utilizadas como un simple canal de comunicación o de moda. La
red social permite establecer comunicaciones boca a “oreja” o “digitales”
con la magnitud de efecto multiplicador del ejemplo relacionado en el
párrafo anterior. Por lo tanto, si usted posee una red social del tamaño
que sea, por favor, valórela, atesórela y hágala crecer, con un objetivo
135

claro para su negocio o empresa, con estrategias definidas y coherentes


de comunicación con su red, no intente relacionarse con todos por igual,
cada cliente de la base de datos es diferente y hay que conocerle
perfectamente para relacionarse correctamente con él, en el mercado
existe gran diversidad de herramientas informáticas que le ayudan en
esta labor. Combine estas herramientas con otras actividades tradicionales
de marketing y ventas, una de la más recomendada, es el marketing
directo y sus diversos medios, porque que se ajusta perfectamente al
objetivo de interactuar, dialogar, generar confianza y satisfacer al cliente
individualmente.

Otro recurso muy importante y que generalmente se desperdicia, es el


BTL (Below The Line), que son todas las actividades promocionales o de
activación de marca, adelantadas por los departamentos de marketing.
Allí concurre gran cantidad de clientes actuales y potenciales, y es la
oportunidad precisa para recolectar allí en vivo y cara a cara, información
directa del consumidor. El personal comercial de la empresa es otro recurso
de ingreso de información del consumidor y en fin, todas las fuentes
posibles de capturar información del consumidor deberían de canalizarse
para ser almacenadas en el gran repositorio de datos o “Metabase”. Pero
está “Metabase” no solamente almacena información del cliente desde su
perspectiva comercial, también almacena información de diversas áreas
de la empresa. Tales como recursos humanos, contabilidad, producción,
jurídico, etc.

En tal sentido se hace imprescindible contar con una herramienta que


ayude al “Marketer” en el diseño de su propia base de datos de clientes,
autónomamente. Esta herramienta recibe el nombre de “Data Mart”.
Que significa, aquel repositorio que es útil para los propósitos de quien
demanda los datos. Pueden existir tantos “Data Mart” como analistas o
gestores los demanden. Allí es en donde el buen criterio y conocimiento
136

del negocio del “Marketer”, juega un papel muy importante en el diseño


de su propio “Data Mart”. Sin dejar esta responsabilidad en manos de los
informáticos de la empresa.

Investigación
Procesos de extracción
del conocimiento
Almacén
Centro de Central Data - Marts
Datos externos

llamadas

Web Site

Redes
Sociales

Procesos de la
BTL plataforma de gestión

Fuente. Elaboración propia

FIGURA 6.1. DIAGRAMA FUNCIONAL DE LA BASE DE DATOS DE CLIENTES.

Una verdadera base de datos de clientes, figura 6.2, requiere tres grandes
componentes, el primero, debe contener los datos “Básicos” del cliente, es
decir, nombre completo, dirección de casa, teléfono, correo electrónico, fecha de
nacimiento, dirección de oficina, nivel socioeconómico, número de hijos, estado
civil, nivel de estudios, número de identificación, y todos los demás datos que
nos ayuden a identificar correctamente al cliente. El segundo componente son
137

los datos de “Comportamiento” son aquellos datos históricos de compra


del cliente tales como: que productos/servicios ha comprado, cuándo compro,
cuánto compro, cómo pago, en dónde compro. Adicionalmente aquellos datos
pertinentes a sus actitudes, intereses, opiniones, estilo de vida, estilos de
consumo, reacciones ante ofertas promocionales, sensibilidad al precio, etc. El
tercer componente son los datos de “Adquisición” que son aquellos tipos de
datos relacionados a todos los esfuerzos realizados por la empresa para captar al
cliente. Tales como, costos de captación, respuesta a actividades promocionales,
tasa de captación, etc.

En referencia a los clientes potenciales se obtendrá información básica y de


adquisición, pero no de comportamiento dado que todavía no es cliente de
la empresa.

Data - Mart

Data - Marts
Clientes

Datos Datos de Datos Adquisición:


básicos comportamiento Tasa de Respuesta

Clientes potenciales

Fuente. Elaboración propia.

FIGURA 6.2. DISEÑO DE LA BASE DE DATOS DE CLIENTES.


138

Cuando se posee una base de datos de clientes completa y actualizada,


convirtiendo los datos en información del cliente y generando conocimiento que
permita satisfacer las necesidades y deseos de los mismos, esta base de datos
se constituye en uno de los activos intangibles más importantes de la empresa,
que hay que valorar y reflejar en los estados financieros.

Finalmente la base de datos de clientes es uno de los activos intangibles más


importantes de la empresa, y por tal razón hay que valorarlo y hacerlo valer (no
es lo mismo) valorarlo es costearlo, saber su valor actual en monetario, calcular
el CLV (siglas en ingles de Customer Lifetime Value) Valor del Cliente en el Tiempo,
vs hacerlo valer, que es protegerlo, invertir para que crezca y nunca ponerlo en
riesgo. Saber que los clientes de su base de datos son más que un código de
identificación, son aquellos individuos que en relación a la satisfacción de sus
necesidades y deseos y a la experiencia relacionada con su producto o marca,
son el futuro de su empresa.

CRM (CUSTOMER RELATIONSHIP MANAGEMENT).

Antes de la aparición del CRM, se presentó en los años ochenta ante el mundo
académico del marketing un concepto novedoso, “El marketing de relaciones
o relationship marketing”, que aspiraba a ser un cambio en el paradigma del
marketing. Pero nunca se logró un consenso en su definición. En tal sentido
es procedente revisar los aspectos relevantes en las definiciones de autores
reconocidos como, Berry (2002), Grönroos (1990), Gummesson (1994) y
Ballantyne (1999), para ofrecer la siguiente definición sintética de marketing
de relaciones: Proceso continuo de comprometerse en actividades y programas
de colaboración con consumidores inmediatos, usuarios finales, proveedores,
empleados, y todos los actores que intervienen en la relación para crear, mantener
y mejorar mutuo valor económico.
139

Por otro lado, Harker (1999), en su intento por alcanzar una definición, concluye
que existen siete categorías conceptuales fundamentales con las que se puede
definir el marketing de relaciones. Estas categorías son:

• Nacimiento
• Desarrollo
• Mantenimiento
• Escala de tiempo
• Interacción
• Resultados
• Contenido emocional.

En este sentido, Harker afirma, con base en una investigación de 117 fuentes
diferentes, que la mejor definición ofrecida y coincidente con estas categorías, es
la expuesta por Grönroos (1994):

Relationship Marketing consiste en identificar y establecer, mantener e


incrementar y, cuando es necesario, terminar las relaciones con clientes
y otros actores en ésta, en un ambiente provechoso, donde los objetivos
de las partes se reúnen, lo cual se logra mediante el intercambio y
cumplimiento de promesas. (p. 9)

A partir de la definición anterior se puede intuir que el tratamiento de las promesas


en el marketing de relaciones permite lograr el cumplimiento de los objetivos de
la relación. En tal sentido, Bitner (1995) intenta categorizar el tratamiento de
promesas en el contexto de la relación: hacer, habilitar y mantener las promesas:
140

Hacer promesas: en marketing es muy fácil y muy común hacer promesas


o prometer a los clientes algo que ellos desean, por el contrario, en el de
servicios, hacerlas es un proceso un tanto más complejo que, por ejemplo, en
el de bienes de consumo. Dada la naturaleza del marketing de servicios, en el
que el servicio se produce y se consume casi simultáneamente, las promesas
deben volverse realidad en tiempo real, por tanto estas promesas deben ser
propuestas, negociadas y entregadas de manera paralela.

Habilitar las promesas: para cumplir con las promesas en tiempo real, la
empresa debe estar organizada y capacitada para entregarlas, es decir, poseer
la estructura organizacional pertinente, la cual permite que los empleados,
en el momento de interactuar con el cliente, cuenten con todos los recursos
necesarios para entregarla, en otras palabras, se debe conservar el personal
idóneo, capacitado y motivado, apoyado por procesos y sistemas que faciliten
entregar, correctamente lo prometido al cliente.

Mantener las promesas: las promesas deben hacerse, habilitarse y


mantenerse en tiempo real; los empleados deben estar informados de las
promesas realizadas a los clientes, y todas las actividades de marketing deben
encaminarse hacia el dar a conocer las promesas de servicios desarrolladas
por la organización, las que no pueden romperse de un momento a otro sin
la información suficiente y explicación al cliente.

Las promesas están apoyadas (véase la Figura 6.4) por el marketing


interno, el externo y el interactivo. El externo es el que da a conocer las
promesas, el interno adecúa procesos, sistemas y personal, y el interactivo
se encarga de que la comunicación fluya en dos vías, es decir, entre la
empresa y el cliente.
141

MARKETING EXTERNO
HACIENDO
PROMESAS

MARKETING INTERNO
HABILITANDO MANTENIENDO
LAS PROMESAS LAS PROMESAS

MARKETING INTERACTIVO

FIGURA 6.4. PROMESAS DE SERVICIOS Y SU RELACIÓN CON LAS ACTIVIDADES DE


MARKETING. ADAPTADO DE BITNER (1995, P. 247)

Después de esta tormenta de revolución con el “Marketing de Relaciones” o


“Relationship Marketing” y debido a que el mundo académico nunca se puso
de acuerdo o acordó una definición concreta que guiará a los “Marketers”
en la aplicación del mismo, venia surgiendo en paralelo una interpretación de
este nuevo concepto pero desde la óptica y perspectiva del mundo tecnológico
y más específicamente de los desarrolladores de software. Estos últimos
detectaron claramente la oportunidad de negocio en desarrollar aplicaciones
que ayudarán a los “Marketers” en la gestión de las relaciones con los clientes.
Es allí en donde nace el CRM como un ampliación de los ya conocidos ERP.

Pero el CRM si logró un consenso en relación a su significado. Pero este consenso


se gestó desde los “Marketers” y no desde la orilla académica. Y sencillamente
142

es el CRM como herramienta de gestión de las relaciones con los clientes y


que permite su individualización para alcanzarlos, retenerlos, desarrollarlos y
mantenerlos, en busca del beneficio mutuo.

En la figura 6.5 Sin et.al (2003), proponen que el CRM tiene cuatro componentes
o pilares básicos. Centrarse en los clientes clave, organización diseñada para el
CRM, gerencia del conocimiento y la tecnología del CRM.

Los componentes del CRM

CRM

Fuente. Adaptado de Sin et.al (2003).

FIGURA 6.5. COMPONENTES DEL CRM.

Centrarse en los clientes clave:

Es el primer componente o pilar del CRM, dado que la filosofía del CRM es diseñar
estrategias de marketing centradas y enfocadas en los clientes de alto valor o “Key
Customers. Estos clientes clave son los que generan los mayores beneficios para
la empresa y deben obtener un trato especial y preferencial, para conservarlos a
143

través del tiempo. Una pregunta que se puede estar planteando el lector podría
ser ¿Cómo identifico los clientes clave?, bueno definitivamente se debe calcular el
CLV (Customer Lifetime Value) por cada uno de los clientes de la base de datos y
segmentarlos de acuerdo a su valor para la empresa en “Clientes de alto valor”;
“Clientes de Valor medio” y “Clientes de bajo valor”. De esta forma al identificar
el valor que agrega cada cliente se puede destinar los presupuestos de inversión
de marketing de acuerdo a este valor.

Organización para el CRM:

Debe diseñarse o contarse con una estructura organizacional diseñada para la


valoración y gestión de los clientes. Las estructuras organizacionales piramidales
no cumplen con dicho propósito. Dado que la base de la pirámide es en donde
están aquellos empleados que permanecen en contacto con los clientes y son
los menos remunerados y menos apreciados por los que están en la cúspide
de la pirámide. Adicionalmente los empleados de la cúspide de la pirámide
generalmente nunca están en contacto directo con los clientes y son poco
sensibles al establecimiento y desarrollo de relaciones con los mismos.

La estructura organizacional ideal para el CRM es la de tipo “Matriz” que permita


implementar una estrategia de marketing con una estructura organizacional no
jerarquizada, empoderada, plana, interconectada en los flujos de información y
comunicación. Tal estructura debe permitir el establecimiento de las relaciones
entre los PTM (Part Time Marketers), expertos en marketing de tiempo parcial
y los FTM (Full Time Marketers), especialistas en marketing de tiempo total
(Gummesson, 1998).

Además, dada la turbulencia del entorno competitivo mundial, las estructuras


organizacionales tendrán que evolucionar para adaptarse al cambio requerido
por el entorno. Se pasará de organizaciones jerarquizadas a estructuras
planas y flexibles, a unidades de negocios interconectadas, interrelacionadas y
144

muy delgadas. En el presente siglo se vislumbra la posibilidad de un cambio


estructural en las organizaciones de grandes dimensiones, centradas en procesos
tecnológicos, en alianzas y relaciones con proveedores, intermediarios y todos
aquellos actores que de una u otra manera afecten su desenvolvimiento. Éstos
también impulsarán cambios profundos en la teoría tradicional del marketing y su
orientación filosófica. Por lo tanto, el marketing de relaciones evolucionará, más
allá de hacia la satisfacción del consumidor, hacia el proceso de crear y mantener
relaciones duraderas con todos los actores de su entorno.

Achrol (1997) propone la siguiente definición de la Network Organization: “es


más que el simple intercambio de conexiones a la densidad, multiplicidad y
reciprocidad de lazos y sistemas de valor compartido definiendo el rol de los
miembros y sus responsabilidades” (p. 59).

Gerencia del Conocimiento:

En la primera década del siglo XXI se diseminó, a través de la literatura empresarial,


el concepto de gerencia del conocimiento como fuente de ventaja competitiva, en
cuanto al marketing de relaciones. La gerencia del conocimiento compete al
conocimiento del cliente y cómo generar valor mediante la cadena de valor frente
a los competidores.

Kavali et al. (1999) proponen que hay que resolver cuestiones respecto a qué
relaciones críticas debe conocer una organización, cuáles debe desarrollar,
cómo medir las relaciones críticas y dónde buscar el conocimiento. Para tal
efecto proponen el hogar de la interacción del conocimiento en el marketing de
relaciones. Véase la Figura 6.6.
145

CULTURA Y CLIMA
DE LAS RELACIONES

CONOCIMIENTO

INTERACCIÓN STAKE-
FIRMA
& DIÁLOGO HOLDERS

GERENCIA DEL CONOCIMIENTO

CONFIANZA COMPROMISO

Fuente. Adaptado de Kavali et. al. 1999 pg. 574-580.

FIGURA 6.6. HOGAR DEL CONOCIMIENTO EN EL CRM.

Las bases de este hogar son la confianza y el compromiso, que a su vez son los
del marketing de relaciones; con éste se crea un conocimiento de las partes que
permite gerenciar o gestionar el conocimiento que será retroalimentado mediante
la interacción y el diálogo entre los miembros de la organización y los grupos de
interés que afectan el funcionamiento de la misma (inversionistas, agremiaciones,
gobierno, medios de comunicación, etc.). Esta interacción y diálogo van
generando el efecto bola de nieve en la generación de nuevo conocimiento de las
partes y a su vez crean, en el largo plazo, una cultura y un clima de la relación.

Por otro lado, el marketing de relaciones, según la mayor parte de sus definiciones,
aboga por el establecimiento de relaciones duraderas con todos aquellos actores
involucrados de manera directa o indirecta en el negocio.
146

Por consiguiente, para hacer real la implementación del marketing de relaciones,


es necesaria una estructura organizacional coherente con la estrategia de
marketing, es decir, la antigua organización vertical y jerárquica dará paso a
organizaciones planas y en red (Kavali et al., 1999), pues las estructuras en red
deben ser como organizaciones celulares porque su estrategia, estructura y
configuración de procesos fluyen y se intercambian permitiendo una verdadera
transformación estructural.

Una estrategia de marketing de relaciones debe acompañarse de aquella


estructura organizacional acorde con las necesidades del entorno. Por lo
tanto, la estructura en red (Network) permite a la organización implementar
su estrategia de relación, es decir, ayuda en el establecimiento de relaciones
con todos aquellos actores involucrados directa o indirectamente en el
proceso, como proveedores, distribuidores, consultores, agentes del gobierno,
competencia, entre otros.

La estructura en red no es fácil de implementar, ya que comporta un cambio


implícito en la cultura organizacional, que en el futuro no dejará lugar a estructuras
jerarquizadas ni niveles gerenciales intermedios que no agreguen valor.

Los aspectos que motivan la creación de una estructura en red, y permiten


implementar una estrategia de marketing de relaciones son los siguientes:
• Ganar flexibilidad en la respuesta al entorno cambiante e intensamente
competitivo.
• Desarrollar las habilidades y recursos necesarios para identificar nuevas
necesidades y reaccionar rápidamente con innovaciones que permitan el
éxito comercial.
• Alcanzar las eficiencias operativas esenciales para ofrecer valor al
consumidor, inversionistas y otros grupos de interés para la empresa.
147

• Todas las relaciones pertinentes que genera el marketing de relaciones


deben estructurarse en el marco de una organización ajustada a su realidad;
en su contexto se dan tres grandes categorías de relaciones que deben
enmarcarse dentro de una estructura organizacional, éstas son:
»» Relaciones clásicas de mercado: son las que se dan entre proveedores
y consumidores y adicionalmente las existentes con la competencia.
»» Mega-relaciones: son aquellas que sirven como base fundamental para
el marketing de relaciones, como sucede con la economía y la sociedad
en general.
»» Nano-relaciones: son las existentes al interior de las organizaciones,
entre unidades de negocios y entre empleados, que inciden directamente
en las relaciones con el mercado.

Por ende, hay que lograr el “marketing equilibrium”, que consiste en el


establecimiento de interconexiones entre la colaboración como centro de la
estrategia de marketing de relaciones con la competencia y con las fuerzas e
instituciones reguladoras en el mercado.

Para el equilibrio del marketing se debe contar con la organización imaginaria


o virtual, que no es otra que la que trasciende las fronteras de la organización
formalmente aceptada y concebida. No se trata de una compañía tradicional
desenvuelta, según la teoría económica, en un mercado en el que demanda y
oferta confluyen guiadas por el factor precio. Es una empresa que funciona como
un sistema abierto, que más que interactuar con el medio ambiente es parte
integral de él.

Tecnología CRM:

La tecnología aplicada en el CRM se puede clasificar en dos categorías: El CRM


analítico y el CRM operativo. Ver figura 6.7.
148

El CRM analítico comprende todas aquellas herramientas tecnológicas que


ayudan en la extracción del conocimiento de la base de datos de clientes.
La más común y apropiada son las herramientas de minería de datos, que
permiten descubrir, reglas, asociaciones, dependencias, interdependencias,
estimaciones, ordenamientos, y demás necesidades del “Marketer” pero
siempre priorizando en la reflexión sobre la información y su capacidad
de implementación.

El CRM operativo son todas las herramientas tecnológicas utilizadas para crear,
captar, gestionar, comunicar e intercambiar, la información de varias formas voz,
datos, video, imágenes, multimedia, entre otras.

CRM

CRM Analítico

CRM Operativo

Fuente. Elaboración propia.

FIGURA 6.7. TECNOLOGÍA CRM


149

En conclusión, varios autores concuerdan en que el CRM es más que una solución
tecnológica (Paas & Kuijler, 2001): la retención de clientes impacta en el resultado
del valor de las acciones de la empresa. González, Raeside & Warwick (2006)
recalcan la necesidad de ser cuidadosos en la implementación de proyectos del
CRM e insiste también en que deben ser claras sus métricas y efectividad. Stone
(2003) también manifiesta el cuidado que se debe tener con los proyectos de
CRM, y argumenta que en las empresas existen debilidades relacionadas con el
uso adecuado de los datos, el desconocimiento en el ciclo de compra y en el valor
del cliente.

EL VALOR DE VIDA DEL CLIENTE (CLV – CUSTOMER LIFETIME VALUE).

Hay diferentes tipos de definiciones del valor de vida del cliente o CLV, desde la
perspectiva del “Valor” para el cliente, hasta la famosa “Equidad del Cliente”. Pero
la importancia del cálculo o estimación del CLV radica en la toma de decisiones
por los “Marketers” más informadas que intuitivas y más rápidas. La tendencia
empresarial en los últimos años es el reenfoque del análisis de sus utilidades
basado en los costos, la producción y la competencia. Hacia la importancia de la
relación con el consumidor y sus implicaciones.

La definición del valor del cliente por Jain & Singh (2002, p. 37): “El CLV para una
empresa es el beneficio o pérdida total de un cliente a lo largo de la historia de
sus transacciones con la empresa”.

Una definición interesante puede ser la propuesta por Woodruff (1997, p. 142),
dado su orientación más cualitativa que financiera: “El valor de un cliente es una
preferencia percibida por el consumidor de la evaluación de los atributos del
producto, el rendimiento de los atributos y las consecuencias de la facilidad o no,
provenientes del uso, para lograr las metas y propósitos en dichas situaciones
de uso del producto”.
150

Otra definición es la de Pfeifer & Bang (2005, p. 49): “El valor presente de los
flujos de caja atribuibles a la relación con el cliente a través del periodo o tiempo
de dicha relación”.

Un intento de resumen y practicidad en la explicación del CLV es el propuesto


por Yang (2005), en donde CLV es intercambiable con “Consumidor Rentable”
significando que un cliente o consumidor, genera ingresos superiores al costo de
mantenerlo o atraerlo como cliente. A este excedente en dinero se le denomina
CLV, Customer Equity o LTV.

Las claves del buen cálculo o estimación del CLV pueden ser, Kumar (2008):
• El valor del dinero no es constante a través del tiempo.
• Hay que incluir la probabilidad que un cliente permanezca activo a través del
tiempo.
• Es una herramienta útil para los “marketers” con el objetivo de proyectar
FIGURA 6.8. las
utilidades futuras por cada cliente. PUNTAJE RFM

• Ayuda a direccionar los aspectos relevantes de la estrategia de marketing


confiablemente.

Modelos de CLV (Customer Lifetime value)

La idea de usar información proveniente de la base de datos de los clientes no es


novedosa, viene desde 1897 cuando la compañía “Sears” decide crear el primer
catálogo de venta directa que contenía 750 páginas y 6000 productos en oferta.

Años más tarde se sumó a la importancia de la base de datos de clientes la


empresa AT&T creando el término “Telemarketing” en 1968, con el propósito
de utilizar el teléfono en campañas de marketing y ventas. A partir de allí ya en
los años 70 se avanza del “Cardex” a las bases de datos computarizadas. En
151

los años 80 se continúa el auge y se desarrolla el “Database Marketing” y el


“Datamining”. Ya en los años 90 nace el “Internet-Based Marketing”. De los 90
a la fecha se potencializa el crecimiento de las soluciones CRM, CLV, el control de
calidad sobre los datos y la gerencia del conocimiento.

En este capítulo se va a exponer tres modelos de CLV aclarando claro está, que
existen múltiples modelos. El primero de ellos el RFM de sus siglas Reciente –
Frecuente – Monetario es el primer modelo planteado para la valoración de los
clientes. El segundo modelo es el denominado el “Modelo básico o estructural” y
el tercer modelo “El modelo con la tasa de retención”.

Modelo RFM

El modelo RFM se desarrolla en los años 70 proveniente de las empresas


que vendían sus productos en catálogos y lo hacían a través de campañas de
marketing directo, con los famosos “Paquetes de Mailing”.

En tal sentido las empresas almacenaban todos los datos pertenecientes y


referentes al “Paquete de Mailing” y de allí nace el modelo RFM:
»» R = Reciente. Compra más reciente.
»» F = Frecuente. Aquellos que habían comprado con más frecuencia en un
periodo determinado.
»» M = Monetario. Valor monetario de la compra.

Stone (1988) propone unos puntajes o “Score” que permitan segmentar la base
de datos de clientes según el RFM. Ver figura 6.8

Para las compras recientes se divide el año en tres trimestres y se asignan los
puntajes o pesos, si compro en el último trimestre del año se le asignan 24
152

puntos que es el máximo puntaje, si compro en el primer trimestre se le asignan


3 puntos. Si no compro en el último año no tiene puntaje.

Para las compres frecuentes, propone tomar el número de compras realizado en


el último año y multiplicarlo por 4 puntos.

Para el valor monetario de las compras, se multiplica el valor de las compras


en el último año por el 10%, otorgando un número máximo de 9 puntos. Con
el propósito de evitar la distorsión que pudiesen generar compras de muy alto
valor. Adicionalmente es bueno tener en cuenta que este puntaje está calculado
sobre valores en dólares. Habrá que ajustarlo cuando la moneda sea diferente
de acuerdo al país de aplicación del modelo.

Método de Puntaje del R.F.M.

Variables Puntaje por criterio Niveles


R (Reciente) Últimos 3 Meses = 24 MEDIO
Últimos 3 a 6 Meses = 12
Últimos 6 a 9 Meses = 6
Últimos 9 a 12 Meses = 3
Más que un año = 0
F (Frecuente) Número de compras ALTO
multiplicado por 4
M (Monetario) El valor de las compras BAJO
multiplicado por el 10%
(El puntaje máximo es 9)

FIGURA 6.8. PUNTAJE RFM


153

Esta propuesta de Stone como se puede apreciar ha sido muy criticada dada su
debilidad en el soporte metodológico de la misma. Pero como se mencionó en
párrafos anteriores, no es el único método propuesto a diversidad de métodos
propuestos alrededor del RFM.

Hughes (2000), describe en su libro un método muy acogido por los “Marketers”
dada su fácil aplicabilidad y sin necesidad de recurrir a un estadístico. Solo
se necesita ordenar muy bien la base de datos por cada uno de los criterios
R, F, M.

Primero se ordena la base de datos de acuerdo a la fecha de compra, desde


la más reciente hasta la más antigua. Teniendo ya ordenada la base de datos
por este criterio se divide en cinco segmentos, denominados “Quintiles”. El
primer quintil será aquellos clientes que han comprado reciente mente y a este
segmentos se le asigna un código “5”. Al siguiente quintil el código “4” y así
sucesivamente hasta el último quintil con el código “1” y ya está.

En referencia al siguiente criterio, la frecuencia “F”, se debe calcular una medida


de tendencia central dependiendo del tipo de negocio, por ejemplo el número
de compras mensuales promedio del último año. La base de datos de ordena
nuevamente en relación al criterio “F”, desde el mayor promedio hasta el último
promedio. Después de ordenada la base de datos, se divide nuevamente en cinco
segmentos iguales y a se inicia la codificación con el primer segmento de mayores
promedios, al que se le asignará el código “5”, seguido del “4”, “3”, “2” y
finalmente el código “1” para el segmento de menores promedios.

Para el último criterio “M” valor monetario, conservando el mismo método se


debe ordenar la base de datos por el valor total de las compras realizadas por
cada cliente en un periodo determinado, un año, un mes. En orden descendente
de mayor monto a menor monto. Nuevamente se divide la base de datos en
cinco segmentos del mismo tamaño, “Quintiles”. Y para el quintil de mayor valor
154

monetario se le asigna el código “5”, y así sucesivamente hasta el último quintil


de menor monto se le asigna el código “1”.

FIGURA 6.9. BASE DE DATOS PARA EL RFM.

En la figura 6.9 se presenta un ejemplo de una base de clientes con datos


pertenecientes a valores RFM. Lo primero que hay que hacer es crear las nuevas
tres variables reciente, frecuente y monetario que van a contener los códigos del
5 al 1. En donde el código “5” siempre será para los mayores valores y el “1”
para los menores valores. Tal como se explicó en párrafos anteriores.

Después se procede a ordenar cada una de las variables originales tal y como se
presenta en la figura 6.10
155

FIGURA 6.10. INSTRUCCIÓN PARA ORDENAR LAS VARIABLES.

La primera variable a ordenar es la nombrada como “ULCOMPRA1” que es


en donde se registra la fecha de la última compra, se solicita en la barra de
herramientas en el botón “Ordenar”, se ingresa la variable “ULTIMACOMPRA1” y
el criterio “Descendente”. Se da clic en “Aceptar” y aparecerá la base de datos
ordenada en relación a la variable indicada anteriormente. Ya ordenada la variable
se asigna en la nueva variable “RECIENTE” los códigos del 5 al 1.

En la figura 6.11, ya con los códigos ingresados a las nuevas variables se debe
ordenar la base de datos por las tres nuevas variables en estricto orden, primero
“Reciente” segundo “Frecuente” y por último “Monetario”. Y ya aparecerán en la
figura 6.12, la base de datos ordenada a partir de los clientes más importantes
hacia abajo.
156

FIGURA 6.11. ORDENAR LAS NUEVAS VARIABLES.

En la figura 6.12 se aprecian claramente los segmentos ordenados por los tres
criterios del RFM, y su grado de importancia en relación al método seleccionado.

FIGURA 6.12. BASE DE DATOS ORDENADA POR RFM.


157

MODELO ESTRUCTURAL BÁSICO

El modelo estructural básico es el modelo tradicional de hacer presentes los


ingresos futuros de un cliente, en donde se debe determinar el número de
periodos de tiempo en el futuro de esos ingresos estimados. A este número de
periodos “n”, deben ser muy bien argumentados, dado que es una tarea bien
difícil la de proyectar el tiempo que va a durar la relación con cada cliente de la
base de datos. Adicionalmente se debe calcular muy cuidadosamente la tasa de
descuento “d” de esos flujos de caja generados. En este punto se debe contar
con al apoyo del departamento financiero de la compañía.

n (Ri - Ci)
i = Periodo de los flujos de caja generados por
el cliente desde la transacción

∑ (1 + d)
i=1
i
Ri = Ingresos por el cliente en el periodo i
Ci = Costo total de generar Ri en el periodo i
n = Número de periodos proyectados
d = Tasa de descuento

FIGURA 6.13. MODELO ESTRUCTURAL BÁSICO

Una sencilla variación al modelo estructural básico ayuda al “Marketer” en la


comprensión del CLV. La diferencia entre los ingresos y los costos generados
por cada cliente se puede considerar como el “Margen Neto” generado por cada
cliente y por lo tanto es su aporte a los beneficios de la empresa. En la figura 6.14
se presenta dicha variación, siendo “n: el número de periodos proyectados, “m”
el margen de contribución neto, “i” la tasa de descuento y “t” periodo de los flujos
de caja.
158

n mt
CLV = ∑ (1 + i)
t=1
t

FIGURA 6.14. VARIACIÓN AL MODELO ESTRUCTURAL BÁSICO

Ahora bien, el modelo explicado anteriormente contiene tres variables principales,


el margen neto por cliente, la tasa de descuento y el número de periodos
proyectados. Pero no incluye alguna variable en relación a la permanencia del
cliente a través del tiempo con la empresa o sus productos o servicios. Esto
sería lógico de pensar si la relación con los clientes fuera contractual, como
las hipotecas, planes de telefonía móvil, pólizas de seguro, etc. Sin embargo,
la relación común de los clientes con las empresas y sus productos y servicios
es no contractual. Traduciéndose en que el cliente puede abandonar cuando
desee la relación o mantener una relación compartida con otras empresas
simultáneamente.

En el contexto de relaciones no contractuales es necesario incluir dentro del cálculo


del CLV la probabilidad o tasa de permanencia del cliente a través del tiempo en
la relación.

No hay una fórmula mágica en la estimación de la tasa de retención, puede darse


a través de modelos probabilísticos a través de procesos estocásticos, cadenas
de Markov, árboles AID, CHAID, regresión logística, redes neuronales, etc.

Por ejemplo para Parr (2001), la tasa de retención TR = (Tasa de Recompra)


. Un ejemplo podría ser que un cliente viaja de vacaciones al exterior con su
1/Y

familia una vez cada tres años en la aerolínea AA. Solo el 35% de los clientes
159

que viaja en AA, vuelve y la utiliza para sus vacaciones. De tal manera que su
TR = (0.35)1/3 = 70%.

Para Kumar (2008) la probabilidad de retención es P (Active)= (T/N)n. En donde


n es el número de compras en el periodo, T el intervalo de periodo que ocurre
entre la adquisición y la más reciente compra. N es el intervalo de tiempo entre la
adquisición y el periodo para el cual se necesita calcular la permanencia.

La ecuación presentada en la figura 6.15, se tiene en cuenta la tasa de permanencia


o probabilidad de retención del cliente. En donde “m” es el margen neto de un
cliente en un periodo determinado, “i” es la tasa de descuento estimada para
dicho periodo de cálculo del clv, “n” es el número de periodos de tiempo en
los que el cliente permanece activo, “r” es la probabilidad de retención para el
periodo calculado.

t
n mt ∏ rj
CLV = ∑ t=1
j=

(1 + i)t
1

FIGURA 6.15. MODELO CLV CON RETENCIÓN.

Dado que la anterior ecuación es muy intensiva en cuanto a los datos y cálculos
requeridos, se desprende de dicha ecuación una nueva ecuación que pretende
utilizar tasas de retención y de descuento constantes para simplificar el cálculo
del CLV. En tal sentido Gupta & Lehmann (2005) proponen dicha simplificación,
asumiendo que los márgenes, retenciones y descuentos permanecen constantes
a través del tiempo y asumen que horizonte temporal es infinito. Ver figura 6.16.
160

En donde “m” es el margen neto de contribución por cliente, “r” la probabilidad de


retención y la “i” es la tasa de descuento. Y los autores proponen en la utilización
de un factor de multiplicación que es la división incluida entre los paréntesis en la
ecuación de la figura 6.16.

∞ m x rt
CLV = ∑ = m r 1+i-r
(/ )
t=1 (1 + i) t

FIGURA 6.16. MODELO CLV CON VARIABLES CONSTANTES.

En este punto de la explicación del CLV y sin pretender confundir y “Agotar” al


lector con tanta ecuación y demás, se van a efectuar dos ejemplos prácticos para
redondear la explicación de los dos modelos de CLV presentados en las figuras
6.14 y 6.15, respectivamente.

Iniciaremos con el modelo estructural básico de la figura 6.14, para tal fin hemos
creado una base de datos de ejemplo en nuestro software GBW7 que la hemos
nombrado como BD CLV. Allí hay variables demográficas y piscográficas y 18
variables numéricas métricas, que son las que en principio nos interesan para
el cálculo del CLV. Están las variables del “m1” a “m6” las cuáles contienen los
márgenes netos por cada uno de los seis periodos. Las variables “r1” a “r6”que
representan cada una de las tasas de retención. Y las variables “i1” a “i6” que
representan cada una de las tasas de descuento.

Ya las variables restantes como edad, género, rango salarial, estado civil, nivel
socioeconómico y AIO’S. Servirán para la perfilación de la segmentación basados
en el criterio del CLV.
161

Lo primero que se debe hacer es crear una nueva variable que se nombrara
como CLV_BASICO. Para tal fin procedemos a “Añadir variables” y seleccionamos
la opción “Expresión Aritmética” tal y como se puede ver en la figura 6.17. Se ha
decidido que sea una variable de expresión aritmética debido a que en primera
instancia debe calcular la ecuación y en segunda instancia, cada vez que se
ingrese un nuevo cliente a la base de datos o se actualice uno existente, el cálculo
del CLV se volverá a procesar automáticamente.

FIGURA 6.17.

Después de haber solicitado la creación de la nueva variable CLV_Basico,


aparecerá la ventana emergente de la nueva variable y damos clic en el botón
de “Calculadora” y aparecerá otra ventana emergente en donde se introduce
la expresión aritmética según la figura 6.14. Se da clic en el botón aceptar y
aparece nuestra nueva variable CLV_BASICO en la figura 6.18.
162

FIGURA 6.18. SOLICITUD DE LA EXPRESIÓN ARITMÉTICA PARA LA VARIABLE CLV_BASICO

En la figura 6.19 nos aparece creada y calculada nuestra nueva variable CLV_BASICO.

FIGURA 6.19
163

Ahora bien si calculamos los estadísticos para la nueva variable CLV_BASICO,


obtendremos que el total de la base de datos de clientes tiene un valor de
7.913.313 dólares. Con promedio de CLV de los clientes de 39.765 dólares
con desviación típica de 9.590 dólares y un coeficiente de variación del 24.1%.

Habiendo realizado el primer ejemplo con la ecuación de la figura 6.14, ahora


procederemos a crear la nueva variable para el segundo ejemplo de la figura
6.15, que incluye la probabilidad o tasa de retención.

Se deben repetir exactamente los pasos para la creación de la variable CLV_


BASICO, y lo único que cambiará será la expresión aritmética, tal y como aparece
en la figura 6.20. Y la nueva variable se nombrará como CLV_TOTAL.

FIGURA 6.20. EXPRESIÓN ARITMÉTICA PARA LA VARIABLE CLV_TOTAL

En la figura 6.21 se observa la nueva variable que aparece en la base de datos


con el nombre CLV_TOTAL.
164

FIGURA 6.21. NUEVA VARIABLE CLV_TOTAL.

Entonces, debemos calcular los estadísticos para la nueva variable CLV_TOTAL,


el valor de la base de datos es de 4.095.375 dólares, con un CLV promedio de
20.580 dólares, con desviación típica de 8.384 dólares y un coeficiente de variación
de 40.74%.

Vale anotar que la valoración de la base de datos de clientes se reduce


sustancialmente de 7.913.313 dólares a 4.095.375 dólares. Casi un 50% menos,
debido a la inclusión de la tasa de retención. En el primer ejemplo se asume que
los clientes siempre permanecerán con la empresa y en el segundo ejemplo, se
contempla la posibilidad de abandono de los clientes.

Pero no es suficiente con la valoración de la base de datos de clientes, ahora


hay que descubrir los segmentos en relación al valor de vida del cliente CLV,
cuantificarlos y perfilarlos para poder definir la estrategia “Targeting”
165

El primer trabajo que se debe adelantar es la normalización de la variable CLV_


TOTAL. Recordemos que la normalización es la transformación de la variable
original a puntuaciones “Z” o valores estándar, con el propósito de definir unos
intervalos de confianza que nos permitan la segmentación de la base de datos
de clientes.

En tal sentido, se debe ir a la barra de herramientas, clic en el botón “Análisis


de datos”, clic en el botón “Normalizar” e incluir la variable a normalizar que en
nuestro caso es CLV_TOTAL y clic en aceptar.

En seguida se procede a la creación de la nueva variable “Piramide” con los


intervalos de confianza definidos. Ver figura 6.22.

FIGURA 6.22. CREACIÓN DE LA VARIABLE “PIRÁMIDE DE CLIENTES”.

Como se representa en la figura 6.22, primero se debe recodificar la variable


normalizada CLV_TOTAL. Dar clic en la pestaña “Datos”, clic en el botón
166

“Codificar”, clic en “Recodificar” y aparece la ventana de recodificación, incluimos


en la ventana superior la variable normalizada CLV_TOTAL, se le cambia el nombre
por “PIRAMIDE”, y se le asignan los intervalos y aceptar.

En la figura 6.23 ya aparece la nueva variable “PIRAMIDE” junto con los códigos
en relación a la importancia de los clientes “Heavy”; “Medium”; “Low”.

FIGURA 6.23.

Teniendo como resultado la nueva variable “PIRAMIDE” la distribución de


frecuencias de la misma se presenta en la figura 6.24.
167

PIRAMIDE
HEAVY: 14%

(N=199)
MEDIUM: 32%

LOW: 55%

FIGURA 6.24. GRÁFICO DE LA VARIABLE “PIRAMIDE”

Como se puede apreciar en la figura 6.24, el 14% de todos los clientes (n=199),
pertenecen al segmento “Heavy” es decir de mayor CLV, seguidos del 32% de los
“Medium” y el 54% de los “Low”.

Pero falta cuantificar cada uno de estos clientes y sería, ver tabla 7:

      PIRAMIDE
      HEAVY MEDIUM LOW
    199 27 63 109
Suma 4095375 966017 1515217 1614141
CLV_TOTAL

Media 20580 35778 24051 14809


Desviación 8384 7247 2419 3805
Coef. de variación 41 20 10 26

TABLA 7. CUANTIFICACIÓN DE LOS SEGMENTOS CLV


168

• Heavy: Son el 14% del total de la base de clientes (27 de 199). Representan
un CLV total de 966.017 dólares, que se traducen en un 23.6% del total de
CLV. Con un promedio de 35.778 dólares de CLV por cliente y un coeficiente
de variación del 20% muy por debajo de la variación total del 41%.
• Medium: Son el 32% del total de la base de clientes (63 de 199).
Representan un CLV total de 1.515.217 dólares, que se traducen en un
37% del total de CLV. Con un promedio de 24.051 dólares de CLV por cliente
y un coeficiente de variación del 10% muy por debajo de la variación total
del 41%.
• Low: Son el 54% del total de la base de clientes (109 de 199). Representan
un CLV total de 1.614.141 dólares, que se traducen en un 39.4% del total de
CLV. Con un promedio de 14.809 dólares de CLV por cliente y un coeficiente
de variación del 26%, por debajo de la variación total del 41%.

Como vimos al final del capítulo anterior, la perfilación de los segmentos se puede
realizar a través del análisis de correspondencias, para poder determinar las
interrelaciones de las categorías a estudiar. Adicionalmente es una técnica sencilla
de interpretar por su representación gráfica.

Ahora bien, teniendo los tres segmentos cuantificados, realizamos el mapa de


correspondencias, de acuerdo a la figura 6.28.

Para hacer esto se da clic en el botón de “Análisis”, clic en “Análisis Avanzado”,


clic en “Reducción de Datos”, clic en “Correspondencias simple”.

Aparece la ventana emergente e incluimos en las columnas la variable “PIRAMIDE”


y en las filas las variables género, edad, rango salarial, estado civil, nivel
socioeconómico y los AIO’S.
169

FIGURA 6.25. SOLICITUD DEL ANÁLISIS DE CORRESPONDENCIAS PARA LA VARIABLE PIRAMIDE.

La figura 6.26 nos presenta la primera “pestaña” de la análisis de correspondencias,


presentando dos dimensiones, en donde la primera dimensión con un valor
propio de 1.083 y varianza aportada de 60.56%. La segunda dimensión retiene
el 39.44% del total de la varianza.

FIGURA 6.26. DIMENSIONES DE LOS SEGMENTOS PIRAMIDE.


170

La figura 6.27 expone las contribuciones absolutas y relativas de las dimensiones


uno y dos. La mayor contribución relativa a la dimensión uno en referencia a los
segmentos de la variable PIRAMIDE, es el segmento “Heavy” y en la dimensión
dos el segmento ‘MEDIUM”.

FIGURA 6.27. CONTRIBUCIONES DE LOS SEGMENTOS PIRAMIDE.

Ambos géneros contribuyen similarmente a la dimensión uno. En relación a la


edad de 36 a 45 y mayores a 56 años respectivamente son de mayor contribución
en la dimensión uno. Las edades de 26 a 35 y de 46 a 55, respectivamente
contribuyen a la dimensión dos. Los clientes de ingresos superiores a los 801
dólares y los menores a 400 dólares son los que más contribuyen a la dimensión
uno. Y aquellos pertenecientes a ingresos entre 601 y 800 dólares contribuyen
a la dimensión dos.

En referencia al estado civil los casados y unión libre, aportan en mayor proporción
a la dimensión dos. El nivel socioeconómico medio contribuye a la dimensión dos
y los niveles bajo y alto están presente similarmente en las dos dimensiones.
171

Los metalizados y sociales son los de mayor contribución a la dimensión uno y los
no metalizados y los “Locho” (Perezoso), contribuyen a la dimensión dos. Los
restantes AIO’S contribuyen similarmente a la dimensión dos.

Finalmente en al mapa de correspondencias representa las categorías activas


y sus correspondencias, se observa que los “Heavy” son cercanos al rango de
edad de 36 a 45 años, metalizados, de ingresos superiores a los 800 dólares y
entre los 401 y 600 dólares, preferiblemente mujeres y metalizadas.

Los “Medium” reciben ingresos menores a los 400 dólares, hombres separados
y en unión libre, divididos en niveles socioeconómicos bajo y alto. De edades
entre los 26 y 35 años y mayores a 56 años, siendo los de nivel socioeconómico
bajo más laboriosos y los de nivel socioeconómico alto más arriesgados, locho
y vanidoso.

FIGURA 6.28. MAPA DE CORRESPONDENCIAS PARA LOS SEGMENTOS PIRAMIDE.


173
Bibliografía

Bibliografía

AMA Core Marketing Knowledge: Segementation (2005). http://www.sapvb.


org/generic/uploads/1250180131_AMA%20Core%20Knowledge%20
Segmentation.pdf paginas 1-78.

Achrol, R. S. (1997). Changes in the Theory of Interorganizational Relations


in Marketing: Toward a Network Paradigm. Journal of the Academy of
Marketing Science. Vol. 25, No 1, 56-71.

Aeron, H., Kumar,A., Moorthy,J. (2012). Datamining framework for customer


lifetime value-based segmentation. Database Marketing & Customer
Strategy Management. 19, 1, 17-30.

Ballantyne, D. (1999). Dialogue and knowledge generation: Two sides of


the same coin in relationship marketing. Second. www. conference on
relationship marketing.

Benzécri, J. (1982). L’ Analyse des Données II: L’Anlyse des Correspondances.


Ed. Dunod. Paris.

Berry, L. (2002). Relationship Marketing of Services Perspectives from 1983


and 2000, Journal of Relationship Marketing. Vol. 1. No. 1, 59-77.

Berry,M., linoff,G. (2004). Data Mining Techniques. Wiley publishing Inc. USA.

Bitner, M. (1995). Building Service Relationship: It´s all about Promises. Journal
of the Academy of Marketing Science. Vol. 23. No. 4, 246-251.
174

Fernández, A. y Fernández, I. (2009). Críticas y alternativas a la significación


estadística en el contraste de hipótesis. Editorial Muralla. Madrid.

Gonzalez, J; Raeside, R. y Warwick J. (2006). The Importance of Analysis


and Planning in CRM: Verification of the Need for Customer Intelligence
and Modeling. Journal of Database Marketing & Customer Strategy
Management. Vol. 13. No. 3, 222-230.

Gronroos, C. (1990). Service management and marketing: Manging the moments


of truth in service competition. Lexinton, MA. Estados Unidos de America.
Lexington Books.

Gronroos, C. (1994) a. From Marketing Mix to Relationship Marketing: Towards


a Paradigm Shift in Marketing. Management Decision. Vol. 32. No. 2,
4-20.

Gummesson, E. (1994). Making relationship marketing operational. International


Journal of service industry management. Vol. 5. No. 5, 5-20.

Gummesson, E. (1998). Implementation Requires a Relationship Marketing


Paradigm. Journal of the Academy of Marketing Science. Vol. 26. No. 3,
242-249.

Gupta,S. & Lehmann,D. (2005). Managing Custmers as Investments: The


Strategic Value of the Customers in the Long Run. Upper Saddle River, NJ:
Wharton School Publishing.

Haberman, S (1978). Analysis of qualitative data. Academic Press, Londres.

Hair, J, Anderson, R., Tatham, R y Black, W. (1999). Análisis Multivariante.


Madrid. Quinta edición. Prentice Hall.
175

Harker, J. (1999). Relationship Marketing Defined? An Examination of Current


Relationship Marketing Definitions. Marketing Intelligence & Planning. Vol.
17. No. 1, 13-20.

Hughes, A. (2000). Strategic Database Marketing: The masterplan for starting


and managing a profitables, custom based marketing program. McGraw
Hill. Segunda Edición. USA.

Jain, D. & Singh, S. (2002). Customer lifetime value research in marketing: A review
and future directions. Journal of Interactive Marketing. 2, 16, 2. Pg. 34.

Jorisati, Luis. Lizasoain,Luis.1999. Analisis de Correspondencias. Editorial


Muralla. Madrid. España

Kahneman, D., Tversky, A. (1979). PROSPECT THEORY: AN ANALYSIS OF


DECISION UNDER RISK. Econometrica. Marzo: 47-2. p. 269.

Kavali,S., Tzokas, N. y Saren, M. (1999). Relationship marketing as an ethical


approach: Philosophical and managerial considerations. Management
Decision, Vol. 37. No. 7, 573 – 581.

Kumar,V. (2008). Customer Lifetime Value – The Path to Profitability. Now


Publishers Inc. Hanover, MA USA.

Lickert, R (1932). A Technique for Measurement of Attitudes. Archives of


Psychology, 140, 44-53.

Llobel, J. Frías, M.,García, F. (2004). Usos y abusos de la significación


estadística: propuestas de futuro (¿Necesidad de nuevas normativas
editoriales?). Metodología de las Ciencias del Comportamiento. Volumen
especial. 465-469.
176

Marshall, N. (2010). Customer Lifetime Value: Investigating the Relationships


Among the Key Determinants; Commitment, Loyalty and Purchase Behavior.
Tesis Doctoral. Nova Southeastern University. UMI Number: 3427307.

Paas, L y Kuijler, T. (Sept. 2001). Towards a General Definition of Relationship


Management. Journal of Database Management. Vol, 9. No.1, 51-60.

Parr,O. (2001). Datamining Cookbook. John Wiley & Sons, INC. USA.

Pfeifer, P. & Bang, H. (2005). Non-Parametric Estimation of Mean Customer


Lifetime Value. Journal of Interactive Marketing. 19, 4, 48-66.

Sin,L., Tse, A., Yim, F. (2003). CRM: Conceptualization and scale develpment.
European Journal of Marketing. VOl. 39. 11/12 Pg. 1264-1290.

Smith, DVL & Fletcher, JH. (2001). Inside Information: Making Sense of
Marketing Data. John Wiley & Sons. USA.

Sonquist, J., Baker, E., Morgan, J. (1971). Searching for Structure. Institute for
Socail Research. Univ. Michigan. Ann Arbor.

Stone, B. (1988). Marketing Directo: Métodos para alcanzar el éxito.


Asociación Española de Marketing Directo. GERSA. Barcelona, España.

Stone, M. (2003). The Quality of Customer Information Management in


Customer Life Cycle Management. Journal of Database Management. Vol.
10. No. 3, 240-254.

Weinberg, B. & Berger, P. (2011). Conected customer lifetime value: The impact
of social media.Journal of Direct, Data and Digital Marketing Practice. 12,
4. 328-344.
177

Woodruff, R. (1997). Customer Value: The Next Source for Competitive Advantage.
Academy of Marketing Science Journal. Vol. 25. No. 2, 139-153.

Yang,A. (2005). Using lifetime value to gain long-term profitability. Journal of


Database Marketing & Customer Strategy Management.1, 12, 2, 142-152.
ISBN 978-9-584-65697-1

Incluye el software Gandia Barbwin 7


por favor solicítelo al siguiente e-mail:
info@tmiandino.com

View publication stats

También podría gustarte