Está en la página 1de 147

Análisis Multivariante Aplicado a la

Investigación Turística

Autores:

Ramos Domínguez, Ángel M.

García González, Carlos G.


ISBN: 978-84-616-5991-3
Análisis Multivariante Aplicado a la Investigación Turística

ÍNDICE

Capítulo 1: La Estadística Como Herramienta en la Investigación Turística 4


1.1. El Turismo y la Estadística 5
1.1.1. El Turismo 5
1.1.2. La Estadística 8
1.2. La Estadística y La Investigación en la Industria Turística 11
1.2.1. Aplicaciones de los métodos estadísticos a la investigación en la 14
industria turística
1.2.2. Técnicas estadísticas más utilizadas en la investigación de la industria 16
turística

Capítulo 2: La Inferencia Estadística: Teoría de las Muestras 18


2.1. La inferencia estadística y su Clasificación 19
2.2. Muestreo 20
2.2.1. Conceptos 20
2.2.2. Conveniencia y limitaciones del muestreo 21
2.2.3. Muestra aleatoria 22
2.2.4. Estadístico 23
2.3. Diseños de muestreo 23
2.3.1. Determinación del Tamaño de la Muestra 25

Capítulo 3: Análisis de Componentes Principales 27


3.1. Conceptos Básicos 28
3.2. Etapas del Análisis De Componentes Principales 30
3.2.1. Analizar la Adecuación de los Datos 30
3.2.2. Extracción de Factores: Valores Propios. Varianza Explicada. Nº Factores a 37
Retener
3.2.3. Interpretación de los Factores 40
3.2.4. Coeficientes y Puntuaciones Factoriales 43
3.2.5. Bondad del Modelo Factorial 48
3.3. Pasos para la Ejecución del Análisis con SPSS 51
3.4. Caso a Resolver 52
3.5. Bibliografía 53

Capítulo 4: Análisis de Correspondencias Simples 54


4.1. Matriz de Datos 55
4.2. Nube de Puntos y Distancias 57
4.2.1. Nube de Puntos 57
4.2.2. La Distancia 61
4.3. Obtención de los Ejes Factoriales 63
4.3.1. Criterios a Maximizar y Matriz a Diagonalizar 63
4.3.2. Inercia y Test de Independencia 65
4.3.3. Examen de los Puntos Fila y Columna 67
4.4. Relaciones Entre Los Dos Espacios 75
4.4.1. Reglas de Interpretación de la Representación Gráfica Conjunta 76
4.4.2. Análisis Mediante Representación Gráfica Conjunta 77
4.5. Caso Propuesto 78

Capítulo 5: Análisis Cluster 79


5.1. Conceptos y Planteamientos del Análisis Cluster 80
5.1.1. Matriz de Datos 80
5.1.2. Medidas de Similitud 82
5.1.3. Métodos de Clasificación 87
5.1.4. Interpretación de los Resultados Obtenidos 89

ISBN: 978-84-616-5991-3
Análisis Multivariante Aplicado a la Investigación Turística

5.1.5. Descripción de los Clusters Resultantes 93


5.2. Caso Propuesto 95
5.3. Bibliografía 95

Capítulo 6: Aplicaciones Estadísticas a la Industria Turística 96


6.1. Aplicación 1: Análisis de pasajeros en función del tipo de compañía 97
6.2. Aplicación 2: Evaluación de la Imagen de un Destino Turístico 100
6.3. Aplicación 3: Segmentación de los Visitantes de un Parque Temático en Función 118
de las Emociones
6.4. Aplicación 4: Posicionamiento de Destinos Turísticos 128
6.5. Aplicación 5: Segmentación de Turistas en Función de las Motivaciones de Viaje 136
6.6. Caso Propuesto: Medición de la Calidad de Servicio Percibida en Agencias de 145
Viaje

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 4 de 147

CAPÍTULO 1

LA ESTADÍSTICA COMO HERRAMIENTA EN LA


INVESTIGACIÓN TURÍSTICA

ESQUEMA DEL CAPÍTULO OBTETIVOS


1.1. EL TURISMO Y LA ESTADÍSTICA  Definir el Turismo y la Estadística
 Entender la importancia de la
1.1.1. El Turismo Estadística en la investigación
turística.
1.1.2. La Estadística  Conocer los pasos a seguir en un
proceso de investigación en la
1.2. LA ESTADÍSTICA Y LA INVESTIGACIÓN EN LA industria turística.
INDUSTRIA TURÍSTICA  Describir el contenido del texto

1.2.1. Aplicaciones de los métodos estadísticos a la


investigación en la industria turística
1.2.2. Técnicas estadísticas más utilizadas en la
investigación de la industria turística

RESUMEN:

Según la Organización mundial del turismo, (OMT), “el turismo son las actividades que desarrollan
las personas durante sus viajes y estancias fuera de su entorno habitual por un período de tiempo
inferior a un año con fines de ocio, negocio u otros motivos no relacionados con el ejercicio de una
actividad remunerada en el lugar de destino”. Por otra parte, la Estadística forma parte de los
métodos cuantitativos que utiliza la Ciencia Económica para describir, analizar, predecir y
modelizar la realidad. Sus métodos son imprescindibles en la ciencia económica, no sólo para la
búsqueda de información (tanto cualitativa como cuantitativa), sino para ayudarle a cuantificar,
contrastar e interpretar la realidad en un mundo de incertidumbre.

Con esta obra, además de explicar lo que es el Turismo y la Estadística, se ha querido producir:

Una guía práctica de aplicación a la investigación turística, equilibrada, con aproximaciones


tanto cuantitativas como cualitativas.

Un manual que permita a los estudiantes reflexionar evaluando sus propios trabajos;
incluso, darles la posibilidad de compararlos con otros, ya que en la investigación turística,
más allá de poseer métodos de investigación apropiados o no, lo importante es tener claros
nuestros objetivos de trabajo.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 5 de 147
1.1.- EL TURISMO Y LA ESTADÍSTICA
1.1.1. El Turismo

Según la Organización mundial del turismo, (OMT), “el turismo son las actividades que desarrollan
las personas durante sus viajes y estancias fuera de su entorno habitual por un período de tiempo
inferior a un año con fines de ocio, negocio u otros motivos no relacionados con el ejercicio de una
1
actividad remunerada en el lugar de destino” .El turismo es una actividad muy importante en un
gran número de países, de forma que en muchos de ellos es su principal fuente de divisas, lo cual
2
puede entenderse si analizamos la tabla 1.1 , referida al número de llegadas turísticas
internacionales en el año 2002, según la OMT.

Tabla 1.1

Llegada de turistas
Cuota de
internacionales Variación
mercado
Continentes (millones)
2000/199 2005/199
1995 2000 2002 2004 2005 1995 2000 2005
5 5
Europa 313,1 393,8 404,8 422,9 443,8 58,0 57,3 54,9 25,8 41,7
Asia y
82,7 111,4 126,1 145,5 156,2 15,3 16,2 19,3 34,6 88,8
Pacífico
América 109,0 128,2 116,8 125,7 133,1 20,2 18,7 16,5 17,6 22,1
África 20,3 28,2 29,6 33,4 36,7 3,8 4,1 4,5 38,8 80,7
Oriente
14,3 25,2 29,2 36,3 38,4 2,7 3,7 4,8 76,5 168,5
medio
100, 100, 100,
Mundo 539,5 686,7 706,4 763,9 808,2 27,3 49,8
0 0 0
Fuente: OMT (www.world-tourist.org) y elaboración propia

A la vista de estos datos, en el año 2005 se rebasó los 800 millones de llegadas turísticas en el
mundo, con un incremento del 49,8% respecto al año 1995, siendo el destino con mayor cuota de
mercado Europa y, a mucha distancia, América Asia y el Pacífico, destino este último que ha
pasado a segundo lugar en 2005.

1
OMT. Recomendaciones sobre estadísticas en Turismo. Organización Mundial del Turismo.
1998.
2
Uriel, E.; Hernández, R et all. Análisis y tendencias del turismo. Ed Pirámide. 2004.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 6 de 147
Gráfico 1.1

Evolución turistas internacionales

450,0
400,0
350,0
300,0
250,0
200,0 1995
150,0 2000
100,0
50,0 2005
0,0
Europa Asia y América África Oriente
Pacífico medio
Continentes

Como vemos en el gráfico 1.1, todos los continentes tienen una variación positiva en el número de
llegadas turísticas internacionales, destacando el Oriente Medio, Asia y Pacífico y África con un
168,5%, 88,8% y 80,7% respectivamente.

En cuanto a la cuota de mercado, Europa sigue siendo el Continente con mayor cuota de
mercado, aunque entre 1995 y 2005 se ha ido reduciendo, pasando del 58% en 1995 al 54,9% en
2005. También se reduce la cuota de mercado de América que en 1995 era el segundo destino
más importante con un 20,2% de cuota de mercado y en 2005 bajó al 16,5%. Ello, a favor sobre
todo de Asia y Pacífico, que pasan del 15,3% en 1995 al 19,3% en 2005 y de África y Oriente
Medio.

Por su interés, vamos a presentar los resultados desagregados de Europa y América para los
años 1995, 2000 y 2005, con el fin de ver la evolución de dos de los continentes más importantes
en cuanto a llegada de turistas internacionales.

Tabla 1.2

Evolución turistas internacionales Cuota de mercado Variación


Continentes 1995 2000 2005 1995 2000 2005 2000/1995 2005/1995
Europa
Norte 39,4 44,6 51,8 12,6 11,3 11,7 13,2 31,5
Oeste 112,2 139,7 141,1 35,8 35,5 31,8 24,5 25,8
Central/Este 58,8 68,8 92,3 18,8 17,5 20,8 17,0 57,0
Mediterraneo/Sur 102,7 140,8 158,8 32,8 35,7 35,8 37,1 54,6
América
Norte 80,7 91,5 89,4 74,0 71,4 67,1 13,4 10,8
Caribe 14 17,1 19,2 12,8 13,3 14,4 22,1 37,1
Central 2,6 4,4 6,6 2,4 3,4 5,0 69,2 153,8
Sur 11,7 15,2 18 10,7 11,9 13,5 29,9 53,8
Fuente: OMT (www.world-tourist.org) y elaboración propia

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 7 de 147

Gráfico 1.2

Cuota de Mercado Europa

40,0

Porcentajes
30,0
20,0
10,0 1995
2005
0,0 2000 2000
1995

Norte
2005

Oeste

Central/Este

Mediterraneo/Sur
Áreas

Dentro de Europa las áreas más importantes son Europa occidental y el Mediterráneo/Sur (gráfico
1.2). Por otra parte, hay bastante estabilidad en cuanto a la cuota de mercado de cada área
considerada, destacando sólo el ligero incremento del Mediterráneo/Sur y Central/Este frente a la
disminución de la Europa Occidental.

En América, (Gráfico 1.3), el área más importante con diferencia es el Norte, cuya cuota de
mercado supone cerca de las tres cuartas partes del total. Sin embargo, se ha producido un
ligero aumento del resto de las áreas en detrimento del Norte.

Gráfico 1.3

Cuota de Mercado América

80,0

60,0
Porcentajes

40,0
1995
20,0 2000
2005 2005
0,0 2000
Norte

1995
Caribe

Central

Sur

Áreas

Todo ello hace que “las empresas e instituciones turísticas han de dedicar parte de su actividad a
la investigación para así desarrollar, captar y adecuar las nuevas tecnologías que existen en el
3
mercado en incorporarlas a sus procesos productivos” .

3
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 8 de 147

1.1.2. La Estadística

La Estadística forma parte de los métodos cuantitativos que utiliza la Ciencia Económica para
describir, analizar, predecir y modelizar la realidad. Sus métodos son imprescindibles en la ciencia
económica, no sólo para la búsqueda de información (tanto cualitativa como cuantitativa), sino
para ayudarle a cuantificar, contrastar e interpretar la realidad en un mundo de incertidumbre. Sin
embargo, la Estadística es, además, el diseño de experimentos, la reducción y proceso de datos,
y la toma de decisiones. Facilita los métodos precisos para el análisis de la información recogida,
"además de ser utilizada como método en la totalidad de las ciencias empíricas, incorporándose
como una parte más del objeto formal de las ciencias empíricas cuando los elementos estudiados
4
sean de naturaleza incierta o aleatoria" .

Para comprender mejor lo que es la Estadística, hay que partir de que existen dos tipos de
fenómenos:

• Fenómenos causales o deterministas, en los cuales se puede saber el resultado final


siempre que se realicen en iguales condiciones. Por ejemplo: si combino 2 moléculas de
hidrógeno con una de oxígeno siempre obtengo dos de agua (salvo error en el proceso): 2H2 +
O2→ 2H2O.

• Fenómenos aleatorios o estadísticos, en los que no se puede prever el resultado final al


repetirlos en análogas condiciones. Pueden ser de dos clases:

1. Fenómenos que se pueden repetir tantas veces como se quiera en iguales


condiciones. Si bien no se puede predecir el resultado final, las frecuencias relativas de
cada posible resultado se estabilizan alrededor de un valor determinado. Es la regularidad
estadística o ley del azar, base de la Teoría de la Probabilidad y del concepto
frecuentalista de Probabilidad.

2. Fenómenos sin regularidad estadística, en los que además del azar intervienen
estrategias o posiciones humanas (a partir de estos fenómenos, Von Newman y
Morgenstern elaboraron la Teoría de los Juegos), surgiendo de ellos el concepto subjetivo
de probabilidad que se realiza en términos de grados de creencia, de opiniones, etc.,
dentro de lo que se conoce por Estadística Bayesiana.

De esta forma, la Estadística se puede definir como una ciencia, como un método o como un
método.

• La Ciencia Estadística es aquélla cuyo objeto material, o parte de la realidad que acota y
estudia, son los fenómenos aleatorios y estadísticos, mientras que su objeto formal, o
punto de vista desde el que se estudian los fenómenos estadísticos, consiste en prescindir de
los casos aislados y considerar las regularidades y propiedades del conjunto, infiriendo en su
caso sobre la totalidad del fenómeno o población, a partir de los resultados que aporta una

4
Escuder Valles, R. Estadística Económica y Empresarial. Ed. Tebar Flores. 1986

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 9 de 147
subpoblación o muestra, con un grado de certeza o fiabilidad que se mide en términos de
probabilidad.

Por ejemplo: no interesa la edad de una persona en particular; interesa la edad media, edad
más frecuente, rango de edades, etc.

• La Estadística es un método, ya que su objeto formal induce una metodología científica que
puede ser utilizada por la totalidad de las Ciencias Empíricas. Como método es el modo de
proceder de la Ciencia Estadística para obtener las leyes que rigen las regularidades de los
fenómenos de azar. Es especialmente importante porque posibilita la inducción asociada a
grados de certeza o de fiabilidad estadística (en términos de probabilidad), a diferencia de los
métodos matemáticos, que son propiamente deductivos.

• Por ello, la Estadística ha recibido el nombre de "Tecnología del método científico". Así, Martín
5
Guzmán y otros consideran que la Estadística se podría entender como "la tecnología del
método científico que proporciona instrumentos para la toma de decisiones cuando éstas se
adoptan en régimen de incertidumbre, siempre que esta incertidumbre pueda ser medida en
términos de probabilidad".
6
Por último, la definición de Mendenhall y Beaver recoge las dos grandes aplicaciones de la
Estadística:

• Descripción numérica de los fenómenos mediante el recuento de sus datos y su


representación.

• Obtención de conclusiones mediante la estadística inductiva que posibilita la búsqueda de


leyes que rigen los fenómenos.

Se puede dividir la Estadística en dos grandes ramas, unidas por la Teoría de la Probabilidad:

Cuadro 1.1

ESTADÍSTICA

DESCRIPTIVA INFERENCIA

PROBABILIDAD

ANÁLISIS MULTIVARIANTE

5
Martín Guzmán, M.P. M.P.; Martín Pliego, F.J. Curso básico de Estadística Económica. De. AC. 1985
6
Mendenhall, W. y Beaver, R. Introduction to Probability and Statistics. 8ª de. Pws-Kent Publishing
Comp. Boston. 1991.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 10 de 147
• La Estadística Descriptiva, relacionada con la recopilación, estudio, clasificación e inter-
pretación de un grupo de datos, sin sacar conclusiones e inferencias para un grupo mayor.
A esto se redujo la Estadística durante muchos años, aplicándose a datos económicos,
censos poblacionales, etc.

Por ejemplo: Estudio de la edad de los habitantes de una región.

• La Estadística Inferencial, relacionada con el proceso de utilizar datos procedentes de un


determinado subcolectivo o muestra, para tomar decisiones en el caso más general del que
forman parte esos datos. Por ejemplo: Analizar la edad media de los turistas a través de una
muestra representativa.

Es precisamente la Inferencia Estadística la parte que caracteriza a la Estadística como


disciplina autónoma. Mediante ella, las leyes obtenidas sobre un determinado subcolectivo o
muestra se extienden a la totalidad del colectivo o población.

Por ejemplo: Si la edad media de un grupo de turistas (muestra) es 35 años, podemos tal vez
inferir que la de todos los turistas que vienen a Canarias está comprendida en el intervalo [34,
36] con una probabilidad de error determinada.

Se puede definir la Inferencia Estadística como la extracción de conclusiones (predictivas e


inseguras) a partir de ciertas informaciones, de tal forma que la verdad de dichas conclusiones
venga dada por un cierto grado de confianza obtenido, utilizando para ello la Teoría de la
Probabilidad.

• La Teoría de la Probabilidad es la herramienta matemática que utiliza la Estadística para


poder modelizar matemáticamente los fenómenos reales, posibilitando a la Inferencia
estadística generalizar a partir de muestras; es decir, pasar de la mera descripción a la
inferencia.

En resumen, la tradicional división de la Estadística aparece clara:

• Si se quiere resumir la distribución de caracteres observados, estamos ante la Estadística


Descriptiva.

• Si, por el contrario, se espera generalizar las características obtenidas a la población, nos
encontramos ante la Estadística Inferencial.

• Sin embargo, esa división puede considerarse actualmente superada gracias al desarrollo de
los ordenadores, que ha permitido poner a disposición de los estadísticos nuevos y potentes
instrumentos de observación de la realidad multidimensional dando lugar, entre otros, al
Análisis Multivariante.

En él, la descripción es la fase inicial, una etapa obligatoria en el estudio de un fenómeno. Pero
además, sus técnicas permiten analizar, verificar, probar y poner a prueba ciertas hipótesis,
renovando y generalizando los métodos de la Estadística Descriptiva, utilizando numerosos
resultados relevantes de la Inferencia Estadística.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 11 de 147
En este sentido, este libro se divide en distintos bloques, diferenciados según el esquema del
cuadro 1.1, añadiendo además un último bloque referido a las técnicas de análisis
multivariante.

1.2. LA ESTADÍSTICA Y LA INVESTIGACIÓN EN LA INDUSTRIA


TURÍSTICA

La OMT define la investigación turística como “ la formulación de preguntas y la organización y


análisis de los datos con el fin de obtener pautas de comportamiento, relaciones y tendencias que
ayuden al entendimiento del sistema, a la toma de decisiones o a la construcción de predicaciones
7
bajo el abanico de varios escenarios alternativos de futuro” .

En este sentido, si recordamos la definición de la Estadística como "la tecnología del método
científico que proporciona instrumentos para la toma de decisiones cuando éstas se adoptan en
régimen de incertidumbre, siempre que esta incertidumbre pueda ser medida en términos de
8
probabilidad" , es precisamente esta ciencia la que permitirá a la industria turística analizar sus
datos de la forma más objetiva posible ayundándola, entre otras cosas, en .la toma de decisiones.
9
Como señalan Peña, D. y Romo, J. , “un análisis estadístico se lleva a cabo siguiendo las
etapas habituales en el llamado método científico”. Estos autores proponen un esquema que,
10
junto con el expuesto en “Apuntes de metodología de la investigación en turismo”, de la OMT
, nos ha ayudado a elaborar los pasos que entendemos debe seguir todo proceso de
investigación en el que se utilice la herramienta estadística.

7
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.
8
Martín Guzmán, M.P. M.P.; Martín Pliego, F.J. Curso básico de Estadística Económica. De.
AC. 1985
9
Peña, D. y Romo, J. Introducción a la Estadística para las Ciencias Sociales. Ed. Mc Graw
Hill. 1999.
10
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 12 de 147
Cuadro 1.2

PLANTEAMIENTO DEL PROBLEMA

Definir objetivos de la investigación

Precisar el universo o población Revisión bibliográfica Definición de

variables, hipótesis

RECOGIDA DE LA INFORMACIÓN

Mediante encuesta Fuentes primarias y

Diseños del cuestionario

Encuesta piloto Cuestionario definitivo

Realización de la encuesta

SELECCIÓN Y ORGANIZACIÓN DE LOS DATOS

UTILIZACIÓN DE TÉCNICAS ESTADÍSTICAS

ANÁLISIS

CONCLUSIONES

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 13 de 147
1. Planteamiento del problema

 Debemos fijar objetivos claros y precisos en nuestra investigación.

 Esta etapa requiere un estudio de carácter cualitativo en el que acotamos la población


que queremos estudiar, realizamos una revisión bibliográfica sobre trabajos similares o
que nos pueden ayudar a conocer la población y definimos las características
poblacionales que nos interesan, así como la metodología que utilizaremos para el
tratamiento de os datos..

2. Recogida de información

Hay que decidir las fuentes de información estadística a utilizar, con qué finalidad y qué medios
vamos a utilizar para acceder a esa información.

 En cuanto al medio para obtener la información, este puede ser cualitativo o


cuantitativo, dependiendo de la finalidad de los objetivos.

 Si es mediante encuesta, hay que elaborar el cuestionario de forma adecuada, realizar


un diseño muestral con el que la muestra que se obtenga sea suficientemente
representativa de la población a estudiar, realizar la encuesta a una muestra piloto para
asegurarnos que el funcionamiento del cuestionario es correcto y, por fin, realizar la
encuesta a la muestra de unidades poblacionales elegida.

3. Selección y organización de los datos

Independientemente de cómo hayamos recogido la información, una vez seleccionada se debe


organizar en una base de datos o en tablas, eliminando aquellos casos que nos ofrezcan dudas
a la hora de tabular.

4. Tratamiento de los datos: Utilización de técnicas estadísticas

Una vez organizada la información podemos tratarla mediante los métodos estadísticos que
definimos anteriormente o mediante cualquier otro, si en el desarrollo de la investigación lo
hemos considerado de utilidad.

5. Análisis y síntesis de los resultados

Una vez que hemos aplicado los métodos que hemos considerado convenientes, es
importantísimo un correcto análisis de los resultados obtenidos. Hay que tener en cuenta que
los resultados estadísticos no son verdades absolutas, pero nos permiten ver la realidad de la
forma más objetiva posible.

Para la presentación de la síntesis de los resultados es conveniente utilizar tablas, cuadros y


gráficos que nos permita observar los puntos que más sobresalen con un simple vistazo.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 14 de 147
6. Conclusiones

Es conveniente que las conclusiones sean lo más concretas y objetivas posibles. Además, su
número no debe ser excesivamente grande.

1.2.1. Aplicaciones de los métodos estadísticos a la investigación en la


industria turística

Las aplicaciones de los métodos estadísticos en la Economía y la Empresa, en general, son


múltiples. Vamos a enumerar algunas de ellas:

• Describir la realidad socioeconómica (producción, costes, cotizaciones bursátiles, población,


mercado, tesorería, etc), obteniendo de los mismos sus principales características.

• Los conocimientos sobre la Teoría de las Muestras y la Inferencia Estadística, permitirán inferir
las características del colectivo que representan a través de una colección reducida de datos
en campos como:

 La realización de auditorías, control interno y verificación de la empresa, la estimación


sobre el total o el importe medio de una cuenta, o contrastar el valor probable de la misma.

 El control de calidad, ya sea en los procesos de producción, el diseño de nuevos


productos, o la calidad de servicios públicos o privados.

 El análisis financiero, en la simulación de proyectos de inversión.

 Hacer estimaciones sobre cualquier parte de la realidad socioeconómica.

• Mediante las técnicas de predicción, las organizaciones empresariales o públicas y los


individuos hacen predicciones de las actividades futuras y eligen las acciones a partir de las
sugerencias de las predicciones.

• Las técnicas multivariantes son de gran utilidad en el campo comercial y de mercados, donde
será necesario investigar el consumo de un producto en una zona, realizar sondeos sobre la
aceptación de nuevos productos, su demanda potencial, los precios de venta competitivos,
cuotas de mercado, áreas potenciales, preferencias de los consumidores, etc.. Pero son
igualmente útiles en cualquier análisis económico en el que haya que trabajar con un gran
número de caracteres cualitativos o cuantitativos, para estudiar la gestión o para determinar
perfiles organizativos y estratégicos en las empresas.

• Las técnicas de decisión clásicas (estimación y contrastes de hipótesis), así como las de
decisión bayesianas y deterministas, se utilizan en la toma de decisiones para la administración
de empresas y en el subsector producción, o en las decisiones de inversiones secuenciales.

• Hay técnicas estadísticas que han desarrollado métodos propios para el tratamiento de
problemas económicos, como son los análisis sobre concentración de la renta, los números
índices, buena parte del desarrollo de las series temporales, modelos de Contabilidad Nacional

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 15 de 147
y Tablas Input-Output de relaciones intersectoriales, el tratamiento del problema de la
agregación y desagregación económica, técnicas demográficas, crecimiento económico, etc..
Cabe destacar, no por su dificultad, sino por su extensa utilidad, los números índices,
indispensables para poder realizar cualquier análisis comparativo, ya sea espacial o temporal,
que se aplican en todos los campos de la Economía y de la Empresa.

• Todo ello también es útil para el análisis formal de la Economía Sectorial, de las Finanzas
Públicas, de las Políticas Económicas que pueden adoptarse, del Comercio Internacional, etc.

Concretamente, en el Mercado Turístico se pueden utilizar las técnicas estadísticas


comentadas para investigar los siguientes aspectos:

 El movimiento de turistas

 El perfil del turista

 Las motivaciones de elección de un destino determinado.

 Los hábitos de información del turista

 Los hábitos de compra que tienen los turistas

 Los hábitos de consumo

 El grado de satisfacción del consumidor

 La imagen de la oferta

 La competencia

 El gasto de los turistas

 Las inversiones económicas en el destino

 La evolucionando los precios en un año en relación con otros destinos.

 El impacto económico sobre el destino

Desde el punto de vista del sector privado y público, la Estadística es útil en la investigación en el
11
Turismo, de la siguiente forma :

• Para el empresario turístico:

 Proporciona más y mejor información sobre el sistema turístico

 Aumenta la competitividad al permitir un mayor conocimiento del mercado y del entorno


en el que se desarrolla la actividad turística.

 Reduce la incertidumbre y el tiempo de reacción ante los cambios en los requerimientos


de los clientes.

• Para el sector público:

11
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 16 de 147
 Actúa de forma más competitiva al tener mayor información.

 Es una fuente de información importante.

 Detecta la importancia del sector sobre el resto de la economía.

 Permite la realización de planificaciones estratégicas.

1.2.2. Técnicas estadísticas más utilizadas en la investigación de la industria


turística

Las técnicas de análisis de datos empleadas en la investigación turística han sido analizadas
en diversos trabajos, con el fin de conocer el nivel de uso de los distintos métodos estadísticos
que contribuyen al avance científico. En el trabajo de Reid y Andereck (1989), donde se
analizaron tres revistas – Annals of Tourism Research, Journal of Travel Research y Tourism
Management- y se revisaron 659 artículos publicados en el período 1978-1987, se encontró
que la regresión, la correlación lineal, el análisis de la varianza y los modelos econométricos
eran las técnicas más utilizadas. Asimismo, los autores hallaron una tendencia creciente en el
uso de técnicas multivariantes en el período analizado. Por su parte, el estudio realizado por
Baloglu y Assante (1999) sobre cinco revistas – Cornell Hotel and Restaurant Administration
Quarterly, Hospitality Education and Research Journal, Internacional Journal of Hospitality
Management, FIU Hospitality Review y Journal of Travel Research- obtuvo que las técnicas
estadísticas más utilizadas se centraban en una combinación de técnicas univariantes y
multivariantes, tales como la correlación lineal, el análisis de la varianza, la regresión múltiple y
el análisis factorial. Más recientemente, Palmer, Sesé y Montaño (2004) examinaron la
12
utilización de los métodos estadísticos a través de 11 revistas del ámbito turístico en el
periodo 1998-2002, cuyos resultados señalan que la regresión, el análisis factorial y el análisis
de la varianza son, por este orden, las tres técnicas más utilizadas, ya que suponen el 38,71%
del total de técnicas empleadas.

Centrándonos en artículos de marketing turístico, en el período 1995-2003 realizamos (Bigné,


Andreu y Sánchez, 2005) un análisis bibliométrico de revistas especializadas en turismo, tanto
nacionales como internacionales: Annals of Tourism Research, Tourism Management, Papers
de Turisme, Estudios Turísticos, Annals of Tourism Research en Español; así como de revistas
específicas de marketing: Revista Española de Investigación de Marketing, Actas de los
Encuentros de Profesores de Marketing; y revistas clave en Economía de la Empresa:
Cuadernos de Economía y Dirección de la Empresa, Revista Europea de Dirección y Economía
de la Empresa. El número total de artículos de marketing turístico identificados fue de de 272
sobre un total de 2072. Respecto a la metodología empleada en los artículos de marketing

12
Las revistas fueron: Journal of Hospitality and Tourism Research, Tourism Analysis,
International Journal of Service Industry Management, Annals of Tourism Research en
Español, Tourism Economics, Tourism Management, Journal of Leisure Research,
International Journal of Hospitality Management, Annals of Tourism Research, Journal of
Travel Research, International Journal of Tourism Research.

ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 17 de 147
turístico, el 82,4% de los mismos son empíricos, frente al 17,6% teóricos. Seleccionando los
trabajos empíricos y, en particular, aquellos que aplican investigación cuantitativa, cabe
destacar que prácticamente en todos los estudios se realiza algún tipo de análisis descriptivo,
bien como paso previo a la realización de análisis más complejos o bien como única técnica de
análisis de datos. Respecto a las técnicas multivariantes, las más utilizadas son el análisis
factorial de componentes principales y la regresión, coincidiendo estos resultados en gran parte
con los de los trabajos anteriormente comentados.

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 18 de 147

CAPÍTULO 2
INFERENCIA ESTADÍSTICA. TEORÍA DE LAS
MUESTRAS

ESQUEMA DEL CAPÍTULO OBJETIVOS

2.1. LA INFERENCIA ESTADISTICA Y SU  Comprender cual es el objetivo de la


CLASIFICACIÓN inferencia estadística.
2.2. MUESTREO  Aprender como se realiza el proceso
2.2.1. Conceptos de recogida de información
2.2.2. Conveniencia y limitaciones del  Conocer los distintos tipos de diseños
muestreo muestrales
2.2.3. Muestra aleatoria  Saber las principales medidas
2.2.4. Estadístico muestrales y sus distribuciones de
2.3. DISEÑOS DE MUESTREO probabilidad.
2.3.1. Determinación del Tamaño Muestral

RESÚMEN:

La Inferencia Estadística, según D.R.Cox (1958), puede definirse como una afirmación relativa
a poblaciones estadísticas efectuada a partir de ciertas observaciones con determinada medida
de la incertidumbre.

Como método, podemos decir que es aquel mediante el cual se infieren o inducen propiedades
desconocidas de la población como pueden ser parámetros, tipo de distribución o modelo de
probabilidad que sigue, basándose en una serie de informaciones tales como datos muestrales
o distribuciones a priori que se posean.

Para medir el grado de certidumbre o incertidumbre de las conclusiones a las que se llegue, se
necesitarán los conocimientos aportados por la Teoría de la Probabilidad y, en concreto, los
diferentes modelos probabilísticos, discretos y continuos, unidimensionales y
multidimensionales, ya estudiados en el capítulo 9.

El proceso de recogida de información, es decir, del proceso de muestreo, es el objetivo de la


Teoría del Muestreo y, por tanto, de este capítulo.

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 19 de 147

2.1. LA INFERENCIA ESTADISTICA Y SU CLASIFICACIÓN


La Inferencia Estadística puede clasificarse en función de su objetivo y del tipo de información a
utilizar:

A) Respecto a su objetivo, en:

• Métodos Paramétricos

En ellos se supone que los datos provienen de una distribución conocida, centrándose las
inferencias en sus parámetros. Es la más frecuente en Estadística

• Métodos No Paramétricos

En ellos no se supone conocida la distribución poblacional, introduciéndose solo hipótesis muy


generales respecto a ella (continuidad, simetría,...).

B) Respecto al tipo de información, en:

• Inferencia Clásica

Se caracteriza porque los parámetros son considerados como valores fijos desconocidos y la
única información existente sobre los mismos es la contenida en la muestra. Es el enfoque al
que nos referiremos en estos capítulos.

• Inferencia Bayesiana

Los parámetros son considerados como variables aleatorias. Permiten introducir información
"a priori" sobre los mismos, a través de la asignación de "grados de creencia", además de la
información obtenida a partir de muestras, si la hubiera.

Independientemente de la clasificación expuesta, la Inferencia Estadística constituye un conjunto


de técnicas que nos permitirán tomar decisiones, ya que habrá que elegir una de entre distintas
posibilidades respecto a los parámetros, tipo de distribución o modelo de probabilidad que sigue la
variable objeto de estudio, sustituyendo las conjeturas más o menos ingeniosas por procedimien-
tos objetivos cuya representatividad puede medirse o evaluarse. Esto es de gran importancia en el
mundo de la empresa en particular y de la economía en general, campos en los que, por un lado,
la mayor parte de las veces la toma de decisiones lleva aparejado un coste o un beneficio
determinados y, por otro, no se puede contar con toda la información existente debido a problemas
de tiempo, monetarios o, incluso, de volumen.

Dentro de la Inferencia Estadística, vamos a ocuparnos del estudio de las leyes que permitan
aplicar los principios de generalización, cerrando así el proceso de captación de información en
orden a la proyección de la misma. En otras palabras, muchas veces interesa estimar alguna
característica, contrastar alguna hipótesis o tomar una decisión respecto a una población con un
determinado modelo probabilístico F(x); para ello se procede utilizando la información contenida en
una muestra. Por ello, antes de abordar la Teoría de la Estimación y el Contraste de Hipótesis, es
preciso estudiar el proceso de recogida de información que lo posibilita, es decir, del proceso de
muestreo, que es el objetivo de la Teoría del Muestreo.

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 20 de 147

En definitiva, el esquema a seguir a partir de ahora, que completa el proceso de conocimiento


básico de la Estadística, es el siguiente:

Cuadro 2.1.1

PARAMÉTRICA
INFERENCIA ESTADÍSTICA

NO PARAMÉTRICA

MUESTREO ESTIMACIÓN PRUEBAS DE HIPÓTESIS

2.2. MUESTREO

2.2.1. Conceptos

Dos son los conceptos fundamentales para introducirnos en la Inferencia Estadística y son el
"población" y el de "muestra". A partir de ellos, podremos definir otra serie de conceptos
importantes en la inferencia estadística.

A. Población
13
Es cualquier colección finita o infinita de individuos o elementos ; esta colección no ha de referirse
necesariamente a organismos vivientes.

Es frecuente diferenciar entre "población" y "universo", indicando con el primero un conjunto de


elementos, seres u objetos, y con el segundo un conjunto de datos numéricos que miden cierta
característica de aquellos. Cuando no haya peligro de confusión se usará el término población en
cualquiera de los dos sentidos.

B. Muestra

Es una parte de la población, formada por un subconjunto seleccionado de unidades de aquella,


para de investigar las propiedades de dicha población.

C. Muestreo

Es el procedimiento mediante el cual se obtiene una o más muestras. Hay muchas formas de
tomar una muestra y muchas clases de muestras. La exactitud del método y de las conclusiones
depende en gran parte del cuidado con que se diseña y ejecuta el proceso muestral.

D. Muestreo probabilístico

13
Kendall y Buckland (1957)

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 21 de 147

Es aquel en el que puede calcularse a priori cuál es la probabilidad de obtener cada una de las
muestras que es posible obtener; para esto es preciso que la selección pueda realizarse como una
prueba aleatoria o al azar. A veces se habla de muestras aleatorias en el sentido de muestras
probabilísticas, cosa algo confusa ya que la aleatoriedad no corresponde al carácter de una
muestra, sino al proceso que sirve para obtenerla.

E. Tamaño muestral

Es el número de elementos que componen la muestra y se denota como "n".

2.2.2. Conveniencia y limitaciones del muestreo

Un censo completo de los elementos de la población es necesario solo en algunos casos y, por lo
común, carece de sentido práctico. Muchas veces, una buena muestra puede suministrar in-
formación poblacional más precisa y a un coste considerablemente inferior que un censo.

Es útil precisar en qué casos conviene obtener muestras en lugar de investigaciones exhaustivas
de la población (censos), dado el riesgo que supone la inferencia.

La decisión óptima se basa en emplear recursos mínimos para obtener una determinada
información, o bien conseguir la máxima información con unos recursos prefijados.

Se deberá tomar muestras en las siguientes situaciones:

a) Cuando la población sea tan grande (o infinita) que exceda de las posibilidades del
investigador.

b) Cuando la población sea suficientemente homogénea en la característica objeto de estudio,


careciendo de sentido examinar la población al completo.

c) Cuando el proceso de investigación tenga carácter destructivo.

No deben tomarse estas situaciones en sentido estricto, ya que otras menos extremas también
justifican un muestreo; por ejemplo, en el caso c) es posible que las unidades no sean destruidas
pero sí se disminuya su valor.

Existen otras razones que hacen ventajoso el muestreo:

1) Economía.- Es evidente que el coste en el muestreo es sensiblemente inferior al del censo.


Posibilita en este sentido una mayor rapidez en la obtención de los resultados.

2) Calidad.- Es posible cuidar más la precisión de la observación o medida de cada elemento


al utilizar muestras.

El muestreo presenta también limitaciones que desaconsejan su utilización, o al menos la


cuestionan. Así, no será posible en las siguientes situaciones:

 Cuando se necesita información sobre todos los elementos de la población.

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 22 de 147

 Cuando la información deba extenderse a grupos o áreas muy pequeñas de la población, no


solo por la incertidumbre que puede afectar gravemente a los resultados, sino también por
razones psicológicas.

El muestreo exige por un lado menos cantidad de trabajo bruto, pero por otro un mayor
refinamiento en las técnicas y una mayor preparación de cara a la realización del mismo.

En definitiva, entre las ventajas de una buena muestra destacan:

 Los resultados pueden ser justificados objetivamente

 Conocimiento anticipado del tamaño muestral adecuado

 Estimación del grado de riesgo asumido

 Es más económico y exacto que el censo.

2.2.3. Muestra aleatoria

Partamos de una población de la que nos interesa inferir alguna de sus características o tomar
alguna decisión sobre ella. Para ello procedemos a recabar información de la misma a través de
una muestra. Supongamos obtenidas "n" observaciones sucesivas e independientes de una
variable aleatoria X . Estas observaciones las designaremos por (x1,x2,........,xn), donde Xi es el
valor obtenido para X en la i-ésima observación.

A. Muestra Genérica o Muestra Aleatoria

Consideremos ahora en vez de un valor particular de la muestra (x1,x2,.....,xn), todos los posibles
valores de la misma; entonces (X1,X2,.....,XN) es una variable aleatoria n-dimensional y se le
denomina Muestra Genérica, o simplemente Muestra Aleatoria.

B. Muestra Específica o Realización Muestral

Es un valor particular de la muestra genérica.

C. Muestra aleatoria

Cuando la forma de seleccionar la misma permite conocer la distribución de probabilidad de la


muestra genérica así como de todas sus distribuciones condicionadas.

D. Muestra aleatoria simple

Cuando la forma de selección es tal que todas las distribuciones condicionadas son iguales a la de
la variable X, por lo que todas las variables que componen la muestra genérica son independientes
e igualmente distribuidas que la X. Así, en el caso de que X sea continua:

F(X) =F(x1,x2,.....,xn) = F(x1) . F(x2) . ....... . 3.1


F(xn)

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 23 de 147

Es decir, su función de distribución o probabilidad de que cualquier valor de la variable X sea


menor o igual a uno dado, será igual al producto de las funciones de distribución para cada una de
las variables que componen la muestra genérica.

Una muestra aleatoria puede ser tomada:

1) Con reposición

Formalmente coincide con el muestreo de poblaciones infinitas, ya que una vez analizadas son
devueltas a la población, por lo que el resultado de una extracción es independiente de los
anteriores.

2) Sin reposición

Si la población es finita la probabilidad de que salga un elemento dependerá de los que fueron
separados anteriormente para formar parte de la muestra.

2.2.4. Estadístico

El término inglés "Statistic" fue introducido por R.A.Fisher para designar una función de los valores
muestrales, siendo traducido como ESTADÍSTICO o ESTADÍGRAFO. Puede definirse como la
variable aleatoria que es función del vector aleatorio observado en la muestra (X1,X2,.....,Xn), que
es la muestra genérica. Es una variable aleatoria porque es función de las n variables aleatorias
que componen la muestra genérica, g (x1,x2,.....,xn). Se trata de inferir con este estadístico alguna
característica poblacional. Para cada Muestra Específica, el estadístico tomará un valor concreto.

2.3. DISEÑOS DE MUESTREO


Los diseños muestrales se plantean en función de las características de la población sujeta a
estudio y en base a las pretensiones del mismo. Es preciso tener en cuenta que aún con los
mejores estimadores resulta imposible suministrar buenas estimaciones sin datos muestrales bien
diseñados y llevados a cabo correcta y cuidadosamente.

Dos son, al menos, los criterios usados para evaluar un diseño muestral: su fiabilidad y su
efectividad.

a) Fiabilidad.- El error de muestreo es la diferencia entre el valor del estadístico obtenido


mediante una muestra aleatoria y el valor del parámetro poblacional correspondiente, debido a
variaciones fortuitas en la selección de las unidades elementales. Se mide mediante la
fiabilidad o precisión del muestreo, que está relacionada con la varianza del estadístico: cuanto
mayor sea la varianza, menor será la fiabilidad.

b) Efectividad.- Asociado al coste del muestreo. Un diseño es efectivo si se obtiene el mismo


grado de fiabilidad con el menor costo posible.

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 24 de 147

Entre los diseños más comúnmente empleados, destacan:

1) MUESTREO ALEATORIO SIMPLE

Todas las muestras, y en consecuencia, todas las unidades de la población, tienen la misma
probabilidad de ser seleccionadas como muestra.

2) MUESTREO ALEATORIO ESTRATIFICADO

Para mejorar las inferencias, se divide la población en subpoblaciones o estratos, incluyendo éstos
elementos parecidos entre si desde el punto de vista de la variable analizada. La razón de este agru-
pamiento está en el intento buscar un comportamiento normal de la población, para así reducir la acción
de la dispersión de la población en la inferencia. La consecuencia de agrupar elementos homogéneos es
que los estratos presentarán una evidente heterogeneidad entre ellos.

Dentro de cada estrato se realiza una selección aleatoria simple, como en el caso anterior; estas
submuestras compondrán la muestra. A los criterios de reparto de esta muestra entre los diferentes
estratos se denomina Afijación.

3) MUESTREO POR CONGLOMERADOS (CLUSTER o MONOETAPICO)

Consiste en sustituir las unidades poblacionales últimas, a las que se refiere el estudio, por
unidades de muestreo que comprendan un grupo de aquellas que se les denominará
Conglomerados o Clusters. Este agrupamiento habrá sido realizado en base a una variable
diferente a la que es objeto de estudio. La condición que han de cumplir es que estos
conglomerados tengan un número aproximado de elementos, y a ser posible, el mismo.

Al realizar la selección de conglomerados, es preciso que éstos representen en lo posible a la


población, y por tanto estén constituidos por unidades finales heterogéneas. Una vez
seleccionados los conglomerados incluidos en la muestra, se analizan todos los elementos
que los componen (Censo). Con frecuencia los conglomerados son zonas en las que se divide
el ámbito ocupado por la población, denominándose MUESTREO POR AREAS.

4) MUESTREO BIETAPICO

Es una modificación de anterior donde no solo se muestrean conglomerados (unidades


primarias) sino que dentro de ellos también se selecciona una muestra de elementos finales
(unidades secundarias). Se diferencia también del anterior en que no se precisa que las
unidades primarias estén compuestas por el mismo número de elementos.

5) MUESTREO POLIETAPICO

Es una generalización del anterior. Los conglomerados seleccionados en la primera etapa


pueden estar constituidos por nuevos conglomerados, de modo que pueda procederse a una
segunda etapa de muestreo de conglomerados dentro de conglomerados, y así
sucesivamente, en varias etapas (Ej.: Dentro de España, seleccionar una muestra de
comunidades autónomas; de éstas, seleccionar una muestra de provincias; de éstas, seleccio-
nar una muestra de comarcas, etc...).

6) MUESTREO BIFÁSICO

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 25 de 147

En este muestreo se toma una muestra, generalmente grande, de forma rápida, sencilla y poco
costosa, a fin de que su información sirva de base para la selección de otra más pequeña,
relativa a la característica que constituye el objeto del estudio propiamente dicho. Se supone
que la variable considerada en la primera fase es una variable auxiliar relacionada con la que
realmente interesa (la de la segunda fase).

7) MUESTREO POLIFÁSICO

Es una generalización del anterior utilizando más de dos fases.

8) MUESTREO SISTEMATICO

Esta forma de muestreo, sencilla en cuanto a diseño y ejecución, se puede emplear cuando los
miembros de la población a muestrear están dispuestos en orden. Consiste en seleccionar la
muestra tomando valores cada "k" elementos de la población usando el orden que ésta posee.

Esta técnica puede resultar más eficiente que el Muestreo Aleatorio Simple en determinados
casos. Su principal inconveniente reside en que las muestras sistemáticas no son siempre
aleatorias.

9) MUESTREO DIRIGIDO

Suele ser de gran utilidad si el investigador está bien familiarizado con la población y puede ele-
gir de forma coherente elementos representativos para la integración de la muestra..

Existen otras clases de muestreo, como pueden ser el Muestreo Repetido, el de las Submuestras
Impenetrantes, los Muestreos Especiales, etc..., que por razones de amplitud de esta lección no
van a ser desarrollados.

En la práctica, de acuerdo con las características del campo donde se está efectuando el
muestreo, es frecuente el uso de métodos mixtos y diseños complejos, como combinación de los
anteriormente expuestos.

2.3.1 Determinación del tamaño de la muestra

En la construcción de los intervalos de confianza aparece n, el tamaño de la muestra, como


uno de los elementos que configura finalmente dichos intervalos. La amplitud de estos
intervalos (diferencia entre los valores L2 y L1 ) y, en consecuencia, la precisión de la
estimación estará en función, entre otros elementos, del tamaño de la muestra (n).

Si quisiéramos realizar una estimación por intervalos con un nivel de confianza prefijado y
aceptando un error de estimación concreto, podríamos determinar qué tamaño debe tener la
muestra para cumplir este objetivo.

Por ejemplo, el intervalo de confianza obtenido en la ecuación (3.5) para el parámetro µ, siendo
σ conocida
2

(1− α )%
 σ 
I100
µ = X ± z α 
 1− n 
2

ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 26 de 147

se obtenía a partir de

 
 X−µ 
P z α ≤ ≤z α  = 1− α
 2 σ 1− 
2
 n 

o, lo que es lo mismo,

 σ 
P X − µ ≤ z α = 1− α
 1− n 
 2 

donde X − µ representa el error (e) que se comete en el proceso de estimación. Es decir,

σ
e=z α
1− n
2

Como se observa, el error de estimación depende de n y, por tanto, despejando, podemos


establecer la igualdad siguiente:

σ2
n = z2 α 3.18
1− e2
2

En definitiva, fijando a priori el nivel de confianza (1-α) y el error de estimación que estamos
dispuestos a aceptar (e), podemos calcular el tamaño de la muestra qué habría que tomar (n).

Este procedimiento puede seguirse en todos los intervalos de confianza que se han obtenido en
los apartados anteriores, denominando e a la cantidad que hemos añadido y sustraido a la
estimación central del intervalo.

Un segundo ejemplo puede ser el intervalo obtenido en la ecuación (3.10) para el parámetro p:

(1− α )%
 p̂q̂ 
I100
p = p̂ ± z α 
 1− n 
2

p̂q̂
En este caso, e = z α y, en consecuencia,
1− n
2

p̂q̂
n = z2 α 3.19
1− e2
2

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 27 de 147

CAPÍTULO 3

ANÁLISIS DE COMPONENTES PRINCIPALES

Esquema del capítulo Objetivos

• Definir un indicador sintético

3.1. CONCEPTOS BÁSICOS................................ • Aprender a medir la redundancia en


3.2. ETAPAS DEL ANÁLISIS DE la información de las variables.
COMPONENTES PRINCIPALES ................................
• Aprender a calcular e interpretar los
3.2.1. Analizar la adecuación de los datos ................................
3.2.2. Extracción de factores: Valores propios.
valores propios.

Varianza explicada. Nº factores a retener................................. Decidir el número de factores o
dimensiones
3.2.3. Interpretación de los factores ................................ del espacio en el que
trabajamos.
3.2.4. Coeficientes y puntuaciones factoriales ................................

3.2.5. Bondad del modelo factorial ................................ Concepto de los factores.
3.3. PASOS PARA LA EJECUCIÓN DEL • Aprender a medir la bondad del
ANÁLISIS CON SPSS ................................................................
modelo estimado.
3.4. CASO A RESOLVER ................................................................
3.5. BIBLIOGRAFÍA ................................................................

Resumen:

La técnica del análisis de componentes principales tiene por objetivo el reducir la


dimensionalidad de los datos con la mínima pérdida de información posible. Los datos deben
ser cuantitativos u orden. La aplicación de ésta técnica en el campo del turismo se encuentra
en la obtención de indicadores turísticos de precios, competitividad, imagen, etc..

A lo largo del capítulo se irán presentando los conceptos básicos de esta técnica
multivariante a través del desarrollo de un caso práctico con datos reales que permiten
al lector asimilar mejor los contenidos del mismo.

Por otro lado, tal y como hacemos en los capítulos del bloque de análisis multivariante,
la solución de los problemas y casos presentados se hace con ayuda del paquete
estadístico SPSS 13. También presentamos un caso a resolver por el alumno que le
sirve de práctica para los conocimientos adquiridos en este capítulo.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 28 de 147

3.1. CONCEPTOS BÁSICOS


El objetivo principal del análisis factorial es la reducción de la dimensionalidad de los
datos o la detección de estructuras subyacentes en los mismos:

El propósito de la reducción de la dimensionalidad de los datos es eliminar información


redundante, es decir variables altamente correlacionadas., sustituyendo estas variables
por unos nuevos factores o componentes que tienen la característica de no estar
correlacionados.

Por otra parte, la detección de estructuras subyacentes en los datos tiene por objeto el
examen las relaciones subyacentes entre las variables.

Por ejemplo, se quiere definir los atributos determinantes del producto turístico de
Tenerife a través del análisis de las puntuaciones dadas por una muestra de estos a 24
características o aspectos relacionados con el producto o servicio ofertado por el destino
turístico Tenerife.

Para la reducción de la dimensionalidad de los datos con la mínima pérdida de


información posible, haremos uso del método de extracción de componentes principales,
método que se diferencia de los otros en que las componentes extraídas son
ortogonales. Estas componentes representan combinaciones lineales de las variables
originales, de manera que la primera componente a extraer será aquella que explica
tanta varianza contenida en dichas variables como sea posible, para luego extraer otra
componente, que consiga explicar el máximo de varianza, pero con la salvedad de que
tiene que ser ortogonal a la primera. Y de esta manera continua el proceso de extracción
de componentes. Sin embargo, el número máximo de componentes que pueden ser
extraídas es igual al número de variables originales.

La obtención de estas componentes se hará de acuerdo al nivel de correlación existente


entre los datos de las variables originales analizadas, de manera que a un mayor grado
de correlación entre ellas, menor número de componentes se necesitan para medir la
imagen percibida por el turista de Tenerife.

No obstante, antes de continuar con las explicaciones del proceso al ejecutar un análisis
de componentes principales, debemos hacer una serie de consideraciones sobre los
datos a utilizar.

Las variables deben ser cuantitativas a nivel de intervalo o de razón. Los datos
categóricos (como la religión o el país de origen) no son adecuados para el análisis
factorial. Los datos para los cuales razonablemente se pueden calcular los coeficientes
de correlación de Pearson, deberían ser adecuados para el análisis factorial.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 29 de 147

Los datos deben tener una distribución normal bivariante para cada par de variables y
las observaciones deben ser independientes.

No obstante, en el sector turístico es difícil encontrar información medida estrictamente


en una escala de intervalo o de razón, debido a que la mayoría de esta información
procede de encuestas, donde la mayor escala de medida suele ser ordinal. Sin
embargo, son muchos los autores y circunstancias donde se utilizan esta metodología
incluso ante el incumplimiento de este supuesto.

Ejemplo 3.1.1

La base de datos utilizada para el estudio fue proporcionada y elaborada por el


Patronato Insular de Turismo del Excelentísimo Cabildo Insular de Tenerife, durante la
campaña 1992-1993, que recoge información sobre una muestra de 9615 turistas,
entrevistados en el momento de dejar la isla, una vez que habían finalizado su estancia.
Se les pasaba la encuesta en su propio idioma con el fin de contribuir a su máxima
fiabilidad.

La encuesta consta de 21 preguntas. Usaremos la correspondiente al establecimiento


de un ranking de 24 características, donde el turista entrevistado valora dentro de un
rango de 1 a 10 los diferentes aspectos que caracterizan el producto y/o servicio recibido
durante su estancia. Estos aspectos son los siguientes:

Cuadro 3.1.1
V1 El paisaje natural V14 Calidad de bares, discotecas y salas de fiesta
V2 La playa y/o piscinas de la costa V15 Calidad de instalaciones deportivas y/o
V3 El sol recreativas
V4 La temperatura V16 La calidad del alojamiento
V5 El clima en su conjunto V17 La calidad de la comida
V6 Aspectos urbanísticos de su centro de vacaciones V18 La limpieza de los lugares de uso público
(zonas verdes, paseos, edificios) (calles, paseos,..)
V7 El número de bares y restaurantes V19 La tranquilidad en las horas de descanso
V8 El nº de discotecas y salas de fiestas V20 La atención del personal de servicio
V9 Precios de bares, discotecas y salas de fiestas V21 La seguridad y tranquilidad del centro de
V10 Precios de las instalaciones deportivas y/o vacaciones
recreativas V22 El trato recibido en el alojamiento
V11 Los precios del alojamiento V23 La relación satisfacción-precios del conjunto de
V12 Los precios de la comida estas vacaciones
V13 La calidad y frecuencia de servicio de los V24 El conjunto del centro de vacaciones donde
autobuses públicos residió

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 30 de 147

El reparto de la muestra según nacionalidad del turista fue:

Cuadro 3.1.2
País de origen Frecuencia Porcentaje
España 2011 20,92
Reino Unido 3283 34,14
Alemania 1575 16,38
Italia 468 4,87
Francia 535 5,56
Bélgica 367 3,82
Holanda 258 2,68
Irlanda 85 0,88
Austria 105 1,09
Suiza 93 0,97
Dinamarca 155 1,61
Finlandia 215 2,24
Noruega 78 0,81
Suecia 345 3,59
Resto de Europa I 26 0,27
Resto de Europa II 10 0,10
Canada/USA 6 0,06
Total 9615 100

3.2. ETAPAS DEL ANÁLISIS DE COMPONENTES PRINCIPALES

3.2.1. Analizar la adecuación de los datos

Para saber si los datos y variables de los que disponemos son adecuados para la
aplicación de un análisis factorial de componentes principales, debemos recordar el
objetivo último del mismo, que no es otro que reducir la dimensionalidad de los datos,
mediante el resumen de la información contenida en los mismos en unas pocas
componentes o factores no correlacionados entre sí. Por tanto, en la medida que el
grado de correlación entre las variables sea alto, mayor capacidad de resumen
tendremos.

Luego, lo primero que debemos analizar es la matriz de correlaciones de Pearson


entre las variables. La matriz de correlaciones de nuestro ejemplo se muestra en la
tabla.

Analizando la significación de cada uno de los 276 pares de variables, prácticamente


todos son significativos, por lo que el nivel de correlación existente entre las variables es
suficiente para poder aplicar el análisis de componentes principales, puesto que
podremos eliminar la gran cantidad de información redundante existente en los datos.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 31 de 147

Sería recomendable que se obtuviese un porcentaje alto de coeficientes de correlación


de Pearson entre las variables bastante alto.

Por otro lado, el Test de Esfericidad de Bartlett quiere comprobar comprueba que la
matriz de correlaciones se ajuste a la matriz identidad ( I ), es decir ausencia de
correlación significativa entre las variables. Esto significa que la nube de puntos se
ajusta a una esfera perfecta, expresando la hipótesis nula por: Ho: R = I es decir, que
el determinante de la matriz de correlaciones es 1. Ho: | R| = 1

El valor chi-cuadrado para el test de esfericidad de Bartlett es:

 2p + 5 
χ 2 = − W − 1 −  log R (3.1)
 6 

donde;

W = tamaño muestral.

p = número de variables.

Log = logaritmo base 10.

R = matriz de correlaciones.

si se acepta la hipótesis nula (p>0.05) significa que las variables no están


intercorrelacionadas y por tanto no tiene mucho sentido llevar a cabo un Análisis
Factorial.

Es muy útil cuando el tamaño muestral es pequeño.

En nuestro ejemplo, tenemos un tamaño de muestra muy grande, por lo que siempre
nos va a dar el rechazo de la hipótesis nula.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 32 de 147

Tabla 3.3. 1

Matriz de correlaciones
V1 v2 V3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24
V1 1,000 0,344 -0,006 0,081 0,098 0,480 0,218 0,163 0,174 0,211 0,149 0,156 0,244 0,244 0,256 0,108 0,131 0,279 0,216 0,245 0,282 0,245 0,196 0,302
V2 0,344 1,000 0,151 0,132 0,169 0,429 0,345 0,272 0,262 0,307 0,233 0,256 0,183 0,285 0,303 0,169 0,179 0,233 0,191 0,223 0,228 0,191 0,309 0,346
v3 -0,006 0,151 1,000 0,724 0,722 0,063 0,110 0,104 0,098 0,123 0,185 0,146 0,067 0,082 0,131 0,174 0,203 -0,053 -0,050 0,071 -0,023 0,066 0,209 0,181
v4 0,081 0,132 0,724 1,000 0,795 0,130 0,141 0,109 0,162 0,146 0,204 0,169 0,118 0,134 0,169 0,179 0,194 -0,013 0,010 0,128 0,043 0,133 0,217 0,211
v5 0,098 0,169 0,722 0,795 1,000 0,174 0,183 0,132 0,175 0,183 0,231 0,185 0,146 0,163 0,174 0,194 0,204 0,039 0,039 0,147 0,078 0,141 0,252 0,223
v6 0,480 0,429 0,063 0,130 0,174 1,000 0,437 0,318 0,289 0,313 0,264 0,253 0,315 0,395 0,403 0,262 0,217 0,414 0,314 0,360 0,399 0,327 0,340 0,465
v7 0,218 0,345 0,110 0,141 0,183 0,437 1,000 0,652 0,355 0,291 0,270 0,294 0,294 0,461 0,380 0,207 0,237 0,226 0,143 0,237 0,192 0,186 0,306 0,370
v8 0,163 0,272 0,104 0,109 0,132 0,318 0,652 1,000 0,379 0,299 0,231 0,250 0,229 0,490 0,378 0,151 0,195 0,149 0,088 0,212 0,135 0,171 0,243 0,287
v9 0,174 0,262 0,098 0,162 0,175 0,289 0,355 0,379 1,000 0,592 0,419 0,517 0,251 0,412 0,322 0,176 0,168 0,193 0,148 0,204 0,204 0,180 0,357 0,253
v10 0,211 0,307 0,123 0,146 0,183 0,313 0,291 0,299 0,592 1,000 0,477 0,444 0,311 0,396 0,482 0,223 0,190 0,220 0,198 0,249 0,240 0,227 0,365 0,284
v11 0,149 0,233 0,185 0,204 0,231 0,264 0,270 0,231 0,419 0,477 1,000 0,526 0,287 0,332 0,377 0,435 0,335 0,214 0,215 0,323 0,250 0,329 0,513 0,379
v12 0,156 0,256 0,146 0,169 0,185 0,253 0,294 0,250 0,517 0,444 0,526 1,000 0,292 0,355 0,307 0,278 0,374 0,175 0,160 0,268 0,198 0,248 0,454 0,325
v13 0,244 0,183 0,067 0,118 0,146 0,315 0,294 0,229 0,251 0,311 0,287 0,292 1,000 0,435 0,404 0,186 0,196 0,250 0,170 0,260 0,266 0,233 0,255 0,263
v14 0,244 0,285 0,082 0,134 0,163 0,395 0,461 0,490 0,412 0,396 0,332 0,355 0,435 1,000 0,561 0,253 0,273 0,309 0,216 0,315 0,280 0,257 0,335 0,359
v15 0,256 0,303 0,131 0,169 0,174 0,403 0,380 0,378 0,322 0,482 0,377 0,307 0,404 0,561 1,000 0,325 0,294 0,315 0,241 0,342 0,317 0,319 0,366 0,385
v16 0,108 0,169 0,174 0,179 0,194 0,262 0,207 0,151 0,176 0,223 0,435 0,278 0,186 0,253 0,325 1,000 0,529 0,236 0,302 0,448 0,307 0,561 0,515 0,518
v17 0,131 0,179 0,203 0,194 0,204 0,217 0,237 0,195 0,168 0,190 0,335 0,374 0,196 0,273 0,294 0,529 1,000 0,227 0,196 0,387 0,236 0,408 0,464 0,435
v18 0,279 0,233 -0,053 -0,013 0,039 0,414 0,226 0,149 0,193 0,220 0,214 0,175 0,250 0,309 0,315 0,236 0,227 1,000 0,407 0,321 0,412 0,279 0,290 0,321
v19 0,216 0,191 -0,050 0,010 0,039 0,314 0,143 0,088 0,148 0,198 0,215 0,160 0,170 0,216 0,241 0,302 0,196 0,407 1,000 0,407 0,586 0,345 0,324 0,338
v20 0,245 0,223 0,071 0,128 0,147 0,360 0,237 0,212 0,204 0,249 0,323 0,268 0,260 0,315 0,342 0,448 0,387 0,321 0,407 1,000 0,498 0,700 0,467 0,474
v21 0,282 0,228 -0,023 0,043 0,078 0,399 0,192 0,135 0,204 0,240 0,250 0,198 0,266 0,280 0,317 0,307 0,236 0,412 0,586 0,498 1,000 0,474 0,401 0,423
v22 0,245 0,191 0,066 0,133 0,141 0,327 0,186 0,171 0,180 0,227 0,329 0,248 0,233 0,257 0,319 0,561 0,408 0,279 0,345 0,700 0,474 1,000 0,510 0,512
v23 0,196 0,309 0,209 0,217 0,252 0,340 0,306 0,243 0,357 0,365 0,513 0,454 0,255 0,335 0,366 0,515 0,464 0,290 0,324 0,467 0,401 0,510 1,000 0,595
v24 0,302 0,346 0,181 0,211 0,223 0,465 0,370 0,287 0,253 0,284 0,379 0,325 0,263 0,359 0,385 0,518 0,435 0,321 0,338 0,474 0,423 0,512 0,595 1,000

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 33 de 147

La Medida de la Adecuación Muestral de Kaiser-Meyer-Olkin es un estadístico que


indica la proporción de varianza de las variables que es varianza común, es decir, que
podría ser causada por los factores subyacentes.

∑ ∑ rij2
i j
KMO = (2.2)
∑ ∑ rij2 + ∑ ∑ a ij2
i j i j

donde;

rij = correlación simple.

aij = correlación parcial.

Valores bajos del índice KMO desaconsejan la utilización de Análisis Factorial. Como
baremo para interpretar el índice KMO podría tomarse según Kaiser:

Cuadro 3.3. 1

1 >= KMO >= 0.9 Muy bueno


0.9 >= KMO >= 0.8 Bueno
0.8 >= KMO >= 0.7 Mediano
0.7 >= KMO >= 0.6 Mediocre
0.6 >= KMO > 0.5 Bajo
KMO <= 0.5 Muy Bajo
Tabla 3.3. 2
KMO y prueba de Bartlett
Medida de adecuación muestral
de Kaiser-Meyer-Olkin 0,898
Prueba de Chi-
esfericidad de cuadrado
Bartlett aproximado 34013,09
Gl 276
Sig. 0,000

En nuestro ejemplo el dato de la proporción de varianza que explican el modelo factorial


es muy alta.

Las Matrices anti-imagen contienen las covarianzas y correlaciones parciales


negativas, que nos indican la cantidad de correlaciones que no son debidas a los
factores. Por tanto, en la medida que estos valores sean pequeños, estaremos ante el
caso de que la parte de correlaciones entre las variables que no son explicadas por los
factores extraídos es pequeña.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 34 de 147

Por otro lado, los valores que recogen la diagonal principal de la matriz de correlaciones
anti-imagen son indicadores de la adecuación muestral de cada una de las variables
de forma individual, a diferencia de las medida KMO que era una adecuación muestral
global. De manera que valores inferiores a 0,5 serían señal de que los datos de la
variables no se ajustan bien al modelo factorial, y por tanto deberíamos considerar
eliminar dicha variable del análisis.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 35 de 147

Tabla 3.3. 3

V1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 V12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24
v1 0,89 -0,17 0,08 -0,05 -0,02 -0,28 0,03 0,01 0,00 -0,02 0,01 0,00 -0,08 0,00 -0,01 0,10 -0,02 -0,05 -0,01 0,00 -0,03 -0,07 0,04 -0,04
v2 -0,17 0,94 -0,10 0,04 0,00 -0,16 -0,10 -0,02 0,00 -0,08 0,01 -0,04 0,05 0,00 -0,03 0,03 0,01 -0,02 -0,02 0,00 0,00 0,03 -0,07 -0,04
v3 0,08 -0,10 0,82 -0,35 -0,35 0,04 0,04 -0,05 0,06 -0,02 -0,01 0,00 0,02 0,04 -0,03 -0,04 -0,06 0,04 0,06 0,00 0,03 0,07 -0,05 -0,02
v4 -0,05 0,04 -0,35 0,78 -0,55 0,00 0,01 0,02 -0,07 0,05 -0,01 0,00 0,00 0,00 -0,05 0,01 -0,01 0,06 -0,01 0,00 0,02 -0,04 0,03 -0,02
v5 -0,02 0,00 -0,35 -0,55 0,80 -0,05 -0,06 0,03 0,00 -0,04 -0,02 0,01 -0,03 -0,03 0,05 0,00 0,01 -0,03 0,00 -0,01 -0,02 0,00 -0,04 0,01
v6 -0,28 -0,16 0,04 0,00 -0,05 0,93 -0,17 0,01 -0,02 -0,01 0,02 0,00 -0,04 -0,04 -0,06 -0,02 0,06 -0,16 -0,02 -0,04 -0,09 0,00 0,03 -0,07
v7 0,03 -0,10 0,04 0,01 -0,06 -0,17 0,87 -0,51 -0,04 0,05 -0,01 -0,03 -0,07 -0,06 -0,02 -0,01 -0,03 -0,02 0,01 0,00 0,02 0,07 -0,02 -0,04
v8 0,01 -0,02 -0,05 0,02 0,03 0,01 -0,51 0,84 -0,14 0,00 0,01 0,04 0,06 -0,21 -0,08 0,05 -0,02 0,05 0,02 -0,03 0,04 -0,03 0,02 -0,01
v9 0,00 0,00 0,06 -0,07 0,00 -0,02 -0,04 -0,14 0,87 -0,39 -0,05 -0,27 0,03 -0,12 0,10 0,01 0,08 -0,03 0,02 0,02 -0,04 0,01 -0,08 0,02
v10 -0,02 -0,08 -0,02 0,05 -0,04 -0,01 0,05 0,00 -0,39 0,89 -0,18 -0,07 -0,05 0,00 -0,26 0,03 0,05 0,01 -0,03 0,00 0,00 0,00 -0,02 0,01
v11 0,01 0,01 -0,01 -0,01 -0,02 0,02 -0,01 0,01 -0,05 -0,18 0,93 -0,26 -0,05 0,01 -0,05 -0,20 0,03 -0,01 0,00 -0,02 0,01 0,02 -0,17 0,00
v12 0,00 -0,04 0,00 0,00 0,01 0,00 -0,03 0,04 -0,27 -0,07 -0,26 0,91 -0,08 -0,05 0,04 0,07 -0,21 0,04 0,00 -0,02 0,03 0,02 -0,12 0,00
v13 -0,08 0,05 0,02 0,00 -0,03 -0,04 -0,07 0,06 0,03 -0,05 -0,05 -0,08 0,94 -0,20 -0,13 0,03 0,00 -0,04 0,04 -0,02 -0,07 -0,02 0,02 0,01
v14 0,00 0,00 0,04 0,00 -0,03 -0,04 -0,06 -0,21 -0,12 0,00 0,01 -0,05 -0,20 0,93 -0,29 0,00 -0,04 -0,07 -0,01 -0,04 -0,01 0,04 0,01 -0,01
v15 -0,01 -0,03 -0,03 -0,05 0,05 -0,06 -0,02 -0,08 0,10 -0,26 -0,05 0,04 -0,13 -0,29 0,93 -0,06 -0,03 -0,06 0,01 -0,02 -0,04 -0,01 0,00 -0,01
v16 0,10 0,03 -0,04 0,01 0,00 -0,02 -0,01 0,05 0,01 0,03 -0,20 0,07 0,03 0,00 -0,06 0,90 -0,29 0,00 -0,10 0,02 0,07 -0,27 -0,09 -0,08
v17 -0,02 0,01 -0,06 -0,01 0,01 0,06 -0,03 -0,02 0,08 0,05 0,03 -0,21 0,00 -0,04 -0,03 -0,29 0,92 -0,07 0,03 -0,08 0,02 -0,02 -0,11 -0,04
v18 -0,05 -0,02 0,04 0,06 -0,03 -0,16 -0,02 0,05 -0,03 0,01 -0,01 0,04 -0,04 -0,07 -0,06 0,00 -0,07 0,94 -0,18 -0,02 -0,10 0,02 -0,02 -0,01
v19 -0,01 -0,02 0,06 -0,01 0,00 -0,02 0,01 0,02 0,02 -0,03 0,00 0,00 0,04 -0,01 0,01 -0,10 0,03 -0,18 0,88 -0,11 -0,40 0,06 -0,03 -0,01
v20 0,00 0,00 0,00 0,00 -0,01 -0,04 0,00 -0,03 0,02 0,00 -0,02 -0,02 -0,02 -0,04 -0,02 0,02 -0,08 -0,02 -0,11 0,91 -0,12 -0,49 -0,03 -0,01
v21 -0,03 0,00 0,03 0,02 -0,02 -0,09 0,02 0,04 -0,04 0,00 0,01 0,03 -0,07 -0,01 -0,04 0,07 0,02 -0,10 -0,40 -0,12 0,90 -0,14 -0,08 -0,04
v22 -0,07 0,03 0,07 -0,04 0,00 0,00 0,07 -0,03 0,01 0,00 0,02 0,02 -0,02 0,04 -0,01 -0,27 -0,02 0,02 0,06 -0,49 -0,14 0,87 -0,12 -0,04
v23 0,04 -0,07 -0,05 0,03 -0,04 0,03 -0,02 0,02 -0,08 -0,02 -0,17 -0,12 0,02 0,01 0,00 -0,09 -0,11 -0,02 -0,03 -0,03 -0,08 -0,12 0,95 -0,12
v24 -0,07 -0,07 -0,04 -0,04 0,03 -0,14 -0,09 -0,02 0,04 0,02 0,00 0,00 0,01 -0,03 -0,02 -0,17 -0,07 -0,01 -0,02 -0,03 -0,07 -0,09 -0,26 0,47

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 36 de 147

Las Comunalidades indican la cantidad de varianza de cada variable que es explicada


por el modelo factorial. Debido a que en el caso del Análisis de Componentes
Principales no existen factores comunes, las comunalidades iniciales son siempre igual
a 1, mientras que las comunalidades de la extracción son estimaciones de la varianza
de cada variable explicada por los factores de la solución factorial.

Así, si alguna variable tiene una comunalidad inferior a 0,5, querrá decir que sus datos
se ajustan mal al modelo factorial, por lo que sería conveniente el considerar su
exclusión del análisis.

Tabla 3.3. 4

Comunalidades
Inicial Extracción
La Temperatura 1 0,839
El clima en su conjunto 1 0,839
El Sol 1 0,802
El nº de discotecas y salas de fiesta 1 0,721
El nº de bares y restaurantes 1 0,714
Precios de las instalaciones deportivas y/o recreativas 1 0,672
El trato recibido en el alojamiento 1 0,666
Calidad del alojamiento 1 0,661
Precios de bares, discotecas y salas de fiesta 1 0,653
La relación satisfacción-precios del conjunto de estas vacaciones 1 0,623
La seguridad y tranquilidad del centro de vacaciones 1 0,622
Aspectos urbanísticos 1 0,619
Los precios del alojamiento 1 0,618
Los precios de la comida 1 0,615
La atención del personal de servicios 1 0,604
El conjunto del centro de vacaciones donde residió 1 0,601
Calidad de bares, discotecas y salas de fiesta 1 0,567
Calidad de la comida 1 0,552
La tranquilidad en las horas de descanso 1 0,543
Calidad de instalaciones deportivas y/o recreativas 1 0,483
El paisaje natural 1 0,476
Limpieza de los lugares de uso público 1 0,452
La playa y/o piscinas de la costa 1 0,374
Calidad y frecuencia de servicio de los autobuses públicos 1 0,309

En nuestro caso, se observa como hemos de considerar la eliminación del análisis de 5


variables. Por lo que a partir de este momento el análisis sólo consta de 19 variables.

A modo de conclusión de esta primera etapa de análisis de adecuación de los datos al


análisis factorial de componentes principales, podemos concluir que son bastante
adecuados, no obstante, debido a la existencia de variables que se ajustan mal a la
solución factorial las hemos eliminado del análisis.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 37 de 147

3.2.2. Extracción de factores: Valores propios. Varianza explicada. Nº


factores a retener.

Una vez hemos comprobado que las variables y sus datos son adecuados para el
análisis factorial de componentes principales, entramos de lleno en el propio análisis de
componentes principales.

Debemos recordar que el objetivo es la obtención de un conjunto de factores


ortogonales que supongan una reducción de la dimensionalidad de los datos, pasando
de p variables iniciales, en nuestro caso 19 variables iniciales, a k factores o
componentes, en nuestro ejemplo 5 factores.

Para el cálculo de las componentes principales hemos tomado 19 medidas sobre 9615
turistas (x1, x2, …, xk). Lo que se quiere es obtener un nuevo conjunto de variables
(factores o componentes) (f1,f2,…,fp) que no estén correlacionadas entre sí, cuyas
varianzas vayan decreciendo desde la primera componente hasta la última.

Cada una de las componentes principales es una combinación lineral de las variables
originales:

f j = a j1x1 + a j2 x 2 + ... + a jp x p = a ' j x (3.3)

Para mantener la ortogonalidad de las componentes resultantes, persiguiendo el


maximizar la varianza explicada por cada una de ellas, imponemos la restricción de que
el modulo del vector a’j sea igual a 1. Es decir,

p
a'j a j = ∑ a 2kj = 1 (3.4)
k =1

La primera componente se calcula eligiendo a1 de modo que f1 tenga la mayor varianza


posible, sujeta a las restricción de que a’1 a1 = 1. La segunda componente se calcula
obteniendo a2 de modo que el factor obtenido f2 no esté correlacionado con f1.

Obtener un a1 de modo que maximice la varianza de f1 sujeto a la restricción de que


a’1 a1 = 1.

Var (f1 ) = Var (a '1 ∑ a 1 ) (3.5)

Siguiendo el método de los multiplicadores de Lagrange, la función L es:

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 38 de 147

L(a 1 ) = a '1 ∑ a 1 − λ(a '1 a 1 − 1) (3.6)

Derivando e igualando a 0.

(∑ −λI)a1 = 0 (3.7)

Para que el sistema tenga una solución distinta de 0, la matriz (∑ - λI) tiene que ser
singular, o lo que es lo mismo, el determinante debe ser igual a cero.

∑ −λI = 0 (3.8)

y de esta manera, λ es un autovalor de la matriz de covarianzas ∑ de orden p y además


es definida positiva, con lo que tendrá p autovalores λ1, λ2, …, λp,, tales que, λ1 > λ2 > …
> λp.

Tabla 3.3. 5

Varianza total explicada


Autovalores iniciales
% de la %
Componente Total varianza acumulado
1 6,34 33,37 33,37
2 2,34 12,30 45,67
3 1,87 9,83 55,50
4 1,27 6,71 62,21
5 1,13 5,94 68,15
6 0,70 3,68 71,83
7 0,64 3,35 75,18
8 0,59 3,08 78,26
9 0,57 2,98 81,24
10 0,52 2,74 83,99
11 0,49 2,60 86,59
12 0,42 2,19 88,78
13 0,38 1,98 90,77
14 0,36 1,90 92,67
15 0,33 1,76 94,43
16 0,32 1,70 96,12
17 0,28 1,50 97,62
18 0,26 1,35 98,97
19 0,20 1,03 100,00

Para nuestro ejemplo, hemos obtenido 19 autovalores que por el hecho de haber
trabajado con valores tipificados de la variable, la suma de los autovalores es igual al
número de componentes, es decir 19 en este caso. Relativizando estos valores,
obtenemos los porcentajes de varianza explicados por cada una de las componentes

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 39 de 147

principales, mientras que la última columna recoge el acumulado de estos porcentajes


de varianza explicada.

La primera de las componentes principales con un autovalor igual a 6.34, representa un


porcentaje de varianza explicada de 33.37%, seguida de la segunda componente con un
13.30% de varianza explicada, y de forma decreciente hasta llegar a la 19º componente
que tan sólo explica el 1.03% de la varianza.

La matriz factorial puede presentar un número de factores superior al necesario para


explicar la estructura de los datos originales. Generalmente hay un conjunto reducido de
factores, los primeros, que son los que explican la mayor parte de la variabilidad total.
Los otros factores suelen contribuir relativamente poco. Uno de los problemas que se
plantean, por tanto, consiste en determinar el número de factores que debemos
conservar, de manera que se cumpla el principio de parsimonia.

Se han dado diversos criterios para determinar el número de factores a retener. Uno de
los más conocidos y utilizados es el criterio o regla de Kaiser (1960) que indicaría lo
siguiente: "retener solamente aquellos factores cuyos valores propios (eigenvalues) son
mayores a la unidad". Este criterio es el que suelen utilizar los programas estadísticos
por defecto. Sin embargo, este criterio es generalmente inadecuado tendiendo a
sobreestimar el número de factores.

Otro criterio propuesto es el de Cattell (1966) consistente en representar en un sistema


de ejes los valores que toman los eigenvalues (ordenadas) y el número de factor
(abscisas). Sobre la gráfica resultante se traza una línea recta base a la altura de los
últimos autovalores (los más pequeños) y aquellos que queden por encima indicarán el
número de factores a retener.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 40 de 147

Gráfico 3.3. 1

Gráfico de sedimentación

5
Autovalor

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Número de componente

Según cualquiera de los dos criterios citados, el número de factores que hemos retenido
son 5, que consiguen explicar de forma conjunta el 68.15% de la varianza.

3.2.3. Interpretación de los factores

La interpretación de lo que miden los nuevos factores extraídos se hace a partir de lo


que llamamos la matriz de cargas factoriales o matriz factorial, que recoge las
correlaciones entre las variables originales y los factores extraídos, de manera que una
mayor correlación absoluta entre una variable y un factor, implicará que dicho factor
mide en un alto grado a esa variable, y lo hará en el mismo sentido, si la correlación es
positiva, y lo hará en sentido contrario si es negativa.

Teníamos que la matriz de datos x = A-1f, por ser A ortogonal, entonces;

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 41 de 147

( )  
( )
p
Cov f j , x i = Cov  f j , ∑ a ik f k  = a ij Var f j = λ j a ij (3.9)
 k = 1 

donde fj es el factor j-ésimo y xi es la variable original i-ésima.

Partiendo de que las variables originales están tipificadas, entonces

λ ja ij
( )
Corr f j , x i = = λ1j/ 2 a ij (3.10)
λ1j/ 2

Tabla 3.3. 6

Matriz de componentes
Componente
Variable 1 2 3 4 5
La relación satisfacción-precios 0,754 -0,058 -0,139 -0,198 -0,089
El conjunto del centro de vacaciones 0,733 -0,102 -0,173 0,112 -0,136
La atención del personal de servicios 0,658 -0,253 -0,332 0,084 -0,013
El trato recibido en el alojamiento 0,655 -0,247 -0,410 -0,008 -0,117
Los precios del alojamiento 0,646 0,037 0,113 -0,437 0,006
Calidad del alojamiento 0,643 -0,082 -0,346 -0,175 -0,304
Los precios de la comida 0,602 0,039 0,271 -0,451 0,015
Aspectos urbanísticos 0,595 -0,129 0,103 0,368 0,137
Calidad de bares, discotecas y salas de fiesta 0,592 -0,069 0,380 0,211 -0,043
Calidad de la comida 0,591 0,003 -0,212 -0,167 -0,438
La seguridad y tranquilidad del centro de vacaciones 0,562 -0,350 -0,264 0,225 0,425
Precios de las instalaciones deportivas y/o recreativas 0,560 0,010 0,394 -0,297 0,337
El nº de bares y restaurantes 0,559 0,011 0,449 0,400 -0,262
Precios de bares, discotecas y salas de fiesta 0,555 0,026 0,512 -0,254 0,270
El Sol 0,317 0,814 -0,184 0,064 0,038
La Temperatura 0,380 0,802 -0,185 0,109 0,134
El clima en su conjunto 0,414 0,785 -0,168 0,132 0,143
El nº de discotecas y salas de fiesta 0,488 0,023 0,529 0,387 -0,283
La tranquilidad en las horas de descanso 0,469 -0,344 -0,262 0,191 0,477

Examinando la matriz de componentes vemos como la mayoría de las variables


originales están fuertemente correlacionadas con el primero de los factores, las tres
variables relacionadas con aspectos climatológicos, “Sol”, “Temperatura” y “Clima”, lo
están con el factor 2, mientras que los otros tres factores prácticamente no explican
ninguna de las variables. Esto nos obliga a llevar a cabo una rotación, de manera que se
reparta entre las distintas componentes la cantidad de varianza explicada por cada una
de ellas, y por tanto se facilite su interpretación.

La rotación factorial pretende seleccionar la solución más sencilla e interpretable. En


síntesis consiste en hacer girar los ejes de coordenadas, que representan a los factores,
hasta conseguir que se aproxime al máximo a las variables en que están saturados.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 42 de 147

La saturación de factores transforma la matriz factorial inicial en otra denominada matriz


factorial rotada, de más fácil interpretación. La matriz factorial rotada es una
combinación lineal de la primera y explica la misma cantidad de varianza inicial.

Uno de los métodos de rotación más frecuentemente utilizado es el llamado rotación


varimax. Se trata de un método de rotación ortogonal que minimiza el número de
variables que tienen saturaciones altas en cada factor simplificando la interpretación de
los factores.

El porcentaje de varianza explicado por cada una de las 5 componentes extraídas


después de realizar la rotación varimax, está más repartida, de manera que la primera
componente explica el 17.3%, la segunda el 13.35%, la tercera el 13.24%, la cuarta el
13.44%, mientras que la quinta el 11.83%, lo que suma el 68.15% anterior.

Tabla 3.3. 7

Varianza total explicada


Suma de las saturaciones al cuadrado de la
rotación
Total % de la varianza % acumulado
3,29 17,30 17,30
2,54 13,35 30,64
2,52 13,24 43,88
2,36 12,44 56,32
2,25 11,83 68,15
Tabla 3.3. 8

Matriz de componentes rotados


Componente
Variable 1 2 3 4 5
Calidad del alojamiento 0,785 0,097 0,128 0,058 0,134
Calidad de la comida 0,748 0,110 0,124 0,160 -0,050
El trato recibido en el alojamiento 0,704 0,021 0,054 0,070 0,409
La relación satisfacción-precios 0,635 0,134 0,375 0,144 0,237
El conjunto del centro de vacaciones donde residió 0,596 0,135 0,132 0,320 0,341
La atención del personal de servicios 0,589 0,030 0,071 0,141 0,492
La Temperatura 0,095 0,911 0,089 0,056 0,038
El clima en su conjunto 0,100 0,906 0,101 0,092 0,067
El Sol 0,119 0,883 0,056 0,033 -0,074
Precios de bares, discotecas y salas de fiesta 0,000 0,060 0,774 0,295 0,132
Precios de las instalaciones deportivas y/o recreativas 0,036 0,078 0,767 0,181 0,208
Los precios de la comida 0,333 0,067 0,712 0,133 -0,020
Los precios del alojamiento 0,438 0,113 0,640 0,069 0,049
El nº de discotecas y salas de fiesta 0,100 0,044 0,154 0,844 -0,029
El nº de bares y restaurantes 0,170 0,075 0,145 0,828 0,050
Calidad de bares, discotecas y salas de fiesta 0,160 0,034 0,318 0,617 0,192
Aspectos urbanísticos 0,168 0,096 0,138 0,495 0,485
La seguridad y tranquilidad del centro de vacaciones 0,235 -0,006 0,118 0,089 0,814
La tranquilidad en las horas de descanso 0,156 -0,023 0,115 0,014 0,795

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 43 de 147

En la tabla anterior se resaltan en negrita los coeficientes de correlación más altos para
cada una de las componentes, de manera que la definición de los factores es la
siguiente:

Factor 1: correlación positiva alta con las variables “calidad del alojamiento”, “calidad de
la comida”, “trato recibido en el alojamiento”, “relación satisfacción-precio en el centro de
vacaciones”, “el conjunto del centro de vacaciones”, “la atención del personal de
servicios”. Variables todas relacionadas con el centro de vacaciones, por lo que
podríamos etiquetarlo como el alojamiento y sus servicios.

Factor 2: correlación positiva alta con las variables “clima en su conjunto”, “temperatura”
y “sol”, por lo que lo etiquetamos como aspectos climáticos.

Factor 3: correlación positiva alta con las variables “precios de bares, discotecas y salas
de fiesta”, “precio de las instalaciones deportivas y/o recreativas”, “precios de la comida”,
“precios del alojamiento”. Precio.

Factor 4: correlación positiva alta con las variables “nº de discotecas y salas de fiesta”,
“nº de bares y restaurantes”, “calidad de bares, discotecas y salas de fiesta” y “aspectos
urbanísticos”. Cantidad y calidad de servicios suplementarios.

Factor 5: correlación positiva alta con las variables “aspectos urbanísticos”, “seguridad y
tranquilidad en el centro de vacaciones” y “tranquilidad en las horas de descanso”.
Seguridad y tranquilidad.

3.2.4. Coeficientes y puntuaciones factoriales

Una vez que se tienen los factores y al objeto de conocer que puntuación obtendrían los
sujetos en estos factores hay que calcular lo que se conoce como puntuaciones
factoriales de cada individuo.

Tabla 3.3. 9

Matriz de coeficientes para el cálculo de las puntuaciones en las componentes


Componente
Variable 1 2 3 4 5
El Sol -0,007 0,366 -0,035 -0,025 -0,039
La Temperatura -0,056 0,383 -0,024 -0,027 0,037
El clima en su conjunto -0,065 0,380 -0,026 -0,011 0,051
Aspectos urbanísticos -0,099 0,026 -0,072 0,211 0,230
El nº de bares y restaurantes -0,012 -0,016 -0,116 0,444 -0,082
El nº de discotecas y salas de fiesta -0,028 -0,029 -0,099 0,465 -0,119
Precios de bares, discotecas y salas de fiesta -0,164 -0,020 0,389 0,001 0,027
Precios de las instalaciones deportivas y/o recreativas -0,157 -0,007 0,399 -0,075 0,078
Los precios del alojamiento 0,112 -0,024 0,299 -0,132 -0,110

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 44 de 147

Los precios de la comida 0,065 -0,044 0,348 -0,094 -0,139


Calidad de bares, discotecas y salas de fiesta -0,057 -0,029 0,028 0,273 0,019
Calidad del alojamiento 0,340 -0,029 -0,053 -0,064 -0,117
Calidad de la comida 0,359 -0,032 -0,064 0,015 -0,235
La tranquilidad en las horas de descanso -0,135 0,009 0,007 -0,092 0,470
La atención del personal de servicios 0,157 -0,023 -0,092 -0,015 0,158
La seguridad y tranquilidad del centro de vacaciones -0,106 0,008 -0,019 -0,056 0,457
El trato recibido en el alojamiento 0,245 -0,037 -0,098 -0,055 0,081
La relación satisfacción-precios 0,195 -0,011 0,089 -0,063 -0,029
El conjunto del centro de vacaciones donde residió 0,168 0,006 -0,092 0,087 0,046

El cálculo de las puntuaciones factoriales se realiza a partir de la matriz factorial rotada y


se basa en el modelo de la regresión múltiple, de acuerdo con la fórmula:

f ij= a i1z1 + a il z 2 + ... + a ip z p (3.11)

fj= en la puntuación factorial del individuo j en el factor i.

aij es el coeficiente factorial de la variable i en el factor j.

zi son las puntuaciones típicas del sujeto sobre cada variable.

Una representación gráfica del mapa de percepciones de los turistas según nacionalidad
de los cinco aspectos más destacados del producto/servicio turístico de Tenerife la
haremos utilizando las puntuaciones factoriales promedios de cada una de las 17
nacionalidades consideradas en la encuesta. Debemos recordar al lector que en la
medida en estos promedios sean representativos el mapa de percepciones será fiel
reflejo de dichas percepciones según nacionalidad del turista, en caso contrario no será
así.

En el cuadrante 1 (+ : +) se encuentran las nacionalidades que han valorado por encima


de la media a los dos primeros factores, es decir, suizos, alemanes, austriacos, daneses
y finlandeses.

En el cuadrante 2 (- : +) se encuentran las nacionalidades que han valorado por debajo


de la media el alojamiento y sus servicios, y por encima de la media los aspectos
climáticos. Estos turistas son los belgas, irlandeses, franceses, holandeses y los
procedentes del grupo denominado Resto de Europa I.

En el cuadrante 3 (+ : -) se encuentran las nacionalidades que han valorado por encima


de la media alojamiento y sus servicios y por debajo los aspectos climáticos. Los turistas
procedentes del Norte de América.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 45 de 147

Tabla 3.3. 10

País de origen Factor 1 Factor 2 Factor 3 Factor 4 Factor 5


España -0,329 -0,314 0,045 0,059 0,615
Reino Unido 0,210 0,167 0,017 0,025 -0,406
Alemania 0,228 0,056 -0,413 -0,513 -0,213
Italia -0,169 -0,112 0,181 0,319 0,333
Francia -0,131 0,074 0,370 -0,120 0,256
Bélgica -0,052 0,330 0,314 -0,010 0,063
Holanda -0,135 0,144 -0,089 0,070 -0,064
Irlanda -0,022 0,290 0,008 -0,059 -0,307
Austria 0,252 0,009 -0,169 0,186 -0,193
Suiza 0,150 0,220 -0,185 -0,063 -0,295
Dinamarca 0,101 0,129 0,186 -0,016 0,087
Finlandia 0,084 0,050 -0,050 0,307 0,117
Noruega -0,160 -0,234 0,186 0,225 -0,119
Suecia -0,223 -0,155 -0,199 0,303 -0,195
Resto de Europa I -0,338 0,018 0,586 0,695 0,396
Resto de Europa II -0,361 -0,401 0,429 0,201 -0,590
Canada/USA 0,777 -0,925 1,385 0,759 0,208
Gráfico 3.3. 1

0,400 Bélgica
Irlanda
Suiza
0,200 Holanda Dinamarca
Alemania
Resto Europa I
Aspectos climáticos

0,000 Finlandia
Italia Austria
Suecia
-0,200
España
Noruega

-0,400
Resto Europa II

-0,600

-0,800

-1,000 Canada/USA

-0,400 -0,200 0,000 0,200 0,400 0,600 0,800

El alojamiento y servicios
____

En el cuadrante 4 (- : -) se encuentran las nacionalidades que han valorado por debajo


de la media tanto los aspectos climáticos como el alojamiento y sus servicios. Estos
turistas son italianos, suecos, noruegos, españoles y Resto de Europa II.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 46 de 147

Gráfico 3.3. 2

0,800
Resto Europa I
Cantidad y calidad de servicios
Canada/USA
0,600

0,400
suplementarios

Finlandia Italia

Suecia Resto Europa II


0,200 Noruega
España
Reino Unido
Bélgica
0,000 Holanda
Dinamarca
Suiza
-0,200 Francia

-0,400
Alemania

-0,600

-0,500 0,000 0,500 1,000 1,500

Precio
__

Cuadrante 1 (+ : +): valoración alta de la cantidad y calidad de los servicios


suplementarios y del precio. Los turistas posicionados en este cuadrante son los
procedentes del Resto de Europa I y del Norte de América, además de los procedentes
del Resto de Europa II, italianos y noruegos.

Cuadrante 2 (- : +): en este cuadrante se encuentran las nacionalidades que valoran por
debajo de la media el precio y por encima la cantidad y calidad de los servicios
suplementarios, que son: Los finlandeses, suecos y austriacos.

Cuadrante 3: (+: -): aquí se encuentran los que valoran por encima de la media el precio
y por debajo la cantidad y calidad de los servicios suplementarios. Estos turistas son los
franceses, belgas, irlandeses, daneses, británicos y españoles.

Cuadrante 4 (- : -): los que valoran poco el precio y la cantidad y calidad de los servicios
suplementarios son los alemanes, suizos y holandeses.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 47 de 147

Gráfico 3.3. 2

0,800

España
0,600
Seguridad y tranquilidad

Resto Europa I
0,400
Francia
Italia
0,200 Finlandia
Bélgica Canada/USA

Dinamarca
0,000 Holanda
Noruega
Alemania
-0,200
Suecia Irlanda Austria
Suiza Reino Unido
-0,400

Resto Europa II
-0,600

-0,400 -0,200 0,000 0,200 0,400 0,600 0,800

El alojamiento y servicios
__

Por último, y al objeto de examinar las valoraciones sobre el quinto factor, se ha


reproducido el gráfico anterior.

Los que valoran por encima de la media la seguridad y tranquilidad son los españoles,
Resto de Europa I, franceses, italianos, finlandeses y del Norte de América. Mientras
que el resto de nacionalidades la valoran por debajo.

A modo de resumen de los tres principales mercados emisores de turistas hacia


Tenerife, británicos, españoles y alemanes.

Los británicos valoran por encima de la media los cuatro primeros factores, mientras que
la seguridad y tranquilidad la valoran claramente por debajo de la media.

Los españoles valoran por encima de la media de forma clara solamente la seguridad y
la tranquilidad, mientras que ligeramente el precio y la cantidad y calidad de los servicios
suplementarios. Mientras que los otros dos factores los valoran por debajo.

Los alemanes valoran por encima de la media de forma significativa el alojamiento y sus
servicios, mientras que en menor medida los aspectos climáticos. Sin embargo, el resto
de factores los valoran por debajo de la media.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 48 de 147

3.2.5. Bondad del modelo factorial

Con el objetivo de medir la bondad del modelo factorial estimado, reproducimos las
correlaciones entre las variables a partir del propio modelo factorial, de manera que
podamos comprobar si reproducen fielmente la matriz de correlaciones observada.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 49 de 147

Tabla 3.3. 11

Correlaciones reproducidas
v1 V2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 15 v16 v17 v18 v19
V1 0,803 0,820 0,816 0,093 0,119 0,090 0,096 0,107 0,186 0,145 0,073 0,178 0,202 -0,053 0,069 -0,028 0,077 0,202 0,183
V2 0,820 0,852 0,852 0,162 0,146 0,110 0,145 0,161 0,207 0,163 0,117 0,182 0,190 0,035 0,116 0,063 0,110 0,233 0,223
V3 0,816 0,852 0,855 0,196 0,180 0,142 0,169 0,183 0,221 0,177 0,149 0,194 0,199 0,061 0,139 0,093 0,129 0,252 0,248
V4 0,093 0,162 0,196 0,536 0,489 0,446 0,323 0,310 0,231 0,217 0,472 0,252 0,208 0,432 0,419 0,493 0,360 0,357 0,455
V5 0,119 0,146 0,180 0,489 0,743 0,740 0,368 0,283 0,236 0,274 0,597 0,214 0,284 0,092 0,253 0,171 0,207 0,303 0,412
V6 0,090 0,110 0,142 0,446 0,740 0,749 0,368 0,272 0,205 0,259 0,582 0,147 0,235 0,021 0,176 0,093 0,127 0,242 0,346
V7 0,096 0,145 0,169 0,323 0,368 0,368 0,708 0,679 0,530 0,592 0,456 0,140 0,144 0,197 0,163 0,225 0,117 0,372 0,250
V8 0,107 0,161 0,183 0,310 0,283 0,272 0,679 0,672 0,539 0,583 0,404 0,173 0,150 0,260 0,206 0,284 0,166 0,396 0,262
V9 0,186 0,207 0,221 0,231 0,236 0,205 0,530 0,539 0,622 0,618 0,330 0,448 0,429 0,180 0,341 0,224 0,370 0,555 0,400
V10 0,145 0,163 0,177 0,217 0,274 0,259 0,592 0,583 0,618 0,640 0,361 0,364 0,367 0,118 0,258 0,158 0,275 0,502 0,338
V11 0,073 0,117 0,149 0,472 0,597 0,582 0,456 0,404 0,330 0,361 0,546 0,231 0,253 0,222 0,299 0,286 0,252 0,360 0,405
V12 0,178 0,182 0,194 0,252 0,214 0,147 0,140 0,173 0,448 0,364 0,231 0,663 0,616 0,242 0,548 0,313 0,620 0,600 0,562
V13 0,202 0,190 0,199 0,208 0,284 0,235 0,144 0,150 0,429 0,367 0,253 0,616 0,615 0,091 0,451 0,163 0,526 0,548 0,511
V14 -0,053 0,035 0,061 0,432 0,092 0,021 0,197 0,260 0,180 0,118 0,222 0,242 0,091 0,671 0,492 0,699 0,442 0,330 0,381
V15 0,069 0,116 0,139 0,419 0,253 0,176 0,163 0,206 0,341 0,258 0,299 0,548 0,451 0,492 0,614 0,559 0,630 0,542 0,577
v16 -0,028 0,063 0,093 0,493 0,171 0,093 0,225 0,284 0,224 0,158 0,286 0,313 0,163 0,699 0,559 0,739 0,511 0,398 0,461
v17 0,077 0,110 0,129 0,360 0,207 0,127 0,117 0,166 0,370 0,275 0,252 0,620 0,526 0,442 0,630 0,511 0,671 0,577 0,592
v18 0,202 0,233 0,252 0,357 0,303 0,242 0,372 0,396 0,555 0,502 0,360 0,600 0,548 0,330 0,542 0,398 0,577 0,639 0,573
v19 0,183 0,223 0,248 0,455 0,412 0,346 0,250 0,262 0,400 0,338 0,405 0,562 0,511 0,381 0,577 0,461 0,592 0,573 0,610
Para considerar el modelo factorial como un bueno modelo, éste debe reproducir lo más fielmente posible la matriz de correlaciones obtenida a
partir de los datos observados. Por tanto, es interesante analizar las diferencias entre ambas matrices llamados residuos.

El porcentaje de residuos no redundantes, es decir no significativamente grandes debe ser pequeño, en caso contrario el modelo se considerará
malo desde el punto de vista estadístico.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 50 de 147

Tabla 3.3. 12

Residuos
v1 V2 v3 v4 v5 v6 v7 v8 v9 V10 v11 v12 v13 v14 15 v16 v17 v18 v19
V1 -0,095 -0,093 -0,023 -0,007 0,020 0,001 0,009 -0,007 -0,002 0,007 -0,007 -0,003 0,022 0,008 0,019 -0,006 0,000 -0,001
V2 -0,095 -0,052 -0,017 0,000 0,003 0,012 -0,011 -0,007 0,010 0,011 0,001 0,001 -0,007 0,014 -0,004 0,024 -0,020 -0,013
V3 -0,093 -0,052 -0,007 0,005 -0,004 -0,006 -0,007 0,004 0,007 0,005 0,002 0,002 -0,006 0,009 -0,007 0,011 -0,003 -0,024
V4 -0,023 -0,017 -0,007 -0,062 -0,130 -0,034 -0,006 0,034 0,041 -0,082 0,019 0,025 -0,109 -0,067 -0,094 -0,034 -0,009 0,016
V5 -0,007 0,000 0,005 -0,062 -0,095 -0,024 -0,009 0,048 0,030 -0,143 0,001 -0,027 0,053 -0,009 0,023 -0,011 0,013 -0,034
V6 0,020 0,003 -0,004 -0,130 -0,095 0,000 0,013 0,026 -0,014 -0,102 0,010 -0,029 0,060 0,028 0,035 0,037 0,005 -0,051
V7 0,001 0,012 -0,006 -0,034 -0,024 0,000 -0,086 -0,127 -0,085 -0,048 0,034 0,027 -0,037 0,043 -0,011 0,062 -0,013 0,008
V8 0,009 -0,011 -0,007 -0,006 -0,009 0,013 -0,086 -0,086 -0,153 -0,031 0,047 0,032 -0,061 0,032 -0,044 0,056 -0,042 0,019
V9 -0,007 -0,007 0,004 0,034 0,048 0,026 -0,127 -0,086 -0,086 -0,014 -0,011 -0,096 0,033 -0,025 0,015 -0,039 -0,034 -0,020
V10 -0,002 0,010 0,007 0,041 0,030 -0,014 -0,085 -0,153 -0,086 -0,023 -0,079 0,013 0,046 0,012 0,038 -0,025 -0,051 -0,010
V11 0,007 0,011 0,005 -0,082 -0,143 -0,102 -0,048 -0,031 -0,014 -0,023 0,021 0,020 -0,009 0,006 -0,008 0,000 -0,029 -0,043
V12 -0,007 0,001 0,002 0,019 0,001 0,010 0,034 0,047 -0,011 -0,079 0,021 -0,091 0,052 -0,109 -0,012 -0,059 -0,080 -0,038
V13 -0,003 0,001 0,002 0,025 -0,027 -0,029 0,027 0,032 -0,096 0,013 0,020 -0,091 0,093 -0,054 0,069 -0,117 -0,080 -0,077
V14 0,022 -0,007 -0,006 -0,109 0,053 0,060 -0,037 -0,061 0,033 0,046 -0,009 0,052 0,093 -0,099 -0,104 -0,108 -0,009 -0,035
15 0,008 0,014 0,009 -0,067 -0,009 0,028 0,043 0,032 -0,025 0,012 0,006 -0,109 -0,054 -0,099 -0,066 0,068 -0,069 -0,106
V16 0,019 -0,004 -0,007 -0,094 0,023 0,035 -0,011 -0,044 0,015 0,038 -0,008 -0,012 0,069 -0,104 -0,066 -0,051 -0,002 -0,033
V17 -0,006 0,024 0,011 -0,034 -0,011 0,037 0,062 0,056 -0,039 -0,025 0,000 -0,059 -0,117 -0,108 0,068 -0,051 -0,058 -0,079
V18 0,000 -0,020 -0,003 -0,009 0,013 0,005 -0,013 -0,042 -0,034 -0,051 -0,029 -0,080 -0,080 -0,009 -0,069 -0,002 -0,058 0,025
V19 -0,001 -0,013 -0,024 0,016 -0,034 -0,051 0,008 0,019 -0,020 -0,010 -0,043 -0,038 -0,077 -0,035 -0,106 -0,033 -0,079 0,025
Hay un 28% de residuos no redundantes con valores absolutos superiores a 0.05, sin embargo si relajamos el umbral crítico a un 0.1, el
porcentaje de residuos redundantes baja a un 4%, lo que representa un porcentaje lo suficientemente pequeño como para considerar el modelo
como aceptable.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 51 de 147

3.3. PASOS PARA LA EJECUCIÓN DEL ANÁLISIS CON SPSS

Para la ejecución del análisis factorial de componentes principales con el paquete


estadístico SPSS 13, una vez preparado el fichero de datos con un total de 25
columnas, que corresponden a otras tantas variables, y 9615 filas correspondientes a
los 9615 turistas entrevistados, seguimos los siguientes comandos:

ANALIZAR REDUCCIÓN DE DATOS ANÁLISIS FACTORIAL

Seleccionamos las variables que van a ser analizadas, que originalmente fueron 24,
para luego quedarnos con 19.

Adecuación de los datos:

Descriptivos…

• Estadísticos: Solución inicial

• Matriz de correlaciones: Coeficientes, niveles de significación, KMO y prueba de


esfericidad de Bartlett, reproducida y anti-imagen.

Extracción de factores. Valores propios. Varianza Explicada. Factores a Retener.

Extracción…

• Método: Componentes principales

• Analizar: Matriz de correlaciones

• Extraer: Autovalores mayores que 1

• Mostrar: Solución factorial sin rotar y gráfico de sedimentación.

Interpretación de los factores.

Rotación…

• Método: Varimax

• Mostrar: Solución rotada

• Nº máximo de iteraciones para converger: 50

Opciones…

• Valores perdidos: Excluir casos según lista

• Formato de visualización de los coeficientes: Ordenados por tamaño

Coeficientes y puntuaciones factoriales

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 52 de 147

Puntuaciones…

Guardar como variables

Método: Regresión

Mostrar matriz de coeficientes de las puntuaciones factoriales

Mapas de percepción

Para crear los mapas de percepción es necesario el uso de un nuevo fichero de datos
que contenga las puntuaciones factoriales promedio para cada una de las 17
nacionalidades consideradas y para cada una de las componentes extraídas, por lo que
se tendrá un fichero de datos con 6 columnas, 5 factores y la nacionalidad, y 17 filas,
tantas como nacionalidades consideradas.

GRÁFICOS DISPERSIÓN/PUNTOS DEFINIR: DISPERSIÓN SIMPLE

Eje X: Factor 1: El alojamiento y sus servicios

Eje Y: Factor 2: Aspectos climatológicos

Etiquetar los casos mediante: Nacionalidad

Opciones: Mostrar el gráfico con las etiquetas de los casos

Una vez ejecutado el comando de gráficos, hacemos doble clic sobre él para poder
editarlo e insertar los ejes.

Opciones…

• Línea de referencia del eje X: X posición del eje en 0. Aplicar y cerrar.

• Línea de referencia del eje Y: Y posición del eje en 0: Aplicar y cerrar.

Se repetiría el proceso para los otros tres gráficos, sólo que cambiando los factores
incluidos en los mismos.

3.4. CASO A RESOLVER


Con los datos recogidos en el fichero Caso_16_1.XLS, referidos a variables relacionadas
con la actividad turística de las 17 Comunidades Autónomas Españolas se pide
posicionarlas de acuerdo a las dimensiones que mejor expliquen la actividad turística de
cada una de ellas con la mínima pérdida de información posible.

ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 53 de 147

3.5. BIBLIOGRAFÍA

- Abascal, E. y Grande, I. “Métodos Multivariantes para la Investigación


Comercial”. Ed. Ariel Economía. 1989.

- Hair, Anderson, Tatham y Black. “Análisis Multivariante”. 5ª Edición. Ed.


Prentice Hall, 1999.

- Jiménez, V. et all. “Análisis del Turismo y del Comercio Minorista en Canarias


Mediante Técnicas Multivariantes”. Colección Investigación Empresarial.
Edición Fundación FYDE CajaCanarias, 2001.

- Pérez, C. “Técnicas de Análisis Multivariante de Datos”. Ed. Prentice-Hall.


2004.

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 54 de 147

CAPÍTULO 4
ANÁLISIS DE CORRESPONDENCIAS

ESQUEMA DEL CAPÍTULO OBJETIVOS

4.1. MATRIZ DE DATOS  Reducir la dimensionalidad de datos


4.2. NUBE DE PUNTOS Y DISTANCIAS cualitativos.
4.2.1. Nube de puntos  Medir la asociación entre variables
4.2.2. La distancia cualitativas.
OBTENCIÓN DE LOS EJES  Obtener las dimensiones.
4.3.
FACTORIALES  Saber interpretar el espacio
4.3.1. Criterios a maximizar y matriz a bidimensional.
diagonalizar
4.3.2. Inercia y test de independencia
4.3.3. Examen de puntos fila y columna
4.4. RELACIONES ENTRE LOS DOS
ESPACIOS
4.4.1. Reglas de interpretación en la
representación gráfica conjunta
4.4.2. Análisis mediante representación
gráfica conjunta
4.5.
conjunta
CASO PROPUESTO

RESÚMEN:

El Análisis de Correspondencias es una técnica estadística multivariante cuya finalidad es la


representación de la relación existente entre las categorías o modalidades de variables
cualitativas en un espacio multidimensional reducido, con la mínima pérdida de información
posible, a partir de la posible asociación existente entre ellas.

Para ello, se utiliza el concepto de distancia entre los puntos, de manera que a mayor distancia
exista entre ellos, menor será el grado de asociación existente. Para calcular la distancia entre
dos puntos o modalidades de una variable o de variables distintas se suele elegir en la mayoría
de los casos la medida chi-cuadrado. Se utilizan el concepto ya utilizado en el capítulo anterior,
de valores propios de una matriz, que miden la varianza contenida en los datos que es explicada
por cada una de las dimensiones que van a ser extraídas.

En este texto sólo vamos a estudiar el Análisis de Correspondencias Simple, en el que se estudia
la asociación de dos variables cualitativas y sus modalidades, siendo la matriz de datos una tabla
de contingencia.

A modo de ejemplo, se desarrolla su aplicación al caso de la nacionalidad del turista y la zona de


alojamiento en el destino turístico Tenerife.

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 55 de 147

4.1. MATRIZ DE DATOS

El Análisis de Correspondencias es una técnica estadística multivariante cuya finalidad


es la representación de la relación existente entre las categorías o modalidades de
variables cualitativas en un espacio multidimensional reducido, con la mínima pérdida de
información posible, a partir de la posible asociación existente entre ellas.14

Por tanto, a diferencia del Análisis de Componentes Principales, las variables a tratar no
son numéricas, sino cualitativas nominales con sus correspondientes modalidades.

El Análisis de Correspondencias puede ser:

Simple: cuando se parte de dos variables nominales y sus modalidades.

Múltiple: si se estudian más de dos variables nominales

En este texto, nos limitaremos al estudio del Análisis de Correspondencias Simple, es


decir, para dos variables, que es el más sencillo y utilizado.15

La matriz de datos de la que se parte es una tabla de contingencia, permitiendo estudiar


las eventuales relaciones existentes entre dos variables nominales, así como entre sus
respectivas modalidades.

1 2 3 … i……… p
1
2
3
.. kij
j
..
n
Es una matriz de datos K de orden (n*p), de doble entrada en la que las líneas son los n
objetos (Oi) y las columnas los p criterios (Cj). La intersección es kij que generalmente
será la frecuencia entre los elementos i y j, pero también se puede considerar la media
de respuesta.

k = ∑ k ij = total población (4.1)


ij
p
k i. = ∑k j =1
ij = total fila i (4.2)
n
k .j = ∑ k ij = total columna j (4.3)
i =1

14
Uriel, E. y Aldás, J. Análisis Multivariante Aplicado. Ed. Thomson. 2005.
15
Para el estudio del Análisis de Correspondencias Múltiple recomendamos el texto de Uriel, E. y Aldás,
J. (2005)

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 56 de 147

Ejemplo 4.1.1

Nos proponemos analizar si los turistas de ciertas nacionalidades están más asociados
a ciertas zonas de alojamiento Tenerife donde pasaron sus vacaciones en la isla de
Tenerife que otros.

Para ello, usamos las estadísticas de turismo receptivo publicadas por el Servicio
Técnico de Desarrollo Económico del Cabildo Insular de Tenerife. Los datos analizados
corresponden a 5093732 turistas que visitaron Tenerife durante el año 2005, ordenados
en una tabla de contingencia o correspondencias.

Tabla 4.1. Tabla de correspondencias

Zonas
Países ki.
1 2 3 4
Alemania 3558 26140 185896 443377 658971
Bélgica 401 226 2684 103662 106973
España 157840 23743 609567 668567 1459717
Finlandia 270 106 41732 73264 115372
Francia 1999 1092 14982 90776 108849
Reino Unido 2980 1734 91513 1738584 1834811
Holanda 737 494 4343 134741 140315
Italia 1841 711 4969 102475 109996
Suecia 1686 93 17006 100049 118834
Resto Europa 3946 1966 35108 356340 397360
América 4338 806 7351 12249 24744
Resto mundo 1825 347 4461 11157 17790
k..j 181421 57458 1019612 3835241 5093732
ZONA 1: S/C de Tenerife
ZONA 2: La Laguna, Bajamar, Punta del Hidalgo, Tacoronte
ZONA 3: Puerto de la Cruz y Resto del Norte
ZONA 4: Resto del Sur
Fuente: Estadísticas de Turismo. Servicio Técnico de Desarrollo Económico. Cabildo Insular de
Tenerife. 2005.
Elaboración propia.
Observemos que la zona del Sur de la Isla (zona 4) es la que aloja el mayor número de
turistas independientemente de la nacionalidad de estos, mientras que la zona 2 es la
que aloja menos turistas, aunque para muchas de las nacionalidades solamente la
supera ligeramente la zona de la capital de la Isla.

El método buscado deberá:

• ser simétrico con relación a líneas y columnas.

• permitir comparar las distribuciones de frecuencias.

Esto quiere decir que en la tabla de contingencia las líneas y columnas, que designan
dos particiones de una misma población, juegan papeles simétricos y, a diferencia del
Análisis de Componentes Principales, son tratadas de forma análoga.

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 57 de 147

Sin embargo, como indican ABASCAL, E. y GRANDE, I.,16 para comparar dos líneas
entre sí en una tabla de contingecia, no interesan los valores brutos sino los porcentajes
o distribuciones condicionadas de frecuencias relativas. Es decir, los elementos i,i' (j,j')
son semejantes si presentan igual distribución condicionada.

4.2. NUBE DE PUNTOS Y DISTANCIAS

Las transformaciones a realizar son iguales en ambos subespacios, llevando a


transformaciones analíticas diferentes. Los nuevos datos en el espacio de las filas no
son la traspuesta en el espacio de las columnas. Sin embargo, se podrán encontrar
relaciones entre los factores que permitirán reducir los cálculos a una sola factorización,
facilitando la interpretación.

4.2.1. Nube de puntos

Como el análisis es simétrico, se tomará como columnas la dimensión más pequeña.

Los pasos que hay que dar a partir de la matriz K (n*p) son los que aparecen en el
siguiente cuadro:

Cuadro 4.1

F Perfil de líneas en

1.............j..............p

. fij fij/fi

Perfil de líneas en

fij/fj

16
Abascal, E. y Grande, I. “Métodos Multivariantes para la Investigación Comercial”. Ed. Ariel
Economía. 1989

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 58 de 147

 La tabla F está formada por las frecuencias relativas

k ij
fij = (4.4)
k

En nuestro ejemplo, la matriz F de frecuencias relativas (tantos por 1) será:

Tabla 4.2

Zonas
Países fi.
1 2 3 4
Alemania 0,001 0,005 0,036 0,087 0,129
Bélgica 0,000 0,000 0,001 0,020 0,021
España 0,031 0,005 0,120 0,131 0,287
Finlandia 0,000 0,000 0,008 0,014 0,023
Francia 0,000 0,000 0,003 0,018 0,021
Reino Unido 0,001 0,000 0,018 0,341 0,360
Holanda 0,000 0,000 0,001 0,026 0,028
Italia 0,000 0,000 0,001 0,020 0,022
Suecia 0,000 0,000 0,003 0,020 0,023
Resto Europa 0,001 0,000 0,007 0,070 0,078
América 0,001 0,000 0,001 0,002 0,005
Resto mundo 0,000 0,000 0,001 0,002 0,003
f.j 0,036 0,011 0,200 0,753 1,000

Así, a partir de la tabla 4.1, el tanto por uno de turistas alemanes alojados en la zona
uno es:

k 11 3558
f11 = = = 0,001
k 5093733

 Perfil de líneas en Rp

Cada punto i tiene por coordenadas en Rp fij/fi. Está afectado de una masa fi. que es su
frecuencia relativa. El perfil de líneas en Rp forma una nube de n puntos en el espacio de
p columnas. Las coordenadas de cada punto i en Rp son:

fij k ij k i.
= siendo fi. = j = 1,2,.....p (4.5)
fi. k i. k

Como

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 59 de 147

p fij
∑f
j =1
=1 (4.6)
i.

los n puntos de la nube están situados en un subespacio de p-1 dimensiones.

En nuestro ejemplo, la matriz de los perfiles fila es la siguiente:

Tabla 4.3. Perfiles de fila

Zonas
Países Margen activo
1 2 3 4
Alemania 0,005 0,040 0,282 0,673 1
Bélgica 0,004 0,002 0,025 0,969 1
España 0,108 0,016 0,418 0,458 1
Finlandia 0,002 0,001 0,362 0,635 1
Francia 0,018 0,010 0,138 0,834 1
Reino Unido 0,002 0,001 0,050 0,948 1
Holanda 0,005 0,004 0,031 0,960 1
Italia 0,017 0,006 0,045 0,932 1
Suecia 0,014 0,001 0,143 0,842 1
Resto Europa 0,010 0,005 0,088 0,897 1
América 0,175 0,033 0,297 0,495 1
Resto mundo 0,103 0,020 0,251 0,627 1
Masa: f.j 0,036 0,011 0,200 0,753
Así, el tanto por uno de turistas de la zona 1 condicionado a que sean alemanes, es:

f11 k 11 0,001 3558


= = = = 0,005
f1. k 1. 0,129 658971

El análisis de la tabla que recoge los perfiles fila nos muestra lo siguiente, en cuanto a
los tres principales mercados:

o El 94.8% de los británicos se alojaron en el Sur de la Isla, el 5% en el Puerto de la


Cruz y Resto del Norte, mientras que las dos zonas restantes sólo alojaron el 0.3%
de los turistas con esta nacionalidad.

o El 67.3% de los turistas alemanes se alojaron en el Sur, el 28.2% en el Norte,


mientras que en el área metropolitana sólo el 4.5%.

o Los turistas españoles se repartieron, un 45.8% en el Sur, un 41.8% en el Norte,


mientras que el 13.4% restante se alojaron en el área de los Municipios de S/C de
Tenerife, La Laguna y Tacoronte.

o En cuanto al resto, cabe resaltar los turistas procedentes del Resto de América los
cuales se alojan en un 40.5% en el Sur de la Isla, un 29.8% en el Puerto de la Cruz y

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 60 de 147

Resto del Norte de la Isla, y un 25.6% en la zona de La Laguna, Bajamar, Punta del
Hidalgo y Tacoronte. Este grupo de turistas son los que presentan un mayor reparto
entre las cuatro zonas.

 Perfil de líneas en Rn

El perfil de líneas en Rn forma una nube de p puntos en el espacio de n filas. Cada punto
j tiene por coordenadas en Rn.

fij k ij k.j
= siendo f.j = i = 1,2,....n (4.7)
f.j k.j k

Está afectado de una masa f.j que es su frecuencia relativa. Como

n fij
∑f
i =1
=1 (4.8)
.j

Los p puntos de la nube están situados en un subespacio de n-1 dimensiones.

Los perfiles columna de nuestro ejemplo, se muestran el la siguiente tabla:

Tabla 4.4. Perfiles de columna

Zonas
Países Masa: fi.
1 2 3 4
Alemania 0,020 0,455 0,182 0,116 0,129
Bélgica 0,002 0,004 0,003 0,027 0,021
España 0,870 0,413 0,598 0,174 0,287
Finlandia 0,001 0,002 0,041 0,019 0,023
Francia 0,011 0,019 0,015 0,024 0,021
Reino Unido 0,016 0,030 0,090 0,453 0,360
Holanda 0,004 0,009 0,004 0,035 0,028
Italia 0,010 0,012 0,005 0,027 0,022
Suecia 0,009 0,002 0,017 0,026 0,023
Resto Europa 0,022 0,034 0,034 0,093 0,078
América 0,024 0,014 0,007 0,003 0,005
Resto mundo 0,010 0,006 0,004 0,003 0,003
Margen activo 1 1 1 1

Así, el tanto por uno de alemanes condicionado a que sean de la zona 1 es:

f11 k 11 0,001 3558


= = = = 0,020
f.1 k.1 0,036 181421

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 61 de 147

El análisis de la tabla que recoge los perfiles columnas indica lo siguiente:

o El 74.3% de los turistas alojados en la zona Sur de la Isla son turistas de


nacionalidades británica, española o alemana. Mientras que estas tres mismas
nacionalidades, aunque en diferente orden de afluencia, representan el 87% de los
turistas alojados en la zona del Puerto de la Cruz y Resto del Norte.

o El porcentaje que representan estas nacionalidades entre los turistas alojados en la


zona 2 se eleva al 89.8%. Sin embargo, en la capital de la Isla la nacionalidad
mayoritaria es la española, con un 87% de los turistas alojados, seguidos de los
alemanes y del Resto de América con un 2% cada una de las nacionalidades.

Por otra parte, el centro de gravedad de la nube de puntos en Rp es la media de los


perfiles de frecuencias afectados por sus masas, siendo la frecuencia mediana, por lo
que su j-esima componente vale:

n fij
∑f
i =1
i.
fi.
= f.j (4.9)

que es la frecuencia marginal de las columnas.

Igual pasaría en Rn , siendo el centro de gravedad f i. que es la frecuencia marginal de


las filas.

p fij
∑f
j =1
.j
f.j
= fi. (4.10)

4.2.2. La distancia

En el Análisis de Correspondencias, al trabajar con porcentajes, se usa la distancia chi-


cuadrado:
2
1  f ij f i´j 
d (i, i´) = ∑  −
2
 (4.11)
f .j  f i. f i.´ 
2
1  f ij f ij´ 
d ( j, j´) = ∑  − 
2
(4.12)
f i.  f .j f .j´ 

Se puede expresar como lo hemos hecho en las ecuaciones 4.11 y 4.12, o también
calculando su raíz cuadrada.

d2(i,i´) es la distancia entre los puntos i e i´

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 62 de 147

fij
son los elementos del vector perfil fila del punto i que es de dimensión J
fi

f . j son los elementos del centroide (masa), o mlo que es igual, el centro de gravedad

(ecuación 4.9 y 4.10).

Se diferencia de la distancia euclídea en la ponderación, que es la inversa de su masa


correspondiente, evitando así que las pequeñas diferencias entre las componentes de
las líneas que tienen un efectivo muy alto influyan menos.

Si en nuestro ejemplo quisiéramos obtener la distancia chi-cuadrado entre los alemanes


y los belgas, respecto a las cuatro zonas, haríamos:

d 2 (1,2 ) =
(0,005 − 0,004 )2 +
(0,040 − 0,002 )2 +
(0,282 − 0,025 )2 +
(0,673 − 0,969 )2 = 0,572
0,036 0,011 0,200 0,753

Es esta distancia ponderada, así como el papel simétrico jugado por líneas y columnas
de la tabla, los que particularizan el Análisis de Correspondencias y les aseguran
propiedades que no posee el ACP: la equivalencia distribucional y las relaciones de
transición.17

 La equivalencia distribucional permite agregar dos modalidades de una misma


variable, si tienen idénticas frecuencias, en una nueva modalidad afectada por la
suma de sus masas, sin cambiar nada, ni en las distancias entre las modalidades de
esta variable, ni en las distancias entre las modalidades de la otra. Esta propiedad es
fundamental, ya que garantiza una cierta invarianza de los resultados de la
nomenclatura elegida para la construcción de las modalidades de una variable, bajo
la condición de reagrupar modalidades con frecuencias similares. No se pierde
información agregando ciertas clases y no se cambia subdividiendo clases
homogéneas.

 Las relaciones de transición o quasibaricéntricas son una de las características del


Análisis de Correspondencias, ligando gráficamente las dos variables representadas
en líneas y columnas.

3
Lebart, L., Morineau, A. et Fenelon, J.P. (1979).

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 63 de 147

4.3. OBTENCIÓN DE LOS EJES FACTORIALES

Como el análisis es simétrico, se tomará como columnas la dimensión más pequeña.


Por otra parte, contrariamente a lo que se hizo en el ACP, la tabla de datos sigue dos
transformaciones, una en el perfil de las líneas y la otra en el de las columnas, a partir
de las cuales se construirán las nubes de puntos en Rp y en Rn . Por tanto, la tabla de
nuevas coordenadas en el espacio de las columnas no es la transposición de las de las
nuevas coordenadas en el espacio de las líneas. En cualquier caso, tendremos que
analizar cuales son los criterios a maximizar y la matriz a diagonalizar y, a partir de esos
resultados, obtener los ejes factoriales.

4.3.1. Criterios a maximizar y matriz a diagonalizar

Para estudiar los criterios a maximizar y la matriz a diagonalizar debemos tener en


cuenta que queremos representar gráficamente las proximidades entre perfiles. Nos
ponemos, pues, en los dos espacios, en los centros de gravedad de las nubes. Sin
embargo, y esa es una particularidad del Análisis de Correspondencias, es equivalente
proceder al análisis partiendo del origen o partiendo de los centros de gravedad, a
condición de dejar en el primer caso el eje factorial que une el origen al centro de
gravedad.

La distancia χ2 no difiere de la métrica euclidiana nada más que en la introducción de


una ponderación. Se puede llevar a la métrica euclidiana usual mediante un cambio de
las coordenadas iniciales. Los cálculos se simplifican y la matriz a diagonalizar se
convierte en simétrica. Por tanto, el análisis teniendo en cuenta los centros de gravedad
es equivalente al análisis respecto al origen.

Por tanto, en Rp y en Rn es equivalente realizar el análisis de correspondencias sobre la


tabla de datos centrada de término general:

fij
− f.j (4.13)
fi.

O sobre la tabla de datos no centrada de término general:

fij
(4.14)
fi.

que es la que hemos presentado en las tablas anteriores de frecuencias relativas


marginales de filas y columnas.

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 64 de 147

 Comenzaremos por efectuar el análisis general respecto al origen, ya que la


expresión de las fórmulas es más simple18.

En el espacio de columnas Rp busquemos el eje de inercia máximo de la nube de


puntos-líneas que pasa por el origen O engendrado por un vector unitario u para la
métrica D-1 p.

Ello lleva a maximizar la suma ponderada de los cuadrados de las proyecciones sobre el
eje:

 2 
Max ∑ fi.d (i, O) (4.15)
u  i 

y maximizar la cantidad:

u´ D p−1 F´Dn−1F D p−1u (4.16)

Con la limitación u´ D-1 p. u = 1

• F, de orden (n,p) es la matriz de frecuencias relativas

• Dn, de orden (n,n) es la matriz diagonal en la que los elementos diagonales son las
frecuencias marginales de las líneas, fi.

• Dp, de orden (p,p) es la matriz diagonal en la que los elementos diagonales son las
frecuencias marginales de las columnas, f .j .

• u es vector propio de la matriz S = F´ D-1 n. F D-1 p. asociado al valor propio λ más


grande diferente de 1, siendo S la matriz a diagonalizar cuyo término general es:

n fij fij´
s jj = ∑ (4.17)
i =1 fi f.j´

De igual forma, se debe maximizar en Rn la cantidad:

v ´ D n−1 F D p−1F´ D n−1v (4.18)

con la limitación v´ D-1 n. v = 1, siendo v el vector propio de la matriz

T = F D-1 p. F´ D-1 n.

asociado al valor propio λ más grande diferente de 1.

18
Un mayor desarrollo de la fundamentación matemática del Análisis de Correspondencias lo tenemos en
Uriel, E. y Aldás, J. Análisis Multivariante Aplicado. Ed. Thomson. 2005

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 65 de 147

En cuanto a los ejes factoriales, p corresponde a la más pequeña dimensión de la tabla


de datos. Después de descartar el valor propio trivial igual a 1 y su vector propio
asociado, retenemos de la diagonalización de la matriz los p-1 valores propios no nulos
y sus vectores propios asociados. Obtendremos así como máximo p-1 ejes factoriales.19

Por tanto, los elementos de construcción del análisis son:

Cuadro 4.2

En Rp Elementos de construcción En Rn
S = F´ D-1 n. F D-1 p Matriz a diagonalizar T = F D-1 p. F´ D-1 n
Suα = λα u α Eje factorial Tvα = λα v α
Ψα = D-1 n. F D-1 p u α Coordenadas factoriales ϕα = D-1 p. F´ D-1 n v α
Las coordenadas factoriales son centradas y de varianza igual a λα siendo ésta el valor
propio o la inercia de cada eje o la cantidad de varianza explicada por él.

 Si se realiza el Análisis de Correspondencias sobre la tabla de datos centrada de


fij
término general − f.j
fi.

Se diagonaliza la matriz S del análisis respecto al origen teniendo cuidado de eliminar el


primer vector propio referido al origen o centro de gravedad de la nube y el valor propio
asociado igual a 1. La matriz resultante sería A. Las relaciones entre las dos se
presentan en el siguiente cuadro:

Cuadro 4.3

Respecto al origen Respecto al centro de gravedad G


S no simétrica A simétrica
S = F´ D-1 n. F D-1 p A = D-1/2 p F´ D-1 n. F D-1/2 p
S = A D-1 p
Suα = λα u α A wα = λα w α
W= D-1/2 p u

4.3.2. Inercia y test de independencia

El valor de la inercia es un indicador de la dispersión de la nube y mide la asociación entre las


dos variables y no puede ser superior a 1. Por tanto, la inercia total es un indicador de la
bondad del ajuste de la solución obtenida.
Si el análisis se ha realizado partiendo de los centros de gravedad, la inercia global se
expresa como

19
Esto es debido a que la información mínima necesaria para la realización de los cálculos,
coincide con el número de modalidades de la variable que tiene un menor de ellas, menos
una, puesto que la información de esta última modalidad puede ser obtenida por diferencias.

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 66 de 147

p −1
I = ∑ λα (4.19)
α =1

Siendo λα la inercia de cada dimensión obtenida.

Una inercia que tienda a 1 indica que hay una dicotomía en los datos. Se obtendrían dos
grupos de modalidades para cada variable, separando la nube de puntos en dos subnubes, lo
que podría significar igualmente la existencia de un grupo de puntos aislados de los otros
puntos.
En nuestro ejemplo, el resumen respecto a la inercia es el siguiente:
Tabla 4.5. Resumen

Valor Chi- Confianza para el Valor


Dimensión Inercia Sig. Proporción de inercia
propio cuadrado propio
Desviación
Explicada Acumulada Correlación
típica
2
1 ,497 ,247 ,914 ,914 ,000 ,001
2 ,140 ,019 ,072 ,986 ,000
3 ,062 ,004 ,014 1,000
Total ,270 1375632,7 ,000(a) 1,000 1,000
a 33 grados de libertad

Observemos lo siguiente:

 El número de dimensiones o ejes obtenidos es de 3, ya que el número de


modalidades de la variable zona, que es la que menor número de modalidades tiene,
es de 4.

 Los valores propios son la raíz cuadrada de la inercia de cada dimensión. Se pueden
interpretar como la correlación entre las puntuaciones fila y columna. Son análogos
al coeficiente de correlación de Pearson en el análisis de correlación. Para cada
dimensión, el valor propio al cuadrado es igual a la inercia, de manera que
representa otra medida de la importancia de cada dimensión. (0.497)2 = 0.247;
0.1402 = 0.019; 0.0622 = 0.004).

 La primera dimensión muestra tanta inercia como sea posible (medida de la varianza
contenida en los datos), la segunda es ortogonal a la primera y muestra tanta inercia
restante como sea posible, prosiguiendo el proceso de extracción de dimensiones de
la misma manera. Podemos evaluar la inercia mostrada por una dimensión
comparándola con la inercia total. En nuestro ejemplo, la primera dimensión muestra
el 91.4% (0.247/0.270) de la inercia total, mientras que la segunda muestra el 7.4%
(0.020/0.273).

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 67 de 147

 El total de la inercia es 0,270, que coincide con la suma de la inercia de cada una de
las dimensiones.

 Si decidimos que las p primeras dimensiones de una solución con q dimensiones


muestra suficiente inercia total, entonces no tenemos que analizar un número mayor
de dimensiones. En nuestro ejemplo, la solución bidimensional es suficiente, dado
que la tercera dimensión representa el 1,4% de la inercia total.

 El valor de la inercia global está ligado a un test chi-cuadrado de independencia. Si el


número total de elementos es k, se reconoce que k*I es un estadístico
asintóticamente distribuido que sigue una distribución χ2 con (n-1)(p-1) grados de
libertad bajo la hipótesis de independencia. Por tanto,

χ2
χ2 = kI ⇔ I= (4.20)
k

Esto es, la suma de las inercias de las dimensiones o ejes de un análisis de


correspondencias tiene una interpretación estadística simple. Se podrá rechazar la
hipótesis nula de independencia de las variables en líneas y en columnas si el valor
del estadístico o función de decisión es superior al valor de una variable χ2 con (n-
1)(p-1) grados de libertad.

En nuestro ejemplo, a partir de la tabla 4.5, tenemos que la función de decisión es:

χ 2(12 -1)(4 −1) = 5093732 * 0,27 = 1375632,7

Como a la derecha de ese valor se encuentra un área de probabilidad igual a 0,


(columna sig.) podemos decir que, a un nivel de significación del 5%, hay suficiente
evidencia empírica como para rechazar la hipótesis de independencia. En definitiva,
podemos decir que existe asociación entre las variables nacionalidad del turista y
zona de alojamiento en Tenerife.

4.3.3. Examen de puntos fila y columna

En el examen de los puntos fila y columna habrá que tener en cuenta los siguientes
conceptos:

1. Coordenadas
3. Inercia de los puntos
3. Contribución de los puntos a la inercia de cada dimensión
4. Contribución de la dimensión a la inercia del punto

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 68 de 147

En nuestro ejemplo, los resultados del examen de puntos fila y columna fueron los
siguientes:

Tabla 4.6. Examen de los puntos de fila(a)

Contribución
Puntuación
De los puntos
Masa en la De la dimensión a la
Países Inercia a la inercia de
fi. dimensión inercia del punto
la dimensión
1 2 1 2 1 2 Total
Alemania ,129 ,200 ,916 ,018 ,010 ,777 ,142 ,842 ,984
Bélgica ,021 -,704 -,175 ,005 ,021 ,005 ,979 ,017 ,996
España ,287 ,998 -,215 ,144 ,575 ,095 ,987 ,013 1,000
Finlandia ,023 ,329 ,493 ,004 ,005 ,039 ,284 ,179 ,463
Francia ,021 -,271 ,028 ,001 ,003 ,000 ,994 ,003 ,997
Reino Unido ,360 -,639 -,123 ,074 ,296 ,039 ,990 ,010 1,000
Holanda ,028 -,675 -,156 ,006 ,025 ,005 ,979 ,015 ,993
Italia ,022 -,574 -,196 ,004 ,014 ,006 ,937 ,031 ,968
Suecia ,023 -,297 -,065 ,001 ,004 ,001 ,886 ,012 ,898
Resto Europa ,078 -,474 -,066 ,009 ,035 ,002 ,995 ,005 1,000
América ,005 ,958 -,872 ,004 ,009 ,026 ,631 ,147 ,777
Resto mundo ,003 ,467 -,441 ,001 ,002 ,005 ,653 ,164 ,817
Total activo 1,000 ,270 1,000 1,000
a Normalización Simétrica

Tabla 4.7. Examen de los puntos columna(a)

Contribución
Puntuación
Masa De los puntos a la
en la De la dimensión a la
Zonas Inercia inercia de la
dimensión inercia del punto
f.j dimensión
1 2 1 2 1 2 Total
1 ,036 1,739 -1,433 ,065 ,217 ,523 ,829 ,158 ,987
2 ,011 ,933 2,178 ,015 ,020 ,383 ,335 ,513 ,847
3 ,200 1,138 ,248 ,131 ,522 ,088 ,981 ,013 ,995
4 ,753 -,399 -,031 ,060 ,241 ,005 ,998 ,002 1,000
Total
1,000 ,270 1,000 1,000
activo
a Normalización Simétrica

Antes de pasar al análisis de los resultados en filas y columnas, vamos indicar el


significado de los conceptos que aparecen en ambas tablas y que no se han explicado
hasta ahora:

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 69 de 147

1. Coordenadas de los puntos fila o columna

Son las proyecciones de los puntos fila o columna en los ejes factoriales. Mientras más
alejados del origen sean los valores, mejor representadas estarán las filas o columnas en
cada uno de los ejes.

3. Inercia de los puntos

Para la obtención de la inercia de cada punto fila o columna hay que tener en cuenta la
masa y la distancia entre cada perfil y el perfil promedio.

Es una medida de dispersión de los perfiles en el espacio multidimensional, de forma


que, cuanto mayor es la inercia, más alejados están unos puntos de los otros que
representan, por ejemplo, a cada zona.

Cuanto más cercano esté el punto que represente un perfil fila (por ejemplo, turistas de
nacionalidad alemana) a uno de los vértices que representan la zona, (por ejemplo, la
zona 4), mayor correspondencia o asociación habrá entre las filas y las columnas
asociadas que es el objetivo del análisis de correspondencias.

Así, las ecuaciones de la inercia de los puntos fila y de los puntos columna son las
siguientes:

2
p
 fij  1
I = fi. * ∑  − f.j  (4.21)
i =1  f i.  f.j
2
n  fij  1
I = f.j * ∑  − fi.  (4.22)

i =1  f.j
 f
 i.

En nuestro ejemplo, partiendo de las tablas 4.3 y 4.4 de los perfiles filas y columnas, el
cálculo de la inercia para los turistas alemanes es:

 (0,005 − 0,036)2 (0,04 − 0,011)2 (0,282 − 0,2)2 (0,673 − 0,753)2 


I alemanes = 0,129 *  + + + =
 0,036 0,011 0,2 0,753 
= 0,0187

que es lo que aparece en la tabla de examen de los puntos fila (tabla 4.6).

3. Contribución de los puntos a la inercia de cada dimensión

Las contribuciones a la inercia o absolutas, son las de cada uno de los puntos filas o
columna a la inercia o varianza explicada en cada eje considerado. Se busca conocer los

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 70 de 147

elementos responsables de la construcción de cada eje. Calculamos la varianza de las


coordenadas de los n puntos líneas i sobre el eje correspondiente, cada uno de ellos con
una masa f i. . El origen está en el centro de gravedad, por lo que las coordenadas
factoriales están centradas y la varianza, λα , es la inercia de cada dimensión. Por tanto,
en el caso de las filas

f i. d 2α (i, G)
Crα (i) = (4.23)
λα

Mide la parte del elemento i en la varianza tomada en cuenta sobre el eje α.


Donde d α2 (i, G) es el cuadrado de la proyección de la variable i sobre el eje α.

Los resultados de la normalización principal nos servirán para obtener las


contribuciones de los puntos fila a la inercia de cada dimensión y las correlaciones o
contribuciones de cada dimensión a la inercia de cada punto.

4. Contribución de la dimensión a la inercia del punto

La contribución de las dimensiones a la inercia de cada punto fila o columna es la


correlación existente entre cada uno de los caracteres y los nuevos ejes. Son los cosenos
cuadrados y se busca apreciar si un punto está bien representado sobre un subespacio
factorial. Los ejes factoriales de cada espacio constituyen bases ortonormales. El
cuadrado de la distancia de un punto al centro de gravedad se descompone es suma de
cuadrados de las coordenadas sobre estos ejes.

La calidad de la representación del punto i sobre el eje α puede evaluarse por el coseno del ángulo
entre el eje y el vector uniendo el centro de gravedad de la nube al punto i.

Gráfico 4.1

d(i,G)
Es decir:

d 2α (i, G)
Cos 2α (i) = (4.24)
d 2 (i, G)

Donde:

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 71 de 147

2
p
1  fij 
∑ d (i, G) = d (i, G)
2 2
d (i, G) = ∑  − f.j 
2 siendo α (4.25)
j =1 f.j  f i.
α

Mientras más próximo esté el coseno al cuadrado a 1, más próxima estará la posición del punto
observado proyectado de la posición real del punto en el espacio. En este sentido, se puede
apreciar la calidad de la representación de un punto en un plano haciendo la suma de los cosenos
cuadrados sobre los ejes estudiados. Entonces, paro todo i:

∑ Cos (i) = 1
α
2
α

Por tanto, para analizar y dar una buena imagen de las proximidades reales entre puntos
observadas en el subespacio factorial, interesan sobre todo los puntos con un coseno cuadrado
elevado.

En nuestro ejemplo, el análisis de los puntos fila y columna es el siguiente:

 Puntos fila: Nacionalidad de los turistas (tabla 4.6):

Coordenadas

• Primera dimensión:

La primera dimensión o factor explica el 91.4% de la variabilidad de la nube de puntos.

La situación de las distancias al origen, o coordenadas, de las nacionalidades más


alejadas del origen y, por tanto, mejor representadas, es la siguiente:

Lado positivo Lado negativo


España Reino Unido
América Bélgica
Holanda
Italia
• Segunda dimensión

El segundo factor explica el 7.4% de la varianza.

Lado positivo Lado negativo


Alemania América
Inercia de los puntos

La inercia de las nacionalidades que se encuentran mejor representadas en la tabla de


los puntos fila es la siguiente:

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 72 de 147

Tabla 4.8

Países Inercia %
Alemania ,018 0,067
Bélgica ,005 0,019
España ,144 0,533
Reino Unido ,074 0,274
Holanda ,006 0,022
Italia ,004 0,015
América ,004 0,015
Total activo ,270 1,000

Contribución de los puntos a la inercia de cada dimensión

• Primera dimensión:

Dos nacionalidades, española y británica, explican el 87.1% del factor: España, en un


57,5% y Gran Bretaña en un 29,6%.

• Segunda dimensión

La nacionalidad alemana explica el 77,7% de la totalidad del factor, mientras que las
siguientes, a mucha distancia son, la española, con un 9,5%, la británica, con un 3,9% y
la finlandesa, con igual porcentaje que la británica.

Contribución de la dimensión a la inercia del punto

Recordemos que es la correlación de cada punto con la dimensión correspondiente, por


lo que la suma de las correlaciones en horizontal de todas las dimensiones posibles es
igual a 1.

• Primera dimensión:

En todos los puntos la contribución de la dimensión a la inercia del punto es alta,


exceptuando Alemania y Finlandia, con una bajísima correlación.

• Segunda dimensión

En ella, la única contribución de la dimensión a la inercia significativa es la de Alemania.

Un resumen del análisis de los puntos filas es el siguiente:

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 73 de 147

Cuadro 4.4

Coordenadas Contribución de los puntos Contribución de la


Lado + Lado - a la inercia de cada dimensión a la inercia del
dimensión punto
1ª dimensión
España Reino Unido España Todas altas, exceptuando
América Bélgica Reino Unido Alemania y Finlandia
Holanda
Italia
2ª dimensión
Alemania América Alemania Alemania
España

 Puntos columna: Zonas de alojamiento de los turistas (tabla 4.7).

Recordemos que las zonas en las que se ha dividido la isla de Tenerife son:

Zona Contenido
1 :S/C de Tenerife
2 La Laguna, Bajamar, Punta del Hidalgo, Tacoronte
3 Puerto de la Cruz y Resto del Norte
4 Sur

Coordenadas

• Primera dimensión:

La primera dimensión o factor explica el 91.4% de la variabilidad de la nube de puntos.

La situación de las coordenadas de las zonas más alejadas del origen y, por tanto, mejor
representadas, es la siguiente:

Lado positivo Lado negativo


Zona 1
Zona 4
Zona 2
Zona 3
• Segunda dimensión

El segundo factor explica el 7.4% de la varianza.

Lado positivo Lado negativo


Zona 2 Zona 1

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 74 de 147

Inercia de los puntos

La inercia de las zonas que se encuentran mejor representadas en la tabla de los


puntos columna es la siguiente:
Tabla 4.9
Zonas Inercia % Inercia
1 0,065 0,241
2 0,015 0,056
3 0,131 0,485
4 0,06 0,222
Total activo 0,27 1
Por tanto, es la zona 2 la que menos contribuye a la formación de la inercia.

Contribución de los puntos a la inercia de cada dimensión

• Primera dimensión:

Las zonas que más contribuyen a la formación de este eje son la 1,3 y 4, explicando el
98%

• Segunda dimensión

Las zonas 1 y 2 contribuyen en un 90,6% a la formación de este eje.

Contribución de la dimensión a la inercia del punto

Recordemos que es la correlación de cada punto con la dimensión correspondiente, por


lo que la suma de las correlaciones en horizontal de todas las dimensiones posibles es
igual a 1.

• Primera dimensión:

En todos los puntos la contribución de la dimensión a la inercia del punto es alta,


exceptuando la zona 2, con una baja correlación.

• Segunda dimensión

En ella, la única contribución de la dimensión a la inercia significativa es la de a zona 3.

Un resumen del análisis de los puntos columna es el siguiente:

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 75 de 147

Cuadro 4.5

Coordenadas Contribución de los Contribución de la dimensión a la


Lado + Lado - puntos a la inercia de inercia del punto
cada dimensión
1ª dimensión
Zona 1 Zona 1
Zona 1
Zona 4 Zona 3 Zona 3
Zona 2
Zona 4 Zona 4
Zona 3

2ª dimensión
Zona 2 Zona 1 Zona 1 Zona 2
Zona 2

Obsérvese que, aunque las coordenadas de la zona 4 (Sur) no están demasiado alejadas del
origen, su contribución a la inercia de la dimensión 1 es alta y la contribución de la dimensión a la
inercia del punto también lo es. Por eso hemos incluido esta zona en los resultados más
significativos.

4.4. RELACIONES ENTRE LOS DOS ESPACIOS

El análisis general ha mostrado que las matrices S y T tienen los mismos valores
propios no nulos λα y que entre el vector propio unitario u α de S asociado a λα y el
vector propio unitario vα de T relativo al mismo valor propio, existen relaciones de
transición:

 1
 v α = FD p−1u α
 λα
 1
(4.26)
u α = F´Dn−1v α
 λα

La comparación de estas relaciones con las expresiones de las coordenadas factoriales


muestra que están ligadas a las componentes de los ejes del otro espacio por las
fórmulas:

ψ α = λ α D n−1v α
 (4.27)
ϕ α = λ α D p u α
−1

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 76 de 147

Esto permite la representación simultánea de líneas y columnas, posicionando y


pudiendo interpretar un punto de un conjunto relativo a un espacio con relación al
conjunto de puntos definidos en el otro espacio.

4.4.1. Reglas de interpretación en la representación gráfica conjunta

Las nubes de puntos líneas y puntos columnas van a ser representadas en planos de
proyección formados por los primeros ejes factoriales puestos dos a dos. La lectura de
los gráficos necesita, sin embargo, reglas de interpretación, en particular, para apreciar
las proximidades, identificar los elementos responsables de la formación de los factores
y aquellos que son característicos.

Las reglas se apoyan sobre la secuencia de valores propios y porcentajes de inercia, así
como un conjunto de coeficientes clásicos: las contribuciones absolutas y los cosenos
cuadrados o correlaciones.

De esta forma, es posible obtener una visión global bastante buena si se representan
simultáneamente los puntos fila y columna sobre el plano de los dos primeros ejes.

1. Si dos filas (columnas) tienen una estructura semejante, su situación será próxima
sobre el plano.

2. La situación cercana de un punto fila i y uno columna j solo se puede interpretar si


están alejados del origen.

3. Si una línea tiene un perfil próximo al perfil medio, tienen un comportamiento medio,
se encontrará próxima al origen.

4. Se buscan los puntos de mayor Contribución absoluta de las inercias.

5. Dentro de éstos se separa los puntos que se proyectan del lado positivo de los que
intervienen del lado negativo, que estarán en oposición.

6. Se estudia la calidad de representación (correlación) de los puntos. Si tiene una


correlación pequeña se supone que tiene un papel importante sobre otro eje. Para su
estudio habrá que considerar el conjunto de los ejes.

7. Se buscan aquellos puntos i(j) que si bien no contribuyen a la formació del factor, sí
se encuentran bien representados (correlación alta).

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 77 de 147

4.4.2. Análisis mediante representación gráfica conjunta

Aunque en el gráfico 4.2 aparecen todas las nacionalidades y zonas consideradas, en


el análisis conjunto vamos a destacar sobre todo aquellos puntos fila o columna que se
han significado de alguna manera en el examen de dichos puntos:
Gráfico 4.3. Puntos de fila y columna

2
Paises
zonas

1
Alemania
Dimensión 2

Finlandia
3
4 Francia
Suecia
0 Holanda España
Resto
Reino Europa
Unido
Bélgica
Italia
Resto mundo

-1 América
1

-1,0 -0,5 0,0 0,5 1,0 1,5 2,0

Dimensión 1

Observemos que los resultados del examen de puntos fila y columna nos indican que las
nacionalidades mejor representadas son justamente aquellas con un mayor número de
turistas, mientras que, en el caso de las zonas, todas está bien representadas, salvo la
zona 4, que es el Sur de la isla de Tenerife y que se encuentra en el tercer cuadrante,
cerca del origen, lo cual quiere decir que tiene un comportamiento medio.

Por tanto, un resumen de las conclusiones que podemos obtener a la vista de los
resultados y del gráfico es el siguiente:
• Los turistas alemanes, situados en el primer cuadrante (+, +), influyen sobre todo
en la formación del factor o dimensión 2, al igual que la zona 2 (La Laguna,
Bajamar, Punta del Hidalgo, Tacoronte), lo que quiere decir que en dicha zona
destaca esa nacionalidad respecto a las otras.

• Los turistas españoles, situados en el cuarto cuadrante (+,-), influyen sobre todo
en la formación del factor o dimensión 1, al igual que la zona 1 (S/C de Tenerife),
lo que quiere decir que en dicha zona destaca esa nacionalidad respecto a las

ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 78 de 147

otras. Como la zona 2 (La Laguna, Bajamar, Punta del Hidalgo, Tacoronte), y la
zona 3 (Puerto de la Cruz y Resto del Norte) influyen también sobre todo en la
formación del factor o dimensión 1, podemos decir que en esa zona destacan los
turistas españoles.

• Los turistas británicos, situados en el tercer cuadrante (-, -), influyen sobre todo en
la formación del factor o dimensión 1. Como la zona 1 (S/C de Tenerife), influye
también sobre todo en la formación del factor o dimensión 1, podemos decir que
también en esa zona destacan los turistas británicos.

• En cuanto a la zona 4, aunque se encuentra en el tercer cuadrante (-,-) cerca del


origen, tiene una alta contribución a la formación del primer factor y la correlación
de dicho factor con esa zona es muy alta, por lo que tiene un peso considerable en
las tres nacionalidades indicadas, especialmente en los turistas británicos, que se
encuentran el el mismo cuadrante.

4.5. CASO PROPUESTO

A partir de los datos correspondientes a viajeros llegados a Canarias procedentes del


extranjero durante el año 2006, clasificados según Isla de alojamiento y nacionalidad
del mismo, publicados y editados por Aeropuerto Españoles y Navegación Aérea
(AENA) y recogidos en el fichero “Caso_16_3.XLS”, queremos analizar la asociación
de la nacionalidad del turista y la isla elegida para pasar sus vacaciones, de manera
que investiguemos si esta asociación puede ser explicada por un número reducido de
factores o dimensiones.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 79 de 147

CAPÍTULO 5
ANÁLISIS CLUSTER

Esquema del capítulo Objetivos


5.1. Conceptos y planteamiento del análisis • Detectar la conveniencia de la aplicación de
cluster. la técnica para un caso determinado.
5.1.1 Matriz de datos. • Plantear de forma adecuada los diferentes
5.1.2 Medidas de similitud. aspectos que intervienen en el análisis
5.1.3 Métodos de clasificación. cluster.
5.1.4 Interpretación de los resultados • Conocer las diferencias existentes entre los
obtenidos. diversos métodos de clasificación y de
5.1.5 Descripción de los clusters encadenamiento.
resultantes. • Conocer alguna manera de seleccionar el
5.2. Caso propuesto número de conglomerados a considerar.
5.4. Bibliografía
• Interpretar los perfiles y gráficos resultantes.

RESUMEN

Un conjunto de datos estadísticos suele contener información relativa a un conjunto de


características o variables cualitativas o cuantitativas de interés obtenidas para un grupo de
individuos. En algunas situaciones, el número de características o variables suele ser
considerable, lo que dificulta el posterior análisis estadístico. Para reducir el número de
variables que influyen en los individuos perdiendo la mínima información posible disponemos
del análisis factorial, ya comentado en el capítulo anterior, que extrae un número reducido de
factores explicativos. Sin embargo, parece lógico también trasladar esa idea de reducción o
agrupamiento a los individuos analizados. De esta forma surge el análisis cluster que presenta
como objetivo fundamental agrupar a los individuos según sus similitudes respecto a las
variables que se han considerado para ellos. Así pues, se podrían obtener una serie de clusters
o conglomerados que incluyan los individuos que sean más similares entre sí. De esta forma,
los clusters serían homogéneos internamente y heterogéneos entre sí.

Como ejemplo propio del campo del sector turístico, podría plantearse una posible agrupación
de los turistas (individuos) de diversas nacionalidades en función de una serie de ítems de
interés (gasto, ingresos, nº de pernoctaciones, etc.) lo que nos permitiría conocer mejor qué
perfiles de turistas nos encontramos. Otra posibilidad podría ser agrupar una serie de
establecimientos hoteleros en función de las preferencias de los turistas que se han alojado en
ellos, lo que nos podría llevar a obtener una serie de grupos de calidad diferentes.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 80 de 147

5.1. CONCEPTOS Y PLANTEAMIENTO DEL ANÁLISIS


CLUSTER.
El Análisis Cluster se trata de un procedimiento englobado dentro del bloque de la Estadística
Multivariante que puede llevarse a cabo a través de las siguientes etapas:

- Construcción de la matriz de datos.

- Elección de la medida de similitud o distancia adecuada.

- Aplicación de un método de clasificación de individuos.

- Análisis de los resultados, indicando el número de grupos o clusters a considerar y una


descripción de los mismos.

5.1.1. Matriz de datos

Para llevar acabo el estudio es necesario disponer de un conjunto de individuos que vendrán
caracterizados por un determinado número de características o variables de interés. Si
consideramos que el número de individuos analizados es n y el número de variables o
características analizadas es p, los valores que toman las variables para los distintos individuos
podrán agruparse mediante una matriz X, denominada matriz de datos, en la que el valor xij
representa el valor que toma la variable j-ésima para el individuo que ocupa la posición i-ésima.
Así pues, dicha matriz vendría dada por:

 x11 x12 L x1p 


 
 x 21 x 22 L x 2 p 
X = ( x ij )nxp = 
 
x x L x 
 n1 n 2 np 

Las variables consideradas para el Análisis Cluster pueden ser tanto cualitativas como
cuantitativas, teniendo en cuenta que la inclusión de una variable irrelevante en el estudio
podría producir un efecto negativo en el análisis. Es por ello que conviene elegir
adecuadamente las variables que puedan contribuir a la diferenciación de los individuos
analizados según sea el objetivo de la investigación.

En principio, el Análisis Cluster se puede realizar sobre las p variables originales o bien sobre
los k factores, obtenidos aplicando el Análisis de Componentes Principales visto en el capítulo
anterior, que resumen la información de las variables originales.

Ejemplo 5.1.1:

En el ejemplo planteado en el apartado 15.1 del capítulo 15, se llevó a cabo un Análisis de
Componentes Principales sobre 24 variables que reflejaban la opinión que tenía el turista, en el

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 81 de 147

momento de regresar a su lugar de origen, sobre el producto y /o servicio recibido durante su


estancia en la isla de Tenerife. Como resultado del análisis se consideran 5 factores o
componentes principales que explican el 68’15 % de la variabilidad de los datos originales, que
se han denominado como sigue:

Factor 1 (f1): El alojamiento y sus servicios.

Factor 2 (f2): Aspectos climáticos.

Factor 3 (f3): Precio

Factor 4 (f4): Cantidad y calidad del servicio.

Factor 5 (f5): Seguridad y tranquilidad.

En la tabla 5.1.1 se muestra la matriz de datos de la que partiremos.

País de origen Factor 1 Factor 2 Factor 3 Factor 4 Factor 5


España -0,329 -0,314 0,045 0,059 0,615
Reino Unido 0,210 0,167 0,017 0,025 -0,406
Alemania 0,228 0,056 -0,413 -0,513 -0,213
Italia -0,169 -0,112 0,181 0,319 0,333
Francia -0,131 0,074 0,370 -0,120 0,256
Bélgica -0,052 0,330 0,314 -0,010 0,063
Holanda -0,135 0,144 -0,089 0,070 -0,064
Irlanda -0,022 0,290 0,008 -0,059 -0,307
Austria 0,252 0,009 -0,169 0,186 -0,193
Suiza 0,150 0,220 -0,185 -0,063 -0,295
Dinamarca 0,101 0,129 0,186 -0,016 0,087
Finlandia 0,084 0,050 -0,050 0,307 0,117
Noruega -0,160 -0,234 0,186 0,225 -0,119
Suecia -0,223 -0,155 -0,199 0,303 -0,195
Resto de Europa I -0,338 0,018 0,586 0,695 0,396
Resto de Europa II -0,361 -0,401 0,429 0,201 -0,590
Canada/USA 0,777 -0,925 1,385 0,759 0,208

Tabla 5.1.1 Matriz de datos X

Ésta corresponde a las puntuaciones de los factores obtenidas calculando la media


correspondiente a los grupos de turistas de cada país de origen. Por lo tanto, en nuestra matriz
de datos, los individuos serían los 17 países de origen (n = 17) y las variables serían los 5
factores o componentes (p = k = 5), que son cuantitativas.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 82 de 147

5.1.2 Medidas de similitud

En el Análisis Cluster el concepto de similitud juega un papel determinante ya que dicho


indicador debe recoger cómo son de parecidos los individuos que se pretenden agrupar según
los valores que toman las p variables consideradas. Por tanto, los grupos que se formen
contendrán individuos similares, es decir, que presenten un valor elevado de similitud entre sí.

Generalmente, dependiendo del tipo de variables consideradas, se pueden considerar dos


tipos de medidas de similitud: distancias y medidas de asociación.

Las distancias son medidas de similitud que se definen únicamente para variables
cuantitativas. Realmente, más que medidas de similitud se interpretan como medidas de
diferencia o disimilitud, ya que dos individuos que poseen una distancia elevada entre sí,
presentarán, pues, poca similitud entre ellos. Así pues, a mayor distancia, menor similitud o
proximidad y viceversa, a menor distancia, mayor similitud. Para que una medida d sea una
distancia es necesario que verifique una serie de condiciones, que se resumen en:

• Está siempre definida positiva, es decir, la distancia entre dos elementos cualesquiera es
mayor o igual que 0, siendo 0 sólo cuando los elementos coincidan. Es decir:

d ( x, y ) ≥ 0 d ( x, y ) = 0 ⇔ x = y

• Es simétrica, por lo que la distancia de x a y coincide con la de y a x. Por tanto:

d ( x, y ) = d ( y , x )

• Verifica la propiedad matemática de la desigualdad triangular que dice que la distancia entre
dos elementos x e y es menor o igual que la suma de las distancias existentes de los dos
elementos anteriores a otro elemento z considerado. Es decir:

d ( x, y ) ≤ d ( x, z ) + d ( z, y )

Gráficamente, esta propiedad se reflejaría como sigue:

x y

Gráfico 5.1.1

La principal distancia empleada en la práctica es la conocida como distancia euclídea.

Distancia euclídea: La distancia euclídea entre dos individuos o elementos se define como la
raíz cuadrada de la suma de los cuadrados de las diferencias entre los valores de cada variable
para los dos individuos. Seleccionando, por ejemplo, las dos primeras filas de la matriz de

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 83 de 147

datos X del apartado 5.1.1 correspondientes a los dos primeros individuos, X1 = (x11, x12, …,
x1p) y X2 = (x21, x22, …, x2p), la distancia euclídea entre ambos vendrá dada por:

d ( X 1, X 2 ) = (x 21 − x11 )2 + (x 22 − x12 )2 + K + (x 2 p − x1p )2 (5.1)

Si el número de variables consideradas, p, fuese 2, la distancia euclídea entre los dos


individuos sería la longitud de la hipotenusa del triángulo rectángulo mostrado a continuación:

X1=(x11, x12)

d( X1 , X 2 ) = (x21 − x11 )2 + (x22 − x12 )2

X2=(x21, x22)

Gráfico 5.1.2

Generalmente, para facilitar los cálculos, se suele emplear la distancia euclídea al cuadrado.

El principal inconveniente que presenta la distancia euclídea aparece cuando se consideran


variables que vienen expresadas en unidades de medida diferentes, como por ejemplo, el
dinero gastado por el turista en miles de euros y el coste del alojamiento en euros, el tiempo de
estancia en semanas y el tiempo que dedica a realizar excursiones en días, etc. En estas
situaciones, el impacto sobre los resultados finales puede ser importante.

Para evitar el efecto del uso de escalas diferentes de medida se pueden dar dos opciones.
Una de ellas podría ser estandarizar previamente los valores de la variables, hecho que
consiste en restarle a todas los valores la media de la variable y dividir el resultado obtenido
entre la desviación típica de dicha variable. Una vez realizado este proceso, podríamos
emplear la distancia euclídea sobre los datos estandarizados. La otra opción podría ser el
empleo de otra medida de distancia que sea invariante ante cambios de escala, como puede
ser la distancia de Mahalanobis, que se calcula a partir de la matriz de varianzas-covarianzas ∑
como se indica a continuación:

 x11 − x 21 
 
 − 
d ( X 1 , X 2 ) = (x11 − x 21, x12 − x 22 , L, x1p − x 2 p )
x x
∑ −1 
12 22

L 
(5.2)
 
x − x 
 1p 2p 

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 84 de 147

Sin embargo, cuando las variables analizadas sean cualitativas (en escala nominal u ordinal),
se deben emplear para medir el grado de similitud las conocidas como medidas de asociación
o emparejamiento.

Supongamos, sin pérdida de generalidad, que las p variables cualitativas son dicotómicas,
tomando únicamente los valores 0 y 1 que reflejan ausencia o presencia de una determinada
característica. En esta situación es posible cuantificar la similitud entre dos individuos a partir
de la información recogida en una tabla de frecuencias 2x2 en la que se indica el número de
variables en las que coinciden o no los valores para ambos individuos, tal y como se muestra
en la tabla 5.1.2:

Individuo j

1 0 Total

Individuo i 1 a b a+b

0 c D c+d

Total a+c b+d a+b+c+d = p

Tabla 17.1.2 Esquema 2x2 de variables dicotómicas

En la tabla anterior, a indica el número de variables que tomaron el valor 1 en ambos individuos
(emparejamientos positivos); b indica el número de variables que tomaron el valor 1 para el
individuo i-ésimo y 0 para el j-ésimo; c, el número de variables que tomaron el valor 0 para el
individuo i-ésimo y 1 para el j-ésimo y d, el número de variables que tomaron el valor 0 en
ambos individuos (emparejamientos negativos);

De esa forma, algunas de las medidas de asociación más utilizadas son las que siguen:

Coeficiente de Jaccard: Se trata de una medida que recoge la proporción de emparejamientos


positivos sobre el total de variables salvo los emparejamientos negativos. Es decir:

a
SJ = (5.3)
a+b+c

Coeficiente de emparejamiento simple: Esta medida indica la proporción de emparejamientos,


positivos y negativos, sobre el total de variables. Así pues:

a+d
SSM = (5.4)
a+b+c+d

La elección de una u otra medida dependerá de si tienen o no importancia en nuestro estudio


los emparejamientos negativos, ya que el coeficiente de Jaccard no los tiene en cuenta.

Ahora bien, estos coeficientes corresponden al caso en que las variables de partida sean
dicotómicas, sin embargo, se pueden utilizar para las variables cualitativas con más de 3 o más

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 85 de 147

categorías. Para ello, bastará con transformar dichas variables en dicotómicas. Por ejemplo,
supongamos que consideramos una variable X que toma 3 categorías (1,2 y 3). Un individuo
que tome el valor 2 para esa variable, es decir, x = 2, se puede expresar mediante la
combinación (0, 1, 0), en la que la posición del 1 indica el valor que tomaría la variable original
X, en este caso, el segundo valor. De esta manera, se sustituiría la variable original X por tres
variables dicotómicas, X1, X2 y X4.

Finalmente, conviene comentar que para algunos problemas en los que las características de
los individuos a agrupar no delimiten una clasificación muy clara, podría ocurrir que distintos
tipos de medidas de similitud den lugar a agrupaciones diferentes. Así pues, habrá que decidir
cuál de ellas resulta más adecuada para el problema concreto que se esté analizando.

Ejemplo 5.1.2:

A partir de la matriz de datos X se obtiene la matriz de distancias D obtenida considerando


como medida la distancia euclídea al cuadrado ya que la variables que intervienen son los 5
factores, que son cuantitativas. Dicha matriz D se encuentra en la tabla 5.1.4.

Si se observa la matriz de distancias se puede comprobar que, según la medida de distancia


considerada, las parejas de países de origen que presentan un mayor grado de similitud (o
menor distancia entre ellos) serían, por este orden, Reino Unido y Suiza (D = 0,067), Suiza e
Irlanda (D = 0,072), Dinamarca y Bélgica (D = 0,081) y Reino Unido e Irlanda (D = 0,086). Así
pues, parece que tres de los países citados, Reino Unido, Suiza e Irlanda son bastante
similares en cuanto a comportamiento, por lo que es de esperar que pertenezcan los tres al
mismo grupo o cluster, una vez realizado el análisis.

Por otro lado, si nos fijamos en aquellos países que están más distantes, destacarían Canadá /
USA y Alemania con una distancia D = 6,292. Además, llama la atención que las distancias
entre Canadá / USA y todos los demás países (ver última fila de la matriz D) sean todas
elevadas, lo que refleja que Canadá / USA presenta un comportamiento muy específico y
diferente a los demás. Es pues, de esperar, que este país de origen no se agrupe con ninguno
de los demás.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 86 de 147

País de origen 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1:España 0,000 1,566 1,670 0,232 0,456 0,873 0,727 1,324 1,157 1,410 0,685 0,622 0,621 0,812 0,855 1,628 4,048
2:Reino Unido 1,566 0,000 0,524 0,881 0,709 0,405 0,250 0,086 0,133 0,067 0,287 0,387 0,449 0,460 1,738 0,883 4,301
3:Alemania 1,670 0,524 0,000 1,529 1,117 1,011 0,607 0,509 0,551 0,294 0,717 0,934 1,147 0,960 3,150 1,917 6,292
4:Italia 0,232 0,881 1,529 0,000 0,270 0,408 0,359 0,766 0,609 0,886 0,304 0,190 0,228 0,428 0,355 1,048 3,215
5:Francia 0,456 0,709 1,117 0,270 0,000 0,124 0,354 0,510 0,737 0,715 0,130 0,425 0,389 0,767 0,776 1,101 3,628
6:Bélgica 0,873 0,405 1,011 0,408 0,124 0,000 0,226 0,235 0,533 0,433 0,081 0,333 0,434 0,692 0,861 1,114 4,022
7:Holanda 0,727 0,250 0,607 0,359 0,354 0,226 0,000 0,119 0,204 0,167 0,162 0,147 0,246 0,181 1,115 0,910 4,696
8:Irlanda 1,324 0,086 0,509 0,766 0,510 0,235 0,119 0,000 0,258 0,072 0,230 0,386 0,441 0,425 1,571 0,917 4,945
9:Austria 1,157 0,133 0,551 0,609 0,737 0,533 0,204 0,258 0,000 0,128 0,282 0,155 0,362 0,267 1,524 1,059 4,052
10:Suiza 1,410 0,067 0,294 0,886 0,715 0,433 0,167 0,072 0,128 0,000 0,296 0,358 0,554 0,424 1,925 1,180 5,098
11:Dinamarca 0,685 0,287 0,717 0,304 0,130 0,081 0,162 0,230 0,282 0,296 0,000 0,167 0,300 0,515 0,966 1,059 3,621
12:Finlandia 0,622 0,387 0,934 0,190 0,425 0,333 0,147 0,386 0,155 0,358 0,167 0,000 0,258 0,256 0,812 1,142 3,703
13:Noruega 0,621 0,449 1,147 0,228 0,389 0,434 0,246 0,441 0,362 0,554 0,300 0,258 0,000 0,170 0,741 0,350 3,185
14:Suecia 0,812 0,460 0,960 0,428 0,767 0,692 0,181 0,425 0,267 0,424 0,515 0,256 0,170 0,000 1,162 0,640 4,472
15:Resto de Europa I 0,855 1,738 3,150 0,355 0,776 0,861 1,115 1,571 1,524 1,925 0,966 0,812 0,741 1,162 0,000 1,417 2,810
16:Resto de Europa II 1,628 0,883 1,917 1,048 1,101 1,114 0,910 0,917 1,059 1,180 1,059 1,142 0,350 0,640 1,417 0,000 3,432
17:Canada/USA 4,048 4,301 6,292 3,215 3,628 4,022 4,696 4,945 4,052 5,098 3,621 3,703 3,185 4,472 2,810 3,432 0,000

Tabla 5.1.3 Matriz de distancias D obtenidas empleando la distancia euclídea al cuadrado.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 87 de 147

5.1.3 Métodos de clasificación

Tras haber elegido la medida de similitud más apropiada, llega la hora de agrupar los
individuos. Para ello, el Análisis Cluster permite el empleo de dos tipos de métodos de
clasificación: los métodos jerárquicos y los métodos no jerárquicos o de particionado.

Los métodos jerárquicos se caracterizan porque van formando los grupos o clusters en etapas
sucesivas siguiendo una estructura de árbol, permitiendo en cada paso determinar la distancia
entre los clusters ya formados. Dentro de este grupo de métodos se encuentran los métodos
jerárquicos aglomerativos o de encadenamiento, que son los que se emplean con mayor
frecuencia. Estos métodos se caracterizan porque parten inicialmente de tantos clusters como
individuos, por lo que al comienzo se consideran n clusters con un individuo cada uno. En el
primer paso, se seleccionan los dos clusters más cercanos y se unen, dando lugar a un único
cluster con 2 individuos. De esta forma, se ha pasado a tener n-1 clusters, por lo que las
distancias o similitudes entre ellos deberán recalcularse. A continuación, de forma iterativa, se
van uniendo en cada paso los dos clusters que sean más cercanos, reduciéndose así el
número de clusters en una unidad cada vez. Siempre que se realice una unión, se deben
recalcular las distancias o similitudes entre los clusters resultantes. Este procedimiento
continúa hasta que dispongamos únicamente de dos clusters, que se unirán en la última etapa.

A continuación se indicarán algunos de los principales métodos aglomerativos o de


encadenamiento que se diferencian únicamente en la manera de determinar la distancia entre
los clusters que se van formando.

Enlace simple ó método del entorno más cercano: En este caso, se considera como distancia
entre dos clusters a la menor distancia existente entre un individuo de un cluster y un individuo
del otro.

Cluster 1 Cluster 2

Gráfico 17.1.3 Distancia entre clusters según el enlace simple.

Enlace completo ó método del entorno más lejano: En este caso, se considera como distancia
entre dos clusters a la mayor distancia existente entre un individuo de un cluster y un individuo
del otro.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 88 de 147

Cluster 1 Cluster 2

Gráfico 5.1.4 Distancia entre clusters según el enlace completo.

Método del centroide: Este método se caracteriza porque requiere previamente el cálculo de
los centroides de los clusters formados, que no son otra cosa que los valores medios de las
variables consideradas para los individuos incluidos en cada cluster. Una vez determinados, el
método considera como distancia entre dos clusters la distancia existente entre sus centroides.
Hay que tener en cuenta, en este caso, que los centroides de los clusters van cambiando a
medida que se van uniendo los clusters en las sucesivas etapas.

Cluster 1 Cluster 2

Gráfico 5.1.5 Distancia entre clusters según el método del centroide.

Método de Ward: Este procedimiento va agrupando de forma jerárquica los clusters de tal
manera que en cada paso se unan aquellos clusters que produzcan un menor aumento de la
función que recoge la suma, para cada cluster y variable, de las desviaciones al cuadrado de
cada individuo del cluster al centro (media de los valores de los individuos que pertenecen al
cluster) del mismo. Dicha función se denomina suma de cuadrados intragrupos y viene dada
por:

( )
h nk p 2
SCI = ∑ ∑∑ x i jk − x i k (5.5)
k =1 j=1 i =1

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 89 de 147

siendo h el número de clusters considerados, p el número de variables y nk el número de

individuos incluidos en el k-ésimo cluster, Ck. Además, x i k representa la media de los valores
que toma la variable i-ésima para los individuos pertenecientes a Ck.

Otro grupo de métodos jerárquicos son los divisivos que actúan mediante un procedimiento
inverso a los aglomerativos, ya que parten inicialmente de un único cluster que contiene a los n
individuos; y en cada etapa se van separando del mismo aquellos individuos que sean muy
diferentes al resto del cluster, formando pequeños clusters. El procedimiento continúa hasta
que se forman n clusters unitarios.

Los métodos no jerárquicos, a diferencia de los jerárquicos, requieren como dato de partida el
número de clusters, h, que deben formarse.. Estos métodos, que se emplean únicamente en el
caso de variables cuantitativas, van formando tantos grupos como se indican a priori, de
manera que la varianza dentro de cada grupo sea mínima. Generalmente, el método parte de
un conjunto de h puntos iniciales (semillas) que hacen el papel de los centroides de los
clusters. A continuación, se van formando los clusters, asignando a cada uno aquellos
individuos que estén a cierta distancia umbral de su centroide, empleando para ello la distancia
euclídea. Como ejemplo de este grupo de métodos podemos citar el método de las k-medias.

El principal inconveniente de los métodos no jerárquicos radica en la necesidad de conocer a


priori el número de clusters que se van a formar, así como los valores que hagan el papel de
los centroides iniciales de dichos clusters. En muchas ocasiones, el investigador no dispondrá
de dicha información por lo que se recomendaría, en tal caso, el empleo de un método
jerárquico, como puede ser un procedimiento aglomerativo basado en el método de Ward.

Cabe señalar que la información obtenida tras emplear un método jerárquico puede servir de
punto de partida para la aplicación posterior de un método no jerárquico, hecho que
enriquecería aún más el análisis cluster de los datos de partida.

5.1.4 Interpretación de los resultados obtenidos

Ejemplo 5.1.3:

A partir de la matriz de distancias D calculada anteriormente y mostrada en la tabla 5.1.3, se ha


llevado a cabo un procedimiento jerárquico, concretamente, el método de Ward. En este caso,
los resultados se han obtenido utilizando el programa estadístico SPSS para Windows (versión
13).

En la tabla 5.1.4 se muestra cómo se van agrupando los individuos según el método de Ward
para dar lugar a los diferentes clusters o conglomerados. Se trata del denominado historial de

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 90 de 147

conglomeración. Al tratarse de un método jerárquico aglomerativo, partirá inicialmente de n =


17 clusters, C1, C2, …, Cn, cada uno conteniendo un país de origen.

Observando el historial de conglomeración, se comprueba que en la primera etapa se unirían


los clusters C2 = { Reino Unido } y C10 = { Suiza } con un coeficiente de aglomeración (SCI para
el método de Ward) de 0,034. Este nuevo conglomerado, pasaría a denominarse C2 = { Reino
Unido, Suiza }. A continuación, en la segunda etapa, se unen los clusters C6 = { Bélgica } y C11
= { Dinamarca } con un coeficiente de aglomeración de 0,074, pasando a denominarse C6 = {
Bélgica, Dinamarca }. En la tercera etapa, se agruparían en uno los clusters C2 = { Reino
Unido, Suiza } y C8 = {Irlanda }, con un coeficiente de aglomeración de 0,115. Como resultado
de esta unión, se obtiene el cluster C2 = { Reino Unido, Suiza, Irlanda }. De manera análoga
irían uniéndose los clusters en las sucesivas etapas del método, tal y como se indica en el
historial de conglomeración. En la última etapa, se unirían los dos únicos clusters resultantes
C1 y C17, dando lugar a un único cluster final, C1, que contiene a todos los países de origen de
los turistas entrevistados.

Coeficientes Etapa en la que el


Conglomerado que se
de conglomerado aparece
combina Próxima
Etapa aglomeración por primera vez
etapa
Conglome- Conglome- Conglome- Conglome-
rado 1 rado 2 (SCI) rado 1 rado 2
1 2 10 ,034 0 0 3
2 6 11 ,074 0 0 4
3 2 8 ,115 1 0 10
4 5 6 ,187 0 2 12
5 7 12 ,260 0 0 7
6 13 14 ,346 0 0 9
7 7 9 ,441 5 0 9
8 1 4 ,557 0 0 11
9 7 13 ,752 7 6 12
10 2 3 1,065 3 0 13
11 1 15 1,430 8 0 15
12 5 7 1,981 4 9 13
13 2 5 2,669 10 12 14
14 2 16 3,444 13 0 15
15 1 2 4,949 11 14 16
16 1 17 8,512 15 0 0

Tabla 5.1.4 Historial de conglomeración.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 91 de 147

Caso 8 clusters 7 clusters 6 clusters 5 clusters 4 clusters 3 clusters

1:España 1 1 1 1 1 1
2:Reino Unido 2 2 2 2 2 2
3:Alemania 3 2 2 2 2 2
4:Italia 1 1 1 1 1 1
5:Francia 4 3 3 3 2 2
6:Bélgica 4 3 3 3 2 2
7:Holanda 5 4 4 3 2 2
8:Irlanda 2 2 2 2 2 2
9:Austria 5 4 4 3 2 2
10:Suiza 2 2 2 2 2 2
11:Dinamarca 4 3 3 3 2 2
12:Finlandia 5 4 4 3 2 2
13:Noruega 5 4 4 3 2 2
14:Suecia 5 4 4 3 2 2
15:Resto de Europa I 6 5 1 1 1 1
16:Resto de Europa II 7 6 5 4 3 2
17:Canada/USA 8 7 6 5 4 3

Tabla 5.1.5 Cluster de pertenencia de cada individuo

En el proceso de ejecución del análisis se solicitó una indicación relativa al cluster de


pertenencia de cada país de origen. Por tanto, en la tabla 5.1.5 se muestra dicha información
dependiendo del número de clusters o conglomerados que se seleccionen. Así pues, aparecen
desde el caso de 3 clusters hasta el de 8 clusters finales. Llama la atención que algunos
países, como España, Reino Unido, Italia, Irlanda y Suiza, sean siempre asignados al mismo
cluster (ya sea C1 ó C2), independientemente del número de clusters considerados.

A continuación, nos centraremos en uno de los aspectos más interesantes del análisis cluster:
la determinación del número final de clusters a considerar, h. Para ello, nos servirá de gran
ayuda realizar una representación gráfica de la clasificación jerárquica obtenida, conocida
como dendograma. En este gráfico, se puede observar cómo se van uniendo los individuos
(países de origen) y clusters en las sucesivas etapas del método aglomerativo, así como las
distancias entre los clusters obtenidas tras llevar a cabo un cambio de escala. Este hecho
facilita su comparativa con otro dendograma obtenido empleando un método distinto de
clasificación.

El dendograma obtenido para el ejemplo en cuestión se muestra en el gráfico 5.1.6.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 92 de 147

Gráfico 5.1.6 Dendograma obtenido usando el Método de Ward.

En el dendograma, llega un momento en que las barras de unión de clusters son más largas
que las anteriores, lo que nos llevaría a pensar que es un buen momento para cortar por ahí el
dendograma.

Si analizamos el historial de conglomeración, se observa que los coeficientes de aglomeración


van aumentando a medida que van pasando las etapas del método, por lo que habría que
detectar aquellos momentos en los que se produce un cambio brusco en dichos valores. En
este caso se han calculado las diferencias entre los pares de coeficientes de aglomeración
(SCI) consecutivos, obteniéndose los resultados de la tabla 5.1.6. En ella se observa que al
pasar de la etapa 14 a la 15 se produce un incremento considerable (1,51) en el coeficiente de
aglomeración, por lo que vamos a considerar el corte del procedimiento entre estas dos etapas.
De esta manera, la última unión considerada es la indicada en la etapa 14, que corresponde a
la fusión de los conglomerados C2 y C16.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 93 de 147

Etapa Coeficientes Diferencia


1 0,034 ---
2 0,074 0,04
3 0,115 0,04
4 0,187 0,07
5 0,260 0,07
6 0,346 0,09
7 0,441 0,10
8 0,557 0,12
9 0,752 0,20
10 1,065 0,31
11 1,430 0,37
12 1,981 0,55
13 2,669 0,69
14 3,444 0,78
15 4,949 1,51
16 8,512 3,56
Tabla 5.1.6 Diferencia de SCI entre etapas

Este umbral de corte se ha representado mediante un trazo discontinuo vertical sobre el


dendograma (gráfico 5.1.6), lo que da lugar a la formación final de tres clusters. Los individuos
pertenecientes a cada cluster se pueden averiguar, aparte de observando el dendograma,
utilizando la columna que corresponde a la solución de 3 clusters de la tabla 5.1.5. Así pues,
los clusters finales serían, según la enumeración llevada a cabo por el procedimiento, los
siguientes:

C1 = { España, Italia, Resto de Europa I }

C2 = { Reino Unido, Suiza, Irlanda, Alemania, Bélgica, Dinamarca, Francia, Noruega, Suecia,
Holanda, Finlandia, Austria, Resto de Europa II }

C17 = { Canadá/USA }

A partir de ahora, para facilitar la notación, haremos referencia al tercer cluster como C4.

5.1.5 Descripción de los clusters resultantes

Una vez decidido el número de clusters a considerar, conviene realizar una breve descripción
de las características de cada cluster o conglomerado. Para ello, se obtendrán los perfiles de
las variables consideradas para los diferentes cluster, lo que nos permitirá conocer mejor las
diferencias existentes entre ellos. En la tabla 5.1.7 se han obtenido los valores medios de las
cinco variables incluidas en la matriz de datos de partida, X, para los grupos de individuos
pertenecientes a cada uno de los tres clusters. Dichos perfiles se han representado
gráficamente en el gráfico 5.1.7.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 94 de 147

Cluster f1 f2 f3 f4 f5
C1 -0,280 -0,136 0,271 0,358 0,448
C2 -0,004 0,052 0,031 0,041 -0,143
C3 0,777 -0,925 1,385 0,759 0,208
Tabla 5.1.7 Perfiles de los clusters obtenidos

Perfiles de los clusters

1,500

1,000 f1
f5
Cluster 1
Medias

0,500
f2 Cluster 2
0,000 Cluster 3
f3 f4
-0,500

-1,000
Variables

Gráfico 5.1.7 Representación gráfica de los perfiles de los clusters

Según esta información, el cluster C1 presentaría valores intermedios de los factores o


variables f2, f3 y f4, así como el menor valor de la variable f1 y el mayor de f5. Por tanto, el turista
de España, Italia y el Resto de Europa I se considera satisfecho con la seguridad y las
tranquilidad del lugar, mientras que no está satisfecho con el alojamiento y los servicios que
ofrece.

En cuanto al cluster C2, podemos apreciar que presenta un nivel intermedio de f1, el mayor
nivel de f2, así como los menores niveles de los otros tres factores, f3, f4 y f5. Así pues, los
demás países europeos, que son los que forman este cluster, son los que mejor han valorado
los aspectos climáticos, mientras que no se muestran satisfechos con otros aspectos como el
precio, la cantidad y calidad de los servicios suplementarios y la seguridad y tranquilidad.

Finalmente, el cluster C3, que incluye a los turistas norteamericanos, presenta la mayor
valoración de las variables f1, f3 y f4, lo que indica un alto grado de satisfacción en los siguientes
aspectos: el alojamiento y sus servicios, el precio y la cantidad y calidad de los servicios
suplementarios. Sin embargo, son los menos satisfechos con los aspectos climáticos, ya que
presentan el menor valor de la variable f2, Además, presentan un valor intermedio para la otra
variable, f5.

ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 95 de 147

Según el gráfico 5.1.1, parece que las cinco variables presentan un valor promedio diferente
para cada uno de los tres clusters considerados. Si queremos comprobar estadísticamente esta
afirmación, debemos llevarse a cabo un análisis de la varianza (ANOVA) de un factor para
cada una de las variables, considerando en cada caso los tres grupos de individuos formados.
Previamente, habría que comprobar que las cinco variables presentan un comportamiento
normal, ya que en caso contrario, no podríamos llevar a cabo el ANOVA, debiendo recurrir en
dicha situación a la ejecución de una prueba no paramétrica para k muestras independientes,
como puede ser el test de Kruskall-Wallis.

Tal y como se ha comentado, el análisis cluster constituye una herramienta estadística


bastante potente a la hora de agrupar los individuos de una muestra o población. Para ello,
requiere tener claro qué medida de similitud y método de agrupación es el más adecuado en
cada caso. Debido a la gran variedad de opciones a elegir, el investigador tiene la posibilidad
de probar distintas variantes y comparar los resultados obtenidos. Por tanto, es responsabilidad
del mismo proceder de forma objetiva y no abusar de las distintas opciones hasta encontrar
alguna clasificación que se aproxime a la esperada.

5.2. CASO PROPUESTO


Una vez realizado el Análisis de Componentes Principales para posicionar las Comunidades
Autónomas españolas de acuerdo a las dimensiones que mejor explican la actividad turística
de las mismas, proponemos que se clasifiquen de manera que formemos grupos homogéneos
dentro y heterogéneos entre.

5.3. BIBLIOGRAFÍA
[1] Hair, Anderson, Tatham y Black. “Análisis Multivariante”. 5ª Edición. Ed. Prentice Hall, 1999.

[2] Hernández Encinas, L.. “Técnicas de Taxonomía Numérica”. Editorial La Muralla /


Hespérides, 2001.

[3] Martín Martín, Q., Cabero morán, M. T. y Ardanuy Albajar, R. ”Paquetes Estadísticos SPSS
8.0. Bases teóricas. Prácticas propuestas, resueltas y comentadas”. Editorial Hespérides, 1999.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 96 de 147

CAPÍTULO 6
APLICACIONES ESTADÍSTICAS A LA INDUSTRIA
TURÍSTICA

ESQUEMA DEL CAPÍTULO OBJETIVOS


6.1. APLICACIÓN 1: Análisis de pasajeros en  Conocer la utilidad de la
función del tipo de compañía aplicación de las técnicas
6.2. APLICACIÓN 2: Evaluación de la imagen estadísticas.
 Plantear la conveniencia de las
de un destino turístico
técnicas estadísticas para
6.3. APLICACIÓN 3: Segmentación de los resolver un problema específico.
visitantes de un parque temático en  Aplicar e interpretar los
función de las emociones resultados de diversas técnicas:
6.4. APLICACIÓN 4: Posicionamiento de pruebas t y Chi-cuadrado,
destinos turísticos análisis de correlación, análisis
6.5. APLICACIÓN 5: Segmentación de de la varianza, análisis de
componentes principales,
turistas en función de las motivaciones
análisis de regresión lineal
de viaje múltiple, análisis cluster y
6.6. CASO PROPUESTO: Medición de la análisis factorial de
calidad de servicio percibida en agencias correspondencias.
de viaje

RESUMEN:

El objetivo de este capítulo es aplicar algunas de las técnicas estadísticas que permitan al
lector comprender su utilidad y el papel que desempeñan como herramienta para el análisis y
toma de decisiones. Prácticamente en todos trabajos empíricos en la investigación turística, en
particular los cuantitativos, se realiza algún tipo de análisis descriptivo como paso previo a la
realización de análisis más complejos. Respecto a las técnicas inferenciales y multivariantes,
las más utilizadas son el análisis de componentes principales y la regresión. En este capítulo
presentaremos investigaciones en las siguientes áreas de relevancia para la gestión turística
pública y privada:

 Análisis de pasajeros en función del tipo de compañía (aplicación 1)


 Análisis de la imagen y el posicionamiento de destinos turísticos (aplicaciones 2 y 4).
 Estudio del papel desempeñado por las emociones en la satisfacción y la lealtad de los
turistas que visitan parques temáticos (aplicación 3)
 Segmentación de turistas en función de sus motivaciones de viaje (aplicación 5).
Para desarrollar los diferentes análisis estadísticos se utilizará el programa estadístico SPSS.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 97 de 147

6.1. APLICACIÓN 1: ANÁLISIS DE PASAJEROS EN FUNCIÓN


DEL TIPO DE COMPAÑÍA

6.1.1. Consideraciones previas

Según el informe Movimientos Turísticos en Fronteras (Frontur) del Instituto de


Estudios Turísticos (IET, 2006a), en el año 2005 el Reino Unido fue el primer mercado
emisor del turismo internacional a España con 16,1 millones de turistas. Alemania
constituye el segundo mercado emisor en el ranking de turistas internacionales, con
9,9 millones de turistas. En estos mercados emisores, el transporte aéreo constituye la
20
principal vía de acceso al destino España . En los últimos años la presencia de las
compañías de bajo coste (CBC) ha crecido en toda Europa. En España, las entradas
de pasajeros procedentes del extranjero a través de estas compañías supone el 29,7%
del total de las llegadas por vía aérea, que alcanza el 39,7% en el caso del Reino
Unido y el 38,6% en el de Alemania (IET, 2006a,b).

En un reciente estudio sobre las Compañías aéreas de bajo coste en España (IET,
2006b) se pone de manifiesto la presencia de Easyjet, Ryanair y Air Berlin entre las
principales compañías aéreas, después de Iberia, ocupando la segunda, tercera y
cuarta posición, respectivamente. Según el estudio mencionado, los pasajeros
llegados a España en compañías de bajo coste utilizaron la inglesa Easyjet Airline
(21,2% de pasajeros), la irlandesa Ryanair (21,2%), y la alemana Air Berlin (20%). Los
pasajeros procedentes del Reino Unido utilizaron tanto Easyjet como Ryanair,
mientras que los procedentes de Alemania usaron preferentemente la compañía Air
Berlin. En este sentido, y con fines didácticos, se pretende contrastar la hipótesis de
una mayor utilización de las líneas aéreas de bajo coste por parte del mercado
británico en comparación con el mercado alemán en sus viajes turísticos a España.

6.1.2. Objetivos del análisis

La finalidad de esta aplicación es mostrar la utilidad de la prueba no paramétrica chi-


cuadrado de independencia para determinar la existencia o no de asociación entre el

20
A partir de datos de Aena, el total de pasajeros llegados a España por vía aérea desde el Reino Unido
ascendió a 17.225.038 pasajeros (IET, 2006b). El 89,8% de los turistas alemanes que se recibieron en el
año 2005 vinieron por avión (IET, 2006a).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 98 de 147

tipo de líneas aéreas, tradicionales y de bajo coste (CBC) y los dos mercados
emisores principales con destino a España.

Se parte de la hipótesis de que los pasajeros procedentes del Reino Unido utilizan en
mayor medida las CBC en sus viajes turísticos a España que los procedentes de
Alemania.

En consecuencia, desde el punto de vista estadístico se plantea:

 Hipótesis nula: Hay independencia entre el tipo de líneas aéreas utilizadas y los
dos mercados emisores principales (Reino Unido y Alemania) con destino a
España.

 Hipótesis alternativa: Hay evidencia significativa para suponer que hay asociación
entre el tipo de líneas aéreas utilizadas y los dos mercados emisores principales
con destino a España.

6.1.3. Metodología

Tomando como base el estudio de Frontur se han seleccionado dos variables


(procedencia de los turistas internacionales y tipo de compañía que utilizan para viajar
a España), ambas medidas con escalas de tipo nominal21. Con el fin de contrastar
hipótesis relativas a las proporciones de casos que se encuentran en varios grupos
mutuamente excluyentes se puede utilizar la prueba no paramétrica de independencia
basada en la distribución chi-cuadrado (Miquel, Bigné, Lévy, Cuenca y Miquel, 1997).

6.1.4. Información de partida

En el estudio Frontur se ofrece información sobre el porcentaje de pasajeros llegados


por vía aérea a España según su país de origen (Reino Unido y Alemania) y del tipo
de compañía (tradicional y CBC). Dicha información es la que se encuentra en el
fichero de SPSS, “prueba chi-cuadrado pasajeros-compañía.sav”.

En la Tabla 6.1 se muestran los porcentajes de utilización de las líneas tradicionales y


CBC en el año 2005 por parte de los dos principales mercados emisores.

21
El estudio de Movimientos Turísticos en Fronteras (Frontur) 2005 se encuentra disponible en
http://www.iet.tourspain.es (accedido el 22 de septiembre de 2006).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 99 de 147

Tabla 6.1.

Porcentaje de pasajeros procedentes de Alemania y Reino Unido según tipo de


compañía aérea. 2005

Turistas
Total pasajeros
Líneas aéreas Alemania Reino Unido
(N)
Nº pasajeros % Nº pasajeros %
Tradicionales 6.354.672 61,4% 10.389.305 60,3% 16.743.977
CBC 3.999.662 38,6% 6.835.733 39,7% 10.835.395
Total pasajeros (N) 10.354.334 100% 17.225.038 100% 27.579.372
Fuente: Elaboración propia a partir de IET (2006a,b)

6.1.5. Análisis de resultados

En esta aplicación, se pretende probar que los dos grupos – británicos y alemanes –
difieren con respecto a la utilización de las líneas aéreas tradicionales versus CBC y,
por lo tanto, con respecto a la frecuencia relativa con que los miembros del grupo son
encontrados en dichas categorías. Para ello, se cuenta con el número de casos de
cada grupo en cada categoría (utilización de vuelos tradicionales y de CBC) y se
compara la proporción de casos en las diferentes categorías de un grupo (británicos)
con la del otro grupo (alemanes). Como se ha indicado, en esta aplicación se escoge
la prueba χ2 para dos muestras independientes porque las variables objeto de estudio
son de tipo nominal: tipo de línea aérea (compañías tradicionales y CBC) y
procedencia de los turistas (Ingleses y alemanes). El resultado para este caso fue:

Tabla 6.2. Pruebas de chi-cuadrado

Sig. asintótica Sig. exacta Sig. exacta


Valor gl
(bilateral) (bilateral) (unilateral)
3028,883
Chi-cuadrado de Pearson 1 ,000
(b)
Corrección por
3028,839 1 ,000
continuidad (a)
Razón de verosimilitud 3031,355 1 ,000
Estadístico exacto de
,000 ,000
Fisher
Asociación lineal por lineal 3028,883 1 ,000
N de casos válidos 27579372
(a) Calculado sólo para una tabla de 2x2.
(b) 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima
esperada es 4068015.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 100 de 147

El valor de la χ2 (gl=1) es 3028,838, que es significativo para un nivel de significación


del 0,1%. Por tanto, hay evidencias significativas para rechazar la hipótesis nula de
independencia.

Como conclusión estadística debemos decir que la elección de una compañía aérea
tradicional frente a una de bajo coste depende de la nacionalidad del turista, teniendo
en cuenta únicamente los dos principales mercados emisores de turismo hacia
España, observándose que los pasajeros británicos utilizan en mayor medida las
líneas aéreas de bajo coste (CBC) que los alemanes.

6.2. APLICACIÓN 2: EVALUACIÓN DE LA IMAGEN DE UN


DESTINO TURÍSTICO

6.2.1. Consideraciones previas

Los destinos se configuran como un conjunto de recursos turísticos (Bigné, Font y


Andreu, 2000). El inventario de los mismos resulta relevante para identificar sus
debilidades y fortalezas. Adicionalmente a este análisis objetivo, resulta determinante
conocer las percepciones del destino por parte de los turistas. Por consiguiente, el
estudio de las percepciones de los consumidores sobre un destino turístico se
convierte en una tarea ineludible para los responsables de llevar a cabo su gestión.
Los destinos compiten principalmente a través de su imagen dado que, antes de
visitarlos, la imagen poseída por los turistas es un factor clave en su proceso de
elección. Además, la imagen inicial puede verse modificada por la experiencia
vacacional y únicamente se conseguirá reforzar la lealtad hacia el destino si aquella
continúa siendo positiva. Consecuentemente, la construcción de una imagen
adecuada para un destino determinará su capacidad para atraer y retener turistas.

La información sobre la imagen del destino permite que sus gestores identifiquen
puntos fuertes y débiles, ayudándoles a desarrollar productos y servicios capaces de
satisfacer al turista, por lo que la imagen se ha identificado como un aspecto crítico del
éxito del destino, convirtiéndose en el eje de la estrategia de marketing del mismo.

Por consiguiente, para desarrollar una política de imagen eficaz, el primer paso es ser
capaz de medir la imagen de un destino turístico desde el punto de vista de los turistas
actuales y potenciales.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 101 de 147

6.2.2. Objetivos del análisis

El estudio de esta aplicación22 se centra en destinos turísticos de sol y playa y, en


concreto, en la localidad de Peñíscola, que es un importante destino costero de la
Comunidad Valenciana, como pone de relieve la cifra de pernoctaciones en
establecimientos hoteleros, que llegó a 1.506.344 en el año 2004 (INE, 2004). Además
de sus playas, cuenta entre sus recursos con un pintoresco casco antiguo donde se
alza el castillo del Papa Luna (que data del siglo XIII). También cabe destacar el auge
experimentado por las actividades culturales que se organizan en dicha población.
Respecto al tipo de turismo recibido, éste se aloja fundamentalmente en hoteles y
apartamentos alquilados, permaneciendo en la mayoría de los casos de 8 a 15 días en
el municipio. Asimismo, presentan una elevada fidelidad al destino, que se refleja en la
intención de regresar y de recomendarlo en el futuro (casi un 90% declaran que
probablemente volverán o lo recomendarán).

El objetivo principal que se persigue es medir la imagen que poseen los turistas
sobre el destino analizado. Para ello, se efectuará un doble análisis:

a) Estudio de la percepción de los turistas sobre los atributos o características del


destino.

b) Estudio de la imagen global, tratando de delimitar en qué medida esta es


explicada por los factores obtenidos en el análisis de los atributos.

El segundo objetivo consiste en lo siguiente:

a) Estudiar la relación la imagen global de un destino poseída por sus visitantes


con la satisfacción y la calidad percibida.

b) Examinar la relación que existe entre la imagen global de un destino poseída


por sus visitantes y el comportamiento post-compra de los mismos
(representado éste por la intención de regresar y de recomendar el lugar).

6.2.3. Metodología

El trabajo de campo se llevó a cabo en el municipio de Peñíscola, estando formado el


universo por turistas mayores de 18 años que se encontraban en el destino en el

22
Adaptado de Bigné y Sánchez (2001).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 102 de 147

momento de elaboración del estudio, obteniéndose una muestra global de 251 turistas.
La recolección de los datos se realizó durante la temporada estival, administrándose el
cuestionario de forma personal a los encuestados.

El diseño muestral se realizó mediante muestreo probabilístico y, en concreto, se


utilizó la técnica de ruta aleatoria. El error muestral cometido fue del 6,3%, para un
nivel de confianza del 95,5% y p=q=0.5.

En cuanto a la elaboración del cuestionario, éste se obtuvo como resultado de la


revisión de estudios de imagen previamente publicados y del desarrollo de dinámicas
de grupo con turistas. Asimismo, se llevó a cabo un pretest del mismo antes de fijar su
forma definitiva. La escala de medición de la imagen que se obtuvo finalmente estaba
formada por 25 ítems evaluados mediante una escala Likert de 5 puntos. Además, se
incluyó una pregunta sobre la imagen global percibida por el turista, así como
cuestiones sobre las intenciones de comportamiento, la satisfacción, y la calidad
percibida de la estancia.

En cuanto a las técnicas estadísticas utilizadas para el tratamiento de los datos, han
sido, entre otras:

 Análisis de Componentes Principales (ACP)

 Análisis de Regresión Múltiple (ARLM)

 Test de Kruskall Wallis

6.2.4. Información de partida

Para desarrollar el estudio y poder responder a los objetivos propuestos, se dispone


de los datos correspondientes a las variables que van a utilizarse en el análisis, los
cuales se encuentran en la web, en el fichero de SPSS, “Datos Peñíscola.sav”.
Asimismo, en el Anexo 7.1 se recoge el cuestionario utilizado.

6.2.5. Análisis de resultados

Medir la imagen que poseen los turistas sobre el destino analizado

a) Estudio de la percepción de los turistas sobre los atributos o características del


destino: Identificación de las dimensiones de imagen: Análisis de Componentes
Principales

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 103 de 147

La imagen se ha medido a través de una batería de 25 atributos, por lo que, si


queremos reducir estas variables a un número menor de dimensiones manejables que
puedan utilizarse en análisis posteriores, se llevará a cabo un análisis de componentes
principales (capítulo 15), mediante el paquete estadístico SPSS.

Los primeros resultados sirven para comprobar si es adecuado aplicar un Análisis de


Componentes Principales. Para ello, debe existir una correlación elevada entre las
variables originales introducidas en el análisis. Esto puede observarse examinando la
matriz de correlaciones y sus significaciones (Tablas 6.3 y 6.4).

Como puede observarse, aunque las correlaciones entre los pares de variables no son
altas, gran parte de ellas presentan un grado de significación inferior a 0,05, por lo que
existe una correlación significativa entre las mismas, lo que favorece la aplicación del
Análisis de Componentes Principales.

Del análisis de esas dos tablas podemos destacar los dos extremos:

 La no existencia de correlación de la variable “degradación” (V10) con las


siguientes variables:

Monumentos Tiendas Viaje cultural

Acceso Información Vida nocturna

Transportes locales Instalaciones deportivas Servicios de calidad

y la de la variable “vida nocturna” (V21) con las siguientes variables:

Amabilidad Actividades al aire libre Acceso

Tranquilidad Calidad playas Vida nocturna

Transportes
Degradación Monumentos
locales

 La correlación de la variable “limpieza” (V1) con todas las demás variables, salvo
con la “información” (V18).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 104 de 147

Tabla 6.3. Matriz de correlaciones

Correlación V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V4 V15 V16 V


V1 Limpieza 1,000
V2 Acondicionamiento 0,204 1,000
V3 Calidad alojamiento 0,107 0,160 1,000
V4 Amabilidad 0,270 0,066 0,179 1,000
V5 Lugares interesantes 0,123 0,227 0,053 0,031 1,000
V6 Tranquilidad 0,153 0,074 0,096 0,111 -0,068 1,000
V7 Paisajes 0,263 0,156 0,071 0,148 0,320 0,112 1,000
V8 Clima 0,042 0,105 0,161 0,174 0,080 0,140 0,207 1,000
V9 Urbanización 0,213 0,242 0,294 0,206 0,128 0,204 0,160 0,072 1,000
V10 Degradación 0,208 0,186 0,008 0,157 0,103 0,064 0,094 0,093 0,070 1,000
V11 Actividades aire libre 0,102 0,049 0,068 0,140 0,204 0,094 0,184 0,155 0,186 0,193 1,000
V12 Calidad playas 0,264 0,328 0,158 0,197 0,154 0,014 0,177 0,212 0,223 0,311 0,259 1,000
V13 Monumentos 0,152 0,096 -0,013 0,114 0,261 -0,107 0,156 -0,003 -0,031 0,034 0,107 0,143 1,000 0,075
V4 Gastronomía 0,111 0,222 0,231 0,245 0,182 0,018 0,008 0,161 0,273 0,098 0,170 0,195 0,075 1,000
V15 Acceso 0,169 0,144 0,215 0,163 0,135 0,030 0,067 0,144 0,216 -0,023 0,186 0,134 0,020 0,080 1,000
V16 Transportes locales 0,104 0,149 0,143 0,040 0,197 0,071 0,030 0,101 0,026 0,046 0,060 0,158 0,247 0,208 0,037 1,000
V17 Tiendas 0,121 -0,035 -0,078 0,158 0,138 0,079 0,101 0,146 0,040 0,026 0,251 -0,017 0,052 0,091 -0,004 0,102 1,0
V18 Información 0,030 0,023 0,019 0,148 0,012 0,002 0,120 0,157 0,067 0,043 0,239 0,100 0,189 0,144 0,202 0,125 0,0
V19 Instalaciones deportivas 0,087 0,033 0,152 0,124 0,202 0,110 0,242 0,108 0,088 0,078 0,179 0,171 0,204 0,167 0,110 0,393 0,1
V20 Viaje cultural 0,141 0,126 0,044 0,038 0,167 0,165 0,241 0,240 0,087 0,039 0,241 0,150 0,361 0,064 0,105 0,284 0,1
V21 Vida nocturna 0,135 0,125 0,195 0,021 0,178 0,007 0,243 0,200 0,120 0,072 0,055 0,062 0,027 0,177 0,058 0,065 0,0
V22 Costumbres típicas 0,113 0,152 0,188 0,124 0,255 0,004 0,197 0,128 0,162 0,176 0,169 0,184 0,131 0,314 0,075 0,316 0,1
V23 Calidad/precio 0,316 0,265 0,239 0,219 0,154 0,128 0,165 0,035 0,284 0,115 0,053 0,188 0,112 0,287 0,143 0,004 0,0
V24 Servicios de calidad 0,321 0,134 0,304 0,312 0,069 0,277 0,201 0,054 0,309 0,077 0,123 0,198 0,096 0,290 0,184 0,135 0,1
V25 Actividades diferentes 0,184 0,040 0,159 0,229 0,252 0,148 0,239 0,192 0,304 0,213 0,319 0,207 0,206 0,125 0,147 0,135 0,2

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 105 de 147

Tabla 6.4. Significación correlaciones

Sig. (Unilateral) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25
V1 Limpieza
V2 Acondicionamiento 0,001
V3 Calidad alojamiento 0,045 0,006
V4 Amabilidad 0,000 0,151 0,002
V5 Lugares interesantes 0,026 0,000 0,203 0,311
V6 Tranquilidad 0,008 0,123 0,065 0,040 0,141
V7 Paisajes 0,000 0,007 0,132 0,009 0,000 0,038
V8 Clima 0,255 0,048 0,005 0,003 0,103 0,013 0,000
V9 Urbanización 0,000 0,000 0,000 0,001 0,022 0,001 0,006 0,126
V10 Degradación 0,000 0,002 0,447 0,006 0,051 0,158 0,069 0,070 0,135
V11 Actividades al aire libre 0,054 0,221 0,142 0,013 0,001 0,068 0,002 0,007 0,002 0,001
V12 Calidad playas 0,000 0,000 0,006 0,001 0,007 0,413 0,002 0,000 0,000 0,000 0,000
V13 Monumentos 0,008 0,065 0,420 0,036 0,000 0,046 0,007 0,479 0,313 0,295 0,046 0,012
V14 Gastronomía 0,039 0,000 0,000 0,000 0,002 0,388 0,451 0,005 0,000 0,062 0,004 0,001 0,119
V15 Acceso 0,004 0,011 0,000 0,005 0,016 0,317 0,144 0,011 0,000 0,360 0,002 0,017 0,377 0,102
V16 Transportes locales 0,051 0,009 0,012 0,266 0,001 0,132 0,320 0,054 0,339 0,234 0,174 0,006 0,000 0,000 0,280
V17 Tiendas 0,028 0,291 0,109 0,006 0,014 0,105 0,056 0,010 0,263 0,340 0,000 0,393 0,207 0,075 0,475 0,054
V18 Información 0,320 0,358 0,381 0,010 0,427 0,485 0,029 0,006 0,146 0,248 0,000 0,057 0,001 0,011 0,001 0,024 0,132
V19 Instalaciones deportivas 0,085 0,304 0,008 0,025 0,001 0,041 0,000 0,043 0,081 0,109 0,002 0,003 0,001 0,004 0,041 0,000 0,041 0,345
V20 Viaje cultural 0,013 0,023 0,243 0,273 0,004 0,004 0,000 0,000 0,086 0,268 0,000 0,009 0,000 0,156 0,048 0,000 0,023 0,001 0,000
V21 Vida nocturna 0,017 0,024 0,001 0,369 0,002 0,459 0,000 0,001 0,028 0,129 0,194 0,164 0,336 0,002 0,179 0,151 0,061 0,007 0,072 0,004
V22 Costumbres típicas 0,037 0,008 0,001 0,025 0,000 0,473 0,001 0,022 0,005 0,003 0,004 0,002 0,019 0,000 0,119 0,000 0,023 0,000 0,000 0,002 0,000
V23 Calidad/precio 0,000 0,000 0,000 0,000 0,007 0,022 0,004 0,291 0,000 0,034 0,201 0,001 0,038 0,000 0,012 0,473 0,289 0,402 0,000 0,045 0,000 0,005
V24 Servicios de calidad 0,000 0,017 0,000 0,000 0,138 0,000 0,001 0,197 0,000 0,111 0,026 0,001 0,064 0,000 0,002 0,016 0,003 0,008 0,000 0,005 0,060 0,000 0,000
V25 Actividades diferentes 0,002 0,263 0,006 0,000 0,000 0,010 0,000 0,001 0,000 0,000 0,000 0,000 0,001 0,024 0,010 0,016 0,001 0,335 0,000 0,000 0,111 0,000 0,000 0,000

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 106 de 147

Otros indicadores de la adecuación del Análisis Factorial de Componentes Principales


son el test de Esfericidad de Bartlett y la Medida de Adecuación Muestral de Kaiser-
Meyer-Olkin (Tabla 6.5):

Tabla 6.5. Indicadores de la adecuación del AFCP


INDICADOR VALOR gl. Sig.
Medida de Adecuación muestral de KMO 0,758
Test de Esfericidad de Bartlett 1205,846 300 0,000
Determinante 0,07

Si se tienen en cuenta las recomendaciones dadas en el capítulo 15, la información de


la Tabla 6.5 sugiere que es adecuado llevar a cabo un Análisis de Componentes
Principales, ya que existe cierta correlación entre las variables y los indicadores
obtenidos resultan satisfactorios.

Los resultados del análisis de componentes principales son los siguientes:

1. Las comunalidades (Tabla 6.6)

Indican la proporción de cada variable que es explicada por el conjunto de factores


seleccionados.

Tabla 6.6. Comunalidades


Variables Inicial Extracción
Limpieza 1,000 ,586
Acondicionamiento 1,000 ,559
Calidad alojamiento 1,000 ,543
Amabilidad 1,000 ,505
Lugares interesantes 1,000 ,651
Tranquilidad 1,000 ,645
Paisajes 1,000 ,589
Clima 1,000 ,578
Urbanización 1,000 ,504
Degradación 1,000 ,631
Actividades al aire libre 1,000 ,634
Calidad playas 1,000 ,616
Monumentos 1,000 ,678
Gastronomía 1,000 ,597
Acceso 1,000 ,631
Transportes locales 1,000 ,678
Tiendas 1,000 ,568
Información 1,000 ,700
Instalaciones deportivas 1,000 ,599
Viaje cultural 1,000 ,629
Vida nocturna 1,000 ,678
Costumbres típicas 1,000 ,541
Calidad/precio 1,000 ,604
Servicios de calidad 1,000 ,666
Actividades diferentes 1,000 ,635

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 107 de 147

Si se observan los datos de la tabla, se aprecia que al sustituir las variables por los
factores, las variables peor representadas son la urbanización, la amabilidad, las
costumbres típicas y la calidad del alojamiento; mientras que las mejor representadas
serían la información, la vida nocturna, los transportes locales y los monumentos.
Dado que ningún valor es inferior a 0,5, no se eliminará ninguna variable del análisis.

2. Varianza explicada

La tabla de varianza explicada (Tabla 6.7) y el gráfico de sedimentación (Gráfico 6.1)


muestran la proporción de varianza explicada por cada factor y el número de factores
a seleccionar. Se seleccionarán aquellos componentes cuyo autovalor sea igual o
superior a 1, lo que indicaría que cada uno de los factores extraídos explica en
promedio al menos la información contenida en una variable. En este ejemplo, se
retendrán nueve factores, que son los indicados en la tabla, que explican
conjuntamente un 60,99 % de la varianza y cuyo poder explicativo está bastante
repartido, destacando los dos primeros componentes con más de un 26% de varianza
explicada.

Tabla 6.7. Varianza Total Explicada


Autovalores iniciales
Componente
Total % de la varianza % acumulado
1 4,690 18,759 18,759
2 1,840 7,359 26,118
3 1,443 5,772 31,889
4 1,364 5,457 37,346
5 1,345 5,379 42,725
6 1,207 4,829 47,554
7 1,149 4,594 52,148
8 1,142 4,570 56,718
9 1,068 4,273 60,991

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 108 de 147

Gráfico 6.1 Gráfico de sedimentación

4
Autovalor

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Número de componente

Debido a la clara concentración de varianza explicada en el primero de los factores


respecto a los ocho restantes, hemos decidido la rotación de los ejes para intentar
distribuir la varianza explicada entre los factores retenidos. El método elegido para
realizar dicha rotación fue el varimax. Los porcentajes de varianza explicada por cada
una de las nueve componentes se presentan en la tabla 7.8.

Tabla 6.8. Varianza Total Explicada. Solución Rotada


Suma de las saturaciones al cuadrado de la rotación
Total % de la varianza % acumulado
2,158 8,633 8,633
2,120 8,482 17,115
1,742 6,969 24,084
1,699 6,797 30,881
1,679 6,715 37,596
1,641 6,565 44,161
1,601 6,406 50,567
1,305 5,220 55,787
1,301 5,204 60,991

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 109 de 147

3. Matriz de componentes rotados

Para interpretar los diferentes factores hay que fijarse en la matriz de componentes
rotados (Tabla 6.9). En ella, se asignará la variable al factor en el que presente una
mayor carga factorial (generalmente, superior a 0,5). (Hair, Anderson, Tatham y Black,
1999; Miquel, Bigné, Lévy, Cuenca y Miquel, 1997). Para determinar la denominación
de cada componente, se tendrán en cuenta fundamentalmente aquellas variables que
presenten una mayor carga factorial (Díaz de Rada, 2002).

Tabla 6.9. Matriz de componentes rotados


Componente
Variables
1 2 3 4 5 6 7 8 9
Servicios de calidad 0,690 0,172 -0,051 0,271 0,116 0,194 0,001 0,034 0,180
Calidad/precio 0,663 0,063 0,061 0,191 -0,024 0,223 0,182 -0,186 -0,049
Limpieza 0,651 0,065 0,311 -0,120 -0,014 -0,023 0,192 0,095 0,014
Amabilidad 0,516 -0,061 0,155 0,148 0,253 0,076 -0,132 0,306 0,093
Transportes locales -0,063 0,685 0,112 0,409 -0,090 -0,070 -0,073 0,060 0,056
Viaje cultural 0,038 0,670 0,062 -0,128 0,120 0,068 0,268 0,207 0,156
Instalaciones deportivas 0,121 0,659 -0,017 0,212 0,221 0,105 0,022 -0,202 0,064
Monumentos 0,224 0,581 0,079 -0,111 -0,007 -0,093 0,046 0,275 -0,431
Calidad playas 0,114 0,150 0,724 0,083 0,057 0,198 -0,003 0,089 0,000
Degradación 0,107 -0,051 0,710 0,103 0,221 -0,215 -0,008 -0,051 0,063
Acondicionamiento 0,137 0,077 0,559 0,131 -0,288 0,225 0,253 -0,059 -0,060
Gastronomía 0,196 0,008 0,149 0,704 0,073 0,151 0,001 0,093 -0,061
Costumbres típicas 0,087 0,257 0,115 0,612 0,152 -0,013 0,205 0,094 -0,076
Actividades al aire libre -0,066 0,107 0,255 0,018 0,672 0,252 0,023 0,192 -0,021
Tiendas 0,153 0,009 -0,146 0,159 0,626 -0,262 0,154 0,091 0,069
Actividades diferentes 0,283 0,354 0,106 0,026 0,556 0,240 0,066 -0,209 0,042
Acceso 0,087 0,048 0,013 -0,089 0,083 0,716 0,016 0,293 -0,082
Calidad alojamiento 0,144 0,070 0,005 0,383 -0,148 0,548 0,070 -0,071 0,196
Urbanización 0,307 -0,066 0,153 0,171 0,154 0,542 0,085 -0,129 0,110
Vida nocturna 0,057 -0,047 -0,046 0,321 -0,061 0,010 0,740 0,110 0,059
Paisajes 0,227 0,188 0,126 -0,176 0,195 0,054 0,643 0,006 0,003
Información 0,039 0,095 -0,006 0,147 0,087 0,090 0,091 0,802 -0,028
Tranquilidad 0,256 0,156 0,025 -0,108 0,061 0,050 0,033 -0,095 0,726
Lugares interesantes -0,007 0,252 0,171 0,122 0,265 0,153 0,437 -0,200 -0,467
Clima -0,200 0,094 0,217 0,120 0,193 0,160 0,353 0,267 0,458
Método de extracción: Análisis de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.
La rotación ha convergido en 12 iteraciones.

Así, cada componente ha sido denominado de la siguiente manera:

F1. Calidad F4. Folklore F7. Atractivos turísticos;


F2. Infraestructuras F5. Actividades F8. Información
F3. Playas-medioambiente F6. Acceso F9. Tranquilidad

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 110 de 147

4. Gráfico de situación de las variables originales respecto a los dos primeros factores

Para su elaboración se han tomado las correlaciones entre las variables originales y
los dos primeros factores, contenidas en la Tabla 6.9.

Gráfico 6.2. Situación de las variables

0,70 Transportes locales


Viaje cultural

Instalaciones deport
0,60 Monumentos

0,50

0,40
Actividades diferent
Factor 2

0,30
Lugares interesantes Costumbres típicas

Paisajes
0,20
Calidad playas Tranquilidad
Servicios de calidad
Clima Información
0,10 Acondicionamiento Limpieza
Actividades al aire Acceso
Calidad alojamiento Calidad/precio
0,00
Vida nocturna Gastronomía
Urbanización Amabilidad
Degradación
-0,10
-0,20 0,00 0,20 0,40 0,60
Factor 1

En este gráfico podemos observar con más claridad los resultados obtenidos para los
dos primeros factores obtenidos. Así:

 En el factor 1, las variables con mayor correlación con dicho eje son:

Lado negativo Lado positivo


Actividades al aire libre Servicios de calidad
Clima Calidad/precio
Limpieza
Amabilidad
Por tanto, podríamos decir que, por término medio, aquellos turistas que valoran más
las variables que se encuentran en el lado positivo, valoran menos las actividades al
aire libre y el clima, y al contrario.

 En el factor 2, las variables con mayor correlación con dicho eje son:

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 111 de 147

Lado negativo Lado positivo


Urbanización Transportes locales
Vida nocturna Viaje cultural
Amabilidad Instalaciones deportivas
Monumentos
Las variables que se encuentran en el lado negativo tienen una correlación con el
factor 2 muy próxima a 0, por lo que nos limitaremos a resaltar las del lado positivo.
Por tanto, podemos decir que, por término medio, los turistas valoran más las variables
que se encuentran en el lado positivo que el resto, sobre todo las que se encuentran
en el lado negativo.

5. Puntuaciones de los componentes para cada individuo

Las puntuaciones de los componentes para cada individuo de la muestra se pueden


guardar como variables para futuros análisis estadísticos. Así, se han generado nueve
nuevas variables que se corresponden con la puntuación de cada factor, para cada
uno de los casos.

b) Estudio de la imagen global, tratando de delimitar en qué medida esta es


explicada por los factores obtenidos en el análisis de los atributos: Análisis
de Regresión Lineal Múltiple

Dado que uno de los objetivos del estudio era determinar hasta qué punto los factores
basados en los atributos de imagen que acaban de ser identificados explicaban la
imagen global poseída por el turista, en este apartado va a realizarse un análisis de
regresión lineal múltiple para responder a dicho objetivo. Para ello, se utilizarán las
puntuaciones factoriales obtenidas en el Análisis de Componentes Principales como
variables independientes, y la imagen global (V29) será la variable dependiente.

En primer lugar, se ha comprobado que se cumplen las condiciones de aplicabilidad


de la técnica estadística de regresión lineal.

o El gráfico de normalidad muestra que existe normalidad multivariante

o Según el gráfico de dispersión, no parece haber problemas de heterocedasticidad.

o Como el valor del estadístico de Durbin-Watson está cercano a 2 (1,72), esto nos
indica que no existen problemas de autocorrelación entre las variables.

o En cuanto a la multicolinealidad, ésta no existe, ya que las variables son los


factores obtenidos en el ACP y éstos son independientes entre si.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 112 de 147

En la Tabla 6.10 se muestran los indicadores que suelen utilizarse para interpretar los
resultados.

Tabla 6.10. Regresión de las dimensiones de imagen sobre la imagen global


FACTORES Coeficiente Beta estandarizado Valor t Sig.
Constante 94,277 0,000***
F1: Calidad 0,244 4,335 0,000***
F2: Infraestructuras 0,161 2,867 0,005**
F3: Playas-medio ambiente 0,104 1,847 0,066
F4: Folklore 0,082 1,461 0,145
F5: Actividades 0,114 2,018 0,045*
F6: Acceso 0,185 3,280 0,001***
F7: Atractivos turísticos 0,243 4,319 0,000***
F8: Información 0,152 2,693 0,008**
F9: Tranquilidad 0,066 1,169 0,243
R2 =0,237; Durbin Watson =1,72; F= 8,296 (Sig. F = 0,000)
*** = p< ,001; ** = p< ,01; * = p< ,05
Como puede observarse, aunque las variables independientes explican sólo un 23,7%
de la varianza de la variable dependiente (R2 = 0,237), de forma conjunta el modelo es
significativo dados los valores del estadístico F. Para un tamaño muestral de 251
observaciones y con 9 variables independientes, el valor mínimo que ha de adoptar el
coeficiente R2 para ser significativo al 0,1% de significación es aproximadamente del
8% (Cohen y Cohen, 1983), por lo que en nuestro caso esa cifra se supera.

En cuanto a los factores que ejercen una mayor influencia en la imagen global de Peñíscola,
son: la calidad y los atractivos turísticos, seguidos a mayor distancia por el acceso, las
infraestructuras y la información y, por último, las actividades. La playa-medio ambiente, el
folklore y la tranquilidad no han resultado ser significativos.

Segundo objetivo:

a) Estudiar la influencia de la imagen global sobre la satisfacción y la calidad


percibida: Análisis de la Varianza no Paramétrico: Kruskall Wallis

Con el fin de cubrir el segundo objetivo, estudiar la influencia de la imagen global


sobre las variables evaluativas (satisfacción y calidad percibida), puede ser adecuado
llevar a cabo un análisis de la varianza. Para ello, previamente hay que comprobar que
se cumplen los supuestos básicos de aplicación, en particular, la normalidad, por lo
que utilizaremos el gráfico de normalidad explicado en el capítulo 14.

Los gráficos Q-Q representan los cuantiles de la distribución de una variable respecto
a los cuantiles de la distribución normal de contraste.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 113 de 147

Los gráficos de probabilidad se suelen utilizar para determinar si la distribución de una


variable coincide con la distribución normal. Si la variable seleccionada coincide, los
puntos se agruparán en torno a una línea recta.

Gráfico 6.3

Gráfico Q-Q normal de Valoración estancia


(Satisfacción)
2

1
Normal esperado

-1

-2

-3

-4

1 2 3 4 5

Valor observado

Gráfico 6.4

Gráfico Q-Q normal de Imagen global

1
Normal esperado

-1

-2

-3

1 2 3 4 5

Valor observado

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 114 de 147

Gráfico 6.5

Gráfico Q-Q normal de Calidad percibida

Normal esperado
0

-1

-2

1 2 3 4 5

Valor observado

Por tanto, los resultados (Gráfico 6.3, 7.4 y 7.5) indican que las variables violan el
supuesto de normalidad, por lo que no podrá aplicarse el Análisis de la Varianza
Paramétrico, debiendo recurrir a sus equivalentes no paramétricos. Como la imagen
global es la variable independiente y define más de dos grupos, el estadístico más
adecuado será el test de Kruskall-Wallis explicado en el capítulo 13.

La imagen global, que es la variable independiente, tiene 5 grupos, correspondientes a


las valoraciones de 1 a 5 que puede aportar el turista. Tanto la satisfacción como la
calidad percibida, que son variables dependientes, también ofrecen valores de 1 a 5.
Por tanto, el test de Kruskall-Wallis se aplicará a las dos variables dependientes. Los
resultados se presentan en las Tablas 6.11 y 7.12.

Tabla 6.11.

Incidencia de la imagen global sobre la valoración de la estancia y la calidad


percibida:

Test de Kruskall-Wallis
Rango promedio
Imagen global N
Valoración estancia (Satisfacción) Calidad percibida
Muy desfavorable 2 107,75 38,25
Desfavorable 5 56,20 77,40
Intermedia 31 61,74 91,10
Favorable 112 109,25 120,97
Muy favorable 101 168,12 146,43
Total 251

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 115 de 147

En la Tabla 6.11 se observa que hay notables diferencias en los rangos de las dos
variables respecto a la imagen global, lo cual hace que, como podemos ver en la Tabla
6.2, concluyamos que hayan diferencias significativas en las puntuaciones de la
satisfacción y de la calidad percibida, dependiendo de la puntuación que hayan dado
los turistas a la imagen global23. Por tanto, la imagen global que se forma el turista
sobre el lugar ejerce una influencia significativa tanto sobre la satisfacción con la
estancia como sobre la calidad percibida de la misma.

Tabla 6.12. Estadísticos de contraste(a,b)


Valoración estancia (Satisfacción) Calidad percibida
Chi-cuadrado 79,606 23,228
Gl 4 4
Sig. asintót. ,000 ,000
(a) Prueba de Kruskal-Wallis
(b) Variable de agrupación: Imagen global

b) Incidencia de la satisfacción, la calidad percibida y la imagen global en las


intenciones de comportamiento: Análisis de Regresión Lineal Múltiple

Por último, se pretende determinar qué variable ejerce una mayor influencia en la
intención de regresar (V26) y de recomendar el destino (V27): la imagen global (V29),
la satisfacción con la estancia (V28) o la calidad percibida (V30).

Con este propósito, se recurrió de nuevo al análisis de regresión lineal múltiple:

o En primer lugar, con las variables independientes imagen global, valoración de la


estancia y calidad percibida, siendo la variable dependiente la intención de
regresar al destino.

o En segundo lugar, las mismas variables independientes, mientras que la


dependiente será la intención de recomendar el destino.

Para no ser repetitivos, las conclusiones de los resultados del primer análisis de
regresión múltiple en el que las variables independientes son la imagen global,
valoración de la estancia y calidad percibida, y la variable dependiente la intención de
regresar al destino, son las siguientes::

23
Tanto en la calidad como en la satisfacción, la significación o área que queda a la derecha es 0, por lo
que se rechaza la hipótesis de igualdad de promedios.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 116 de 147

 La imagen global es la que explica en mayor medida las intenciones de


comportamiento del turista, tanto en el caso de la intención de regresar al destino
como en la de recomendarlo a otras personas.

 Sorprendentemente, la satisfacción no es significativa para la intención de regresar


pero sí para la de recomendación. Esto puede deberse a que, en turismo, la
búsqueda de variedad puede hacer que los individuos no deseen regresar a un
mismo lugar pese a haber tenido una experiencia satisfactoria, aunque sí estarán
dispuestos a recomendar el destino.

 Respecto a la calidad percibida, esta sí incide en las intenciones de


comportamiento de forma significativa en ambos casos.

 Por último, el valor del R2, un 21,7% para la intención de regresar frente a un 26,3%
para la de recomendación, aunque es bajo en ambos análisis, se observa que la
intención de recomendar el destino se halla mejor explicada por la imagen global, la
satisfacción y la calidad percibida que la intención de volver a visitarlo. Esto de
nuevo podría explicarse por la débil relación que existe entre satisfacción e
intención de regresar.

 Hay una elevada correlación entre la intención de regresar y de recomendar,


(0,743).

Debido al análisis anterior, el análisis de regresión múltiple que presentaremos a


continuación en la Tabla 6.13, tendrá como variables independientes la imagen global,
valoración de la estancia, calidad percibida, incluyendo además la intención de
regresar, con el fin de mejorar la explicación de la intención de recomendar, que será
la variable dependiente.

Tabla 6.13.
Regresión de la satisfacción, la imagen global, la calidad percibida y
la intención de regresar sobre la intención de recomendar
VARIABLES Coeficiente Beta estandarizado Valor t Sig.
Constante 6,495 0,000***
Satisfacción -0,075 -1,500 0,135
Imagen global -0,133 -2,593 0,010*
Calidad percibida -0,058 -1,303 0,194
Intención regresar 0,644 13,933 0,000***
R2 =0,588; Durbin Watson =1,687; F= 87,743 (Sig. F = 0,000)
*** = p< ,001; * = p< ,05

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 117 de 147

Las principales conclusiones serán:

o Al introducir la intención de regresar en el modelo de regresión, este mejora


notablemente, con un 58,8% de varianza explicada por aquel.

o La intención de volver al destino en el futuro es, sin duda, la variable que incide de
forma más fuerte en la intención de recomendación, siendo únicamente la imagen
global la otra variable que también ejerce una influencia relevante

o No resultan ser significativas ni la satisfacción con la estancia ni la calidad


percibida.

6.2.6. Implicaciones

Si se analizan conjuntamente los resultados obtenidos en este apartado tras realizar


los diferentes análisis estadísticos, pueden extraerse diversas conclusiones de interés
para los responsables de gestionar el destino.

En cuanto a la identificación de las dimensiones de la imagen que ejercen una


mayor influencia en la imagen global del destino, son la calidad y los atractivos
turísticos las que contribuyen de forma más importante a la percepción global que
se forma el turista sobre el lugar.

Esto implica que los gestores del destino deben preocuparse especialmente por
mejorar la relación calidad precio de los servicios y atracciones del mismo, así
como cuidar los paisajes que se ofrecen y potenciar una vida nocturna atractiva.
Asimismo, también hay que cuidar el acceso, las infraestructuras y la información
que se proporciona al turista.

Una conclusión de tipo metodológico es la forma de medir la imagen turística. Dado


que los factores obtenidos de la medición de los atributos explican únicamente el
23,7% de la imagen global, el proceso de evaluación de la imagen de un destino
poseída por sus visitantes requiere la utilización conjunta de técnicas estructuradas
(batería de atributos) y no estructuradas (preguntas abiertas), tal y como
recomiendan Echtner y Ritchie (1993).

La imagen global ejerce una influencia significativa tanto en la satisfacción y la


calidad percibida de la estancia como en las intenciones futuras de
comportamiento. De hecho, es la variable que más influye en la intención de
regresar y de recomendar el destino si se compara con la valoración de la estancia

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 118 de 147

y con la calidad percibida. Por consiguiente, la mejora de la imagen influirá


positivamente sobre el comportamiento post-compra de los turistas.

El incremento de la competencia entre los distintos destinos turísticos está


provocando una creciente preocupación y concienciación de sus responsables
sobre la necesidad de gestionar todos los elementos a su alcance para desarrollar y
mantener imágenes positivas y efectivas que los diferencien de sus competidores.
Esta diferenciación, si se ajusta a las preferencias de los turistas, favorecerá su
visita al destino o, en su caso, reforzará su lealtad.

El marketing turístico puede y debe desarrollar un papel clave en el desarrollo y


mantenimiento de una ventaja competitiva sostenible basada en la construcción de
imágenes efectivas para crear expectativas positivas que puedan ser satisfechas.
Además, los turistas perciben distintas imágenes que pueden influir en su
comportamiento de forma diferente, por lo que la identificación de los diferentes
componentes de la imagen de un destino puede proporcionar información relevante
para desarrollar estrategias promocionales centradas en segmentos clave.

6.3. APLICACIÓN 3: SEGMENTACIÓN DE LOS VISITANTES DE


UN PARQUE TEMÁTICO EN FUNCIÓN DE LAS
EMOCIONES

6.3.1. Consideraciones previas

El sector turístico está inmerso en una intensa competencia, fruto del emergente
crecimiento de productos de ocio innovadores. En este sentido, la utilización de
variables emocionales en la generación de nuevos productos y servicios turísticos,
puede ser fuente de gran interés en el desarrollo de innovaciones en turismo. Diversos
estudios han indicado que los proveedores del servicio pueden estimular la
experiencia emocional del consumidor, con el objetivo de maximizar la satisfacción
(Dubé y Menon, 2000). La experiencia del servicio influye en la generación de las
emociones del consumidor, y ello repercute en la satisfacción e intenciones de
comportamiento.

En este sentido, el análisis de la experiencia de los visitantes y, específicamente, las


emociones evocadas por su participación, es de gran importancia tanto a nivel

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 119 de 147

académico como empresarial. Dado que los visitantes interactúan con el entorno del
servicio y personal de contacto durante la experiencia de ocio y turística, la
comprensión de las respuestas afectivas de los consumidores es una cuestión crítica
en la segmentación del visitante. Los gerentes de las atracciones pueden integrar las
variables emocionales en sus investigaciones periódicas de mercado, junto con las
medidas de satisfacción y, de este modo, conocer las intenciones de comportamiento
de sus visitantes respecto al servicio ofertado.

6.3.2. Objetivos del análisis

La finalidad de esta investigación se centra en detectar segmentos de visitantes


basados en las emociones y analizar su nivel de satisfacción, lealtad y disposición a
pagar más en servicios de ocio y turísticos24. En particular, este estudio adopta el
enfoque bidimensional de emociones que incluye el agrado y la activación. La
dimensión agrado se refiere al nivel en que un consumidor se siente bien o feliz con el
entorno, mientras que la activación se refiere al grado en el que la persona se siente
activada, estimulada o activa en el entorno.

A partir de diversos estudios previos, se plantearon tres hipótesis:

Hipótesis 1: Las emociones son variables adecuadas para segmentar a los


consumidores.

Hipótesis 2: La segmentación de consumidores en función de las emociones


explica los diferentes niveles de satisfacción.

Hipótesis 3: La segmentación de consumidores en función de las emociones


explica los diferentes niveles de intenciones de comportamiento: (a) lealtad y (b)
disposición a pagar más.

6.3.3. Metodología

La investigación empírica se aplica sobre los visitantes de un parque temático cuya


superficie supera el millón de metros cuadrados. Dentro del parque, se encuentran
atracciones para niños y mayores, espectáculos, restaurantes y tiendas. Con el fin de
proporcionar una mayor sensación de realidad, en sus atracciones destaca la
utilización de moderna tecnología aplicada a este tipo de instalaciones: efectos
24
Adaptado de Bigné y Andreu (2004).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 120 de 147

especiales, robots animados o imagen tridimensional, entre otras. Asimismo, la


ambientación y la animación en el parque contribuyen a que los visitantes tengan, en
general, una participación activa.

La investigación empírica se realizó in situ, en el interior del parque temático, a 200


visitantes tras su experiencia en una atracción o espectáculo. El trabajo de campo fue
llevado a cabo por una empresa especializada en este tipo de estudios, con
entrevistadores debidamente formados.

El cuestionario estructurado incluía variables sociodemográficas y escalas de múltiples


ítems para medir las emociones, satisfacción e intenciones de comportamiento. Como
se ilustra en el anexo 7.2,

 las emociones se midieron a través de diez ítems, que representaban las


dimensiones agrado y activación.

 En cuanto a la satisfacción, tras una revisión sobre sus alternativas de medición, se


utilizó una escala de 5 ítems medida con escala Likert de 5 puntos.

 Respecto a las intenciones de comportamiento se analizó la lealtad y disposición a


pagar más, con 5 y 2 ítems, respectivamente.

En cuanto a la técnica estadística utilizada, se utilizará un Análisis Cluster (capítulo


17), efectuándose una conglomeración en dos etapas, incluyéndose los resultados de
la primera etapa jerárquica y, posteriormente, de la fase no jerárquica. Así mismo, se
utiliza el Análisis de la Varianza de 1 factor.

6.3.4. Información de partida

Con el fin de contrastar las hipótesis mencionadas, se dispone de los datos


correspondientes a las variables que se utilizan en el análisis (“datos emociones
parque.sav”) medidas para los 200 visitantes tras su experiencia en una atracción o
espectáculo.

6.3.5. Análisis de resultados

Hipótesis 1: Las emociones son variables adecuadas para segmentar a los


consumidores.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 121 de 147

Partiendo de una matriz de datos formada por 200 individuos y 10 variables (ítems de
emociones) se pretende analizar si las emociones son adecuadas para segmentar el
mercado de los consumidores y, para ello, se utiliza el análisis cluster o de grupos
(Bigné, 1990).

El propósito fundamental del análisis cluster, en la presente investigación, es la


clasificación de un conjunto de individuos en dos o más grupos, basándose en su
similitud respecto a las emociones experimentadas. Lo que se intenta es maximizar la
homogeneidad de los individuos dentro de los grupos (interna), maximizando al mismo
tiempo la heterogeneidad entre grupos (externa).

Posteriormente, tras corroborar la existencia de diversos segmentos de visitantes en


función de sus emociones, se procederá a su validación mediante el estudio de las
relaciones con la satisfacción e intenciones de comportamiento, mediante el análisis
de la varianza.

Con el fin de identificar segmentos de visitantes fue necesario analizar, en primer


lugar, si las emociones son adecuadas para segmentar a los visitantes. Este estudio
utilizó los seis ítems del agrado y cuatro de la activación mediante análisis cluster25. En
particular, las variables que intervienen en el análisis son:

Enfadado-contento (X1) Aburrido-entretenido (X6)


Infeliz-feliz (X2) Decaído-animado (X7)
Descontento-encantado (X3) Sereno-entusiasmado (X8)
Triste-alegre (X4) Pasivo-activo (X9)
Desilusionado-ilusionado (X5) Indiferente-sorprendido (X10)
Tras definir los objetivos y las variables seleccionadas para el análisis cluster, antes de
iniciar el proceso de partición, se seleccionó una medida de similitud o distancia, como
es la distancia euclídea26 que, en este caso, medirán la proximidad entre las
observaciones basándose en las emociones del consumidor.

25
Existen otras alternativas como la inclusión de las propias dimensiones emocionales como
variables para el análisis cluster. Sin embargo, no existe un consenso respecto al uso de las
puntuaciones de factor en el análisis cluster, puesto que en caso de utilizarlas, es bastante
posible que se obtenga una mala representación de la verdadera estructura de los datos
(Hair, Anderson, Tatham y Black, 1999). En suma, estas consideraciones justifican que la
selección de las variables del análisis cluster sean los ítems de las emociones.
26
Junto a las medidas de distancia, existen otras medidas de similitud utilizadas en el análisis
cluster: medidas de correlación y medidas de asociación (Bigné, 1990; Hair, Anderson,
Tatham y Black, 1999). Como indican Hair, Anderson, Tatham y Black, (1999; p. 504) “un
problema al que se enfrentan todas las medidas de distancia es que el uso de datos no
estandarizados implica inconsistencias entre las soluciones cluster cuando cambia la escala

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 122 de 147

Con las variables seleccionadas y la matriz de similitud calculada, dentro de los


métodos de clasificación aglomerativos, se seleccionó el método de Ward por un doble
motivo. Por una parte, con el fin de minimizar las diferencias dentro de los clusters, es
decir, minimizar la varianza interna (Wedel y Kamakura, 2000; p. 49) y, por otra, para
evitar problemas con el encadenamiento de las observaciones encontradas en otros
métodos (Hair, Anderson, Tatham y Black, 1999).

La información obtenida tras realizar un método jerárquico puede servir de punto de


partida para aplicar un método no jerárquico (K-medias y, en particular, el quick
cluster), tomando como centroides iniciales los obtenidos previamente en el método
jerárquico. De esta forma, las ventajas de los métodos jerárquicos se complementan
con la capacidad de los métodos no jerárquicos para ajustar los resultados a una
solución óptima, permitiendo el cambio de pertenencia a un conglomerado (Hair,
Anderson, Tatham y Black, 1999; p. 515). En nuestro análisis, se emplea la
combinación de los dos procesos.

Los resultados obtenidos han sido los siguientes:

1. Historial de conglomerados

El historial de conglomeración presenta el proceso de elaboración de los


agrupamientos, mostrando los casos combinados en cada etapa y la distancia entre
cada uno. Por ello, una cuestión a tener en cuenta es la opción del “método”, que
permite seleccionar el proceso de agrupamiento y la distancia a utilizar. En este caso,
se utiliza el método de Ward y la distancia euclídea al cuadrado.

Si se analiza el historial de conglomeración, se observa que los coeficientes de


aglomeración van aumentando a medida que pasan las etapas del método, por lo que
habría que identificar aquellos momentos en los que se produce un cambio brusco en
dichos valores. Con esta finalidad, se ha calculado el porcentaje de cambio del
coeficiente de 10 a 2 grupos, obteniéndose los resultados de la Tabla 6.14.

Tabla 6.14. Análisis del coeficiente de aglomeración para el análisis cluster jerárquico
Nº de Coeficiente de Cambio porcentual en el coeficiente del nivel
clusters aglomeración siguiente
10 568.47 4.00
9 591.23 4.22
8 616.15 4.20
7 642.04 4.22

de las variables”. En este caso, las variables se han utilizado de forma similar, mediante escalas
de diferencial semántico de 5 puntos; por ello, no se plantea este problema de datos no estandarizados.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 123 de 147

6 669.10 8.84
5 728.25 9.13
4 794.70 14.79
3 912.25 16.93
2 1066.71 60.86
1 1715.93
Dado que el mayor incremento se produce cuando se va de dos a un conglomerado
(60.86%), seleccionamos la solución de dos conglomerados.

Una vez decidido el número de clusters a considerar, conviene realizar una breve
descripción de las características de cada cluster. Para ello, se obtendrán los perfiles
de las variables consideradas para los dos clusters, lo que permitirá conocer mejor las
diferencias existentes entre ellos. En la Tabla 6.15 se muestran los perfiles de los
clusters obtenidos.

Tabla 6.15. Perfil de las variables (centroides iniciales)


Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
1 (n= 96) 3,21 3,36 3,26 3,21 3,29 3,33 3,33 3,15 3,18 3,19
2 (n= 104) 4,49 4,46 4,42 4,60 4,50 4,53 4,53 4,02 4,43 3,89
Valor F 189,30 148,51 145,43 235,40 168,13 165,72 154,82 38,88 139,73 33,71
Significatividad 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
El SPSS permite guardar una solución única o un rango de soluciones. En este caso,
se ha seleccionado la solución de dos conglomerados, creándose una nueva variable.
En esta primera etapa, no se pretende ofrecer una interpretación de los resultados,
sino asegurar que existen diferencias entre los grupos en función de las variables
utilizadas. Para ello, se ha realizado un ANOVA entre los diferentes segmentos, siendo
el factor la nueva variable, mostrándose el valor F y nivel de significación (Tabla 6.16).

Tabla 6.16. ANOVA


Suma de Media
gl F Sig.
cuadrados cuadrática
Inter-grupos 82,051 1 82,051 189,297 ,000
x1 enfadado-contento Intra-grupos 85,824 198 ,433
Total 167,875 199
Inter-grupos 60,069 1 60,069 148,512 ,000
x2 infeliz-feliz Intra-grupos 80,086 198 ,404
Total 140,155 199
Inter-grupos 67,481 1 67,481 145,429 ,000
x3 descontento-
Intra-grupos 91,874 198 ,464
encantado
Total 159,355 199
Inter-grupos 96,148 1 96,148 235,402 ,000
x4 triste-alegre
Intra-grupos 80,872 198 ,408

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 124 de 147

Total 177,020 199


Inter-grupos 72,887 1 72,887 168,135 ,000
x5 desilusionado-
Intra-grupos 85,833 198 ,434
ilusionado
Total 158,720 199
Inter-grupos 71,348 1 71,348 165,718 ,000
x6 aburrido-entetenido Intra-grupos 85,247 198 ,431
Total 156,595 199
Inter-grupos 71,348 1 71,348 154,821 ,000
x7 decaído-animado Intra-grupos 91,247 198 ,461
Total 162,595 199
Inter-grupos 38,080 1 38,080 38,881 ,000
x8 sereno-
Intra-grupos 193,920 198 ,979
entusiasmado
Total 232,000 199
Inter-grupos 78,702 1 78,702 139,734 ,000
x9 pasivo-activo Intra-grupos 111,518 198 ,563
Total 190,220 199
Inter-grupos 24,933 1 24,933 33,707 ,000
x10 indiferente-
Intra-grupos 146,462 198 ,740
sorprendido
Total 171,395 199

El examen de los perfiles de los dos grupos revela diferencias significativas en todas
las variables para el 0.1% de significación, considerándose una solución pertinente
para proceder al análisis no jerárquico. Los perfiles de los grupos anteriores
constituyen los centroides iniciales, a utilizar en la segunda etapa del análisis cluster,
mediante el método no jerárquico (K-medias).

Tras el análisis cluster no jerárquico, se obtiene una nueva variable “QCL_1” de dos
grupos cuyos valores medios constituyen los centroides finales (Tabla 6.17).

Tabla 6.17. Perfil de las variables (centroides finales)


Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
1 (n= 95) 3,23 3,36 3,24 3,21 3,31 3,31 3,28 3,05 3,13 3,15
2 (n= 105) 4,46 4,46 4,43 4,58 4,48 4,54 4,56 4,10 4,47 3,92
Valor F 159,56 149,37 155,94 222,51 149,88 188,58 198,60 60,38 176,32 42,13
Significatividad 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Dado que estos centroides presentan pautas similares a los iniciales, el análisis cluster
no jerárquico viene a confirmar que la solución anteriormente obtenida es fiable (Hair,
Anderson, Tatham y Black, 1999). Asimismo, es importante destacar que,
análogamente a los centroides iniciales, existen diferencias significativas entre los

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 125 de 147

grupos obtenidos mediante el método K-medias, tal y como se aprecia del análisis de
la varianza27.

La información facilitada en la Tabla 6.17 es esencial para la interpretación y análisis


de perfiles de los grupos identificados. En cada conglomerado o cluster se indica el
valor medio (centroide) de cada una de las variables emocionales. La evaluación de
los perfiles evoca a las dimensiones de las emociones. La dimensión agrado contiene
las variables X1, X2, X3, X4, X5 y X6, mientras que la activación incluye las variables X7,
X8, X9 y X10. De manera análoga al método jerárquico, existen diferencias entre los
grupos en función de las diez variables utilizadas. A la vista de los centroides finales,
se concluye que el primer grupo presenta valores inferiores a los del segundo, por lo
que se puede afirmar que este último se caracteriza por sentir mayor agrado y
activación.

En definitiva, se estima oportuno interpretarlos como “aquellos que sienten menos


emociones” (grupo 1) y “aquellos que sienten mayores emociones” (grupo 2).

Estos resultados sugieren que es factible segmentar a los consumidores en función de


las emociones, confirmándose la hipótesis 1.

Profundizando en el análisis cluster, a continuación se pretende analizar si los sujetos


que pertenecen a cada grupo se comportan de distinta manera respecto a variables
que no se han incluido previamente. Es decir, si cada conglomerado está recogiendo a
grupos con características distintas, cabe esperar que esta diferencia se traduzca en
actitudes o comportamientos también distintos en otros ámbitos (Hair, Anderson,
Tatham y Black, 1999).

Hipótesis 2: La segmentación de consumidores en función de las emociones


explica los diferentes niveles de satisfacción.

La finalidad de esta aplicación no sólo se ciñe a segmentar a los visitantes en función


de sus emociones, sino también a analizar en qué medida esta segmentación explica
los diferentes niveles de satisfacción e intenciones de comportamiento (lealtad y
disposición a pagar más).

Como la segmentación se ha realizado considerando dos grupos, se ha utilizado un


ANOVA no paramétrico, el test de Mann Whitney, que se utiliza cuando no conocemos
el modelo probabilística de las variables dependientes. La variable independiente será
“QCL_1”, obtenida de los centroides finales (Tabla 6.17) y las variables dependientes

27
Para mayor información, puede verse “resultados analisis no jerarquico.spo”.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 126 de 147

serán aquellas que guardan una estrecha relación con las emociones: ítems que
miden la satisfacción, lealtad y disposición a pagar más.

Tabla 6.7. Test de Mann Whitney sobre la satisfacción e intenciones respecto al grupo
de pertenencia
Número inicial Rango Suma U de Sig. Asintót
Variables N Z
de casos promedio de rangos Mann-Whitney (bilateral)
1 95 84,168 7996,0
Satisfacción 1 2 105 115,276 12104,0 3436,0 -3,93 0,000
Total 200
1 95 73,674 6999,0
Satisfacción 2 2 105 124,771 13101,0 2439,0 -6,85 0,000
Total 200
1 95 73,900 7020,5
Satisfacción 3 2 105 124,567 13079,5 2460,5 -6,78 0,000
Total 200
1 95 74,826 7108,5
Satisfacción 4 2 105 123,729 12991,5 2548,5 -6,58 0,000
Total 200
1 95 73,153 6949,5
Satisfacción 5 2 105 125,243 13150,5 2389,5 -6,82 0,000
Total 200
1 95 79,142 7518,5
Lealtad 1 2 105 119,824 12581,5 2958,5 -5,77 0,000
Total 200
1 95 81,432 7736,0
Lealtad 2 2 105 117,752 12364,0 3176,0 -5,11 0,000
Total 200
1 95 75,595 7181,5
Lealtad 3 2 105 123,033 12918,5 2621,5 -6,48 0,000
Total 200
1 95 79,816 7582,5
Lealtad 4 2 105 119,214 12517,5 3022,5 -5,17 0,000
Total 200
1 95 77,100 7324,5
Lealtad 5 2 105 121,671 12775,5 2764,5 -5,76 0,000
Total 200
1 95 93,389 8872,0
Pagar más 1 2 105 106,933 11228,0 4312,0 -1,72 0,085
Total 200
1 95 93,863 8917,0
Pagar más 2 2 105 106,505 11183,0 4357,0 -1,60 0,110
Total 200

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 127 de 147

Del análisis de la Tabla 6.18, se evidencia que el grupo 2 muestra mayor nivel de
satisfacción –en los cinco ítems– con relación al grupo 1, existiendo diferencias
significativas entre ambos grupos. En consecuencia, la hipótesis 2 se acepta.

Hipótesis 3: La segmentación de consumidores en función de las emociones


explica los diferentes niveles de intenciones de comportamiento: (a) lealtad y (b)
disposición a pagar más.

a) Lealtad

En cuanto a la lealtad, se encuentran diferencias significativas para niveles de


significación muy bajos. De manera coherente con la hipótesis 3a, el grupo 2 (mayores
emociones) muestra mayor lealtad en comparación con el grupo 1.

b) Disposición a pagar más

Respecto a la disposición a pagar más, no existen diferencias significativas para un


nivel de significación del 5%, en ninguno de los dos ítems.

Finalmente, para conocer el perfil sociodemográfico de los segmentos obtenidos se


han efectuado tabulaciones cruzadas y el test de Chi-cuadrado.
Tabla 6.19. Perfil de los clusters: características sociodemográficas
Clusters Chi-cuadrado de Pearson
Modalidad Sig. asintótica (bilateral)
1 2 χ2
Hombre 55,79 41,90
Género 3,850 0,050
Mujer 44,21 58,10
18-34 años 31,58 49,52
Edad 35-54 años 64,21 48,57 6,979 0,031
55 y más de 55 4,21 1,90

Como se muestra en la Tabla 6.19, existen diferencias significativas en la composición


de los grupos en relación con el género y la edad.

o En cuanto al género, el grupo que siente mayores emociones (grupo 2), se


caracteriza por un mayor porcentaje de mujeres que de hombres.

o En cuanto a la edad, en el grupo que siente mayores emociones (grupo 2), los
porcentajes son muy similares en los jóvenes de 18 y 34 años y los que tienen entre
35 y 54 años, siendo muy bajo el porcentaje de los que tienen más de 54 años. Sin
embargo, en el grupo que siente menos emociones, los porcentajes son claramente
mayores en los que tienen entre 35 y 54 años.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 128 de 147

6.3.6. Implicaciones

La gestión de las emociones del visitante requiere conocer en qué medida éstas
permiten segmentar a los consumidores. Mediante esta aplicación, empleando el
análisis cluster jerárquico y no jerárquico, se ha realizado un test de Mann Whitney
para comprobar si la segmentación explica los diferentes niveles de satisfacción e
intenciones de comportamiento del turista. Las conclusiones son:

Los segmentos con mayores emociones presentan un mayor nivel de satisfacción,


así como intenciones de comportamiento más favorables. Para las organizaciones
de servicios, el objetivo debería ser maximizar el segmento de consumidores con
mayores emociones.

Dado que la identificación de estos segmentos no es tarea fácil, por el carácter


subjetivo de las emociones, sería útil incorporar variables que midan las
emociones en los estudios que suelen realizarse periódicamente para conocer el
grado de satisfacción de los visitantes.

De esta manera, el análisis continuo de las emociones que sienten los individuos,
constituiría un indicador de interés para evaluar la experiencia del consumidor y,
en definitiva, gestionar las emociones.

6.4. APLICACIÓN 4: POSICIONAMIENTO DE DESTINOS


TURÍSTICOS

6.4.1. Consideraciones previas

Si bien el posicionamiento está estrechamente conectado con la imagen de un destino,


el concepto de posicionamiento va más allá al considerar a ésta en relación con sus
competidores. Así, el posicionamiento del destino deberá establecerse midiendo las
percepciones de los potenciales turistas hacia el mismo en relación con sus
competidores.

Como se indica en el capítulo 16, el análisis de correspondencias simple permite


juzgar objetos según un cierto número de criterios y, por tanto, evaluar las posibles
relaciones entre dos variables nominales. Esta aplicación se centra en el estudio del

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 129 de 147

posicionamiento de nueve zonas turísticas españolas respecto a una serie de


atributos.

6.4.2. Objetivos del análisis

El objetivo del análisis es analizar la imagen percibida de nueve zonas turísticas


españolas, estableciendo si destinos de ciertas zonas geográficas están más
asociados a determinados atributos que a otros.

6.4.3. Metodología

A partir de una investigación realizada a turistas británicos en la Oficina Española de


Turismo (OET) en el Reino Unido se pidió a los entrevistados que anotaran con sus
28
propias palabras un atributo para valorar nueve zonas turísticas (véase anexo 7.3).
Los destinos analizados fueron: Andalucía, Baleares, Benidorm, Canarias, Cataluña,
Comunidad Valenciana, Costa del Sol, Galicia y Madrid. Cada una de las respuestas
abiertas se consideró por separado y se codificó en base a la similitud de su
significado, a fin de hacer un recuento de las opiniones idénticas (Miquel, Bigné, Lévy,
Cuenca y Miquel, 1997). De este modo, el análisis de las respuestas a la pregunta
abierta permitió fijar una clasificación con cinco atributos que caracterizan el destino
(variable nominal): tranquilo, sol-playa, rural-naturaleza, cultural-histórico y
gastronomía.

A través del análisis de correspondencias, como se detalla a continuación, se pueden


identificar las características que los visitantes perciben de diferentes destinos
españoles y, de este modo, comprender las similitudes o diferencias entre ellos.

6.4.4. Información de partida

Se dispone de datos sobre los atributos percibidos de nueve áreas turísticas. Estos
datos se muestran en la Tabla 6.20, donde la intersección entre una fila y una
columna representa el número de individuos que valoran el destino i con el atributo j.
La hoja de cálculo para la resolución mediante el paquete SPSS, se encuentra en la
web con el nombre “datos posicionamiento destinos.sav”.

28
Adaptado de Bigné, Andreu y Cooper (2000).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 130 de 147

Esta aplicación pretende analizar la asociación de determinados destinos con una


serie de atributos. La simple observación de la tabla anterior muestra que el destino
Madrid se asocia con el atributo “cultural-histórico”, mientras que la Comunidad
Valenciana y Galicia se asocian con “gastronomía”. También se asocia los destinos
turísticos costeros y las islas con destinos de sol y playa.

6.4.5. Análisis de resultados

Del análisis se destaca la alta proporción de británicos que asocian Madrid como
destino cultural-histórico o la Comunidad Valencia con gastronomía. Asimismo, las
áreas turísticas que se perciben como de sol-playa se refieren a lugares tradicionales
que los británicos asocian con ir de vacaciones a España (Benidorm, Costa del Sol,
Canarias y Baleares), reflejado en la popularidad de los catálogos de los
touroperadores británicos.

Tabla 6.20. Atributos percibidos de determinadas áreas españolas (valores absolutos)


Tranquil Sol- Rural- Cultural- Gastronomí Tota
o playa naturaleza histórico a l
Madrid 3 1 2 40 5 51
Cataluña 10 5 10 14 2 41
Andalucía 15 15 12 25 5 72
C.
10 12 5 10 28 65
Valenciana
Galicia 25 5 28 15 15 88
Costa del
8 34 2 1 2 47
Sol
Benidorm 7 47 2 1 1 58
Canarias 10 40 10 1 1 62
Baleares 15 30 8 1 2 56
Total 103 189 79 108 61 540
Fuente: Adaptado de Bigné, Andreu y Cooper (2000)

Para el Análisis de Correspondencias Simple se parte de la Tabla 6.20, expresándola


en porcentajes. (Luque, 2000). Esta matriz servirá para obtener los perfiles fila y
columna que contienen las frecuencias relativas condicionadas, presentados en las
Tablas 6.21 y 7.22.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 131 de 147

Tabla 6.21. Perfiles de fila y masas de los datos


Atributos
Destinos Sol- Rural- Cultural- Margen
Tranquilo Gastronomía
playa naturaleza histórico activo
Madrid ,059 ,020 ,039 ,784 ,098 1,000
Cataluña ,244 ,122 ,244 ,341 ,049 1,000
Andalucía ,208 ,208 ,167 ,347 ,069 1,000
C. Valenciana ,154 ,185 ,077 ,154 ,431 1,000
Galicia ,284 ,057 ,318 ,170 ,170 1,000
Costa del Sol ,170 ,723 ,043 ,021 ,043 1,000
Benidorm ,121 ,810 ,034 ,017 ,017 1,000
Canarias ,161 ,645 ,161 ,016 ,016 1,000
Baleares ,268 ,536 ,143 ,018 ,036 1,000
Masa ,191 ,350 ,146 ,200 ,113
Se comprueba que las conclusiones obtenidas anteriormente permanecen inalteradas
ya que, por ejemplo, la Tabla 6.21 muestra que Madrid es considerada como cultural-
histórica por el 78,4% de los entrevistados, mientras que el destino Benidorm se
asocia con sol-playa por un 81%.

La masa o peso es la frecuencia relativa marginal, en este caso de cada una de las
cualidades contempladas. Por tanto, la cualidad que más pesa es sol-playa, (35%)
seguida de cultural-histórico (20%) y tranquilidad (19,1%).

En cuanto a los perfiles de columna, la Tabla 6.22 muestra que el atributo cultural-
histórico se asocia a Madrid (37%) y Andalucía (23,1%), mientras que el gastronómico
a la Comunidad Valenciana y Galicia, con el 45,9% y 24,6%, respectivamente.

Tabla 6.22. Perfiles de columna y masas de los datos


Atributos
Destinos Sol- Rural- Cultural-
Tranquilo Gastronomía Masa
playa naturaleza histórico
Madrid ,029 ,005 ,025 ,370 ,082 ,094
Cataluña ,097 ,026 ,127 ,130 ,033 ,076
Andalucía ,146 ,079 ,152 ,231 ,082 ,133
C.
,097 ,063 ,063 ,093 ,459 ,120
Valenciana
Galicia ,243 ,026 ,354 ,139 ,246 ,163
Costa del Sol ,078 ,180 ,025 ,009 ,033 ,087
Benidorm ,068 ,249 ,025 ,009 ,016 ,107
Canarias ,097 ,212 ,127 ,009 ,016 ,115
Baleares ,146 ,159 ,101 ,009 ,033 ,104
Margen
1,000 1,000 1,000 1,000 1,000
activo

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 132 de 147

La masa o peso es la frecuencia relativa marginal, en este caso de cada uno de los
destinos considerados. Por tanto, el destino con un mayor peso es Galicia (16,3%),
seguida de Andalucía (13,3%) y la Comunidad Valenciana (12%)..

Una vez analizados los perfiles de ambas variables, se debe contrastar si realmente
existe algún tipo de asociación entre las mismas. Esto se realiza a través del contraste
χ2 de independencia que viene incorporado en los resultados que aporta el SPSS.

Tabla 6.23. Indicadores de ajuste de la solución del análisis de correspondencias.


Resumen
Confianza para el Valor
Valor Chi- Proporción de inercia
Dimensión Inercia Sig. propio
propio cuadrado
Desviación
Explicada Acumulada Correlación
típica
2
1 ,664 ,441 ,608 ,608 ,026 ,318
2 ,414 ,171 ,236 ,844 ,046
3 ,330 ,109 ,150 ,994
4 ,064 ,004 ,006 1,000
a
Total ,725 391,765 ,000( ) 1,000 1,000
Nota: (a) 32 grados de libertad
Así, en la Tabla 6.23, el valor χ2 de la función de decisión del contraste de
independencia es igual a 391,765, con un área a la derecha del 0,000, por lo que, a un
nivel de significación del 1%, habría suficiente evidencia empírica para rechazar la
hipótesis de independencia.

En definitiva, hay evidencia significativa de que existe asociación entre los destinos y
las cualidades considerados, por lo que tiene sentido aplicar un Análisis de
Correspondencias Simple.

Por otra parte, como el número de modalidades contempladas en la variable que


menor número tiene es de 5, los factores o ejes que podemos obtener son 4. En la
Tabla 6.23 aparecen los valores propios, que se pueden interpretar como la
correlación entre las puntuaciones fila y columna, y la inercia o varianza explicada en
cada eje (que es el cuadrado de los valores propios), así como su proporción respecto
a la inercia total. Cuanto mayor sea la inercia, más alejados estarán unos de otros los
puntos que representan a cada zona turística.

Así, la primera dimensión muestra el 60,8% de la inercia total, mientras que la


segunda muestra el 23,6%. Por tanto, los dos primeros ejes explican un 84,4% de la
información original o inercia total, de tal forma que la representación de los perfiles
sobre el plano ofrecería una visión adecuada de las distancias originales. Como la

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 133 de 147

tercera dimensión o eje aporta sólo un 1,5% a la solución, no vale la pena incluirla en
el análisis porque sólo aportaría una mayor complejidad a la interpretación de los
resultados.

En las Tablas 6.24 y 7.25 se muestran las puntuaciones de los distintos puntos
(perfiles) fila y columna en las dimensiones objeto de análisis. Estas puntuaciones son
las que posteriormente permitirán realizar una representación gráfica de los mismos.

Tabla 6.24. Examen de los puntos fila


Puntuación en
Contribución
la dimensión
De los puntos a la
Destinos Masa Inercia De la dimensión a la
inercia de la
1 2 inercia del punto
dimensión
1 2 1 2 Total
Madrid ,094 -1,494 1,223 ,207 ,317 ,341 ,677 ,283 ,959
Cataluña ,076 -,559 ,173 ,028 ,036 ,005 ,569 ,034 ,603
Andalucía ,133 -,439 ,298 ,025 ,039 ,029 ,684 ,196 ,881
C. Valenciana ,120 -,426 -1,099 ,123 ,033 ,351 ,118 ,489 ,606
Galicia ,163 -,478 -,718 ,086 ,056 ,203 ,288 ,405 ,693
Costa del Sol ,087 ,964 ,258 ,059 ,122 ,014 ,911 ,041 ,951
Benidorm ,107 1,122 ,438 ,104 ,203 ,050 ,867 ,082 ,949
Canarias ,115 ,845 ,145 ,058 ,123 ,006 ,935 ,017 ,952
Baleares ,104 ,674 -,051 ,036 ,071 ,001 ,865 ,003 ,868
Total activo 1,000 ,725 1,000 1,000

o Factor 1

Del examen de los puntos fila se observa que cuatro destinos, Madrid, Benidorm,
Canarias y Costa del Sol explican el 76,5% del factor. Madrid en el campo negativo (-
1,494) y los tres restantes en el positivo (1,122, 0,845 y 0,964, respectivamente). Estos
destinos tienen contribuciones de la dimensión a la inercia del punto (contribución
relativa) altas: Madrid (0,677), Costa del Sol (0,911), Benidorm (0,867) y Canarias
(0,935).

o Factor 2

Tres destinos, Madrid, Comunidad Valenciana y Galicia explican el 89,5% del factor. El
primero en el campo positivo (1,223) y los dos restantes en el negativo (-1,099 y -
0,718, respectivamente). Estos destinos tienen contribuciones de la dimensión a la
inercia del punto (contribución relativa) altas: Madrid (0,283), Comunidad Valenciana
(0,489) y Galicia (0,405).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 134 de 147

Tabla 6.25. Examen de los puntos columna


Puntuación en la
Contribución
dimensión
De los puntos a la
Atributos Masa Inercia De la dimensión a la
inercia de la
1 2 inercia del punto
dimensión
1 2 1 2 Total
Tranquilo ,191 ,018 -,311 ,025 ,000 ,045 ,002 ,305 ,307
Sol-playa ,350 ,965 ,300 ,236 ,490 ,076 ,916 ,055 ,971
Rural-naturaleza ,146 -,216 -,471 ,065 ,010 ,079 ,070 ,206 ,276
Cultural-histórico ,200 -1,204 ,846 ,254 ,436 ,346 ,759 ,233 ,993
Gastronomía ,113 -,608 -1,291 ,145 ,063 ,455 ,191 ,537 ,728
Total activo 1,000 ,725 1,000 1,000
Nota: Normalización Simétrica

En cuanto al análisis de los puntos columna se observa lo siguiente:

o Factor 1

Dos atributos (sol-playa y cultural-histórico) explican el 92,6% del factor. El atributo sol-
playa tiene una puntuación positiva (0,965), mientras que cultural-histórico puntúa en
el campo negativo (-1,204). Ambos atributos tienen buena calidad de representación
sobre el eje (sol-playa, 0,916 y cultural-histórico, 0,759).

o Factor 2

El atributo gastronomía tiene una puntuación negativa (-1,291), mientras que cultural-
histórico puntúa en la parte positiva (0,846). La calidad de la representación de estos
atributos es de 0,537 y 0,223, respectivamente.

 De la asociación de los destinos con los atributos del factor 1, se pone de


manifiesto que la parte positiva de esta dimensión agrupa los destinos
vacacionales de sol y playa, frente a la parte negativa con destinos de tipo cultural
e histórico.

 La asociación de los destinos con los atributos del factor 2, permite señalar que,
en la parte positiva se sitúa destinos asociados a histórico-cultural mientras que la
parte negativa agrupa a destinos asociados con la riqueza gastronómica
(Comunidad Valenciana y Galicia).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 135 de 147

Ello nos servirá para interpretar adecuadamente la representación gráfica de los


resultados del análisis de correspondencias, que consiste en planos compuestos por
las dos dimensiones, en donde se pueden representar los puntos fila, los puntos
columna o ambos de forma simultánea (Miquel, Bigné, Lévy, Cuenca y Miquel, 1997).
El Gráfico 6.6 es un gráfico de dispersión, realizado a partir de las puntuaciones o
distancias al origen de los dos factores para filas y columnas, obtenidas de las Tablas
6.24 y 7.25.

Gráfico 6.6. Representación de la solución bidimensional de las dos primeras


dimensiones

Nos muestra que, en general 29, existe una fuerte vinculación entre las zonas turísticas
y los atributos percibidos de los mismos, corroborándose los resultados anteriores. En
este gráfico se puede observar la proximidad clara de los destinos de sol y playa,
posicionados en la parte positiva de la dimensión 1 y 2, con Canarias y Benidorm.

29
De la representación gráfica se observa la proximidad al eje de coordenadas de los perfiles fila y
columna de Andalucía, Baleares y Cataluña, así como de los atributos: tranquilo y rural-naturaleza. La
baja contribución relativa a la explicación de los dos factores dificulta su caracterización.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 136 de 147

Igualmente, los destinos Comunidad Valenciana y Galicia tienen una clara asociación
con la gastronomía, situados en la parte negativa de la dimensión 2.

6.4.6. Implicaciones

El análisis de correspondencias es una técnica que, pese a su utilidad, no ha sido tan


utilizada como otras en el ámbito de las ciencias sociales (Uriel y Aldás, 2005). En esta
aplicación se ha utilizado dicha técnica, ilustrándose con un ejemplo que aborda la
relación existente entre dos variables no métricas: destinos turísticos y atributos. Las
conclusiones más relevantes son:

Canarias, Benidorm y la Costa del Sol son destinos percibidos como similares por
los turistas, lo que implica que pueden ser vistos como sustitutivos a la hora de
satisfacer el deseo de practicar turismo de sol y playa.

Destaca la posición que ocupa Madrid, que es percibido como un destino único no
similar a ninguna de las zonas analizadas.

Andalucía y Cataluña poseen una imagen similar, por lo que serían competidores
importantes.

Por último, aunque tanto Galicia como la Comunidad Valenciana se asocian con la
gastronomía, esta asociación es más fuerte para la Comunidad Valenciana,
mientras que Galicia también es percibida como un destino rural o de naturaleza.

6.5. APLICACIÓN 5: SEGMENTACIÓN DE TURISTAS EN


FUNCIÓN DE LAS MOTIVACIONES DE VIAJE A UN
DESTINO

6.5.1. Consideraciones previas

El análisis de las motivaciones del turista cuando viaja a un destino turístico adquiere
especial relevancia para las organizaciones que gestionan los destinos turísticos. La
identificación de las motivaciones del turista facilitará el desarrollo de una oferta
turística que satisfaga sus necesidades. Ante la diversidad de motivaciones y su

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 137 de 147

vínculo a destinos específicos, el estudio de las motivaciones como variable de


segmentación ha generado una creciente atención a nivel internacional.

El mercado británico es el mercado emisor de mayor relevancia en destinos de sol y


playa, como es el caso de Marmaris (Turquía), destino que cuenta con atractivos
recursos culturales y naturales. A lo largo de esta aplicación se utilizan técnicas
univariantes (frecuencias, medias), bivariantes (tablas cruzadas, ANOVA) y
multivariantes (análisis cluster) sobre datos procedentes de un estudio empírico
realizado a turistas británicos que visitaron el destino mencionado30. Con el fin de
facilitar la comprensión del análisis cluster, en este capitulo se han considerado
únicamente 30 observaciones.

6.5.2. Objetivos del análisis

La aplicación que aquí se presenta tiene tres objetivos:

Conocer las principales razones por las que los turistas británicos deciden viajar a
Marmaris.

Identificar si existen diferentes segmentos de turistas en función de las


motivaciones del viaje.

Analizar, en su caso, el perfil de los distintos grupos de turistas británicos que viajan
a Marmaris.

6.5.3. Metodología

La investigación se realizó mediante encuesta personal a turistas británicos que iban a


visitar Marmaris, realizándose durante el trayecto en autobús desde el aeropuerto local
(Dalaman) a Marmaris, cuyo recorrido tiene una duración aproximada de una hora.
Teniendo en cuenta los objetivos del estudio, se realizó una investigación cuantitativa,
en la que se incluyeron preguntas relativas a las motivaciones, edad del entrevistado y
tiempo de estancia en el destino. En la medición de las motivaciones se consideraron
cinco ítems medidos en una escala de 7 puntos (de 1, nada importante a 7,
extremadamente importante):

1. Disfrutar de la naturaleza-playas

30
Adaptado de Andreu, Kozak, Avci y Cister (2005)

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 138 de 147

2. Visitar lugares históricos

3. Disfrutar del buen tiempo

4. Beneficiarse de tarifas aéreas

5. Conocer una cultura diferente

La edad se midió mediante una variable ordinal (menos de 30 años, entre 30 y 60


años, más de 60 años) y, de manera análoga, la estancia media (menos de 4 días,
entre 4 y 7 días, y más de 7 días).

6.5.4 Información de partida

Con el fin de alcanzar los objetivos planteados, se dispone de los datos


correspondientes a las variables que se utilizan en el análisis (“datos cluster
motivaciones.sav”).

6.5.5. Análisis de resultados

Conocer las principales razones por las que los turistas británicos deciden
viajar a Marmaris.

El análisis descriptivo de las motivaciones de los turistas permite dar respuesta al


primer objetivo.

Tabla 6.26. Estadísticos descriptivos


Variables N Mínimo Máximo Media Desv. típ. CVP
disfrutar naturaleza/playas 30 1 7 3,07 2,20 71,61
visitar lugar histórico 30 1 7 3,50 2,39 68,25
disfrutar buen tiempo 30 1 6 2,33 1,84 79,05
beneficiarse de tarifas aéreas 30 1 7 3,57 1,74 48,66
conocer cultura diferente 30 1 7 3,10 2,16 69,52
N válido (según lista) 30

Considerando el total de la muestra (n=30), las motivaciones para viajar al destino


turístico Marmaris por los británicos, por orden de importancia, son: beneficiarse de
tarifas aéreas (3,57), visitar un lugar histórico (3,50), conocer una cultura diferente
(3,10), disfrutar de la naturaleza/playas (3,07) y disfrutar del buen tiempo (2,33).
Hemos calculado el Coeficiente de Variación de Pearson, que es una medida de

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 139 de 147

dispersión relativa que nos permite estimar las variables con una media más o menos
representativa. Según los resultados, la media menos representativa es la referida a la
variable “beneficiarse de tarifas aéreas”, mientras que la más representativa es
“disfrutar buen tiempo”.

Conocer las principales razones por las que los turistas británicos deciden
viajar a Marmaris.

Para la consecución de este objetivo debemos realizar una segmentación de turistas


en función de las motivaciones del viaje. Partiendo de una matriz de datos formada por
30 individuos y cinco variables cuantitativas (escalas de 1 a 7 puntos) se pretende
analizar la existencia de segmentos de turistas en función de las motivaciones
utilizando el análisis cluster. Los grupos que se formen presentarán un valor elevado
de similitud entre sí. Considerando como medida de similitud la distancia euclídea al
cuadrado, ya que las variables que intervienen son cuantitativas, obtendremos la
matriz de distancias.

La siguiente fase consiste en agrupar los individuos. El historial de conglomeración fue


el siguiente:

Tabla 6.27. Historial de conglomeración


Etapa en la que el
Conglomerado que se
conglomerado aparece por Próxim
Etap combina Coeficient
primera vez a
a es
Conglomera Conglomera Conglomera Conglomera etapa
do 1 do 2 do 1 do 2
1 3 30 ,000 0 0 10
2 16 29 ,000 0 0 22
3 8 27 ,000 0 0 18
4 23 26 ,000 0 0 11
5 12 21 ,000 0 0 16
6 11 24 ,500 0 0 23
7 19 20 1,000 0 0 13
8 1 18 1,500 0 0 10
9 5 17 2,500 0 0 21
10 1 3 3,750 8 1 12
11 23 28 5,083 4 0 24
12 1 13 6,533 10 0 15
13 15 19 8,033 0 7 21
14 4 6 9,533 0 0 19
15 1 14 11,333 12 0 20
16 2 12 13,333 0 5 17

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 140 de 147

17 2 7 15,333 16 0 26
18 8 25 18,000 3 0 22
19 4 10 21,167 14 0 25
20 1 22 24,452 15 0 25
21 5 15 29,452 9 13 26
22 8 16 37,586 18 2 24
23 9 11 47,086 0 6 27
24 8 23 56,827 22 11 28
25 1 4 71,775 20 19 29
26 2 5 95,997 17 21 27
27 2 9 122,525 26 23 28
28 2 8 311,100 27 24 29
29 1 2 626,100 25 28 0

Analizando los coeficientes de aglomeración en la obtención de conglomerados (véase


Tabla 6.30), se destacan importantes incrementos que van desde los tres a los dos
conglomerados (311,10-122,52 = 188,58) y de dos a uno (626,10-311,10 = 315).

A continuación, se ha calculado el porcentaje de cambio del coeficiente de obtención


de conglomerados de 10 a 2.

Tabla 6.28. Análisis del coeficiente de aglomeración para el análisis cluster jerárquico
Diferencia del coeficiente Cambio porcentual en
Número de Coeficiente de
de aglomeración entre el coeficiente del nivel
clusters aglomeración
etapas siguiente
10 24,452 3,29 20,45
9 29,452 5,00 27,60
8 37,586 8,13 25,28
7 47,086 9,50 20,69
6 56,827 9,74 26,31
5 71,775 14,95 33,74
4 95,997 24,22 27,64
3 122,525 26,53 153,91
2 311,100 188,58 101,25
1 626,100 315,00

Como el mayor incremento se produce cuando se va de tres a dos conglomerados


(153,91%), se considera razonable la solución de tres conglomerados. Para la decisión
del número de grupos a retener es también de gran utilidad el denominado
dendograma, traducción gráfica del historial de aglomeración (Uriel y Aldás, 2005).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 141 de 147

En el Gráfico 6.7 se muestra el dendograma obtenido para esta aplicación, donde


puede observarse la elección de tres clusters, mediante el gran salto marcado con una
línea de puntos discontinuos.

Así, los grupos están formados por los siguientes individuos:

o Grupo 1: 3, 30, 1, 18, 13, 14, 22, 4, 6 y 10.

o Grupo 2: 23, 26, 28, 16, 29, 8, 27 y 25.

o Grupo 3: 11, 24, 9, 12, 21, 2, 7, 5, 17, 19, 20 y 15.

Con el análisis de las características de estos individuos podremos afrontar el tercer


objetivo de esta aplicación

Gráfico 6.5 Dendograma

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 142 de 147

Analizar, en su caso, el perfil de los distintos grupos de turistas británicos


que viajan a Marmaris

Para ello, debemos realizar una descripción de los clusters resultantes y sus
características. Lo haremos utilizando el análisis de la varianza de un factor, donde la
variable independiente está formada por los tres grupos considerados y las variables
dependientes son las incluidas inicialmente. En la Tabla 6.29 se han obtenido los
valores medios de las cinco variables incluidas en la matriz de datos de partida, para
los grupos de individuos pertenecientes a cada uno de los tres clusters31.

Tabla 6.29. Perfil de las variables (centroides iniciales)


Cluster 1 Cluster 2 Cluster 3
Motivos Valor F Sig
(N=10) (N=12) (N=8)
Disfrutar naturaleza/playas 1,50 2,25 6,25 58,431 ,000
Visitar lugar histórico 6,40 2,75 1,00 77,139 ,000
Disfrutar buen tiempo 1,50 1,08 5,25 257,415 ,000
Beneficiarse de tarifas aéreas 2,10 4,83 3,50 11,828 ,000
Conocer cultura diferente 5,80 2,17 1,13 76,783 ,000
Nota: 1, para nada importante a 7, extremadamente importante

El análisis de los perfiles de los tres clusters pone de relieve grupos significativamente
diferentes para el 0,1% de significación, considerándose la solución pertinente para
proceder al análisis no jerárquico. Como se ha indicado en el epígrafe 7.4, los perfiles de
los grupos obtenidos en la etapa jerárquica constituyen los centroides iniciales de la
segunda etapa del análisis cluster basada en el método no jerárquico.

Los resultados indican que los centroides finales son prácticamente idénticos (véase
“resultados cluster no jerarquico.spo”). Este hecho confirma la estabilidad de los clusters
formados y que la aproximación de centroides proporcionada por el análisis de
conglomerados jerárquicos estaba ya muy próxima a la solución óptima para ese
número de grupos (Uriel y Aldás, 2005).

La interpretación de los grupos puede realizarse mediante el análisis de los centroides


finales que, como se ha mencionado, en esta aplicación coincide con los centroides
iniciales (véase Tabla 6.30).

Tabla 6.30. Perfil de las variables (centroides finales)

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 143 de 147

visitar disfrutar beneficiarse conocer


disfrutar
Cluster lugar buen de tarifas cultura
naturaleza/playas
histórico tiempo aéreas diferente
1 (n=10) 1,50 6,40 1,50 2,10 5,80
2 (n=12) 2,25 2,75 1,08 4,83 2,17
3 (n=8) 6,25 1,00 5,25 3,50 1,13
(*)
Valor F 58,431 77,139 257,415 11,828 76,783
Significatividad ,000 ,000 ,000 ,000 ,000
Nota: (*) Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que
los conglomerados han sido elegidos para maximizar las diferencias entre los
casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo
que no pueden interpretarse como pruebas de la hipótesis de que los centros de
los conglomerados son iguales.

De este análisis, se concluye la existencia de tres grupos con las siguientes


características:

o El primer grupo se caracteriza por su motivación hacia los recursos naturales del
destino turístico, bien para el disfrute de la naturaleza o de sus playas, acompañado
de buen tiempo.

o El segundo grupo se caracteriza principalmente por la motivación económica


derivada de los beneficios de compañías aéreas.

o El tercer grupo recoge personas con motivaciones culturales a la hora de viajar a un


destino turístico.

Junto al análisis de las motivaciones, resulta de interés analizar las variables que
pueden caracterizar a los segmentos obtenidos. Como se muestra en la Tabla 6.31,
existen diferencias significativas en la composición de los grupos en relación con la edad
y la estancia mínima.

Tabla 6.31. Perfil de los clusters: edad y estancia media


Cluster 1 Cluster 2 Cluster 3 Valor
Motivos Motivos Motivo Chi- Sig
culturales económicos playa cuadrado
Menos de 30 20,0% 41,7% ,0%
Edad Entre 30 y 60 60,0% ,0% ,0% 20,672 ,000
Mas de 60 20,0% 58,3% 100,0%
Menos de 4
60,0% ,0% ,0%
días
Estancia
Entre 4 y 7 16,286 ,003
media ,0% 33,3% 37,5%
días
Más de 7 días 40,0% 66,7% 62,5%

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 144 de 147

 Respecto a la edad:

o El cluster 1 (motivos culturales) está formado por un 60% de personas entre 30 y


60 años.

o El cluster 2 (motivos accesibilidad económica) incluye un 47,7% de jóvenes de


menos de 30 años y un 58,3% de turistas más de 60 años.

o El cluster 3 (motivos playa) está formado por personas de más de 60 años

 Respecto a la estancia media,

o El cluster 1 se caracteriza por personas que visitan el destino tanto menos de 4


días como más de 7 días.

o En cambio, el cluster 2 y el cluster 3 se caracterizan por una estancia media de


más de 7 días.

6.6. CASO PROPUESTO: MEDICIÓN DE LA CALIDAD DE


SERVICIO PERCIBIDA EN AGENCIAS DE VIAJE

6.6.1. Consideraciones previas

Las agencias de viaje desempeñan un papel fundamental en la distribución turística


gracias a su función de intermediación, productora y asesora (Bigné, Martínez, Miquel
y Belloch, 1996). Sin embargo, el desarrollo de canales de distribución alternativos
propiciados por las nuevas tecnologías plantea amenazas importantes a este sector.
Esta situación intensifica todavía más la importancia que adquiere la calidad de
servicio, que se convierte en un factor clave en la gestión desarrollada por las
agencias de viaje. Así, una elevada calidad de servicio ejerce un fuerte impacto en la
diferenciación de las agencias y en la consecución de la lealtad de sus clientes.

Dadas las características específicas de los servicios (intangibilidad, heterogeneidad,


simultaneidad producción-consumo y carácter perecedero), no es posible medir la
calidad de forma objetiva en los servicios. Por consiguiente, la calidad del servicio se

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 145 de 147

convierte en un fenómeno subjetivo y difícil de medir. Así, esta se define como la


percepción de los clientes sobre la divergencia entre lo que éstos esperan obtener del
servicio y lo que realmente obtienen.

Teniendo en cuenta que las empresas deben seguir una orientación al consumidor
para conseguir una medición de la calidad en servicios, Parasuraman, Zeithaml y
Berry (1988) desarrollaron una escala de medición de calidad de servicio denominada
SERVQUAL, que ha sido ampliamente utilizada en la literatura pese a sus críticas
(Buttle, 1996). Dicha escala estaba formada por 22 ítems, debiendo medirse tanto las
expectativas como las percepciones sobre los mismos y calcular la calidad de servicio
percibida como la diferencia entre ambos. Los autores obtuvieron que la escala se
estructuraba en cinco dimensiones subyacentes, recogiéndose en el cuadro 7.1 la
asignación de los ítems a cada una de las dimensiones:

• Elementos tangibles: la apariencia de instalaciones físicas, equipos, personal,


materiales de comunicación.

• Fiabilidad: habilidad para ejecutar el servicio prometido de forma fiable y


cuidadosa. Se manifiesta por aspectos como la correcta prestación del servicio la
primera vez y el cumplimiento de las promesas hechas al cliente.

• Capacidad de respuesta: voluntad y destreza de los empleados para ayudar a


clientes y proveerlos de servicio rápido.

• Seguridad: hace referencia a los conocimientos (profesionalidad) y atención


mostrados por los empleados (cortesía), así como sus habilidades para inspirar
credibilidad y confianza.

• Empatía: característica que va más allá de la cortesía profesional y hace


referencia a la prestación de un servicio esmerado e individualizado (accesibilidad,
comunicación y comprensión /conocimiento del cliente).

Cuadro 6.1. Escala SERVQUAL adaptada a las Agencias de Viaje


DIMENSIONES DECLARACIONES
1. Tienen equipos y nuevas tecnologías de apariencia moderna.
2. Las instalaciones físicas son cómodas y visualmente atractivas.
ELEMENTOS 3. Los empleados tienen apariencia pulcra.
TANGIBLES 4. Los elementos materiales y la documentación relacionada con el servicio
(visualización del destino, alojamiento y similares) son visualmente
atractivos.
5. Cuando prometen hacer algo en cierto tiempo, lo hacen.
FIABILIDAD 6. Cuando el cliente tiene un problema muestran un sincero interés en
solucionarlo.

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 146 de 147

7. Habitualmente prestan bien el servicio.


8. Prestan su servicio en el tiempo acordado.
9. Insisten en no cometer errores en sus registros.
10. Los empleados informan puntualmente y con sinceridad acerca de todas
las condiciones del servicio.
CAPACIDAD 11. Los empleados ofrecen un servicio rápido y ágil a sus clientes.
DE 12. Los empleados siempre están dispuestos a ayudar a los clientes.
RESPUESTA 13. Los empleados dedican a cada cliente el tiempo necesario para responder
a sus preguntas.
14. El comportamiento de los empleados trasmite confianza a sus clientes.
15. Los clientes se sienten seguros en sus transacciones con la agencia.
SEGURIDAD 16. Los empleados son siempre amables con sus clientes.
17. Los empleados tienen conocimientos de los productos y servicios que
ofrecen para responder a las preguntas de sus clientes.
18..Los empleados hacen un seguimiento personalizado de cada cliente.
19.Tienen horarios de trabajo flexibles y adaptados a los diversos tipos de
clientes.
EMPATÍA
20.Ofrecen información y atención personalizada a sus clientes.
21.Buscan lo mejor para los intereses de sus clientes.
22.Comprenden las necesidades específicas de sus clientes.
Fuente: Bigné, Martínez, Miquel. y Belloch (1996)

6.6.2. Objetivo del análisis

El objeto central del presente trabajo se centra en analizar la viabilidad de aplicar la


escala SERVQUAL para medir la calidad percibida por los clientes de agencias de
viaje32.

6.6.3. Metodología

El estudio empírico comprende tanto una fase cualitativa como una fase cuantitativa.
El enfoque cualitativo tenía un claro objetivo de adecuación de la escala genérica de
SERVQUAL al ámbito de las agencias de viaje. Para ello, se desarrolló un análisis
Delphi compuesto por un panel integrado por 14 expertos nacionales, escogidos tanto
del ámbito público y privado del sector turístico, como del ámbito académico, con
experiencia y conocimientos del sector y de calidad del servicio.

Tras el análisis cualitativo, se procedió a un estudio cuantitativo entre usuarios de


agencias de viaje. En él se asumió que la población era infinita a efectos del cálculo
muestral. Así mismo, se pensó que era más adecuado distribuir la muestra

32
Adaptado de Bigné, Martínez y Miquel (1997).

ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 147 de 147

proporcionalmente a la población y al número de agencias de viaje. La población


estudiada está formada por individuos que habían requerido algún servicio de las
agencias de viaje antes y después de las vacaciones de Semana Santa en un
importante destino turístico del mediterráneo español, la Comunidad Valenciana. Con
el fin de obtener una adecuada representatividad de los datos, se escogió una muestra
de 326 individuos, lo que implica un error máximo del +5,43% para un nivel de
confianza del 95,5%.

La investigación se desarrolló mediante entrevista personal con cuestionario


estructurado que incluía la escala SERVQUAL en su versión revisada.

6.6.4. Información de partida

Para desarrollar el ejemplo y poder responder a los objetivos propuestos, se dispone


de los datos, que se pueden ver en la web en el fichero “Calidad de servicio
AAVV.sav”, correspondientes a las variables que van a utilizarse en el análisis,
recogidas en el anexo 7.4 referido al cuestionario utilizado.

6.6.5. Cuestiones

A. ¿Qué técnicas estadísticas utilizaría para la consecución del objetivo propuesto?.

B. Una vez utilizadas, ¿Cuáles son las principales conclusiones que obtiene en función
del objetivo propuesto?.

ISBN: 978-84-616-5991-3

También podría gustarte