Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Investigación Turística
Autores:
ÍNDICE
ISBN: 978-84-616-5991-3
Análisis Multivariante Aplicado a la Investigación Turística
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 4 de 147
CAPÍTULO 1
RESUMEN:
Según la Organización mundial del turismo, (OMT), “el turismo son las actividades que desarrollan
las personas durante sus viajes y estancias fuera de su entorno habitual por un período de tiempo
inferior a un año con fines de ocio, negocio u otros motivos no relacionados con el ejercicio de una
actividad remunerada en el lugar de destino”. Por otra parte, la Estadística forma parte de los
métodos cuantitativos que utiliza la Ciencia Económica para describir, analizar, predecir y
modelizar la realidad. Sus métodos son imprescindibles en la ciencia económica, no sólo para la
búsqueda de información (tanto cualitativa como cuantitativa), sino para ayudarle a cuantificar,
contrastar e interpretar la realidad en un mundo de incertidumbre.
Con esta obra, además de explicar lo que es el Turismo y la Estadística, se ha querido producir:
Un manual que permita a los estudiantes reflexionar evaluando sus propios trabajos;
incluso, darles la posibilidad de compararlos con otros, ya que en la investigación turística,
más allá de poseer métodos de investigación apropiados o no, lo importante es tener claros
nuestros objetivos de trabajo.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 5 de 147
1.1.- EL TURISMO Y LA ESTADÍSTICA
1.1.1. El Turismo
Según la Organización mundial del turismo, (OMT), “el turismo son las actividades que desarrollan
las personas durante sus viajes y estancias fuera de su entorno habitual por un período de tiempo
inferior a un año con fines de ocio, negocio u otros motivos no relacionados con el ejercicio de una
1
actividad remunerada en el lugar de destino” .El turismo es una actividad muy importante en un
gran número de países, de forma que en muchos de ellos es su principal fuente de divisas, lo cual
2
puede entenderse si analizamos la tabla 1.1 , referida al número de llegadas turísticas
internacionales en el año 2002, según la OMT.
Tabla 1.1
Llegada de turistas
Cuota de
internacionales Variación
mercado
Continentes (millones)
2000/199 2005/199
1995 2000 2002 2004 2005 1995 2000 2005
5 5
Europa 313,1 393,8 404,8 422,9 443,8 58,0 57,3 54,9 25,8 41,7
Asia y
82,7 111,4 126,1 145,5 156,2 15,3 16,2 19,3 34,6 88,8
Pacífico
América 109,0 128,2 116,8 125,7 133,1 20,2 18,7 16,5 17,6 22,1
África 20,3 28,2 29,6 33,4 36,7 3,8 4,1 4,5 38,8 80,7
Oriente
14,3 25,2 29,2 36,3 38,4 2,7 3,7 4,8 76,5 168,5
medio
100, 100, 100,
Mundo 539,5 686,7 706,4 763,9 808,2 27,3 49,8
0 0 0
Fuente: OMT (www.world-tourist.org) y elaboración propia
A la vista de estos datos, en el año 2005 se rebasó los 800 millones de llegadas turísticas en el
mundo, con un incremento del 49,8% respecto al año 1995, siendo el destino con mayor cuota de
mercado Europa y, a mucha distancia, América Asia y el Pacífico, destino este último que ha
pasado a segundo lugar en 2005.
1
OMT. Recomendaciones sobre estadísticas en Turismo. Organización Mundial del Turismo.
1998.
2
Uriel, E.; Hernández, R et all. Análisis y tendencias del turismo. Ed Pirámide. 2004.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 6 de 147
Gráfico 1.1
450,0
400,0
350,0
300,0
250,0
200,0 1995
150,0 2000
100,0
50,0 2005
0,0
Europa Asia y América África Oriente
Pacífico medio
Continentes
Como vemos en el gráfico 1.1, todos los continentes tienen una variación positiva en el número de
llegadas turísticas internacionales, destacando el Oriente Medio, Asia y Pacífico y África con un
168,5%, 88,8% y 80,7% respectivamente.
En cuanto a la cuota de mercado, Europa sigue siendo el Continente con mayor cuota de
mercado, aunque entre 1995 y 2005 se ha ido reduciendo, pasando del 58% en 1995 al 54,9% en
2005. También se reduce la cuota de mercado de América que en 1995 era el segundo destino
más importante con un 20,2% de cuota de mercado y en 2005 bajó al 16,5%. Ello, a favor sobre
todo de Asia y Pacífico, que pasan del 15,3% en 1995 al 19,3% en 2005 y de África y Oriente
Medio.
Por su interés, vamos a presentar los resultados desagregados de Europa y América para los
años 1995, 2000 y 2005, con el fin de ver la evolución de dos de los continentes más importantes
en cuanto a llegada de turistas internacionales.
Tabla 1.2
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 7 de 147
Gráfico 1.2
40,0
Porcentajes
30,0
20,0
10,0 1995
2005
0,0 2000 2000
1995
Norte
2005
Oeste
Central/Este
Mediterraneo/Sur
Áreas
Dentro de Europa las áreas más importantes son Europa occidental y el Mediterráneo/Sur (gráfico
1.2). Por otra parte, hay bastante estabilidad en cuanto a la cuota de mercado de cada área
considerada, destacando sólo el ligero incremento del Mediterráneo/Sur y Central/Este frente a la
disminución de la Europa Occidental.
En América, (Gráfico 1.3), el área más importante con diferencia es el Norte, cuya cuota de
mercado supone cerca de las tres cuartas partes del total. Sin embargo, se ha producido un
ligero aumento del resto de las áreas en detrimento del Norte.
Gráfico 1.3
80,0
60,0
Porcentajes
40,0
1995
20,0 2000
2005 2005
0,0 2000
Norte
1995
Caribe
Central
Sur
Áreas
Todo ello hace que “las empresas e instituciones turísticas han de dedicar parte de su actividad a
la investigación para así desarrollar, captar y adecuar las nuevas tecnologías que existen en el
3
mercado en incorporarlas a sus procesos productivos” .
3
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 8 de 147
1.1.2. La Estadística
La Estadística forma parte de los métodos cuantitativos que utiliza la Ciencia Económica para
describir, analizar, predecir y modelizar la realidad. Sus métodos son imprescindibles en la ciencia
económica, no sólo para la búsqueda de información (tanto cualitativa como cuantitativa), sino
para ayudarle a cuantificar, contrastar e interpretar la realidad en un mundo de incertidumbre. Sin
embargo, la Estadística es, además, el diseño de experimentos, la reducción y proceso de datos,
y la toma de decisiones. Facilita los métodos precisos para el análisis de la información recogida,
"además de ser utilizada como método en la totalidad de las ciencias empíricas, incorporándose
como una parte más del objeto formal de las ciencias empíricas cuando los elementos estudiados
4
sean de naturaleza incierta o aleatoria" .
Para comprender mejor lo que es la Estadística, hay que partir de que existen dos tipos de
fenómenos:
2. Fenómenos sin regularidad estadística, en los que además del azar intervienen
estrategias o posiciones humanas (a partir de estos fenómenos, Von Newman y
Morgenstern elaboraron la Teoría de los Juegos), surgiendo de ellos el concepto subjetivo
de probabilidad que se realiza en términos de grados de creencia, de opiniones, etc.,
dentro de lo que se conoce por Estadística Bayesiana.
De esta forma, la Estadística se puede definir como una ciencia, como un método o como un
método.
• La Ciencia Estadística es aquélla cuyo objeto material, o parte de la realidad que acota y
estudia, son los fenómenos aleatorios y estadísticos, mientras que su objeto formal, o
punto de vista desde el que se estudian los fenómenos estadísticos, consiste en prescindir de
los casos aislados y considerar las regularidades y propiedades del conjunto, infiriendo en su
caso sobre la totalidad del fenómeno o población, a partir de los resultados que aporta una
4
Escuder Valles, R. Estadística Económica y Empresarial. Ed. Tebar Flores. 1986
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 9 de 147
subpoblación o muestra, con un grado de certeza o fiabilidad que se mide en términos de
probabilidad.
Por ejemplo: no interesa la edad de una persona en particular; interesa la edad media, edad
más frecuente, rango de edades, etc.
• La Estadística es un método, ya que su objeto formal induce una metodología científica que
puede ser utilizada por la totalidad de las Ciencias Empíricas. Como método es el modo de
proceder de la Ciencia Estadística para obtener las leyes que rigen las regularidades de los
fenómenos de azar. Es especialmente importante porque posibilita la inducción asociada a
grados de certeza o de fiabilidad estadística (en términos de probabilidad), a diferencia de los
métodos matemáticos, que son propiamente deductivos.
• Por ello, la Estadística ha recibido el nombre de "Tecnología del método científico". Así, Martín
5
Guzmán y otros consideran que la Estadística se podría entender como "la tecnología del
método científico que proporciona instrumentos para la toma de decisiones cuando éstas se
adoptan en régimen de incertidumbre, siempre que esta incertidumbre pueda ser medida en
términos de probabilidad".
6
Por último, la definición de Mendenhall y Beaver recoge las dos grandes aplicaciones de la
Estadística:
Se puede dividir la Estadística en dos grandes ramas, unidas por la Teoría de la Probabilidad:
Cuadro 1.1
ESTADÍSTICA
DESCRIPTIVA INFERENCIA
PROBABILIDAD
ANÁLISIS MULTIVARIANTE
5
Martín Guzmán, M.P. M.P.; Martín Pliego, F.J. Curso básico de Estadística Económica. De. AC. 1985
6
Mendenhall, W. y Beaver, R. Introduction to Probability and Statistics. 8ª de. Pws-Kent Publishing
Comp. Boston. 1991.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 10 de 147
• La Estadística Descriptiva, relacionada con la recopilación, estudio, clasificación e inter-
pretación de un grupo de datos, sin sacar conclusiones e inferencias para un grupo mayor.
A esto se redujo la Estadística durante muchos años, aplicándose a datos económicos,
censos poblacionales, etc.
Por ejemplo: Si la edad media de un grupo de turistas (muestra) es 35 años, podemos tal vez
inferir que la de todos los turistas que vienen a Canarias está comprendida en el intervalo [34,
36] con una probabilidad de error determinada.
• Si, por el contrario, se espera generalizar las características obtenidas a la población, nos
encontramos ante la Estadística Inferencial.
• Sin embargo, esa división puede considerarse actualmente superada gracias al desarrollo de
los ordenadores, que ha permitido poner a disposición de los estadísticos nuevos y potentes
instrumentos de observación de la realidad multidimensional dando lugar, entre otros, al
Análisis Multivariante.
En él, la descripción es la fase inicial, una etapa obligatoria en el estudio de un fenómeno. Pero
además, sus técnicas permiten analizar, verificar, probar y poner a prueba ciertas hipótesis,
renovando y generalizando los métodos de la Estadística Descriptiva, utilizando numerosos
resultados relevantes de la Inferencia Estadística.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 11 de 147
En este sentido, este libro se divide en distintos bloques, diferenciados según el esquema del
cuadro 1.1, añadiendo además un último bloque referido a las técnicas de análisis
multivariante.
En este sentido, si recordamos la definición de la Estadística como "la tecnología del método
científico que proporciona instrumentos para la toma de decisiones cuando éstas se adoptan en
régimen de incertidumbre, siempre que esta incertidumbre pueda ser medida en términos de
8
probabilidad" , es precisamente esta ciencia la que permitirá a la industria turística analizar sus
datos de la forma más objetiva posible ayundándola, entre otras cosas, en .la toma de decisiones.
9
Como señalan Peña, D. y Romo, J. , “un análisis estadístico se lleva a cabo siguiendo las
etapas habituales en el llamado método científico”. Estos autores proponen un esquema que,
10
junto con el expuesto en “Apuntes de metodología de la investigación en turismo”, de la OMT
, nos ha ayudado a elaborar los pasos que entendemos debe seguir todo proceso de
investigación en el que se utilice la herramienta estadística.
7
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.
8
Martín Guzmán, M.P. M.P.; Martín Pliego, F.J. Curso básico de Estadística Económica. De.
AC. 1985
9
Peña, D. y Romo, J. Introducción a la Estadística para las Ciencias Sociales. Ed. Mc Graw
Hill. 1999.
10
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 12 de 147
Cuadro 1.2
variables, hipótesis
RECOGIDA DE LA INFORMACIÓN
Realización de la encuesta
ANÁLISIS
CONCLUSIONES
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 13 de 147
1. Planteamiento del problema
2. Recogida de información
Hay que decidir las fuentes de información estadística a utilizar, con qué finalidad y qué medios
vamos a utilizar para acceder a esa información.
Una vez organizada la información podemos tratarla mediante los métodos estadísticos que
definimos anteriormente o mediante cualquier otro, si en el desarrollo de la investigación lo
hemos considerado de utilidad.
Una vez que hemos aplicado los métodos que hemos considerado convenientes, es
importantísimo un correcto análisis de los resultados obtenidos. Hay que tener en cuenta que
los resultados estadísticos no son verdades absolutas, pero nos permiten ver la realidad de la
forma más objetiva posible.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 14 de 147
6. Conclusiones
Es conveniente que las conclusiones sean lo más concretas y objetivas posibles. Además, su
número no debe ser excesivamente grande.
• Los conocimientos sobre la Teoría de las Muestras y la Inferencia Estadística, permitirán inferir
las características del colectivo que representan a través de una colección reducida de datos
en campos como:
• Las técnicas multivariantes son de gran utilidad en el campo comercial y de mercados, donde
será necesario investigar el consumo de un producto en una zona, realizar sondeos sobre la
aceptación de nuevos productos, su demanda potencial, los precios de venta competitivos,
cuotas de mercado, áreas potenciales, preferencias de los consumidores, etc.. Pero son
igualmente útiles en cualquier análisis económico en el que haya que trabajar con un gran
número de caracteres cualitativos o cuantitativos, para estudiar la gestión o para determinar
perfiles organizativos y estratégicos en las empresas.
• Las técnicas de decisión clásicas (estimación y contrastes de hipótesis), así como las de
decisión bayesianas y deterministas, se utilizan en la toma de decisiones para la administración
de empresas y en el subsector producción, o en las decisiones de inversiones secuenciales.
• Hay técnicas estadísticas que han desarrollado métodos propios para el tratamiento de
problemas económicos, como son los análisis sobre concentración de la renta, los números
índices, buena parte del desarrollo de las series temporales, modelos de Contabilidad Nacional
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 15 de 147
y Tablas Input-Output de relaciones intersectoriales, el tratamiento del problema de la
agregación y desagregación económica, técnicas demográficas, crecimiento económico, etc..
Cabe destacar, no por su dificultad, sino por su extensa utilidad, los números índices,
indispensables para poder realizar cualquier análisis comparativo, ya sea espacial o temporal,
que se aplican en todos los campos de la Economía y de la Empresa.
• Todo ello también es útil para el análisis formal de la Economía Sectorial, de las Finanzas
Públicas, de las Políticas Económicas que pueden adoptarse, del Comercio Internacional, etc.
El movimiento de turistas
La imagen de la oferta
La competencia
Desde el punto de vista del sector privado y público, la Estadística es útil en la investigación en el
11
Turismo, de la siguiente forma :
11
OMT. Apuntes de metodología de la Investigación en Turismo. OMT. 2001.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 16 de 147
Actúa de forma más competitiva al tener mayor información.
Las técnicas de análisis de datos empleadas en la investigación turística han sido analizadas
en diversos trabajos, con el fin de conocer el nivel de uso de los distintos métodos estadísticos
que contribuyen al avance científico. En el trabajo de Reid y Andereck (1989), donde se
analizaron tres revistas – Annals of Tourism Research, Journal of Travel Research y Tourism
Management- y se revisaron 659 artículos publicados en el período 1978-1987, se encontró
que la regresión, la correlación lineal, el análisis de la varianza y los modelos econométricos
eran las técnicas más utilizadas. Asimismo, los autores hallaron una tendencia creciente en el
uso de técnicas multivariantes en el período analizado. Por su parte, el estudio realizado por
Baloglu y Assante (1999) sobre cinco revistas – Cornell Hotel and Restaurant Administration
Quarterly, Hospitality Education and Research Journal, Internacional Journal of Hospitality
Management, FIU Hospitality Review y Journal of Travel Research- obtuvo que las técnicas
estadísticas más utilizadas se centraban en una combinación de técnicas univariantes y
multivariantes, tales como la correlación lineal, el análisis de la varianza, la regresión múltiple y
el análisis factorial. Más recientemente, Palmer, Sesé y Montaño (2004) examinaron la
12
utilización de los métodos estadísticos a través de 11 revistas del ámbito turístico en el
periodo 1998-2002, cuyos resultados señalan que la regresión, el análisis factorial y el análisis
de la varianza son, por este orden, las tres técnicas más utilizadas, ya que suponen el 38,71%
del total de técnicas empleadas.
12
Las revistas fueron: Journal of Hospitality and Tourism Research, Tourism Analysis,
International Journal of Service Industry Management, Annals of Tourism Research en
Español, Tourism Economics, Tourism Management, Journal of Leisure Research,
International Journal of Hospitality Management, Annals of Tourism Research, Journal of
Travel Research, International Journal of Tourism Research.
ISBN: 978-84-616-5991-3
Capítulo 1: La Estadística Como Herramienta en la Investigación Turística
Página 17 de 147
turístico, el 82,4% de los mismos son empíricos, frente al 17,6% teóricos. Seleccionando los
trabajos empíricos y, en particular, aquellos que aplican investigación cuantitativa, cabe
destacar que prácticamente en todos los estudios se realiza algún tipo de análisis descriptivo,
bien como paso previo a la realización de análisis más complejos o bien como única técnica de
análisis de datos. Respecto a las técnicas multivariantes, las más utilizadas son el análisis
factorial de componentes principales y la regresión, coincidiendo estos resultados en gran parte
con los de los trabajos anteriormente comentados.
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 18 de 147
CAPÍTULO 2
INFERENCIA ESTADÍSTICA. TEORÍA DE LAS
MUESTRAS
RESÚMEN:
La Inferencia Estadística, según D.R.Cox (1958), puede definirse como una afirmación relativa
a poblaciones estadísticas efectuada a partir de ciertas observaciones con determinada medida
de la incertidumbre.
Como método, podemos decir que es aquel mediante el cual se infieren o inducen propiedades
desconocidas de la población como pueden ser parámetros, tipo de distribución o modelo de
probabilidad que sigue, basándose en una serie de informaciones tales como datos muestrales
o distribuciones a priori que se posean.
Para medir el grado de certidumbre o incertidumbre de las conclusiones a las que se llegue, se
necesitarán los conocimientos aportados por la Teoría de la Probabilidad y, en concreto, los
diferentes modelos probabilísticos, discretos y continuos, unidimensionales y
multidimensionales, ya estudiados en el capítulo 9.
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 19 de 147
• Métodos Paramétricos
En ellos se supone que los datos provienen de una distribución conocida, centrándose las
inferencias en sus parámetros. Es la más frecuente en Estadística
• Métodos No Paramétricos
• Inferencia Clásica
Se caracteriza porque los parámetros son considerados como valores fijos desconocidos y la
única información existente sobre los mismos es la contenida en la muestra. Es el enfoque al
que nos referiremos en estos capítulos.
• Inferencia Bayesiana
Los parámetros son considerados como variables aleatorias. Permiten introducir información
"a priori" sobre los mismos, a través de la asignación de "grados de creencia", además de la
información obtenida a partir de muestras, si la hubiera.
Dentro de la Inferencia Estadística, vamos a ocuparnos del estudio de las leyes que permitan
aplicar los principios de generalización, cerrando así el proceso de captación de información en
orden a la proyección de la misma. En otras palabras, muchas veces interesa estimar alguna
característica, contrastar alguna hipótesis o tomar una decisión respecto a una población con un
determinado modelo probabilístico F(x); para ello se procede utilizando la información contenida en
una muestra. Por ello, antes de abordar la Teoría de la Estimación y el Contraste de Hipótesis, es
preciso estudiar el proceso de recogida de información que lo posibilita, es decir, del proceso de
muestreo, que es el objetivo de la Teoría del Muestreo.
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 20 de 147
Cuadro 2.1.1
PARAMÉTRICA
INFERENCIA ESTADÍSTICA
NO PARAMÉTRICA
2.2. MUESTREO
2.2.1. Conceptos
Dos son los conceptos fundamentales para introducirnos en la Inferencia Estadística y son el
"población" y el de "muestra". A partir de ellos, podremos definir otra serie de conceptos
importantes en la inferencia estadística.
A. Población
13
Es cualquier colección finita o infinita de individuos o elementos ; esta colección no ha de referirse
necesariamente a organismos vivientes.
B. Muestra
C. Muestreo
Es el procedimiento mediante el cual se obtiene una o más muestras. Hay muchas formas de
tomar una muestra y muchas clases de muestras. La exactitud del método y de las conclusiones
depende en gran parte del cuidado con que se diseña y ejecuta el proceso muestral.
D. Muestreo probabilístico
13
Kendall y Buckland (1957)
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 21 de 147
Es aquel en el que puede calcularse a priori cuál es la probabilidad de obtener cada una de las
muestras que es posible obtener; para esto es preciso que la selección pueda realizarse como una
prueba aleatoria o al azar. A veces se habla de muestras aleatorias en el sentido de muestras
probabilísticas, cosa algo confusa ya que la aleatoriedad no corresponde al carácter de una
muestra, sino al proceso que sirve para obtenerla.
E. Tamaño muestral
Un censo completo de los elementos de la población es necesario solo en algunos casos y, por lo
común, carece de sentido práctico. Muchas veces, una buena muestra puede suministrar in-
formación poblacional más precisa y a un coste considerablemente inferior que un censo.
Es útil precisar en qué casos conviene obtener muestras en lugar de investigaciones exhaustivas
de la población (censos), dado el riesgo que supone la inferencia.
La decisión óptima se basa en emplear recursos mínimos para obtener una determinada
información, o bien conseguir la máxima información con unos recursos prefijados.
a) Cuando la población sea tan grande (o infinita) que exceda de las posibilidades del
investigador.
No deben tomarse estas situaciones en sentido estricto, ya que otras menos extremas también
justifican un muestreo; por ejemplo, en el caso c) es posible que las unidades no sean destruidas
pero sí se disminuya su valor.
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 22 de 147
El muestreo exige por un lado menos cantidad de trabajo bruto, pero por otro un mayor
refinamiento en las técnicas y una mayor preparación de cara a la realización del mismo.
Partamos de una población de la que nos interesa inferir alguna de sus características o tomar
alguna decisión sobre ella. Para ello procedemos a recabar información de la misma a través de
una muestra. Supongamos obtenidas "n" observaciones sucesivas e independientes de una
variable aleatoria X . Estas observaciones las designaremos por (x1,x2,........,xn), donde Xi es el
valor obtenido para X en la i-ésima observación.
Consideremos ahora en vez de un valor particular de la muestra (x1,x2,.....,xn), todos los posibles
valores de la misma; entonces (X1,X2,.....,XN) es una variable aleatoria n-dimensional y se le
denomina Muestra Genérica, o simplemente Muestra Aleatoria.
C. Muestra aleatoria
Cuando la forma de selección es tal que todas las distribuciones condicionadas son iguales a la de
la variable X, por lo que todas las variables que componen la muestra genérica son independientes
e igualmente distribuidas que la X. Así, en el caso de que X sea continua:
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 23 de 147
1) Con reposición
Formalmente coincide con el muestreo de poblaciones infinitas, ya que una vez analizadas son
devueltas a la población, por lo que el resultado de una extracción es independiente de los
anteriores.
2) Sin reposición
Si la población es finita la probabilidad de que salga un elemento dependerá de los que fueron
separados anteriormente para formar parte de la muestra.
2.2.4. Estadístico
El término inglés "Statistic" fue introducido por R.A.Fisher para designar una función de los valores
muestrales, siendo traducido como ESTADÍSTICO o ESTADÍGRAFO. Puede definirse como la
variable aleatoria que es función del vector aleatorio observado en la muestra (X1,X2,.....,Xn), que
es la muestra genérica. Es una variable aleatoria porque es función de las n variables aleatorias
que componen la muestra genérica, g (x1,x2,.....,xn). Se trata de inferir con este estadístico alguna
característica poblacional. Para cada Muestra Específica, el estadístico tomará un valor concreto.
Dos son, al menos, los criterios usados para evaluar un diseño muestral: su fiabilidad y su
efectividad.
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 24 de 147
Todas las muestras, y en consecuencia, todas las unidades de la población, tienen la misma
probabilidad de ser seleccionadas como muestra.
Para mejorar las inferencias, se divide la población en subpoblaciones o estratos, incluyendo éstos
elementos parecidos entre si desde el punto de vista de la variable analizada. La razón de este agru-
pamiento está en el intento buscar un comportamiento normal de la población, para así reducir la acción
de la dispersión de la población en la inferencia. La consecuencia de agrupar elementos homogéneos es
que los estratos presentarán una evidente heterogeneidad entre ellos.
Dentro de cada estrato se realiza una selección aleatoria simple, como en el caso anterior; estas
submuestras compondrán la muestra. A los criterios de reparto de esta muestra entre los diferentes
estratos se denomina Afijación.
Consiste en sustituir las unidades poblacionales últimas, a las que se refiere el estudio, por
unidades de muestreo que comprendan un grupo de aquellas que se les denominará
Conglomerados o Clusters. Este agrupamiento habrá sido realizado en base a una variable
diferente a la que es objeto de estudio. La condición que han de cumplir es que estos
conglomerados tengan un número aproximado de elementos, y a ser posible, el mismo.
4) MUESTREO BIETAPICO
5) MUESTREO POLIETAPICO
6) MUESTREO BIFÁSICO
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 25 de 147
En este muestreo se toma una muestra, generalmente grande, de forma rápida, sencilla y poco
costosa, a fin de que su información sirva de base para la selección de otra más pequeña,
relativa a la característica que constituye el objeto del estudio propiamente dicho. Se supone
que la variable considerada en la primera fase es una variable auxiliar relacionada con la que
realmente interesa (la de la segunda fase).
7) MUESTREO POLIFÁSICO
8) MUESTREO SISTEMATICO
Esta forma de muestreo, sencilla en cuanto a diseño y ejecución, se puede emplear cuando los
miembros de la población a muestrear están dispuestos en orden. Consiste en seleccionar la
muestra tomando valores cada "k" elementos de la población usando el orden que ésta posee.
Esta técnica puede resultar más eficiente que el Muestreo Aleatorio Simple en determinados
casos. Su principal inconveniente reside en que las muestras sistemáticas no son siempre
aleatorias.
9) MUESTREO DIRIGIDO
Suele ser de gran utilidad si el investigador está bien familiarizado con la población y puede ele-
gir de forma coherente elementos representativos para la integración de la muestra..
Existen otras clases de muestreo, como pueden ser el Muestreo Repetido, el de las Submuestras
Impenetrantes, los Muestreos Especiales, etc..., que por razones de amplitud de esta lección no
van a ser desarrollados.
En la práctica, de acuerdo con las características del campo donde se está efectuando el
muestreo, es frecuente el uso de métodos mixtos y diseños complejos, como combinación de los
anteriormente expuestos.
Si quisiéramos realizar una estimación por intervalos con un nivel de confianza prefijado y
aceptando un error de estimación concreto, podríamos determinar qué tamaño debe tener la
muestra para cumplir este objetivo.
Por ejemplo, el intervalo de confianza obtenido en la ecuación (3.5) para el parámetro µ, siendo
σ conocida
2
(1− α )%
σ
I100
µ = X ± z α
1− n
2
ISBN: 978-84-616-5991-3
Capítulo 2: Inferencia Estadística. Tª de las Muestras página 26 de 147
se obtenía a partir de
X−µ
P z α ≤ ≤z α = 1− α
2 σ 1−
2
n
o, lo que es lo mismo,
σ
P X − µ ≤ z α = 1− α
1− n
2
σ
e=z α
1− n
2
σ2
n = z2 α 3.18
1− e2
2
En definitiva, fijando a priori el nivel de confianza (1-α) y el error de estimación que estamos
dispuestos a aceptar (e), podemos calcular el tamaño de la muestra qué habría que tomar (n).
Este procedimiento puede seguirse en todos los intervalos de confianza que se han obtenido en
los apartados anteriores, denominando e a la cantidad que hemos añadido y sustraido a la
estimación central del intervalo.
Un segundo ejemplo puede ser el intervalo obtenido en la ecuación (3.10) para el parámetro p:
(1− α )%
p̂q̂
I100
p = p̂ ± z α
1− n
2
p̂q̂
En este caso, e = z α y, en consecuencia,
1− n
2
p̂q̂
n = z2 α 3.19
1− e2
2
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 27 de 147
CAPÍTULO 3
Resumen:
A lo largo del capítulo se irán presentando los conceptos básicos de esta técnica
multivariante a través del desarrollo de un caso práctico con datos reales que permiten
al lector asimilar mejor los contenidos del mismo.
Por otro lado, tal y como hacemos en los capítulos del bloque de análisis multivariante,
la solución de los problemas y casos presentados se hace con ayuda del paquete
estadístico SPSS 13. También presentamos un caso a resolver por el alumno que le
sirve de práctica para los conocimientos adquiridos en este capítulo.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 28 de 147
Por otra parte, la detección de estructuras subyacentes en los datos tiene por objeto el
examen las relaciones subyacentes entre las variables.
Por ejemplo, se quiere definir los atributos determinantes del producto turístico de
Tenerife a través del análisis de las puntuaciones dadas por una muestra de estos a 24
características o aspectos relacionados con el producto o servicio ofertado por el destino
turístico Tenerife.
No obstante, antes de continuar con las explicaciones del proceso al ejecutar un análisis
de componentes principales, debemos hacer una serie de consideraciones sobre los
datos a utilizar.
Las variables deben ser cuantitativas a nivel de intervalo o de razón. Los datos
categóricos (como la religión o el país de origen) no son adecuados para el análisis
factorial. Los datos para los cuales razonablemente se pueden calcular los coeficientes
de correlación de Pearson, deberían ser adecuados para el análisis factorial.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 29 de 147
Los datos deben tener una distribución normal bivariante para cada par de variables y
las observaciones deben ser independientes.
Ejemplo 3.1.1
Cuadro 3.1.1
V1 El paisaje natural V14 Calidad de bares, discotecas y salas de fiesta
V2 La playa y/o piscinas de la costa V15 Calidad de instalaciones deportivas y/o
V3 El sol recreativas
V4 La temperatura V16 La calidad del alojamiento
V5 El clima en su conjunto V17 La calidad de la comida
V6 Aspectos urbanísticos de su centro de vacaciones V18 La limpieza de los lugares de uso público
(zonas verdes, paseos, edificios) (calles, paseos,..)
V7 El número de bares y restaurantes V19 La tranquilidad en las horas de descanso
V8 El nº de discotecas y salas de fiestas V20 La atención del personal de servicio
V9 Precios de bares, discotecas y salas de fiestas V21 La seguridad y tranquilidad del centro de
V10 Precios de las instalaciones deportivas y/o vacaciones
recreativas V22 El trato recibido en el alojamiento
V11 Los precios del alojamiento V23 La relación satisfacción-precios del conjunto de
V12 Los precios de la comida estas vacaciones
V13 La calidad y frecuencia de servicio de los V24 El conjunto del centro de vacaciones donde
autobuses públicos residió
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 30 de 147
Cuadro 3.1.2
País de origen Frecuencia Porcentaje
España 2011 20,92
Reino Unido 3283 34,14
Alemania 1575 16,38
Italia 468 4,87
Francia 535 5,56
Bélgica 367 3,82
Holanda 258 2,68
Irlanda 85 0,88
Austria 105 1,09
Suiza 93 0,97
Dinamarca 155 1,61
Finlandia 215 2,24
Noruega 78 0,81
Suecia 345 3,59
Resto de Europa I 26 0,27
Resto de Europa II 10 0,10
Canada/USA 6 0,06
Total 9615 100
Para saber si los datos y variables de los que disponemos son adecuados para la
aplicación de un análisis factorial de componentes principales, debemos recordar el
objetivo último del mismo, que no es otro que reducir la dimensionalidad de los datos,
mediante el resumen de la información contenida en los mismos en unas pocas
componentes o factores no correlacionados entre sí. Por tanto, en la medida que el
grado de correlación entre las variables sea alto, mayor capacidad de resumen
tendremos.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 31 de 147
Por otro lado, el Test de Esfericidad de Bartlett quiere comprobar comprueba que la
matriz de correlaciones se ajuste a la matriz identidad ( I ), es decir ausencia de
correlación significativa entre las variables. Esto significa que la nube de puntos se
ajusta a una esfera perfecta, expresando la hipótesis nula por: Ho: R = I es decir, que
el determinante de la matriz de correlaciones es 1. Ho: | R| = 1
2p + 5
χ 2 = − W − 1 − log R (3.1)
6
donde;
W = tamaño muestral.
p = número de variables.
R = matriz de correlaciones.
En nuestro ejemplo, tenemos un tamaño de muestra muy grande, por lo que siempre
nos va a dar el rechazo de la hipótesis nula.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 32 de 147
Tabla 3.3. 1
Matriz de correlaciones
V1 v2 V3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24
V1 1,000 0,344 -0,006 0,081 0,098 0,480 0,218 0,163 0,174 0,211 0,149 0,156 0,244 0,244 0,256 0,108 0,131 0,279 0,216 0,245 0,282 0,245 0,196 0,302
V2 0,344 1,000 0,151 0,132 0,169 0,429 0,345 0,272 0,262 0,307 0,233 0,256 0,183 0,285 0,303 0,169 0,179 0,233 0,191 0,223 0,228 0,191 0,309 0,346
v3 -0,006 0,151 1,000 0,724 0,722 0,063 0,110 0,104 0,098 0,123 0,185 0,146 0,067 0,082 0,131 0,174 0,203 -0,053 -0,050 0,071 -0,023 0,066 0,209 0,181
v4 0,081 0,132 0,724 1,000 0,795 0,130 0,141 0,109 0,162 0,146 0,204 0,169 0,118 0,134 0,169 0,179 0,194 -0,013 0,010 0,128 0,043 0,133 0,217 0,211
v5 0,098 0,169 0,722 0,795 1,000 0,174 0,183 0,132 0,175 0,183 0,231 0,185 0,146 0,163 0,174 0,194 0,204 0,039 0,039 0,147 0,078 0,141 0,252 0,223
v6 0,480 0,429 0,063 0,130 0,174 1,000 0,437 0,318 0,289 0,313 0,264 0,253 0,315 0,395 0,403 0,262 0,217 0,414 0,314 0,360 0,399 0,327 0,340 0,465
v7 0,218 0,345 0,110 0,141 0,183 0,437 1,000 0,652 0,355 0,291 0,270 0,294 0,294 0,461 0,380 0,207 0,237 0,226 0,143 0,237 0,192 0,186 0,306 0,370
v8 0,163 0,272 0,104 0,109 0,132 0,318 0,652 1,000 0,379 0,299 0,231 0,250 0,229 0,490 0,378 0,151 0,195 0,149 0,088 0,212 0,135 0,171 0,243 0,287
v9 0,174 0,262 0,098 0,162 0,175 0,289 0,355 0,379 1,000 0,592 0,419 0,517 0,251 0,412 0,322 0,176 0,168 0,193 0,148 0,204 0,204 0,180 0,357 0,253
v10 0,211 0,307 0,123 0,146 0,183 0,313 0,291 0,299 0,592 1,000 0,477 0,444 0,311 0,396 0,482 0,223 0,190 0,220 0,198 0,249 0,240 0,227 0,365 0,284
v11 0,149 0,233 0,185 0,204 0,231 0,264 0,270 0,231 0,419 0,477 1,000 0,526 0,287 0,332 0,377 0,435 0,335 0,214 0,215 0,323 0,250 0,329 0,513 0,379
v12 0,156 0,256 0,146 0,169 0,185 0,253 0,294 0,250 0,517 0,444 0,526 1,000 0,292 0,355 0,307 0,278 0,374 0,175 0,160 0,268 0,198 0,248 0,454 0,325
v13 0,244 0,183 0,067 0,118 0,146 0,315 0,294 0,229 0,251 0,311 0,287 0,292 1,000 0,435 0,404 0,186 0,196 0,250 0,170 0,260 0,266 0,233 0,255 0,263
v14 0,244 0,285 0,082 0,134 0,163 0,395 0,461 0,490 0,412 0,396 0,332 0,355 0,435 1,000 0,561 0,253 0,273 0,309 0,216 0,315 0,280 0,257 0,335 0,359
v15 0,256 0,303 0,131 0,169 0,174 0,403 0,380 0,378 0,322 0,482 0,377 0,307 0,404 0,561 1,000 0,325 0,294 0,315 0,241 0,342 0,317 0,319 0,366 0,385
v16 0,108 0,169 0,174 0,179 0,194 0,262 0,207 0,151 0,176 0,223 0,435 0,278 0,186 0,253 0,325 1,000 0,529 0,236 0,302 0,448 0,307 0,561 0,515 0,518
v17 0,131 0,179 0,203 0,194 0,204 0,217 0,237 0,195 0,168 0,190 0,335 0,374 0,196 0,273 0,294 0,529 1,000 0,227 0,196 0,387 0,236 0,408 0,464 0,435
v18 0,279 0,233 -0,053 -0,013 0,039 0,414 0,226 0,149 0,193 0,220 0,214 0,175 0,250 0,309 0,315 0,236 0,227 1,000 0,407 0,321 0,412 0,279 0,290 0,321
v19 0,216 0,191 -0,050 0,010 0,039 0,314 0,143 0,088 0,148 0,198 0,215 0,160 0,170 0,216 0,241 0,302 0,196 0,407 1,000 0,407 0,586 0,345 0,324 0,338
v20 0,245 0,223 0,071 0,128 0,147 0,360 0,237 0,212 0,204 0,249 0,323 0,268 0,260 0,315 0,342 0,448 0,387 0,321 0,407 1,000 0,498 0,700 0,467 0,474
v21 0,282 0,228 -0,023 0,043 0,078 0,399 0,192 0,135 0,204 0,240 0,250 0,198 0,266 0,280 0,317 0,307 0,236 0,412 0,586 0,498 1,000 0,474 0,401 0,423
v22 0,245 0,191 0,066 0,133 0,141 0,327 0,186 0,171 0,180 0,227 0,329 0,248 0,233 0,257 0,319 0,561 0,408 0,279 0,345 0,700 0,474 1,000 0,510 0,512
v23 0,196 0,309 0,209 0,217 0,252 0,340 0,306 0,243 0,357 0,365 0,513 0,454 0,255 0,335 0,366 0,515 0,464 0,290 0,324 0,467 0,401 0,510 1,000 0,595
v24 0,302 0,346 0,181 0,211 0,223 0,465 0,370 0,287 0,253 0,284 0,379 0,325 0,263 0,359 0,385 0,518 0,435 0,321 0,338 0,474 0,423 0,512 0,595 1,000
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 33 de 147
∑ ∑ rij2
i j
KMO = (2.2)
∑ ∑ rij2 + ∑ ∑ a ij2
i j i j
donde;
Valores bajos del índice KMO desaconsejan la utilización de Análisis Factorial. Como
baremo para interpretar el índice KMO podría tomarse según Kaiser:
Cuadro 3.3. 1
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 34 de 147
Por otro lado, los valores que recogen la diagonal principal de la matriz de correlaciones
anti-imagen son indicadores de la adecuación muestral de cada una de las variables
de forma individual, a diferencia de las medida KMO que era una adecuación muestral
global. De manera que valores inferiores a 0,5 serían señal de que los datos de la
variables no se ajustan bien al modelo factorial, y por tanto deberíamos considerar
eliminar dicha variable del análisis.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 35 de 147
Tabla 3.3. 3
V1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 V12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24
v1 0,89 -0,17 0,08 -0,05 -0,02 -0,28 0,03 0,01 0,00 -0,02 0,01 0,00 -0,08 0,00 -0,01 0,10 -0,02 -0,05 -0,01 0,00 -0,03 -0,07 0,04 -0,04
v2 -0,17 0,94 -0,10 0,04 0,00 -0,16 -0,10 -0,02 0,00 -0,08 0,01 -0,04 0,05 0,00 -0,03 0,03 0,01 -0,02 -0,02 0,00 0,00 0,03 -0,07 -0,04
v3 0,08 -0,10 0,82 -0,35 -0,35 0,04 0,04 -0,05 0,06 -0,02 -0,01 0,00 0,02 0,04 -0,03 -0,04 -0,06 0,04 0,06 0,00 0,03 0,07 -0,05 -0,02
v4 -0,05 0,04 -0,35 0,78 -0,55 0,00 0,01 0,02 -0,07 0,05 -0,01 0,00 0,00 0,00 -0,05 0,01 -0,01 0,06 -0,01 0,00 0,02 -0,04 0,03 -0,02
v5 -0,02 0,00 -0,35 -0,55 0,80 -0,05 -0,06 0,03 0,00 -0,04 -0,02 0,01 -0,03 -0,03 0,05 0,00 0,01 -0,03 0,00 -0,01 -0,02 0,00 -0,04 0,01
v6 -0,28 -0,16 0,04 0,00 -0,05 0,93 -0,17 0,01 -0,02 -0,01 0,02 0,00 -0,04 -0,04 -0,06 -0,02 0,06 -0,16 -0,02 -0,04 -0,09 0,00 0,03 -0,07
v7 0,03 -0,10 0,04 0,01 -0,06 -0,17 0,87 -0,51 -0,04 0,05 -0,01 -0,03 -0,07 -0,06 -0,02 -0,01 -0,03 -0,02 0,01 0,00 0,02 0,07 -0,02 -0,04
v8 0,01 -0,02 -0,05 0,02 0,03 0,01 -0,51 0,84 -0,14 0,00 0,01 0,04 0,06 -0,21 -0,08 0,05 -0,02 0,05 0,02 -0,03 0,04 -0,03 0,02 -0,01
v9 0,00 0,00 0,06 -0,07 0,00 -0,02 -0,04 -0,14 0,87 -0,39 -0,05 -0,27 0,03 -0,12 0,10 0,01 0,08 -0,03 0,02 0,02 -0,04 0,01 -0,08 0,02
v10 -0,02 -0,08 -0,02 0,05 -0,04 -0,01 0,05 0,00 -0,39 0,89 -0,18 -0,07 -0,05 0,00 -0,26 0,03 0,05 0,01 -0,03 0,00 0,00 0,00 -0,02 0,01
v11 0,01 0,01 -0,01 -0,01 -0,02 0,02 -0,01 0,01 -0,05 -0,18 0,93 -0,26 -0,05 0,01 -0,05 -0,20 0,03 -0,01 0,00 -0,02 0,01 0,02 -0,17 0,00
v12 0,00 -0,04 0,00 0,00 0,01 0,00 -0,03 0,04 -0,27 -0,07 -0,26 0,91 -0,08 -0,05 0,04 0,07 -0,21 0,04 0,00 -0,02 0,03 0,02 -0,12 0,00
v13 -0,08 0,05 0,02 0,00 -0,03 -0,04 -0,07 0,06 0,03 -0,05 -0,05 -0,08 0,94 -0,20 -0,13 0,03 0,00 -0,04 0,04 -0,02 -0,07 -0,02 0,02 0,01
v14 0,00 0,00 0,04 0,00 -0,03 -0,04 -0,06 -0,21 -0,12 0,00 0,01 -0,05 -0,20 0,93 -0,29 0,00 -0,04 -0,07 -0,01 -0,04 -0,01 0,04 0,01 -0,01
v15 -0,01 -0,03 -0,03 -0,05 0,05 -0,06 -0,02 -0,08 0,10 -0,26 -0,05 0,04 -0,13 -0,29 0,93 -0,06 -0,03 -0,06 0,01 -0,02 -0,04 -0,01 0,00 -0,01
v16 0,10 0,03 -0,04 0,01 0,00 -0,02 -0,01 0,05 0,01 0,03 -0,20 0,07 0,03 0,00 -0,06 0,90 -0,29 0,00 -0,10 0,02 0,07 -0,27 -0,09 -0,08
v17 -0,02 0,01 -0,06 -0,01 0,01 0,06 -0,03 -0,02 0,08 0,05 0,03 -0,21 0,00 -0,04 -0,03 -0,29 0,92 -0,07 0,03 -0,08 0,02 -0,02 -0,11 -0,04
v18 -0,05 -0,02 0,04 0,06 -0,03 -0,16 -0,02 0,05 -0,03 0,01 -0,01 0,04 -0,04 -0,07 -0,06 0,00 -0,07 0,94 -0,18 -0,02 -0,10 0,02 -0,02 -0,01
v19 -0,01 -0,02 0,06 -0,01 0,00 -0,02 0,01 0,02 0,02 -0,03 0,00 0,00 0,04 -0,01 0,01 -0,10 0,03 -0,18 0,88 -0,11 -0,40 0,06 -0,03 -0,01
v20 0,00 0,00 0,00 0,00 -0,01 -0,04 0,00 -0,03 0,02 0,00 -0,02 -0,02 -0,02 -0,04 -0,02 0,02 -0,08 -0,02 -0,11 0,91 -0,12 -0,49 -0,03 -0,01
v21 -0,03 0,00 0,03 0,02 -0,02 -0,09 0,02 0,04 -0,04 0,00 0,01 0,03 -0,07 -0,01 -0,04 0,07 0,02 -0,10 -0,40 -0,12 0,90 -0,14 -0,08 -0,04
v22 -0,07 0,03 0,07 -0,04 0,00 0,00 0,07 -0,03 0,01 0,00 0,02 0,02 -0,02 0,04 -0,01 -0,27 -0,02 0,02 0,06 -0,49 -0,14 0,87 -0,12 -0,04
v23 0,04 -0,07 -0,05 0,03 -0,04 0,03 -0,02 0,02 -0,08 -0,02 -0,17 -0,12 0,02 0,01 0,00 -0,09 -0,11 -0,02 -0,03 -0,03 -0,08 -0,12 0,95 -0,12
v24 -0,07 -0,07 -0,04 -0,04 0,03 -0,14 -0,09 -0,02 0,04 0,02 0,00 0,00 0,01 -0,03 -0,02 -0,17 -0,07 -0,01 -0,02 -0,03 -0,07 -0,09 -0,26 0,47
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 36 de 147
Así, si alguna variable tiene una comunalidad inferior a 0,5, querrá decir que sus datos
se ajustan mal al modelo factorial, por lo que sería conveniente el considerar su
exclusión del análisis.
Tabla 3.3. 4
Comunalidades
Inicial Extracción
La Temperatura 1 0,839
El clima en su conjunto 1 0,839
El Sol 1 0,802
El nº de discotecas y salas de fiesta 1 0,721
El nº de bares y restaurantes 1 0,714
Precios de las instalaciones deportivas y/o recreativas 1 0,672
El trato recibido en el alojamiento 1 0,666
Calidad del alojamiento 1 0,661
Precios de bares, discotecas y salas de fiesta 1 0,653
La relación satisfacción-precios del conjunto de estas vacaciones 1 0,623
La seguridad y tranquilidad del centro de vacaciones 1 0,622
Aspectos urbanísticos 1 0,619
Los precios del alojamiento 1 0,618
Los precios de la comida 1 0,615
La atención del personal de servicios 1 0,604
El conjunto del centro de vacaciones donde residió 1 0,601
Calidad de bares, discotecas y salas de fiesta 1 0,567
Calidad de la comida 1 0,552
La tranquilidad en las horas de descanso 1 0,543
Calidad de instalaciones deportivas y/o recreativas 1 0,483
El paisaje natural 1 0,476
Limpieza de los lugares de uso público 1 0,452
La playa y/o piscinas de la costa 1 0,374
Calidad y frecuencia de servicio de los autobuses públicos 1 0,309
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 37 de 147
Una vez hemos comprobado que las variables y sus datos son adecuados para el
análisis factorial de componentes principales, entramos de lleno en el propio análisis de
componentes principales.
Para el cálculo de las componentes principales hemos tomado 19 medidas sobre 9615
turistas (x1, x2, …, xk). Lo que se quiere es obtener un nuevo conjunto de variables
(factores o componentes) (f1,f2,…,fp) que no estén correlacionadas entre sí, cuyas
varianzas vayan decreciendo desde la primera componente hasta la última.
Cada una de las componentes principales es una combinación lineral de las variables
originales:
p
a'j a j = ∑ a 2kj = 1 (3.4)
k =1
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 38 de 147
Derivando e igualando a 0.
(∑ −λI)a1 = 0 (3.7)
Para que el sistema tenga una solución distinta de 0, la matriz (∑ - λI) tiene que ser
singular, o lo que es lo mismo, el determinante debe ser igual a cero.
∑ −λI = 0 (3.8)
Tabla 3.3. 5
Para nuestro ejemplo, hemos obtenido 19 autovalores que por el hecho de haber
trabajado con valores tipificados de la variable, la suma de los autovalores es igual al
número de componentes, es decir 19 en este caso. Relativizando estos valores,
obtenemos los porcentajes de varianza explicados por cada una de las componentes
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 39 de 147
Se han dado diversos criterios para determinar el número de factores a retener. Uno de
los más conocidos y utilizados es el criterio o regla de Kaiser (1960) que indicaría lo
siguiente: "retener solamente aquellos factores cuyos valores propios (eigenvalues) son
mayores a la unidad". Este criterio es el que suelen utilizar los programas estadísticos
por defecto. Sin embargo, este criterio es generalmente inadecuado tendiendo a
sobreestimar el número de factores.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 40 de 147
Gráfico 3.3. 1
Gráfico de sedimentación
5
Autovalor
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Número de componente
Según cualquiera de los dos criterios citados, el número de factores que hemos retenido
son 5, que consiguen explicar de forma conjunta el 68.15% de la varianza.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 41 de 147
( )
( )
p
Cov f j , x i = Cov f j , ∑ a ik f k = a ij Var f j = λ j a ij (3.9)
k = 1
λ ja ij
( )
Corr f j , x i = = λ1j/ 2 a ij (3.10)
λ1j/ 2
Tabla 3.3. 6
Matriz de componentes
Componente
Variable 1 2 3 4 5
La relación satisfacción-precios 0,754 -0,058 -0,139 -0,198 -0,089
El conjunto del centro de vacaciones 0,733 -0,102 -0,173 0,112 -0,136
La atención del personal de servicios 0,658 -0,253 -0,332 0,084 -0,013
El trato recibido en el alojamiento 0,655 -0,247 -0,410 -0,008 -0,117
Los precios del alojamiento 0,646 0,037 0,113 -0,437 0,006
Calidad del alojamiento 0,643 -0,082 -0,346 -0,175 -0,304
Los precios de la comida 0,602 0,039 0,271 -0,451 0,015
Aspectos urbanísticos 0,595 -0,129 0,103 0,368 0,137
Calidad de bares, discotecas y salas de fiesta 0,592 -0,069 0,380 0,211 -0,043
Calidad de la comida 0,591 0,003 -0,212 -0,167 -0,438
La seguridad y tranquilidad del centro de vacaciones 0,562 -0,350 -0,264 0,225 0,425
Precios de las instalaciones deportivas y/o recreativas 0,560 0,010 0,394 -0,297 0,337
El nº de bares y restaurantes 0,559 0,011 0,449 0,400 -0,262
Precios de bares, discotecas y salas de fiesta 0,555 0,026 0,512 -0,254 0,270
El Sol 0,317 0,814 -0,184 0,064 0,038
La Temperatura 0,380 0,802 -0,185 0,109 0,134
El clima en su conjunto 0,414 0,785 -0,168 0,132 0,143
El nº de discotecas y salas de fiesta 0,488 0,023 0,529 0,387 -0,283
La tranquilidad en las horas de descanso 0,469 -0,344 -0,262 0,191 0,477
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 42 de 147
Tabla 3.3. 7
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 43 de 147
En la tabla anterior se resaltan en negrita los coeficientes de correlación más altos para
cada una de las componentes, de manera que la definición de los factores es la
siguiente:
Factor 1: correlación positiva alta con las variables “calidad del alojamiento”, “calidad de
la comida”, “trato recibido en el alojamiento”, “relación satisfacción-precio en el centro de
vacaciones”, “el conjunto del centro de vacaciones”, “la atención del personal de
servicios”. Variables todas relacionadas con el centro de vacaciones, por lo que
podríamos etiquetarlo como el alojamiento y sus servicios.
Factor 2: correlación positiva alta con las variables “clima en su conjunto”, “temperatura”
y “sol”, por lo que lo etiquetamos como aspectos climáticos.
Factor 3: correlación positiva alta con las variables “precios de bares, discotecas y salas
de fiesta”, “precio de las instalaciones deportivas y/o recreativas”, “precios de la comida”,
“precios del alojamiento”. Precio.
Factor 4: correlación positiva alta con las variables “nº de discotecas y salas de fiesta”,
“nº de bares y restaurantes”, “calidad de bares, discotecas y salas de fiesta” y “aspectos
urbanísticos”. Cantidad y calidad de servicios suplementarios.
Factor 5: correlación positiva alta con las variables “aspectos urbanísticos”, “seguridad y
tranquilidad en el centro de vacaciones” y “tranquilidad en las horas de descanso”.
Seguridad y tranquilidad.
Una vez que se tienen los factores y al objeto de conocer que puntuación obtendrían los
sujetos en estos factores hay que calcular lo que se conoce como puntuaciones
factoriales de cada individuo.
Tabla 3.3. 9
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 44 de 147
Una representación gráfica del mapa de percepciones de los turistas según nacionalidad
de los cinco aspectos más destacados del producto/servicio turístico de Tenerife la
haremos utilizando las puntuaciones factoriales promedios de cada una de las 17
nacionalidades consideradas en la encuesta. Debemos recordar al lector que en la
medida en estos promedios sean representativos el mapa de percepciones será fiel
reflejo de dichas percepciones según nacionalidad del turista, en caso contrario no será
así.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 45 de 147
Tabla 3.3. 10
0,400 Bélgica
Irlanda
Suiza
0,200 Holanda Dinamarca
Alemania
Resto Europa I
Aspectos climáticos
0,000 Finlandia
Italia Austria
Suecia
-0,200
España
Noruega
-0,400
Resto Europa II
-0,600
-0,800
-1,000 Canada/USA
El alojamiento y servicios
____
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 46 de 147
Gráfico 3.3. 2
0,800
Resto Europa I
Cantidad y calidad de servicios
Canada/USA
0,600
0,400
suplementarios
Finlandia Italia
-0,400
Alemania
-0,600
Precio
__
Cuadrante 2 (- : +): en este cuadrante se encuentran las nacionalidades que valoran por
debajo de la media el precio y por encima la cantidad y calidad de los servicios
suplementarios, que son: Los finlandeses, suecos y austriacos.
Cuadrante 3: (+: -): aquí se encuentran los que valoran por encima de la media el precio
y por debajo la cantidad y calidad de los servicios suplementarios. Estos turistas son los
franceses, belgas, irlandeses, daneses, británicos y españoles.
Cuadrante 4 (- : -): los que valoran poco el precio y la cantidad y calidad de los servicios
suplementarios son los alemanes, suizos y holandeses.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 47 de 147
Gráfico 3.3. 2
0,800
España
0,600
Seguridad y tranquilidad
Resto Europa I
0,400
Francia
Italia
0,200 Finlandia
Bélgica Canada/USA
Dinamarca
0,000 Holanda
Noruega
Alemania
-0,200
Suecia Irlanda Austria
Suiza Reino Unido
-0,400
Resto Europa II
-0,600
El alojamiento y servicios
__
Los que valoran por encima de la media la seguridad y tranquilidad son los españoles,
Resto de Europa I, franceses, italianos, finlandeses y del Norte de América. Mientras
que el resto de nacionalidades la valoran por debajo.
Los británicos valoran por encima de la media los cuatro primeros factores, mientras que
la seguridad y tranquilidad la valoran claramente por debajo de la media.
Los españoles valoran por encima de la media de forma clara solamente la seguridad y
la tranquilidad, mientras que ligeramente el precio y la cantidad y calidad de los servicios
suplementarios. Mientras que los otros dos factores los valoran por debajo.
Los alemanes valoran por encima de la media de forma significativa el alojamiento y sus
servicios, mientras que en menor medida los aspectos climáticos. Sin embargo, el resto
de factores los valoran por debajo de la media.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 48 de 147
Con el objetivo de medir la bondad del modelo factorial estimado, reproducimos las
correlaciones entre las variables a partir del propio modelo factorial, de manera que
podamos comprobar si reproducen fielmente la matriz de correlaciones observada.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 49 de 147
Tabla 3.3. 11
Correlaciones reproducidas
v1 V2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 15 v16 v17 v18 v19
V1 0,803 0,820 0,816 0,093 0,119 0,090 0,096 0,107 0,186 0,145 0,073 0,178 0,202 -0,053 0,069 -0,028 0,077 0,202 0,183
V2 0,820 0,852 0,852 0,162 0,146 0,110 0,145 0,161 0,207 0,163 0,117 0,182 0,190 0,035 0,116 0,063 0,110 0,233 0,223
V3 0,816 0,852 0,855 0,196 0,180 0,142 0,169 0,183 0,221 0,177 0,149 0,194 0,199 0,061 0,139 0,093 0,129 0,252 0,248
V4 0,093 0,162 0,196 0,536 0,489 0,446 0,323 0,310 0,231 0,217 0,472 0,252 0,208 0,432 0,419 0,493 0,360 0,357 0,455
V5 0,119 0,146 0,180 0,489 0,743 0,740 0,368 0,283 0,236 0,274 0,597 0,214 0,284 0,092 0,253 0,171 0,207 0,303 0,412
V6 0,090 0,110 0,142 0,446 0,740 0,749 0,368 0,272 0,205 0,259 0,582 0,147 0,235 0,021 0,176 0,093 0,127 0,242 0,346
V7 0,096 0,145 0,169 0,323 0,368 0,368 0,708 0,679 0,530 0,592 0,456 0,140 0,144 0,197 0,163 0,225 0,117 0,372 0,250
V8 0,107 0,161 0,183 0,310 0,283 0,272 0,679 0,672 0,539 0,583 0,404 0,173 0,150 0,260 0,206 0,284 0,166 0,396 0,262
V9 0,186 0,207 0,221 0,231 0,236 0,205 0,530 0,539 0,622 0,618 0,330 0,448 0,429 0,180 0,341 0,224 0,370 0,555 0,400
V10 0,145 0,163 0,177 0,217 0,274 0,259 0,592 0,583 0,618 0,640 0,361 0,364 0,367 0,118 0,258 0,158 0,275 0,502 0,338
V11 0,073 0,117 0,149 0,472 0,597 0,582 0,456 0,404 0,330 0,361 0,546 0,231 0,253 0,222 0,299 0,286 0,252 0,360 0,405
V12 0,178 0,182 0,194 0,252 0,214 0,147 0,140 0,173 0,448 0,364 0,231 0,663 0,616 0,242 0,548 0,313 0,620 0,600 0,562
V13 0,202 0,190 0,199 0,208 0,284 0,235 0,144 0,150 0,429 0,367 0,253 0,616 0,615 0,091 0,451 0,163 0,526 0,548 0,511
V14 -0,053 0,035 0,061 0,432 0,092 0,021 0,197 0,260 0,180 0,118 0,222 0,242 0,091 0,671 0,492 0,699 0,442 0,330 0,381
V15 0,069 0,116 0,139 0,419 0,253 0,176 0,163 0,206 0,341 0,258 0,299 0,548 0,451 0,492 0,614 0,559 0,630 0,542 0,577
v16 -0,028 0,063 0,093 0,493 0,171 0,093 0,225 0,284 0,224 0,158 0,286 0,313 0,163 0,699 0,559 0,739 0,511 0,398 0,461
v17 0,077 0,110 0,129 0,360 0,207 0,127 0,117 0,166 0,370 0,275 0,252 0,620 0,526 0,442 0,630 0,511 0,671 0,577 0,592
v18 0,202 0,233 0,252 0,357 0,303 0,242 0,372 0,396 0,555 0,502 0,360 0,600 0,548 0,330 0,542 0,398 0,577 0,639 0,573
v19 0,183 0,223 0,248 0,455 0,412 0,346 0,250 0,262 0,400 0,338 0,405 0,562 0,511 0,381 0,577 0,461 0,592 0,573 0,610
Para considerar el modelo factorial como un bueno modelo, éste debe reproducir lo más fielmente posible la matriz de correlaciones obtenida a
partir de los datos observados. Por tanto, es interesante analizar las diferencias entre ambas matrices llamados residuos.
El porcentaje de residuos no redundantes, es decir no significativamente grandes debe ser pequeño, en caso contrario el modelo se considerará
malo desde el punto de vista estadístico.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 50 de 147
Tabla 3.3. 12
Residuos
v1 V2 v3 v4 v5 v6 v7 v8 v9 V10 v11 v12 v13 v14 15 v16 v17 v18 v19
V1 -0,095 -0,093 -0,023 -0,007 0,020 0,001 0,009 -0,007 -0,002 0,007 -0,007 -0,003 0,022 0,008 0,019 -0,006 0,000 -0,001
V2 -0,095 -0,052 -0,017 0,000 0,003 0,012 -0,011 -0,007 0,010 0,011 0,001 0,001 -0,007 0,014 -0,004 0,024 -0,020 -0,013
V3 -0,093 -0,052 -0,007 0,005 -0,004 -0,006 -0,007 0,004 0,007 0,005 0,002 0,002 -0,006 0,009 -0,007 0,011 -0,003 -0,024
V4 -0,023 -0,017 -0,007 -0,062 -0,130 -0,034 -0,006 0,034 0,041 -0,082 0,019 0,025 -0,109 -0,067 -0,094 -0,034 -0,009 0,016
V5 -0,007 0,000 0,005 -0,062 -0,095 -0,024 -0,009 0,048 0,030 -0,143 0,001 -0,027 0,053 -0,009 0,023 -0,011 0,013 -0,034
V6 0,020 0,003 -0,004 -0,130 -0,095 0,000 0,013 0,026 -0,014 -0,102 0,010 -0,029 0,060 0,028 0,035 0,037 0,005 -0,051
V7 0,001 0,012 -0,006 -0,034 -0,024 0,000 -0,086 -0,127 -0,085 -0,048 0,034 0,027 -0,037 0,043 -0,011 0,062 -0,013 0,008
V8 0,009 -0,011 -0,007 -0,006 -0,009 0,013 -0,086 -0,086 -0,153 -0,031 0,047 0,032 -0,061 0,032 -0,044 0,056 -0,042 0,019
V9 -0,007 -0,007 0,004 0,034 0,048 0,026 -0,127 -0,086 -0,086 -0,014 -0,011 -0,096 0,033 -0,025 0,015 -0,039 -0,034 -0,020
V10 -0,002 0,010 0,007 0,041 0,030 -0,014 -0,085 -0,153 -0,086 -0,023 -0,079 0,013 0,046 0,012 0,038 -0,025 -0,051 -0,010
V11 0,007 0,011 0,005 -0,082 -0,143 -0,102 -0,048 -0,031 -0,014 -0,023 0,021 0,020 -0,009 0,006 -0,008 0,000 -0,029 -0,043
V12 -0,007 0,001 0,002 0,019 0,001 0,010 0,034 0,047 -0,011 -0,079 0,021 -0,091 0,052 -0,109 -0,012 -0,059 -0,080 -0,038
V13 -0,003 0,001 0,002 0,025 -0,027 -0,029 0,027 0,032 -0,096 0,013 0,020 -0,091 0,093 -0,054 0,069 -0,117 -0,080 -0,077
V14 0,022 -0,007 -0,006 -0,109 0,053 0,060 -0,037 -0,061 0,033 0,046 -0,009 0,052 0,093 -0,099 -0,104 -0,108 -0,009 -0,035
15 0,008 0,014 0,009 -0,067 -0,009 0,028 0,043 0,032 -0,025 0,012 0,006 -0,109 -0,054 -0,099 -0,066 0,068 -0,069 -0,106
V16 0,019 -0,004 -0,007 -0,094 0,023 0,035 -0,011 -0,044 0,015 0,038 -0,008 -0,012 0,069 -0,104 -0,066 -0,051 -0,002 -0,033
V17 -0,006 0,024 0,011 -0,034 -0,011 0,037 0,062 0,056 -0,039 -0,025 0,000 -0,059 -0,117 -0,108 0,068 -0,051 -0,058 -0,079
V18 0,000 -0,020 -0,003 -0,009 0,013 0,005 -0,013 -0,042 -0,034 -0,051 -0,029 -0,080 -0,080 -0,009 -0,069 -0,002 -0,058 0,025
V19 -0,001 -0,013 -0,024 0,016 -0,034 -0,051 0,008 0,019 -0,020 -0,010 -0,043 -0,038 -0,077 -0,035 -0,106 -0,033 -0,079 0,025
Hay un 28% de residuos no redundantes con valores absolutos superiores a 0.05, sin embargo si relajamos el umbral crítico a un 0.1, el
porcentaje de residuos redundantes baja a un 4%, lo que representa un porcentaje lo suficientemente pequeño como para considerar el modelo
como aceptable.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 51 de 147
Seleccionamos las variables que van a ser analizadas, que originalmente fueron 24,
para luego quedarnos con 19.
Descriptivos…
Extracción…
Rotación…
• Método: Varimax
Opciones…
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 52 de 147
Puntuaciones…
Método: Regresión
Mapas de percepción
Para crear los mapas de percepción es necesario el uso de un nuevo fichero de datos
que contenga las puntuaciones factoriales promedio para cada una de las 17
nacionalidades consideradas y para cada una de las componentes extraídas, por lo que
se tendrá un fichero de datos con 6 columnas, 5 factores y la nacionalidad, y 17 filas,
tantas como nacionalidades consideradas.
Una vez ejecutado el comando de gráficos, hacemos doble clic sobre él para poder
editarlo e insertar los ejes.
Opciones…
Se repetiría el proceso para los otros tres gráficos, sólo que cambiando los factores
incluidos en los mismos.
ISBN: 978-84-616-5991-3
Capitulo 3: Análisis de Componentes Principales Página 53 de 147
3.5. BIBLIOGRAFÍA
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 54 de 147
CAPÍTULO 4
ANÁLISIS DE CORRESPONDENCIAS
RESÚMEN:
Para ello, se utiliza el concepto de distancia entre los puntos, de manera que a mayor distancia
exista entre ellos, menor será el grado de asociación existente. Para calcular la distancia entre
dos puntos o modalidades de una variable o de variables distintas se suele elegir en la mayoría
de los casos la medida chi-cuadrado. Se utilizan el concepto ya utilizado en el capítulo anterior,
de valores propios de una matriz, que miden la varianza contenida en los datos que es explicada
por cada una de las dimensiones que van a ser extraídas.
En este texto sólo vamos a estudiar el Análisis de Correspondencias Simple, en el que se estudia
la asociación de dos variables cualitativas y sus modalidades, siendo la matriz de datos una tabla
de contingencia.
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 55 de 147
Por tanto, a diferencia del Análisis de Componentes Principales, las variables a tratar no
son numéricas, sino cualitativas nominales con sus correspondientes modalidades.
1 2 3 … i……… p
1
2
3
.. kij
j
..
n
Es una matriz de datos K de orden (n*p), de doble entrada en la que las líneas son los n
objetos (Oi) y las columnas los p criterios (Cj). La intersección es kij que generalmente
será la frecuencia entre los elementos i y j, pero también se puede considerar la media
de respuesta.
14
Uriel, E. y Aldás, J. Análisis Multivariante Aplicado. Ed. Thomson. 2005.
15
Para el estudio del Análisis de Correspondencias Múltiple recomendamos el texto de Uriel, E. y Aldás,
J. (2005)
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 56 de 147
Ejemplo 4.1.1
Nos proponemos analizar si los turistas de ciertas nacionalidades están más asociados
a ciertas zonas de alojamiento Tenerife donde pasaron sus vacaciones en la isla de
Tenerife que otros.
Para ello, usamos las estadísticas de turismo receptivo publicadas por el Servicio
Técnico de Desarrollo Económico del Cabildo Insular de Tenerife. Los datos analizados
corresponden a 5093732 turistas que visitaron Tenerife durante el año 2005, ordenados
en una tabla de contingencia o correspondencias.
Zonas
Países ki.
1 2 3 4
Alemania 3558 26140 185896 443377 658971
Bélgica 401 226 2684 103662 106973
España 157840 23743 609567 668567 1459717
Finlandia 270 106 41732 73264 115372
Francia 1999 1092 14982 90776 108849
Reino Unido 2980 1734 91513 1738584 1834811
Holanda 737 494 4343 134741 140315
Italia 1841 711 4969 102475 109996
Suecia 1686 93 17006 100049 118834
Resto Europa 3946 1966 35108 356340 397360
América 4338 806 7351 12249 24744
Resto mundo 1825 347 4461 11157 17790
k..j 181421 57458 1019612 3835241 5093732
ZONA 1: S/C de Tenerife
ZONA 2: La Laguna, Bajamar, Punta del Hidalgo, Tacoronte
ZONA 3: Puerto de la Cruz y Resto del Norte
ZONA 4: Resto del Sur
Fuente: Estadísticas de Turismo. Servicio Técnico de Desarrollo Económico. Cabildo Insular de
Tenerife. 2005.
Elaboración propia.
Observemos que la zona del Sur de la Isla (zona 4) es la que aloja el mayor número de
turistas independientemente de la nacionalidad de estos, mientras que la zona 2 es la
que aloja menos turistas, aunque para muchas de las nacionalidades solamente la
supera ligeramente la zona de la capital de la Isla.
Esto quiere decir que en la tabla de contingencia las líneas y columnas, que designan
dos particiones de una misma población, juegan papeles simétricos y, a diferencia del
Análisis de Componentes Principales, son tratadas de forma análoga.
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 57 de 147
Sin embargo, como indican ABASCAL, E. y GRANDE, I.,16 para comparar dos líneas
entre sí en una tabla de contingecia, no interesan los valores brutos sino los porcentajes
o distribuciones condicionadas de frecuencias relativas. Es decir, los elementos i,i' (j,j')
son semejantes si presentan igual distribución condicionada.
Los pasos que hay que dar a partir de la matriz K (n*p) son los que aparecen en el
siguiente cuadro:
Cuadro 4.1
F Perfil de líneas en
1.............j..............p
. fij fij/fi
Perfil de líneas en
fij/fj
16
Abascal, E. y Grande, I. “Métodos Multivariantes para la Investigación Comercial”. Ed. Ariel
Economía. 1989
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 58 de 147
k ij
fij = (4.4)
k
Tabla 4.2
Zonas
Países fi.
1 2 3 4
Alemania 0,001 0,005 0,036 0,087 0,129
Bélgica 0,000 0,000 0,001 0,020 0,021
España 0,031 0,005 0,120 0,131 0,287
Finlandia 0,000 0,000 0,008 0,014 0,023
Francia 0,000 0,000 0,003 0,018 0,021
Reino Unido 0,001 0,000 0,018 0,341 0,360
Holanda 0,000 0,000 0,001 0,026 0,028
Italia 0,000 0,000 0,001 0,020 0,022
Suecia 0,000 0,000 0,003 0,020 0,023
Resto Europa 0,001 0,000 0,007 0,070 0,078
América 0,001 0,000 0,001 0,002 0,005
Resto mundo 0,000 0,000 0,001 0,002 0,003
f.j 0,036 0,011 0,200 0,753 1,000
Así, a partir de la tabla 4.1, el tanto por uno de turistas alemanes alojados en la zona
uno es:
k 11 3558
f11 = = = 0,001
k 5093733
Perfil de líneas en Rp
Cada punto i tiene por coordenadas en Rp fij/fi. Está afectado de una masa fi. que es su
frecuencia relativa. El perfil de líneas en Rp forma una nube de n puntos en el espacio de
p columnas. Las coordenadas de cada punto i en Rp son:
fij k ij k i.
= siendo fi. = j = 1,2,.....p (4.5)
fi. k i. k
Como
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 59 de 147
p fij
∑f
j =1
=1 (4.6)
i.
Zonas
Países Margen activo
1 2 3 4
Alemania 0,005 0,040 0,282 0,673 1
Bélgica 0,004 0,002 0,025 0,969 1
España 0,108 0,016 0,418 0,458 1
Finlandia 0,002 0,001 0,362 0,635 1
Francia 0,018 0,010 0,138 0,834 1
Reino Unido 0,002 0,001 0,050 0,948 1
Holanda 0,005 0,004 0,031 0,960 1
Italia 0,017 0,006 0,045 0,932 1
Suecia 0,014 0,001 0,143 0,842 1
Resto Europa 0,010 0,005 0,088 0,897 1
América 0,175 0,033 0,297 0,495 1
Resto mundo 0,103 0,020 0,251 0,627 1
Masa: f.j 0,036 0,011 0,200 0,753
Así, el tanto por uno de turistas de la zona 1 condicionado a que sean alemanes, es:
El análisis de la tabla que recoge los perfiles fila nos muestra lo siguiente, en cuanto a
los tres principales mercados:
o En cuanto al resto, cabe resaltar los turistas procedentes del Resto de América los
cuales se alojan en un 40.5% en el Sur de la Isla, un 29.8% en el Puerto de la Cruz y
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 60 de 147
Resto del Norte de la Isla, y un 25.6% en la zona de La Laguna, Bajamar, Punta del
Hidalgo y Tacoronte. Este grupo de turistas son los que presentan un mayor reparto
entre las cuatro zonas.
Perfil de líneas en Rn
El perfil de líneas en Rn forma una nube de p puntos en el espacio de n filas. Cada punto
j tiene por coordenadas en Rn.
fij k ij k.j
= siendo f.j = i = 1,2,....n (4.7)
f.j k.j k
n fij
∑f
i =1
=1 (4.8)
.j
Zonas
Países Masa: fi.
1 2 3 4
Alemania 0,020 0,455 0,182 0,116 0,129
Bélgica 0,002 0,004 0,003 0,027 0,021
España 0,870 0,413 0,598 0,174 0,287
Finlandia 0,001 0,002 0,041 0,019 0,023
Francia 0,011 0,019 0,015 0,024 0,021
Reino Unido 0,016 0,030 0,090 0,453 0,360
Holanda 0,004 0,009 0,004 0,035 0,028
Italia 0,010 0,012 0,005 0,027 0,022
Suecia 0,009 0,002 0,017 0,026 0,023
Resto Europa 0,022 0,034 0,034 0,093 0,078
América 0,024 0,014 0,007 0,003 0,005
Resto mundo 0,010 0,006 0,004 0,003 0,003
Margen activo 1 1 1 1
Así, el tanto por uno de alemanes condicionado a que sean de la zona 1 es:
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 61 de 147
n fij
∑f
i =1
i.
fi.
= f.j (4.9)
p fij
∑f
j =1
.j
f.j
= fi. (4.10)
4.2.2. La distancia
Se puede expresar como lo hemos hecho en las ecuaciones 4.11 y 4.12, o también
calculando su raíz cuadrada.
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 62 de 147
fij
son los elementos del vector perfil fila del punto i que es de dimensión J
fi
f . j son los elementos del centroide (masa), o mlo que es igual, el centro de gravedad
d 2 (1,2 ) =
(0,005 − 0,004 )2 +
(0,040 − 0,002 )2 +
(0,282 − 0,025 )2 +
(0,673 − 0,969 )2 = 0,572
0,036 0,011 0,200 0,753
Es esta distancia ponderada, así como el papel simétrico jugado por líneas y columnas
de la tabla, los que particularizan el Análisis de Correspondencias y les aseguran
propiedades que no posee el ACP: la equivalencia distribucional y las relaciones de
transición.17
3
Lebart, L., Morineau, A. et Fenelon, J.P. (1979).
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 63 de 147
fij
− f.j (4.13)
fi.
fij
(4.14)
fi.
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 64 de 147
Ello lleva a maximizar la suma ponderada de los cuadrados de las proyecciones sobre el
eje:
2
Max ∑ fi.d (i, O) (4.15)
u i
y maximizar la cantidad:
• Dn, de orden (n,n) es la matriz diagonal en la que los elementos diagonales son las
frecuencias marginales de las líneas, fi.
• Dp, de orden (p,p) es la matriz diagonal en la que los elementos diagonales son las
frecuencias marginales de las columnas, f .j .
n fij fij´
s jj = ∑ (4.17)
i =1 fi f.j´
T = F D-1 p. F´ D-1 n.
18
Un mayor desarrollo de la fundamentación matemática del Análisis de Correspondencias lo tenemos en
Uriel, E. y Aldás, J. Análisis Multivariante Aplicado. Ed. Thomson. 2005
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 65 de 147
Cuadro 4.2
En Rp Elementos de construcción En Rn
S = F´ D-1 n. F D-1 p Matriz a diagonalizar T = F D-1 p. F´ D-1 n
Suα = λα u α Eje factorial Tvα = λα v α
Ψα = D-1 n. F D-1 p u α Coordenadas factoriales ϕα = D-1 p. F´ D-1 n v α
Las coordenadas factoriales son centradas y de varianza igual a λα siendo ésta el valor
propio o la inercia de cada eje o la cantidad de varianza explicada por él.
Cuadro 4.3
19
Esto es debido a que la información mínima necesaria para la realización de los cálculos,
coincide con el número de modalidades de la variable que tiene un menor de ellas, menos
una, puesto que la información de esta última modalidad puede ser obtenida por diferencias.
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 66 de 147
p −1
I = ∑ λα (4.19)
α =1
Una inercia que tienda a 1 indica que hay una dicotomía en los datos. Se obtendrían dos
grupos de modalidades para cada variable, separando la nube de puntos en dos subnubes, lo
que podría significar igualmente la existencia de un grupo de puntos aislados de los otros
puntos.
En nuestro ejemplo, el resumen respecto a la inercia es el siguiente:
Tabla 4.5. Resumen
Observemos lo siguiente:
Los valores propios son la raíz cuadrada de la inercia de cada dimensión. Se pueden
interpretar como la correlación entre las puntuaciones fila y columna. Son análogos
al coeficiente de correlación de Pearson en el análisis de correlación. Para cada
dimensión, el valor propio al cuadrado es igual a la inercia, de manera que
representa otra medida de la importancia de cada dimensión. (0.497)2 = 0.247;
0.1402 = 0.019; 0.0622 = 0.004).
La primera dimensión muestra tanta inercia como sea posible (medida de la varianza
contenida en los datos), la segunda es ortogonal a la primera y muestra tanta inercia
restante como sea posible, prosiguiendo el proceso de extracción de dimensiones de
la misma manera. Podemos evaluar la inercia mostrada por una dimensión
comparándola con la inercia total. En nuestro ejemplo, la primera dimensión muestra
el 91.4% (0.247/0.270) de la inercia total, mientras que la segunda muestra el 7.4%
(0.020/0.273).
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 67 de 147
El total de la inercia es 0,270, que coincide con la suma de la inercia de cada una de
las dimensiones.
χ2
χ2 = kI ⇔ I= (4.20)
k
En nuestro ejemplo, a partir de la tabla 4.5, tenemos que la función de decisión es:
En el examen de los puntos fila y columna habrá que tener en cuenta los siguientes
conceptos:
1. Coordenadas
3. Inercia de los puntos
3. Contribución de los puntos a la inercia de cada dimensión
4. Contribución de la dimensión a la inercia del punto
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 68 de 147
En nuestro ejemplo, los resultados del examen de puntos fila y columna fueron los
siguientes:
Contribución
Puntuación
De los puntos
Masa en la De la dimensión a la
Países Inercia a la inercia de
fi. dimensión inercia del punto
la dimensión
1 2 1 2 1 2 Total
Alemania ,129 ,200 ,916 ,018 ,010 ,777 ,142 ,842 ,984
Bélgica ,021 -,704 -,175 ,005 ,021 ,005 ,979 ,017 ,996
España ,287 ,998 -,215 ,144 ,575 ,095 ,987 ,013 1,000
Finlandia ,023 ,329 ,493 ,004 ,005 ,039 ,284 ,179 ,463
Francia ,021 -,271 ,028 ,001 ,003 ,000 ,994 ,003 ,997
Reino Unido ,360 -,639 -,123 ,074 ,296 ,039 ,990 ,010 1,000
Holanda ,028 -,675 -,156 ,006 ,025 ,005 ,979 ,015 ,993
Italia ,022 -,574 -,196 ,004 ,014 ,006 ,937 ,031 ,968
Suecia ,023 -,297 -,065 ,001 ,004 ,001 ,886 ,012 ,898
Resto Europa ,078 -,474 -,066 ,009 ,035 ,002 ,995 ,005 1,000
América ,005 ,958 -,872 ,004 ,009 ,026 ,631 ,147 ,777
Resto mundo ,003 ,467 -,441 ,001 ,002 ,005 ,653 ,164 ,817
Total activo 1,000 ,270 1,000 1,000
a Normalización Simétrica
Contribución
Puntuación
Masa De los puntos a la
en la De la dimensión a la
Zonas Inercia inercia de la
dimensión inercia del punto
f.j dimensión
1 2 1 2 1 2 Total
1 ,036 1,739 -1,433 ,065 ,217 ,523 ,829 ,158 ,987
2 ,011 ,933 2,178 ,015 ,020 ,383 ,335 ,513 ,847
3 ,200 1,138 ,248 ,131 ,522 ,088 ,981 ,013 ,995
4 ,753 -,399 -,031 ,060 ,241 ,005 ,998 ,002 1,000
Total
1,000 ,270 1,000 1,000
activo
a Normalización Simétrica
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 69 de 147
Son las proyecciones de los puntos fila o columna en los ejes factoriales. Mientras más
alejados del origen sean los valores, mejor representadas estarán las filas o columnas en
cada uno de los ejes.
Para la obtención de la inercia de cada punto fila o columna hay que tener en cuenta la
masa y la distancia entre cada perfil y el perfil promedio.
Cuanto más cercano esté el punto que represente un perfil fila (por ejemplo, turistas de
nacionalidad alemana) a uno de los vértices que representan la zona, (por ejemplo, la
zona 4), mayor correspondencia o asociación habrá entre las filas y las columnas
asociadas que es el objetivo del análisis de correspondencias.
Así, las ecuaciones de la inercia de los puntos fila y de los puntos columna son las
siguientes:
2
p
fij 1
I = fi. * ∑ − f.j (4.21)
i =1 f i. f.j
2
n fij 1
I = f.j * ∑ − fi. (4.22)
i =1 f.j
f
i.
En nuestro ejemplo, partiendo de las tablas 4.3 y 4.4 de los perfiles filas y columnas, el
cálculo de la inercia para los turistas alemanes es:
que es lo que aparece en la tabla de examen de los puntos fila (tabla 4.6).
Las contribuciones a la inercia o absolutas, son las de cada uno de los puntos filas o
columna a la inercia o varianza explicada en cada eje considerado. Se busca conocer los
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 70 de 147
f i. d 2α (i, G)
Crα (i) = (4.23)
λα
La calidad de la representación del punto i sobre el eje α puede evaluarse por el coseno del ángulo
entre el eje y el vector uniendo el centro de gravedad de la nube al punto i.
Gráfico 4.1
d(i,G)
Es decir:
d 2α (i, G)
Cos 2α (i) = (4.24)
d 2 (i, G)
Donde:
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 71 de 147
2
p
1 fij
∑ d (i, G) = d (i, G)
2 2
d (i, G) = ∑ − f.j
2 siendo α (4.25)
j =1 f.j f i.
α
Mientras más próximo esté el coseno al cuadrado a 1, más próxima estará la posición del punto
observado proyectado de la posición real del punto en el espacio. En este sentido, se puede
apreciar la calidad de la representación de un punto en un plano haciendo la suma de los cosenos
cuadrados sobre los ejes estudiados. Entonces, paro todo i:
∑ Cos (i) = 1
α
2
α
Por tanto, para analizar y dar una buena imagen de las proximidades reales entre puntos
observadas en el subespacio factorial, interesan sobre todo los puntos con un coseno cuadrado
elevado.
Coordenadas
• Primera dimensión:
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 72 de 147
Tabla 4.8
Países Inercia %
Alemania ,018 0,067
Bélgica ,005 0,019
España ,144 0,533
Reino Unido ,074 0,274
Holanda ,006 0,022
Italia ,004 0,015
América ,004 0,015
Total activo ,270 1,000
• Primera dimensión:
• Segunda dimensión
La nacionalidad alemana explica el 77,7% de la totalidad del factor, mientras que las
siguientes, a mucha distancia son, la española, con un 9,5%, la británica, con un 3,9% y
la finlandesa, con igual porcentaje que la británica.
• Primera dimensión:
• Segunda dimensión
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 73 de 147
Cuadro 4.4
Recordemos que las zonas en las que se ha dividido la isla de Tenerife son:
Zona Contenido
1 :S/C de Tenerife
2 La Laguna, Bajamar, Punta del Hidalgo, Tacoronte
3 Puerto de la Cruz y Resto del Norte
4 Sur
Coordenadas
• Primera dimensión:
La situación de las coordenadas de las zonas más alejadas del origen y, por tanto, mejor
representadas, es la siguiente:
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 74 de 147
• Primera dimensión:
Las zonas que más contribuyen a la formación de este eje son la 1,3 y 4, explicando el
98%
• Segunda dimensión
• Primera dimensión:
• Segunda dimensión
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 75 de 147
Cuadro 4.5
2ª dimensión
Zona 2 Zona 1 Zona 1 Zona 2
Zona 2
Obsérvese que, aunque las coordenadas de la zona 4 (Sur) no están demasiado alejadas del
origen, su contribución a la inercia de la dimensión 1 es alta y la contribución de la dimensión a la
inercia del punto también lo es. Por eso hemos incluido esta zona en los resultados más
significativos.
El análisis general ha mostrado que las matrices S y T tienen los mismos valores
propios no nulos λα y que entre el vector propio unitario u α de S asociado a λα y el
vector propio unitario vα de T relativo al mismo valor propio, existen relaciones de
transición:
1
v α = FD p−1u α
λα
1
(4.26)
u α = F´Dn−1v α
λα
ψ α = λ α D n−1v α
(4.27)
ϕ α = λ α D p u α
−1
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 76 de 147
Las nubes de puntos líneas y puntos columnas van a ser representadas en planos de
proyección formados por los primeros ejes factoriales puestos dos a dos. La lectura de
los gráficos necesita, sin embargo, reglas de interpretación, en particular, para apreciar
las proximidades, identificar los elementos responsables de la formación de los factores
y aquellos que son característicos.
Las reglas se apoyan sobre la secuencia de valores propios y porcentajes de inercia, así
como un conjunto de coeficientes clásicos: las contribuciones absolutas y los cosenos
cuadrados o correlaciones.
De esta forma, es posible obtener una visión global bastante buena si se representan
simultáneamente los puntos fila y columna sobre el plano de los dos primeros ejes.
1. Si dos filas (columnas) tienen una estructura semejante, su situación será próxima
sobre el plano.
3. Si una línea tiene un perfil próximo al perfil medio, tienen un comportamiento medio,
se encontrará próxima al origen.
5. Dentro de éstos se separa los puntos que se proyectan del lado positivo de los que
intervienen del lado negativo, que estarán en oposición.
7. Se buscan aquellos puntos i(j) que si bien no contribuyen a la formació del factor, sí
se encuentran bien representados (correlación alta).
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 77 de 147
2
Paises
zonas
1
Alemania
Dimensión 2
Finlandia
3
4 Francia
Suecia
0 Holanda España
Resto
Reino Europa
Unido
Bélgica
Italia
Resto mundo
-1 América
1
Dimensión 1
Observemos que los resultados del examen de puntos fila y columna nos indican que las
nacionalidades mejor representadas son justamente aquellas con un mayor número de
turistas, mientras que, en el caso de las zonas, todas está bien representadas, salvo la
zona 4, que es el Sur de la isla de Tenerife y que se encuentra en el tercer cuadrante,
cerca del origen, lo cual quiere decir que tiene un comportamiento medio.
Por tanto, un resumen de las conclusiones que podemos obtener a la vista de los
resultados y del gráfico es el siguiente:
• Los turistas alemanes, situados en el primer cuadrante (+, +), influyen sobre todo
en la formación del factor o dimensión 2, al igual que la zona 2 (La Laguna,
Bajamar, Punta del Hidalgo, Tacoronte), lo que quiere decir que en dicha zona
destaca esa nacionalidad respecto a las otras.
• Los turistas españoles, situados en el cuarto cuadrante (+,-), influyen sobre todo
en la formación del factor o dimensión 1, al igual que la zona 1 (S/C de Tenerife),
lo que quiere decir que en dicha zona destaca esa nacionalidad respecto a las
ISBN: 978-84-616-5991-3
Capítulo 4: Análisis de Correspondencias Página 78 de 147
otras. Como la zona 2 (La Laguna, Bajamar, Punta del Hidalgo, Tacoronte), y la
zona 3 (Puerto de la Cruz y Resto del Norte) influyen también sobre todo en la
formación del factor o dimensión 1, podemos decir que en esa zona destacan los
turistas españoles.
• Los turistas británicos, situados en el tercer cuadrante (-, -), influyen sobre todo en
la formación del factor o dimensión 1. Como la zona 1 (S/C de Tenerife), influye
también sobre todo en la formación del factor o dimensión 1, podemos decir que
también en esa zona destacan los turistas británicos.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 79 de 147
CAPÍTULO 5
ANÁLISIS CLUSTER
RESUMEN
Como ejemplo propio del campo del sector turístico, podría plantearse una posible agrupación
de los turistas (individuos) de diversas nacionalidades en función de una serie de ítems de
interés (gasto, ingresos, nº de pernoctaciones, etc.) lo que nos permitiría conocer mejor qué
perfiles de turistas nos encontramos. Otra posibilidad podría ser agrupar una serie de
establecimientos hoteleros en función de las preferencias de los turistas que se han alojado en
ellos, lo que nos podría llevar a obtener una serie de grupos de calidad diferentes.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 80 de 147
Para llevar acabo el estudio es necesario disponer de un conjunto de individuos que vendrán
caracterizados por un determinado número de características o variables de interés. Si
consideramos que el número de individuos analizados es n y el número de variables o
características analizadas es p, los valores que toman las variables para los distintos individuos
podrán agruparse mediante una matriz X, denominada matriz de datos, en la que el valor xij
representa el valor que toma la variable j-ésima para el individuo que ocupa la posición i-ésima.
Así pues, dicha matriz vendría dada por:
Las variables consideradas para el Análisis Cluster pueden ser tanto cualitativas como
cuantitativas, teniendo en cuenta que la inclusión de una variable irrelevante en el estudio
podría producir un efecto negativo en el análisis. Es por ello que conviene elegir
adecuadamente las variables que puedan contribuir a la diferenciación de los individuos
analizados según sea el objetivo de la investigación.
En principio, el Análisis Cluster se puede realizar sobre las p variables originales o bien sobre
los k factores, obtenidos aplicando el Análisis de Componentes Principales visto en el capítulo
anterior, que resumen la información de las variables originales.
Ejemplo 5.1.1:
En el ejemplo planteado en el apartado 15.1 del capítulo 15, se llevó a cabo un Análisis de
Componentes Principales sobre 24 variables que reflejaban la opinión que tenía el turista, en el
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 81 de 147
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 82 de 147
Las distancias son medidas de similitud que se definen únicamente para variables
cuantitativas. Realmente, más que medidas de similitud se interpretan como medidas de
diferencia o disimilitud, ya que dos individuos que poseen una distancia elevada entre sí,
presentarán, pues, poca similitud entre ellos. Así pues, a mayor distancia, menor similitud o
proximidad y viceversa, a menor distancia, mayor similitud. Para que una medida d sea una
distancia es necesario que verifique una serie de condiciones, que se resumen en:
• Está siempre definida positiva, es decir, la distancia entre dos elementos cualesquiera es
mayor o igual que 0, siendo 0 sólo cuando los elementos coincidan. Es decir:
d ( x, y ) ≥ 0 d ( x, y ) = 0 ⇔ x = y
d ( x, y ) = d ( y , x )
• Verifica la propiedad matemática de la desigualdad triangular que dice que la distancia entre
dos elementos x e y es menor o igual que la suma de las distancias existentes de los dos
elementos anteriores a otro elemento z considerado. Es decir:
d ( x, y ) ≤ d ( x, z ) + d ( z, y )
x y
Gráfico 5.1.1
Distancia euclídea: La distancia euclídea entre dos individuos o elementos se define como la
raíz cuadrada de la suma de los cuadrados de las diferencias entre los valores de cada variable
para los dos individuos. Seleccionando, por ejemplo, las dos primeras filas de la matriz de
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 83 de 147
datos X del apartado 5.1.1 correspondientes a los dos primeros individuos, X1 = (x11, x12, …,
x1p) y X2 = (x21, x22, …, x2p), la distancia euclídea entre ambos vendrá dada por:
X1=(x11, x12)
X2=(x21, x22)
Gráfico 5.1.2
Generalmente, para facilitar los cálculos, se suele emplear la distancia euclídea al cuadrado.
Para evitar el efecto del uso de escalas diferentes de medida se pueden dar dos opciones.
Una de ellas podría ser estandarizar previamente los valores de la variables, hecho que
consiste en restarle a todas los valores la media de la variable y dividir el resultado obtenido
entre la desviación típica de dicha variable. Una vez realizado este proceso, podríamos
emplear la distancia euclídea sobre los datos estandarizados. La otra opción podría ser el
empleo de otra medida de distancia que sea invariante ante cambios de escala, como puede
ser la distancia de Mahalanobis, que se calcula a partir de la matriz de varianzas-covarianzas ∑
como se indica a continuación:
x11 − x 21
−
d ( X 1 , X 2 ) = (x11 − x 21, x12 − x 22 , L, x1p − x 2 p )
x x
∑ −1
12 22
L
(5.2)
x − x
1p 2p
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 84 de 147
Sin embargo, cuando las variables analizadas sean cualitativas (en escala nominal u ordinal),
se deben emplear para medir el grado de similitud las conocidas como medidas de asociación
o emparejamiento.
Supongamos, sin pérdida de generalidad, que las p variables cualitativas son dicotómicas,
tomando únicamente los valores 0 y 1 que reflejan ausencia o presencia de una determinada
característica. En esta situación es posible cuantificar la similitud entre dos individuos a partir
de la información recogida en una tabla de frecuencias 2x2 en la que se indica el número de
variables en las que coinciden o no los valores para ambos individuos, tal y como se muestra
en la tabla 5.1.2:
Individuo j
1 0 Total
Individuo i 1 a b a+b
0 c D c+d
En la tabla anterior, a indica el número de variables que tomaron el valor 1 en ambos individuos
(emparejamientos positivos); b indica el número de variables que tomaron el valor 1 para el
individuo i-ésimo y 0 para el j-ésimo; c, el número de variables que tomaron el valor 0 para el
individuo i-ésimo y 1 para el j-ésimo y d, el número de variables que tomaron el valor 0 en
ambos individuos (emparejamientos negativos);
De esa forma, algunas de las medidas de asociación más utilizadas son las que siguen:
a
SJ = (5.3)
a+b+c
a+d
SSM = (5.4)
a+b+c+d
Ahora bien, estos coeficientes corresponden al caso en que las variables de partida sean
dicotómicas, sin embargo, se pueden utilizar para las variables cualitativas con más de 3 o más
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 85 de 147
categorías. Para ello, bastará con transformar dichas variables en dicotómicas. Por ejemplo,
supongamos que consideramos una variable X que toma 3 categorías (1,2 y 3). Un individuo
que tome el valor 2 para esa variable, es decir, x = 2, se puede expresar mediante la
combinación (0, 1, 0), en la que la posición del 1 indica el valor que tomaría la variable original
X, en este caso, el segundo valor. De esta manera, se sustituiría la variable original X por tres
variables dicotómicas, X1, X2 y X4.
Finalmente, conviene comentar que para algunos problemas en los que las características de
los individuos a agrupar no delimiten una clasificación muy clara, podría ocurrir que distintos
tipos de medidas de similitud den lugar a agrupaciones diferentes. Así pues, habrá que decidir
cuál de ellas resulta más adecuada para el problema concreto que se esté analizando.
Ejemplo 5.1.2:
Por otro lado, si nos fijamos en aquellos países que están más distantes, destacarían Canadá /
USA y Alemania con una distancia D = 6,292. Además, llama la atención que las distancias
entre Canadá / USA y todos los demás países (ver última fila de la matriz D) sean todas
elevadas, lo que refleja que Canadá / USA presenta un comportamiento muy específico y
diferente a los demás. Es pues, de esperar, que este país de origen no se agrupe con ninguno
de los demás.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 86 de 147
País de origen 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1:España 0,000 1,566 1,670 0,232 0,456 0,873 0,727 1,324 1,157 1,410 0,685 0,622 0,621 0,812 0,855 1,628 4,048
2:Reino Unido 1,566 0,000 0,524 0,881 0,709 0,405 0,250 0,086 0,133 0,067 0,287 0,387 0,449 0,460 1,738 0,883 4,301
3:Alemania 1,670 0,524 0,000 1,529 1,117 1,011 0,607 0,509 0,551 0,294 0,717 0,934 1,147 0,960 3,150 1,917 6,292
4:Italia 0,232 0,881 1,529 0,000 0,270 0,408 0,359 0,766 0,609 0,886 0,304 0,190 0,228 0,428 0,355 1,048 3,215
5:Francia 0,456 0,709 1,117 0,270 0,000 0,124 0,354 0,510 0,737 0,715 0,130 0,425 0,389 0,767 0,776 1,101 3,628
6:Bélgica 0,873 0,405 1,011 0,408 0,124 0,000 0,226 0,235 0,533 0,433 0,081 0,333 0,434 0,692 0,861 1,114 4,022
7:Holanda 0,727 0,250 0,607 0,359 0,354 0,226 0,000 0,119 0,204 0,167 0,162 0,147 0,246 0,181 1,115 0,910 4,696
8:Irlanda 1,324 0,086 0,509 0,766 0,510 0,235 0,119 0,000 0,258 0,072 0,230 0,386 0,441 0,425 1,571 0,917 4,945
9:Austria 1,157 0,133 0,551 0,609 0,737 0,533 0,204 0,258 0,000 0,128 0,282 0,155 0,362 0,267 1,524 1,059 4,052
10:Suiza 1,410 0,067 0,294 0,886 0,715 0,433 0,167 0,072 0,128 0,000 0,296 0,358 0,554 0,424 1,925 1,180 5,098
11:Dinamarca 0,685 0,287 0,717 0,304 0,130 0,081 0,162 0,230 0,282 0,296 0,000 0,167 0,300 0,515 0,966 1,059 3,621
12:Finlandia 0,622 0,387 0,934 0,190 0,425 0,333 0,147 0,386 0,155 0,358 0,167 0,000 0,258 0,256 0,812 1,142 3,703
13:Noruega 0,621 0,449 1,147 0,228 0,389 0,434 0,246 0,441 0,362 0,554 0,300 0,258 0,000 0,170 0,741 0,350 3,185
14:Suecia 0,812 0,460 0,960 0,428 0,767 0,692 0,181 0,425 0,267 0,424 0,515 0,256 0,170 0,000 1,162 0,640 4,472
15:Resto de Europa I 0,855 1,738 3,150 0,355 0,776 0,861 1,115 1,571 1,524 1,925 0,966 0,812 0,741 1,162 0,000 1,417 2,810
16:Resto de Europa II 1,628 0,883 1,917 1,048 1,101 1,114 0,910 0,917 1,059 1,180 1,059 1,142 0,350 0,640 1,417 0,000 3,432
17:Canada/USA 4,048 4,301 6,292 3,215 3,628 4,022 4,696 4,945 4,052 5,098 3,621 3,703 3,185 4,472 2,810 3,432 0,000
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 87 de 147
Tras haber elegido la medida de similitud más apropiada, llega la hora de agrupar los
individuos. Para ello, el Análisis Cluster permite el empleo de dos tipos de métodos de
clasificación: los métodos jerárquicos y los métodos no jerárquicos o de particionado.
Los métodos jerárquicos se caracterizan porque van formando los grupos o clusters en etapas
sucesivas siguiendo una estructura de árbol, permitiendo en cada paso determinar la distancia
entre los clusters ya formados. Dentro de este grupo de métodos se encuentran los métodos
jerárquicos aglomerativos o de encadenamiento, que son los que se emplean con mayor
frecuencia. Estos métodos se caracterizan porque parten inicialmente de tantos clusters como
individuos, por lo que al comienzo se consideran n clusters con un individuo cada uno. En el
primer paso, se seleccionan los dos clusters más cercanos y se unen, dando lugar a un único
cluster con 2 individuos. De esta forma, se ha pasado a tener n-1 clusters, por lo que las
distancias o similitudes entre ellos deberán recalcularse. A continuación, de forma iterativa, se
van uniendo en cada paso los dos clusters que sean más cercanos, reduciéndose así el
número de clusters en una unidad cada vez. Siempre que se realice una unión, se deben
recalcular las distancias o similitudes entre los clusters resultantes. Este procedimiento
continúa hasta que dispongamos únicamente de dos clusters, que se unirán en la última etapa.
Enlace simple ó método del entorno más cercano: En este caso, se considera como distancia
entre dos clusters a la menor distancia existente entre un individuo de un cluster y un individuo
del otro.
Cluster 1 Cluster 2
Enlace completo ó método del entorno más lejano: En este caso, se considera como distancia
entre dos clusters a la mayor distancia existente entre un individuo de un cluster y un individuo
del otro.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 88 de 147
Cluster 1 Cluster 2
Método del centroide: Este método se caracteriza porque requiere previamente el cálculo de
los centroides de los clusters formados, que no son otra cosa que los valores medios de las
variables consideradas para los individuos incluidos en cada cluster. Una vez determinados, el
método considera como distancia entre dos clusters la distancia existente entre sus centroides.
Hay que tener en cuenta, en este caso, que los centroides de los clusters van cambiando a
medida que se van uniendo los clusters en las sucesivas etapas.
Cluster 1 Cluster 2
Método de Ward: Este procedimiento va agrupando de forma jerárquica los clusters de tal
manera que en cada paso se unan aquellos clusters que produzcan un menor aumento de la
función que recoge la suma, para cada cluster y variable, de las desviaciones al cuadrado de
cada individuo del cluster al centro (media de los valores de los individuos que pertenecen al
cluster) del mismo. Dicha función se denomina suma de cuadrados intragrupos y viene dada
por:
( )
h nk p 2
SCI = ∑ ∑∑ x i jk − x i k (5.5)
k =1 j=1 i =1
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 89 de 147
individuos incluidos en el k-ésimo cluster, Ck. Además, x i k representa la media de los valores
que toma la variable i-ésima para los individuos pertenecientes a Ck.
Otro grupo de métodos jerárquicos son los divisivos que actúan mediante un procedimiento
inverso a los aglomerativos, ya que parten inicialmente de un único cluster que contiene a los n
individuos; y en cada etapa se van separando del mismo aquellos individuos que sean muy
diferentes al resto del cluster, formando pequeños clusters. El procedimiento continúa hasta
que se forman n clusters unitarios.
Los métodos no jerárquicos, a diferencia de los jerárquicos, requieren como dato de partida el
número de clusters, h, que deben formarse.. Estos métodos, que se emplean únicamente en el
caso de variables cuantitativas, van formando tantos grupos como se indican a priori, de
manera que la varianza dentro de cada grupo sea mínima. Generalmente, el método parte de
un conjunto de h puntos iniciales (semillas) que hacen el papel de los centroides de los
clusters. A continuación, se van formando los clusters, asignando a cada uno aquellos
individuos que estén a cierta distancia umbral de su centroide, empleando para ello la distancia
euclídea. Como ejemplo de este grupo de métodos podemos citar el método de las k-medias.
Cabe señalar que la información obtenida tras emplear un método jerárquico puede servir de
punto de partida para la aplicación posterior de un método no jerárquico, hecho que
enriquecería aún más el análisis cluster de los datos de partida.
Ejemplo 5.1.3:
En la tabla 5.1.4 se muestra cómo se van agrupando los individuos según el método de Ward
para dar lugar a los diferentes clusters o conglomerados. Se trata del denominado historial de
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 90 de 147
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 91 de 147
1:España 1 1 1 1 1 1
2:Reino Unido 2 2 2 2 2 2
3:Alemania 3 2 2 2 2 2
4:Italia 1 1 1 1 1 1
5:Francia 4 3 3 3 2 2
6:Bélgica 4 3 3 3 2 2
7:Holanda 5 4 4 3 2 2
8:Irlanda 2 2 2 2 2 2
9:Austria 5 4 4 3 2 2
10:Suiza 2 2 2 2 2 2
11:Dinamarca 4 3 3 3 2 2
12:Finlandia 5 4 4 3 2 2
13:Noruega 5 4 4 3 2 2
14:Suecia 5 4 4 3 2 2
15:Resto de Europa I 6 5 1 1 1 1
16:Resto de Europa II 7 6 5 4 3 2
17:Canada/USA 8 7 6 5 4 3
A continuación, nos centraremos en uno de los aspectos más interesantes del análisis cluster:
la determinación del número final de clusters a considerar, h. Para ello, nos servirá de gran
ayuda realizar una representación gráfica de la clasificación jerárquica obtenida, conocida
como dendograma. En este gráfico, se puede observar cómo se van uniendo los individuos
(países de origen) y clusters en las sucesivas etapas del método aglomerativo, así como las
distancias entre los clusters obtenidas tras llevar a cabo un cambio de escala. Este hecho
facilita su comparativa con otro dendograma obtenido empleando un método distinto de
clasificación.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 92 de 147
En el dendograma, llega un momento en que las barras de unión de clusters son más largas
que las anteriores, lo que nos llevaría a pensar que es un buen momento para cortar por ahí el
dendograma.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 93 de 147
C2 = { Reino Unido, Suiza, Irlanda, Alemania, Bélgica, Dinamarca, Francia, Noruega, Suecia,
Holanda, Finlandia, Austria, Resto de Europa II }
C17 = { Canadá/USA }
A partir de ahora, para facilitar la notación, haremos referencia al tercer cluster como C4.
Una vez decidido el número de clusters a considerar, conviene realizar una breve descripción
de las características de cada cluster o conglomerado. Para ello, se obtendrán los perfiles de
las variables consideradas para los diferentes cluster, lo que nos permitirá conocer mejor las
diferencias existentes entre ellos. En la tabla 5.1.7 se han obtenido los valores medios de las
cinco variables incluidas en la matriz de datos de partida, X, para los grupos de individuos
pertenecientes a cada uno de los tres clusters. Dichos perfiles se han representado
gráficamente en el gráfico 5.1.7.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 94 de 147
Cluster f1 f2 f3 f4 f5
C1 -0,280 -0,136 0,271 0,358 0,448
C2 -0,004 0,052 0,031 0,041 -0,143
C3 0,777 -0,925 1,385 0,759 0,208
Tabla 5.1.7 Perfiles de los clusters obtenidos
1,500
1,000 f1
f5
Cluster 1
Medias
0,500
f2 Cluster 2
0,000 Cluster 3
f3 f4
-0,500
-1,000
Variables
En cuanto al cluster C2, podemos apreciar que presenta un nivel intermedio de f1, el mayor
nivel de f2, así como los menores niveles de los otros tres factores, f3, f4 y f5. Así pues, los
demás países europeos, que son los que forman este cluster, son los que mejor han valorado
los aspectos climáticos, mientras que no se muestran satisfechos con otros aspectos como el
precio, la cantidad y calidad de los servicios suplementarios y la seguridad y tranquilidad.
Finalmente, el cluster C3, que incluye a los turistas norteamericanos, presenta la mayor
valoración de las variables f1, f3 y f4, lo que indica un alto grado de satisfacción en los siguientes
aspectos: el alojamiento y sus servicios, el precio y la cantidad y calidad de los servicios
suplementarios. Sin embargo, son los menos satisfechos con los aspectos climáticos, ya que
presentan el menor valor de la variable f2, Además, presentan un valor intermedio para la otra
variable, f5.
ISBN: 978-84-616-5991-3
Capítulo 5: Análisis Cluster Página 95 de 147
Según el gráfico 5.1.1, parece que las cinco variables presentan un valor promedio diferente
para cada uno de los tres clusters considerados. Si queremos comprobar estadísticamente esta
afirmación, debemos llevarse a cabo un análisis de la varianza (ANOVA) de un factor para
cada una de las variables, considerando en cada caso los tres grupos de individuos formados.
Previamente, habría que comprobar que las cinco variables presentan un comportamiento
normal, ya que en caso contrario, no podríamos llevar a cabo el ANOVA, debiendo recurrir en
dicha situación a la ejecución de una prueba no paramétrica para k muestras independientes,
como puede ser el test de Kruskall-Wallis.
5.3. BIBLIOGRAFÍA
[1] Hair, Anderson, Tatham y Black. “Análisis Multivariante”. 5ª Edición. Ed. Prentice Hall, 1999.
[3] Martín Martín, Q., Cabero morán, M. T. y Ardanuy Albajar, R. ”Paquetes Estadísticos SPSS
8.0. Bases teóricas. Prácticas propuestas, resueltas y comentadas”. Editorial Hespérides, 1999.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 96 de 147
CAPÍTULO 6
APLICACIONES ESTADÍSTICAS A LA INDUSTRIA
TURÍSTICA
RESUMEN:
El objetivo de este capítulo es aplicar algunas de las técnicas estadísticas que permitan al
lector comprender su utilidad y el papel que desempeñan como herramienta para el análisis y
toma de decisiones. Prácticamente en todos trabajos empíricos en la investigación turística, en
particular los cuantitativos, se realiza algún tipo de análisis descriptivo como paso previo a la
realización de análisis más complejos. Respecto a las técnicas inferenciales y multivariantes,
las más utilizadas son el análisis de componentes principales y la regresión. En este capítulo
presentaremos investigaciones en las siguientes áreas de relevancia para la gestión turística
pública y privada:
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 97 de 147
En un reciente estudio sobre las Compañías aéreas de bajo coste en España (IET,
2006b) se pone de manifiesto la presencia de Easyjet, Ryanair y Air Berlin entre las
principales compañías aéreas, después de Iberia, ocupando la segunda, tercera y
cuarta posición, respectivamente. Según el estudio mencionado, los pasajeros
llegados a España en compañías de bajo coste utilizaron la inglesa Easyjet Airline
(21,2% de pasajeros), la irlandesa Ryanair (21,2%), y la alemana Air Berlin (20%). Los
pasajeros procedentes del Reino Unido utilizaron tanto Easyjet como Ryanair,
mientras que los procedentes de Alemania usaron preferentemente la compañía Air
Berlin. En este sentido, y con fines didácticos, se pretende contrastar la hipótesis de
una mayor utilización de las líneas aéreas de bajo coste por parte del mercado
británico en comparación con el mercado alemán en sus viajes turísticos a España.
20
A partir de datos de Aena, el total de pasajeros llegados a España por vía aérea desde el Reino Unido
ascendió a 17.225.038 pasajeros (IET, 2006b). El 89,8% de los turistas alemanes que se recibieron en el
año 2005 vinieron por avión (IET, 2006a).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 98 de 147
tipo de líneas aéreas, tradicionales y de bajo coste (CBC) y los dos mercados
emisores principales con destino a España.
Se parte de la hipótesis de que los pasajeros procedentes del Reino Unido utilizan en
mayor medida las CBC en sus viajes turísticos a España que los procedentes de
Alemania.
Hipótesis nula: Hay independencia entre el tipo de líneas aéreas utilizadas y los
dos mercados emisores principales (Reino Unido y Alemania) con destino a
España.
Hipótesis alternativa: Hay evidencia significativa para suponer que hay asociación
entre el tipo de líneas aéreas utilizadas y los dos mercados emisores principales
con destino a España.
6.1.3. Metodología
21
El estudio de Movimientos Turísticos en Fronteras (Frontur) 2005 se encuentra disponible en
http://www.iet.tourspain.es (accedido el 22 de septiembre de 2006).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 99 de 147
Tabla 6.1.
Turistas
Total pasajeros
Líneas aéreas Alemania Reino Unido
(N)
Nº pasajeros % Nº pasajeros %
Tradicionales 6.354.672 61,4% 10.389.305 60,3% 16.743.977
CBC 3.999.662 38,6% 6.835.733 39,7% 10.835.395
Total pasajeros (N) 10.354.334 100% 17.225.038 100% 27.579.372
Fuente: Elaboración propia a partir de IET (2006a,b)
En esta aplicación, se pretende probar que los dos grupos – británicos y alemanes –
difieren con respecto a la utilización de las líneas aéreas tradicionales versus CBC y,
por lo tanto, con respecto a la frecuencia relativa con que los miembros del grupo son
encontrados en dichas categorías. Para ello, se cuenta con el número de casos de
cada grupo en cada categoría (utilización de vuelos tradicionales y de CBC) y se
compara la proporción de casos en las diferentes categorías de un grupo (británicos)
con la del otro grupo (alemanes). Como se ha indicado, en esta aplicación se escoge
la prueba χ2 para dos muestras independientes porque las variables objeto de estudio
son de tipo nominal: tipo de línea aérea (compañías tradicionales y CBC) y
procedencia de los turistas (Ingleses y alemanes). El resultado para este caso fue:
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 100 de 147
Como conclusión estadística debemos decir que la elección de una compañía aérea
tradicional frente a una de bajo coste depende de la nacionalidad del turista, teniendo
en cuenta únicamente los dos principales mercados emisores de turismo hacia
España, observándose que los pasajeros británicos utilizan en mayor medida las
líneas aéreas de bajo coste (CBC) que los alemanes.
La información sobre la imagen del destino permite que sus gestores identifiquen
puntos fuertes y débiles, ayudándoles a desarrollar productos y servicios capaces de
satisfacer al turista, por lo que la imagen se ha identificado como un aspecto crítico del
éxito del destino, convirtiéndose en el eje de la estrategia de marketing del mismo.
Por consiguiente, para desarrollar una política de imagen eficaz, el primer paso es ser
capaz de medir la imagen de un destino turístico desde el punto de vista de los turistas
actuales y potenciales.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 101 de 147
El objetivo principal que se persigue es medir la imagen que poseen los turistas
sobre el destino analizado. Para ello, se efectuará un doble análisis:
6.2.3. Metodología
22
Adaptado de Bigné y Sánchez (2001).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 102 de 147
momento de elaboración del estudio, obteniéndose una muestra global de 251 turistas.
La recolección de los datos se realizó durante la temporada estival, administrándose el
cuestionario de forma personal a los encuestados.
En cuanto a las técnicas estadísticas utilizadas para el tratamiento de los datos, han
sido, entre otras:
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 103 de 147
Como puede observarse, aunque las correlaciones entre los pares de variables no son
altas, gran parte de ellas presentan un grado de significación inferior a 0,05, por lo que
existe una correlación significativa entre las mismas, lo que favorece la aplicación del
Análisis de Componentes Principales.
Del análisis de esas dos tablas podemos destacar los dos extremos:
Transportes
Degradación Monumentos
locales
La correlación de la variable “limpieza” (V1) con todas las demás variables, salvo
con la “información” (V18).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 104 de 147
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 105 de 147
Sig. (Unilateral) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25
V1 Limpieza
V2 Acondicionamiento 0,001
V3 Calidad alojamiento 0,045 0,006
V4 Amabilidad 0,000 0,151 0,002
V5 Lugares interesantes 0,026 0,000 0,203 0,311
V6 Tranquilidad 0,008 0,123 0,065 0,040 0,141
V7 Paisajes 0,000 0,007 0,132 0,009 0,000 0,038
V8 Clima 0,255 0,048 0,005 0,003 0,103 0,013 0,000
V9 Urbanización 0,000 0,000 0,000 0,001 0,022 0,001 0,006 0,126
V10 Degradación 0,000 0,002 0,447 0,006 0,051 0,158 0,069 0,070 0,135
V11 Actividades al aire libre 0,054 0,221 0,142 0,013 0,001 0,068 0,002 0,007 0,002 0,001
V12 Calidad playas 0,000 0,000 0,006 0,001 0,007 0,413 0,002 0,000 0,000 0,000 0,000
V13 Monumentos 0,008 0,065 0,420 0,036 0,000 0,046 0,007 0,479 0,313 0,295 0,046 0,012
V14 Gastronomía 0,039 0,000 0,000 0,000 0,002 0,388 0,451 0,005 0,000 0,062 0,004 0,001 0,119
V15 Acceso 0,004 0,011 0,000 0,005 0,016 0,317 0,144 0,011 0,000 0,360 0,002 0,017 0,377 0,102
V16 Transportes locales 0,051 0,009 0,012 0,266 0,001 0,132 0,320 0,054 0,339 0,234 0,174 0,006 0,000 0,000 0,280
V17 Tiendas 0,028 0,291 0,109 0,006 0,014 0,105 0,056 0,010 0,263 0,340 0,000 0,393 0,207 0,075 0,475 0,054
V18 Información 0,320 0,358 0,381 0,010 0,427 0,485 0,029 0,006 0,146 0,248 0,000 0,057 0,001 0,011 0,001 0,024 0,132
V19 Instalaciones deportivas 0,085 0,304 0,008 0,025 0,001 0,041 0,000 0,043 0,081 0,109 0,002 0,003 0,001 0,004 0,041 0,000 0,041 0,345
V20 Viaje cultural 0,013 0,023 0,243 0,273 0,004 0,004 0,000 0,000 0,086 0,268 0,000 0,009 0,000 0,156 0,048 0,000 0,023 0,001 0,000
V21 Vida nocturna 0,017 0,024 0,001 0,369 0,002 0,459 0,000 0,001 0,028 0,129 0,194 0,164 0,336 0,002 0,179 0,151 0,061 0,007 0,072 0,004
V22 Costumbres típicas 0,037 0,008 0,001 0,025 0,000 0,473 0,001 0,022 0,005 0,003 0,004 0,002 0,019 0,000 0,119 0,000 0,023 0,000 0,000 0,002 0,000
V23 Calidad/precio 0,000 0,000 0,000 0,000 0,007 0,022 0,004 0,291 0,000 0,034 0,201 0,001 0,038 0,000 0,012 0,473 0,289 0,402 0,000 0,045 0,000 0,005
V24 Servicios de calidad 0,000 0,017 0,000 0,000 0,138 0,000 0,001 0,197 0,000 0,111 0,026 0,001 0,064 0,000 0,002 0,016 0,003 0,008 0,000 0,005 0,060 0,000 0,000
V25 Actividades diferentes 0,002 0,263 0,006 0,000 0,000 0,010 0,000 0,001 0,000 0,000 0,000 0,000 0,001 0,024 0,010 0,016 0,001 0,335 0,000 0,000 0,111 0,000 0,000 0,000
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 106 de 147
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 107 de 147
Si se observan los datos de la tabla, se aprecia que al sustituir las variables por los
factores, las variables peor representadas son la urbanización, la amabilidad, las
costumbres típicas y la calidad del alojamiento; mientras que las mejor representadas
serían la información, la vida nocturna, los transportes locales y los monumentos.
Dado que ningún valor es inferior a 0,5, no se eliminará ninguna variable del análisis.
2. Varianza explicada
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 108 de 147
4
Autovalor
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Número de componente
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 109 de 147
Para interpretar los diferentes factores hay que fijarse en la matriz de componentes
rotados (Tabla 6.9). En ella, se asignará la variable al factor en el que presente una
mayor carga factorial (generalmente, superior a 0,5). (Hair, Anderson, Tatham y Black,
1999; Miquel, Bigné, Lévy, Cuenca y Miquel, 1997). Para determinar la denominación
de cada componente, se tendrán en cuenta fundamentalmente aquellas variables que
presenten una mayor carga factorial (Díaz de Rada, 2002).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 110 de 147
4. Gráfico de situación de las variables originales respecto a los dos primeros factores
Para su elaboración se han tomado las correlaciones entre las variables originales y
los dos primeros factores, contenidas en la Tabla 6.9.
Instalaciones deport
0,60 Monumentos
0,50
0,40
Actividades diferent
Factor 2
0,30
Lugares interesantes Costumbres típicas
Paisajes
0,20
Calidad playas Tranquilidad
Servicios de calidad
Clima Información
0,10 Acondicionamiento Limpieza
Actividades al aire Acceso
Calidad alojamiento Calidad/precio
0,00
Vida nocturna Gastronomía
Urbanización Amabilidad
Degradación
-0,10
-0,20 0,00 0,20 0,40 0,60
Factor 1
En este gráfico podemos observar con más claridad los resultados obtenidos para los
dos primeros factores obtenidos. Así:
En el factor 1, las variables con mayor correlación con dicho eje son:
En el factor 2, las variables con mayor correlación con dicho eje son:
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 111 de 147
Dado que uno de los objetivos del estudio era determinar hasta qué punto los factores
basados en los atributos de imagen que acaban de ser identificados explicaban la
imagen global poseída por el turista, en este apartado va a realizarse un análisis de
regresión lineal múltiple para responder a dicho objetivo. Para ello, se utilizarán las
puntuaciones factoriales obtenidas en el Análisis de Componentes Principales como
variables independientes, y la imagen global (V29) será la variable dependiente.
o Como el valor del estadístico de Durbin-Watson está cercano a 2 (1,72), esto nos
indica que no existen problemas de autocorrelación entre las variables.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 112 de 147
En la Tabla 6.10 se muestran los indicadores que suelen utilizarse para interpretar los
resultados.
En cuanto a los factores que ejercen una mayor influencia en la imagen global de Peñíscola,
son: la calidad y los atractivos turísticos, seguidos a mayor distancia por el acceso, las
infraestructuras y la información y, por último, las actividades. La playa-medio ambiente, el
folklore y la tranquilidad no han resultado ser significativos.
Segundo objetivo:
Los gráficos Q-Q representan los cuantiles de la distribución de una variable respecto
a los cuantiles de la distribución normal de contraste.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 113 de 147
Gráfico 6.3
1
Normal esperado
-1
-2
-3
-4
1 2 3 4 5
Valor observado
Gráfico 6.4
1
Normal esperado
-1
-2
-3
1 2 3 4 5
Valor observado
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 114 de 147
Gráfico 6.5
Normal esperado
0
-1
-2
1 2 3 4 5
Valor observado
Por tanto, los resultados (Gráfico 6.3, 7.4 y 7.5) indican que las variables violan el
supuesto de normalidad, por lo que no podrá aplicarse el Análisis de la Varianza
Paramétrico, debiendo recurrir a sus equivalentes no paramétricos. Como la imagen
global es la variable independiente y define más de dos grupos, el estadístico más
adecuado será el test de Kruskall-Wallis explicado en el capítulo 13.
Tabla 6.11.
Test de Kruskall-Wallis
Rango promedio
Imagen global N
Valoración estancia (Satisfacción) Calidad percibida
Muy desfavorable 2 107,75 38,25
Desfavorable 5 56,20 77,40
Intermedia 31 61,74 91,10
Favorable 112 109,25 120,97
Muy favorable 101 168,12 146,43
Total 251
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 115 de 147
En la Tabla 6.11 se observa que hay notables diferencias en los rangos de las dos
variables respecto a la imagen global, lo cual hace que, como podemos ver en la Tabla
6.2, concluyamos que hayan diferencias significativas en las puntuaciones de la
satisfacción y de la calidad percibida, dependiendo de la puntuación que hayan dado
los turistas a la imagen global23. Por tanto, la imagen global que se forma el turista
sobre el lugar ejerce una influencia significativa tanto sobre la satisfacción con la
estancia como sobre la calidad percibida de la misma.
Por último, se pretende determinar qué variable ejerce una mayor influencia en la
intención de regresar (V26) y de recomendar el destino (V27): la imagen global (V29),
la satisfacción con la estancia (V28) o la calidad percibida (V30).
Para no ser repetitivos, las conclusiones de los resultados del primer análisis de
regresión múltiple en el que las variables independientes son la imagen global,
valoración de la estancia y calidad percibida, y la variable dependiente la intención de
regresar al destino, son las siguientes::
23
Tanto en la calidad como en la satisfacción, la significación o área que queda a la derecha es 0, por lo
que se rechaza la hipótesis de igualdad de promedios.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 116 de 147
Por último, el valor del R2, un 21,7% para la intención de regresar frente a un 26,3%
para la de recomendación, aunque es bajo en ambos análisis, se observa que la
intención de recomendar el destino se halla mejor explicada por la imagen global, la
satisfacción y la calidad percibida que la intención de volver a visitarlo. Esto de
nuevo podría explicarse por la débil relación que existe entre satisfacción e
intención de regresar.
Tabla 6.13.
Regresión de la satisfacción, la imagen global, la calidad percibida y
la intención de regresar sobre la intención de recomendar
VARIABLES Coeficiente Beta estandarizado Valor t Sig.
Constante 6,495 0,000***
Satisfacción -0,075 -1,500 0,135
Imagen global -0,133 -2,593 0,010*
Calidad percibida -0,058 -1,303 0,194
Intención regresar 0,644 13,933 0,000***
R2 =0,588; Durbin Watson =1,687; F= 87,743 (Sig. F = 0,000)
*** = p< ,001; * = p< ,05
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 117 de 147
o La intención de volver al destino en el futuro es, sin duda, la variable que incide de
forma más fuerte en la intención de recomendación, siendo únicamente la imagen
global la otra variable que también ejerce una influencia relevante
6.2.6. Implicaciones
Esto implica que los gestores del destino deben preocuparse especialmente por
mejorar la relación calidad precio de los servicios y atracciones del mismo, así
como cuidar los paisajes que se ofrecen y potenciar una vida nocturna atractiva.
Asimismo, también hay que cuidar el acceso, las infraestructuras y la información
que se proporciona al turista.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 118 de 147
El sector turístico está inmerso en una intensa competencia, fruto del emergente
crecimiento de productos de ocio innovadores. En este sentido, la utilización de
variables emocionales en la generación de nuevos productos y servicios turísticos,
puede ser fuente de gran interés en el desarrollo de innovaciones en turismo. Diversos
estudios han indicado que los proveedores del servicio pueden estimular la
experiencia emocional del consumidor, con el objetivo de maximizar la satisfacción
(Dubé y Menon, 2000). La experiencia del servicio influye en la generación de las
emociones del consumidor, y ello repercute en la satisfacción e intenciones de
comportamiento.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 119 de 147
académico como empresarial. Dado que los visitantes interactúan con el entorno del
servicio y personal de contacto durante la experiencia de ocio y turística, la
comprensión de las respuestas afectivas de los consumidores es una cuestión crítica
en la segmentación del visitante. Los gerentes de las atracciones pueden integrar las
variables emocionales en sus investigaciones periódicas de mercado, junto con las
medidas de satisfacción y, de este modo, conocer las intenciones de comportamiento
de sus visitantes respecto al servicio ofertado.
6.3.3. Metodología
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 120 de 147
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 121 de 147
Partiendo de una matriz de datos formada por 200 individuos y 10 variables (ítems de
emociones) se pretende analizar si las emociones son adecuadas para segmentar el
mercado de los consumidores y, para ello, se utiliza el análisis cluster o de grupos
(Bigné, 1990).
25
Existen otras alternativas como la inclusión de las propias dimensiones emocionales como
variables para el análisis cluster. Sin embargo, no existe un consenso respecto al uso de las
puntuaciones de factor en el análisis cluster, puesto que en caso de utilizarlas, es bastante
posible que se obtenga una mala representación de la verdadera estructura de los datos
(Hair, Anderson, Tatham y Black, 1999). En suma, estas consideraciones justifican que la
selección de las variables del análisis cluster sean los ítems de las emociones.
26
Junto a las medidas de distancia, existen otras medidas de similitud utilizadas en el análisis
cluster: medidas de correlación y medidas de asociación (Bigné, 1990; Hair, Anderson,
Tatham y Black, 1999). Como indican Hair, Anderson, Tatham y Black, (1999; p. 504) “un
problema al que se enfrentan todas las medidas de distancia es que el uso de datos no
estandarizados implica inconsistencias entre las soluciones cluster cuando cambia la escala
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 122 de 147
1. Historial de conglomerados
Tabla 6.14. Análisis del coeficiente de aglomeración para el análisis cluster jerárquico
Nº de Coeficiente de Cambio porcentual en el coeficiente del nivel
clusters aglomeración siguiente
10 568.47 4.00
9 591.23 4.22
8 616.15 4.20
7 642.04 4.22
de las variables”. En este caso, las variables se han utilizado de forma similar, mediante escalas
de diferencial semántico de 5 puntos; por ello, no se plantea este problema de datos no estandarizados.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 123 de 147
6 669.10 8.84
5 728.25 9.13
4 794.70 14.79
3 912.25 16.93
2 1066.71 60.86
1 1715.93
Dado que el mayor incremento se produce cuando se va de dos a un conglomerado
(60.86%), seleccionamos la solución de dos conglomerados.
Una vez decidido el número de clusters a considerar, conviene realizar una breve
descripción de las características de cada cluster. Para ello, se obtendrán los perfiles
de las variables consideradas para los dos clusters, lo que permitirá conocer mejor las
diferencias existentes entre ellos. En la Tabla 6.15 se muestran los perfiles de los
clusters obtenidos.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 124 de 147
El examen de los perfiles de los dos grupos revela diferencias significativas en todas
las variables para el 0.1% de significación, considerándose una solución pertinente
para proceder al análisis no jerárquico. Los perfiles de los grupos anteriores
constituyen los centroides iniciales, a utilizar en la segunda etapa del análisis cluster,
mediante el método no jerárquico (K-medias).
Tras el análisis cluster no jerárquico, se obtiene una nueva variable “QCL_1” de dos
grupos cuyos valores medios constituyen los centroides finales (Tabla 6.17).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 125 de 147
grupos obtenidos mediante el método K-medias, tal y como se aprecia del análisis de
la varianza27.
27
Para mayor información, puede verse “resultados analisis no jerarquico.spo”.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 126 de 147
serán aquellas que guardan una estrecha relación con las emociones: ítems que
miden la satisfacción, lealtad y disposición a pagar más.
Tabla 6.7. Test de Mann Whitney sobre la satisfacción e intenciones respecto al grupo
de pertenencia
Número inicial Rango Suma U de Sig. Asintót
Variables N Z
de casos promedio de rangos Mann-Whitney (bilateral)
1 95 84,168 7996,0
Satisfacción 1 2 105 115,276 12104,0 3436,0 -3,93 0,000
Total 200
1 95 73,674 6999,0
Satisfacción 2 2 105 124,771 13101,0 2439,0 -6,85 0,000
Total 200
1 95 73,900 7020,5
Satisfacción 3 2 105 124,567 13079,5 2460,5 -6,78 0,000
Total 200
1 95 74,826 7108,5
Satisfacción 4 2 105 123,729 12991,5 2548,5 -6,58 0,000
Total 200
1 95 73,153 6949,5
Satisfacción 5 2 105 125,243 13150,5 2389,5 -6,82 0,000
Total 200
1 95 79,142 7518,5
Lealtad 1 2 105 119,824 12581,5 2958,5 -5,77 0,000
Total 200
1 95 81,432 7736,0
Lealtad 2 2 105 117,752 12364,0 3176,0 -5,11 0,000
Total 200
1 95 75,595 7181,5
Lealtad 3 2 105 123,033 12918,5 2621,5 -6,48 0,000
Total 200
1 95 79,816 7582,5
Lealtad 4 2 105 119,214 12517,5 3022,5 -5,17 0,000
Total 200
1 95 77,100 7324,5
Lealtad 5 2 105 121,671 12775,5 2764,5 -5,76 0,000
Total 200
1 95 93,389 8872,0
Pagar más 1 2 105 106,933 11228,0 4312,0 -1,72 0,085
Total 200
1 95 93,863 8917,0
Pagar más 2 2 105 106,505 11183,0 4357,0 -1,60 0,110
Total 200
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 127 de 147
Del análisis de la Tabla 6.18, se evidencia que el grupo 2 muestra mayor nivel de
satisfacción –en los cinco ítems– con relación al grupo 1, existiendo diferencias
significativas entre ambos grupos. En consecuencia, la hipótesis 2 se acepta.
a) Lealtad
o En cuanto a la edad, en el grupo que siente mayores emociones (grupo 2), los
porcentajes son muy similares en los jóvenes de 18 y 34 años y los que tienen entre
35 y 54 años, siendo muy bajo el porcentaje de los que tienen más de 54 años. Sin
embargo, en el grupo que siente menos emociones, los porcentajes son claramente
mayores en los que tienen entre 35 y 54 años.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 128 de 147
6.3.6. Implicaciones
La gestión de las emociones del visitante requiere conocer en qué medida éstas
permiten segmentar a los consumidores. Mediante esta aplicación, empleando el
análisis cluster jerárquico y no jerárquico, se ha realizado un test de Mann Whitney
para comprobar si la segmentación explica los diferentes niveles de satisfacción e
intenciones de comportamiento del turista. Las conclusiones son:
De esta manera, el análisis continuo de las emociones que sienten los individuos,
constituiría un indicador de interés para evaluar la experiencia del consumidor y,
en definitiva, gestionar las emociones.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 129 de 147
6.4.3. Metodología
Se dispone de datos sobre los atributos percibidos de nueve áreas turísticas. Estos
datos se muestran en la Tabla 6.20, donde la intersección entre una fila y una
columna representa el número de individuos que valoran el destino i con el atributo j.
La hoja de cálculo para la resolución mediante el paquete SPSS, se encuentra en la
web con el nombre “datos posicionamiento destinos.sav”.
28
Adaptado de Bigné, Andreu y Cooper (2000).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 130 de 147
Del análisis se destaca la alta proporción de británicos que asocian Madrid como
destino cultural-histórico o la Comunidad Valencia con gastronomía. Asimismo, las
áreas turísticas que se perciben como de sol-playa se refieren a lugares tradicionales
que los británicos asocian con ir de vacaciones a España (Benidorm, Costa del Sol,
Canarias y Baleares), reflejado en la popularidad de los catálogos de los
touroperadores británicos.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 131 de 147
La masa o peso es la frecuencia relativa marginal, en este caso de cada una de las
cualidades contempladas. Por tanto, la cualidad que más pesa es sol-playa, (35%)
seguida de cultural-histórico (20%) y tranquilidad (19,1%).
En cuanto a los perfiles de columna, la Tabla 6.22 muestra que el atributo cultural-
histórico se asocia a Madrid (37%) y Andalucía (23,1%), mientras que el gastronómico
a la Comunidad Valenciana y Galicia, con el 45,9% y 24,6%, respectivamente.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 132 de 147
La masa o peso es la frecuencia relativa marginal, en este caso de cada uno de los
destinos considerados. Por tanto, el destino con un mayor peso es Galicia (16,3%),
seguida de Andalucía (13,3%) y la Comunidad Valenciana (12%)..
Una vez analizados los perfiles de ambas variables, se debe contrastar si realmente
existe algún tipo de asociación entre las mismas. Esto se realiza a través del contraste
χ2 de independencia que viene incorporado en los resultados que aporta el SPSS.
En definitiva, hay evidencia significativa de que existe asociación entre los destinos y
las cualidades considerados, por lo que tiene sentido aplicar un Análisis de
Correspondencias Simple.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 133 de 147
tercera dimensión o eje aporta sólo un 1,5% a la solución, no vale la pena incluirla en
el análisis porque sólo aportaría una mayor complejidad a la interpretación de los
resultados.
En las Tablas 6.24 y 7.25 se muestran las puntuaciones de los distintos puntos
(perfiles) fila y columna en las dimensiones objeto de análisis. Estas puntuaciones son
las que posteriormente permitirán realizar una representación gráfica de los mismos.
o Factor 1
Del examen de los puntos fila se observa que cuatro destinos, Madrid, Benidorm,
Canarias y Costa del Sol explican el 76,5% del factor. Madrid en el campo negativo (-
1,494) y los tres restantes en el positivo (1,122, 0,845 y 0,964, respectivamente). Estos
destinos tienen contribuciones de la dimensión a la inercia del punto (contribución
relativa) altas: Madrid (0,677), Costa del Sol (0,911), Benidorm (0,867) y Canarias
(0,935).
o Factor 2
Tres destinos, Madrid, Comunidad Valenciana y Galicia explican el 89,5% del factor. El
primero en el campo positivo (1,223) y los dos restantes en el negativo (-1,099 y -
0,718, respectivamente). Estos destinos tienen contribuciones de la dimensión a la
inercia del punto (contribución relativa) altas: Madrid (0,283), Comunidad Valenciana
(0,489) y Galicia (0,405).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 134 de 147
o Factor 1
Dos atributos (sol-playa y cultural-histórico) explican el 92,6% del factor. El atributo sol-
playa tiene una puntuación positiva (0,965), mientras que cultural-histórico puntúa en
el campo negativo (-1,204). Ambos atributos tienen buena calidad de representación
sobre el eje (sol-playa, 0,916 y cultural-histórico, 0,759).
o Factor 2
El atributo gastronomía tiene una puntuación negativa (-1,291), mientras que cultural-
histórico puntúa en la parte positiva (0,846). La calidad de la representación de estos
atributos es de 0,537 y 0,223, respectivamente.
La asociación de los destinos con los atributos del factor 2, permite señalar que,
en la parte positiva se sitúa destinos asociados a histórico-cultural mientras que la
parte negativa agrupa a destinos asociados con la riqueza gastronómica
(Comunidad Valenciana y Galicia).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 135 de 147
Nos muestra que, en general 29, existe una fuerte vinculación entre las zonas turísticas
y los atributos percibidos de los mismos, corroborándose los resultados anteriores. En
este gráfico se puede observar la proximidad clara de los destinos de sol y playa,
posicionados en la parte positiva de la dimensión 1 y 2, con Canarias y Benidorm.
29
De la representación gráfica se observa la proximidad al eje de coordenadas de los perfiles fila y
columna de Andalucía, Baleares y Cataluña, así como de los atributos: tranquilo y rural-naturaleza. La
baja contribución relativa a la explicación de los dos factores dificulta su caracterización.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 136 de 147
Igualmente, los destinos Comunidad Valenciana y Galicia tienen una clara asociación
con la gastronomía, situados en la parte negativa de la dimensión 2.
6.4.6. Implicaciones
Canarias, Benidorm y la Costa del Sol son destinos percibidos como similares por
los turistas, lo que implica que pueden ser vistos como sustitutivos a la hora de
satisfacer el deseo de practicar turismo de sol y playa.
Destaca la posición que ocupa Madrid, que es percibido como un destino único no
similar a ninguna de las zonas analizadas.
Andalucía y Cataluña poseen una imagen similar, por lo que serían competidores
importantes.
Por último, aunque tanto Galicia como la Comunidad Valenciana se asocian con la
gastronomía, esta asociación es más fuerte para la Comunidad Valenciana,
mientras que Galicia también es percibida como un destino rural o de naturaleza.
El análisis de las motivaciones del turista cuando viaja a un destino turístico adquiere
especial relevancia para las organizaciones que gestionan los destinos turísticos. La
identificación de las motivaciones del turista facilitará el desarrollo de una oferta
turística que satisfaga sus necesidades. Ante la diversidad de motivaciones y su
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 137 de 147
Conocer las principales razones por las que los turistas británicos deciden viajar a
Marmaris.
Analizar, en su caso, el perfil de los distintos grupos de turistas británicos que viajan
a Marmaris.
6.5.3. Metodología
1. Disfrutar de la naturaleza-playas
30
Adaptado de Andreu, Kozak, Avci y Cister (2005)
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 138 de 147
Conocer las principales razones por las que los turistas británicos deciden
viajar a Marmaris.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 139 de 147
dispersión relativa que nos permite estimar las variables con una media más o menos
representativa. Según los resultados, la media menos representativa es la referida a la
variable “beneficiarse de tarifas aéreas”, mientras que la más representativa es
“disfrutar buen tiempo”.
Conocer las principales razones por las que los turistas británicos deciden
viajar a Marmaris.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 140 de 147
17 2 7 15,333 16 0 26
18 8 25 18,000 3 0 22
19 4 10 21,167 14 0 25
20 1 22 24,452 15 0 25
21 5 15 29,452 9 13 26
22 8 16 37,586 18 2 24
23 9 11 47,086 0 6 27
24 8 23 56,827 22 11 28
25 1 4 71,775 20 19 29
26 2 5 95,997 17 21 27
27 2 9 122,525 26 23 28
28 2 8 311,100 27 24 29
29 1 2 626,100 25 28 0
Tabla 6.28. Análisis del coeficiente de aglomeración para el análisis cluster jerárquico
Diferencia del coeficiente Cambio porcentual en
Número de Coeficiente de
de aglomeración entre el coeficiente del nivel
clusters aglomeración
etapas siguiente
10 24,452 3,29 20,45
9 29,452 5,00 27,60
8 37,586 8,13 25,28
7 47,086 9,50 20,69
6 56,827 9,74 26,31
5 71,775 14,95 33,74
4 95,997 24,22 27,64
3 122,525 26,53 153,91
2 311,100 188,58 101,25
1 626,100 315,00
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 141 de 147
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 142 de 147
Para ello, debemos realizar una descripción de los clusters resultantes y sus
características. Lo haremos utilizando el análisis de la varianza de un factor, donde la
variable independiente está formada por los tres grupos considerados y las variables
dependientes son las incluidas inicialmente. En la Tabla 6.29 se han obtenido los
valores medios de las cinco variables incluidas en la matriz de datos de partida, para
los grupos de individuos pertenecientes a cada uno de los tres clusters31.
El análisis de los perfiles de los tres clusters pone de relieve grupos significativamente
diferentes para el 0,1% de significación, considerándose la solución pertinente para
proceder al análisis no jerárquico. Como se ha indicado en el epígrafe 7.4, los perfiles de
los grupos obtenidos en la etapa jerárquica constituyen los centroides iniciales de la
segunda etapa del análisis cluster basada en el método no jerárquico.
Los resultados indican que los centroides finales son prácticamente idénticos (véase
“resultados cluster no jerarquico.spo”). Este hecho confirma la estabilidad de los clusters
formados y que la aproximación de centroides proporcionada por el análisis de
conglomerados jerárquicos estaba ya muy próxima a la solución óptima para ese
número de grupos (Uriel y Aldás, 2005).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 143 de 147
o El primer grupo se caracteriza por su motivación hacia los recursos naturales del
destino turístico, bien para el disfrute de la naturaleza o de sus playas, acompañado
de buen tiempo.
Junto al análisis de las motivaciones, resulta de interés analizar las variables que
pueden caracterizar a los segmentos obtenidos. Como se muestra en la Tabla 6.31,
existen diferencias significativas en la composición de los grupos en relación con la edad
y la estancia mínima.
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 144 de 147
Respecto a la edad:
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 145 de 147
Teniendo en cuenta que las empresas deben seguir una orientación al consumidor
para conseguir una medición de la calidad en servicios, Parasuraman, Zeithaml y
Berry (1988) desarrollaron una escala de medición de calidad de servicio denominada
SERVQUAL, que ha sido ampliamente utilizada en la literatura pese a sus críticas
(Buttle, 1996). Dicha escala estaba formada por 22 ítems, debiendo medirse tanto las
expectativas como las percepciones sobre los mismos y calcular la calidad de servicio
percibida como la diferencia entre ambos. Los autores obtuvieron que la escala se
estructuraba en cinco dimensiones subyacentes, recogiéndose en el cuadro 7.1 la
asignación de los ítems a cada una de las dimensiones:
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 146 de 147
6.6.3. Metodología
El estudio empírico comprende tanto una fase cualitativa como una fase cuantitativa.
El enfoque cualitativo tenía un claro objetivo de adecuación de la escala genérica de
SERVQUAL al ámbito de las agencias de viaje. Para ello, se desarrolló un análisis
Delphi compuesto por un panel integrado por 14 expertos nacionales, escogidos tanto
del ámbito público y privado del sector turístico, como del ámbito académico, con
experiencia y conocimientos del sector y de calidad del servicio.
32
Adaptado de Bigné, Martínez y Miquel (1997).
ISBN: 978-84-616-5991-3
Capítulo 6: Aplicaciones Estadísticas a la Industria Turística Página 147 de 147
6.6.5. Cuestiones
B. Una vez utilizadas, ¿Cuáles son las principales conclusiones que obtiene en función
del objetivo propuesto?.
ISBN: 978-84-616-5991-3