P. 1
Estadistica Aplicada en Turismo

Estadistica Aplicada en Turismo

4.5

|Views: 734|Likes:
Publicado porcinalfi1114

More info:

Published by: cinalfi1114 on Apr 08, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

12/30/2014

pdf

text

original

TURISMO

Y

HOSTELER

Í

A

I

^

José María Raya

Estadística Aplicada
rismo
PEARSON Prentice Ha ll

rt

Estadística RpIicaøa al Turismo

Es!aaTsríca al

aplicada

Turismo

José María Raya Vílchez
Escuela Universitaria del Maresme (EUM) Adscrita a la Universidad Pompeu Fabra

PEARSON
\

Prenticeall
Madrid • México • Santafé de Bogotá • Buenos Aires • C ar acas • Lima • Montevideo • S an Ju an • S an José • S an tiago • Sao Paulo • White Plains

Queda prohibida. teoría. TRATAMIENTO DE TEXTOS. Impreso por: Top Printer Plus IMPRESO EN ESPAÑA . La infracción de los derechos mencionados puede ser constitutiva de delito contra la propiedad intelectual (arts. de catalogación bibliográfica K AYA VÍLCHEZ. M. procedimientos y métodos 311 Formato: 195 / 250 mm Páginas: 112 Todos los derechos reservados. 270 y sgts.L. Madrid.. comunicación pública y transformación de esta obra sin contar con autorización de los titulares de propiedad intelectual. salvo excepción prevista en la ley. S.A.A. DERECHOS RESERVADOS 2004 por PEARSON EDUCACIÓN. Composición y diseño: JOSUR. S. S. distribución. S.° ESTADÍSTICA APLICADA AL TURISMO ISBN: 84-205. Código Penal).4092 -7 Depósito Legal: M-14986-2004 PEARSON PRENTICE HALL es un sello editorial de PEARSON EDUCACIÓN.STICA APLICADA AL TURISMO PEARSON EDUCACIÓN. J. cualquier forma de reproducción.A.' L OTADÍ. M. S.PRINTED IN SPAIN Este libro ha sido impreso con papel y tintas ecológicos . 28 28042 Madrid (España) RAYA VÍLCHEZ. Equipo editorial: Editor: David Fayerman Aragón Técnico editorial: Ana Isabel García Borro Equipo de producción: Director: José Antonio Ciares Técnico: José Antonio Hernán Diseño de cubierta: Equipo de diseño de PEARSON EDUCACIÓN.A. Ribera del Loira. 2004 ISBN: 84-205-4092-7 Materia: Estadística. J./Dato.

por ser el origen de estas oportunidades. sobre todo a David y a Xevi por su aguante.quien pudo haber sido.!) de la EUM. A mis amigos y amigas. A Ana por estas «pequeñas cosas.A los que me acompañan en esta «canción» A Mar.donde quiera que estés. y . A mis ... a Tania y Elisabet... ¡todo! Por último. a Ángel y David de Pearsón Educación y a la comprensión de . especialmente.er. por todo lo que han aportado a este libro. Manel y en especial a Unís (¡som un equip. por su confianza. Mención honorífica para mis padres y a Abel (mi rocker favorito) por. . A Jaume.

Representaciones gráficas 2.2. La Estadística: sentido y significado 1.3.2. S A ix 2 3 4 7 Z. Tabulación: frecuencias 2.8. Dependencia funcional y estadística.1. Variables estadísticas. Reducción de datos I: medidas de tendencia central 2. Covarianza y correlación 3. Reducción de datos III: medidas de dispersión 2. Reducción de datos H: medidas de posición 2. La regresión lineal simple 3.4.10.4. Diagramas } tabulaciones bivariantes 3.Priílogo Ljaseatacióo 1. Cálculo de coeficientes e interpretación 54 55 57 58 .7. Tipos 2. Riiálisis exploratorio de variables unidimerisionales 2. El programa SPSS: breve introducción a su funcionamiento 1.5.2.1.3. Tipos de muestreo 2.1.4. apuntamiento y concentración 2.3. Ejemplo de resolución a partir de SPSS 2. Población y muestra.6. Reducción de datos IV: medidas de simetría. El nuevo profesional turístico 1.11.9. Ejemplos de estudio 2. La agencia EN ALGÚN LUGAR. Ejercicios propuestos 9 10 11 12 15 16 23 25 29 33 38 48 Hnálisis exploratorio dc variables bidimensianales 53 3.

Ejercicios propuestos 83 84 85 87 87 89 94 Bibliografía Índice analítico 97 99 . Introducción al análisis de series temporales 4. Ejercicios propuestos 4.4. Ejemplos de estudio 4.7. 3. Componentes de una serie temporal 4.11 Ejemplo de resolución a partir de SPSS 3. Ejemplos de resolución a partir de SPSS 4. Ejemplos de estudio 3. Desagregación de los componentes de una serie temporal 4.1.6.12. Series temporales. Consecuencias Introducción a la regresión lineal múltiple Estadística de atributos. 3.6. 3.5.5. 3.2.üi 3. Independencia y asociación Estadística aplicada al turismo 60 61 62 63 64 66 68 79 3.9.3. Autocorrelación 4.10.8. Medidas de calidad del ajuste Introducción a la inferencia estadística Hipótesis del modelo lineal.

incluso en forma de casuística real debidamente disfrazada. no quisiera dejar pasar la oportunidad de recomendar el mismo a los profesionales del sector que puedan encontrarlo de validez para sus tareas. a partir de una base de datos con evidente orientación turística. y relacionado con los puntos anteriores. por tanto. Como texto de iniciación a la Estadística es válido en cualquier entorno. Por supuesto. Y si la Estadística descriptiva resulta tremendamente útil para científicos. de tomar decisiones. utilizado tanto en la esfera pública como en la privada. según el plan) en una escuela universitaria. ya sean de diplomatura o de ciclos formativos. Por último. ingenieros o economistas. la gran mayoría de ejercicios y problemas presentados son fruto de diversos años de docencia de la asignatura Estadística de turismo (o técnicas cuantitativas aplicadas al sector turístico. se pretende orientar el texto al sector turístico por varias razones. a quienes mostramos nuestro agradecimiento desde este momento. pero resulta eminentemente dirigido a estudiantes del campo turístico. gráficos y estadísticos vistos en el mismo. Este hecho se mitiga durante el texto. intenta ofrecer una exposición clara y sencilla de los principales conceptos estadísticos sin menoscabar el rigor matemático propio de la materia. el texto se hace acompañar de la implementación y solución de diversos problemas a partir de. En primer lugar. En particular. Así. tanto de índole teórica como práctica. C . el paquete estadístico de mayor generalización. En el autoconvencimiento de cualquier docente figura que la mejor exposición procede de aquélla experimentada y aprendida de nuestros alumnos. de forma que la utilidad y la intuición que da origen a cada concepto anteceda la definición formal del mismo. a las agencias de viajes o. A pesar de ello. por qué no para los profesionales del sector turístico? El presente libro trata a nivel intermedio la mayoría de tópicos que gran parte de textos de dicha temática suelen presentar. a interpretar sus salidas y sea capaz. figura en nuestro deseo que este material sirva de ayuda a futuras promociones de estudiantes. Dicha exposición intentamos sea intuitiva y persuasiva para el lector. de forma que el lector aprenda a utilizar el paquete en dicho entorno. Resulta especialmente motivadora la escasa presencia de textos de índole cuantitativa realmente orientados al sector tratando de forma directa la utilidad que confieren los instrumentos estadísticos a la gestión hotelera.Prãl000 on toda seguridad la mayoría del conocimiento que adquirimos. En segundo lugar. i. De los lectores del texto esperamos perdonen las deficiencias del mismo a la par que encuentren en él un camino hacia su éxito. pretende cuidar especialmente diversos aspectos que ala vez le permiten obtener una entidad diferencial. presenta como objetivo esencial la ayuda a la hora de tomar decisiones. Esta finalidad es especialmente evidente cuando tomamos en consideración cualquier técnica cuantitativa. No obstante. en particular la Estadística descriptiva. a las consultoras turísticas entre otros profesionales del sector. cada capítulo viene acompañado de una sección en la que se practica la obtención de todas las tablas. probablemente. evidentemente. en la académica y en la empresarial: el programa SPSS.

A.3.CRPTTULO 1 Presentación Sumario 1. El programa SPSS: breve introducción a su funcionamiento 1.1. La Estadística: sentido y significado 1. . La agencia EN ALGÚN LUGAR.4. S.2. El nuevo profesional turístico 1.

en ocasiones con el fin de distorsionar la realidad para sus propios fines. así como en las decisiones turísticas que realice una agencia. de los más básicos presentados en este libro. podemos definir el término Estadística de la siguiente forma: es la ciencia que trata. La política. 0 E n est capítulo se pretende presentar la Estadística como una de las ciencias de mayor longevidad.principio es la ayuda en la toma de decisiones. de recursos en general. análisis. como la mayoría de las instrumentales.1. Con un ejemplo sencillo y parafraseando a Bernard Shaw se observa cómo se puede producir esta distorsión:. de la recogida. en 1748. todos se sirven de ella. la economía. presentación. si un hombre tiene la cabeza en un horno y los pies en la nevera la estadística reflejaría que su cuerpo está a una temperatura media ideal. El único medicamento que nos salva de esta posible manipulación y nos ayuda a participar en la argumentación pública basada en cifras y datos.de dónde procede esta ciencia? Muchos de los conceptos que incluimos hoy día dentro de ese amplio término que conocemos como Estadística son tan antiguos como el mismo hombre.. Pero.. la publicidad. de infraestructuras. organización. para poder obtener conclusiones de esta información. Así. la definición del objeto de cualquier ciencia siempre está ligada al problema que resuelve. El término estadística tiene su raíz en la palabra estado. es el conocimiento de los métodos estadísticos y. los países. ¡. el programa informático que aprenderemos a utilizar en las funciones relacionadas con el objetivo del presente libro y la empresa que iremos conociendo a través del análisis estadístico. Asimismo. El estado quiere conocer el censo de personas. el mundo del turismo.. las empresas. y cuya vocación desde el e • • 1. profesor de la Universidad de Gottingen. recuento. sino que está presente en prácticamente cualquier otra ciencia al proponer técnicas para la recogida y el análisis de cualquier tipo de datos. Por otra parte.000 años. Resulta siempre complicado definir con precisión y claridad el objeto de cualquier ciencia y más en una ciencia que ya no es una cuestión reservada al estado. se presentará la concepción turística que esconde el libro. resumen. Surge cuando se hace necesario cuantificar conceptos para sus intereses. en particular. un departamento de gobierno o una cadena hotelera.. se trata de una palabra introducida por Achenwall. por una parte. Todo lo que hace referencia a la recopilación. generalización y contraste de los resultados de las obser- . organización y censo de datos se conoce como parte de la actividad humana desde hace más de 5. La Estadística: sentido o significado Nos rodea la Estadística. No obstante. Durante el siglo xix se desarrolló una ciencia que se limitó a cuestiones más bien descriptivas como el cálculo de medias y medidas de dispersión y no es hasta el siglo xx cuando se produce el gran salto de la misma con la introducción del cálculo de probabilidades que permite realizar el difícil tránsito de la simple descripción de una o varias características de un colectivo de individuos a la predicción del comportamiento de ese colectivo en cuanto a esas características. En la mayoría de los casos esta cuantificación se hará en función de unos fines económicos o militares.

= Extraído del artículo publicado por el autor en el Dossier económico de Catalumn el 25 de marzo de 2003. La economía española. debido a algunas dependencias bien conocidas. por tanto. como la consultoría en el sector turístico han sido apropiados por diplomados y licenciados en otras especialidades. El diplomado en Turismo observa cómo. En este contexto. En la vida ordinaria de un hombre coexisten dos tipos de fenómenos: unos son los llamados deterministas. No obstante. Adicionalmente. con los conocimientos cuantitativos y de gestión empresarial necesarios para ocupar los perfiles laborales naturalmente suyos y los cargos directivos que le corresponden. El nuevo pofesional turístico' • • La importancia del sector tunstico en nuestra economía es bien es ider te . Por lo que respecta a la redefinición del concepto de turismo se hace necesaria una redefinición del término cercana al concepto de ocio. Resulta evidente que es necesaria una redefinición del concepto de turismo. No obstante. . de las cifras más conocidas del mismo nos ayudan a constatar este hecho. Se trata de un profesional con una visión más amplia del sector. con la inquietud necesaria para detectar nuevas oportunidades de negocio. A medida que nos aproximamos a este concepto se nos abre un abanico de actividades de enormes posibilidades que se puede ilustrar con la emergente relevancia que está adquiriendo el turismo residencial y el gran interés mostrado por importantes grupos internacionales por esta actividad en toda la costa mediterránea. el sector. entendido desde un punto de vista tradicional. Es éste y no cualquier otro el profesional competitivo en dicho sector. en los últimos años. con la capacidad de comunicación que se le supone para comercializar productos turísticos y. quizá el aspecto más destacable del sector es el de equilibrador de la balanza de pagos. presenta un claro estancamiento más conceptual y cualitativo que cuantitativo que amenaza principalmente al diplomado en Turismo. Todos sabemos que de las crisis se sale reforzado. La primera parte de la definición anterior corresponde a la Estadística descriptiva que es el objeto de este libro. desde las principales escuelas de Turismo estamos formando a nuevos profesionales adecuados a estas necesidades. de hecho.-U und. este profesional observa cómo unos perfiles profesionales que de forma natural le corresponderían. 1.2. Se trata de un sector que aglutina el I I% del PIB español y el 139 de los puestos de trabajo. Es necesario un concepto mucho más amplio y es necesaria una redefinición del profesional que necesita este sector y que. lo es a unos sueldos relativamente reducidos y en un entorno de difícil progresión profesional. que son aquellos en los que las mismas condiciones producen idénticos resultados como la hora en la que sale o se pone el sol cada día (si alguno tiene dudas sólo necesita ver una bella puesta de sol en el café del mar de Ibiza y observar los horarios expuestos) y otros son los llamados aleatorios o debidos al azar. finalmente. La declaración de Bolonia y el Espacio Europeo de Educación Superior suponen. producen resultados distintos como el número premiado en la lotería de Navidad cada año. que aunque nos parezcan realizados en idénticas condiciones. presenta tradicionalmente una balanza comercial deficitaria que se compensa algunos años total y otros parcialmente gracias a una actividad turística constantemente superavitaria.Capítulo I Plesenlaoióo 3 vaciones de los fenómenos reales y por otra de estudiar las leyes del comportamiento de los fenómenos' que no están sometidos a leyes rígidas (dependen del azar) mediante la Teoría de la Probabilidad con el fin de inferir o inducir leyes generales de comportamiento para una población a partir de una muestra. la segunda parte corresponde a la Estadística inductiva o inferencia estadística. es preciso formar. a pesar de ser uno de los titulados con una inserción laboral mayor y más inmediata. una bonita oportunidad para caminar en este sentido.

— w.i gwe•nte. una breve descripción de su funcionamiento básico para adentramos en los siguientes capítulos en algunas de sus posibilidades estadísticas.. Por último. agencias de viajes. •• 1. por cuanto se trata de un programa de entorno Windows. ejecutar o crear una con- .m. en segundo lugar.. línea. al que el individuo ya estará más que introducido después de la lectura del libro. En primer lugar... ^ r ^. introducir datos a mano.3. Si hemos creado un icono directo se realiza un doble clic en el mismo y.. su utilización es sumamente sencilla y fácilmente asimilable por el lector al encontrarse en su entorno habitual. la primera pantalla que aparece es la que se refleja en la Figura 1. ` ^ r•'^ Una Vozores air como.... porque se trata de ofrecer esa competencia cuantitativa que creemos necesita el nuevo profesional de turismo y..... se trata de un software especialmente diseñado para los cálculos estadísticos. r......... En primer lugar.^ .4 9 Estadística aplicada al Mismo ® . En segundo lugar. . el libro se acompaña en todo momento de ejemplos solucionados mediante el paquete estadístico SPSS.. En ella se nos pregunta qué deseamos hacer y se nos ofrecen varias opciones: ejecutar el tuto ri al (la ayuda del programa). desde el menú inicio como se observa en la Figura 1. que funciona a base de un cuadro de diálogos. corresponde a esa nueva concepción entorno al concepto de ocio y tiempo libre...... Aunque la mayoría de cálculos estadísticos presentados en el libro se pueden solucionar mediante un software de mayor difusión como es la hoja de cálculo Excel. eie tuarcmu. La entrada en el programa se efectúa de la forma usual. se trata de un programa con más posibilidades estadísticas...e.e.. este libro pretende sentar un precedente en este sentido. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad. fácilmente identificable a través de los ejemplos abordados.. hoteles y todo el amplio abanico de posibilidades ya expresado con anterioridad y aunque las instituciones públicas y educativas todavía tienen que recorrer un amplio camino con el objetivo de facilitar el acceso a estas nuevas actividades.2.rna^ Aunque este nuevo perfil se está dando a conocer y cumerctalizando a consultoras...1.a. porque el concepto de turismo que se baraja a lo largo del mismo..... El programa SPSS: breve introducción a su funcionamiento En la. Una vez en el programa..uo. en caso contrario..... SPSS presenta varias ventajas.

Así. Variables Pondefer casos Hm 14.T ► ► Einmar Busca. ir a un dato existente concreto de nuestra base.... por ejemplo de menor a mayor. Fuentes_ Cuadrarle &ega-. Haca caché de datos-. a partir de una variable o un conjunto de ellas. Se trata de marcar una de estas posibilidades... revisemos la barra de menús básicos del pro grama que aparecen en la parte superior de la pantalla. En él. y «seleccionar casos. (Figura 1.3). En nuestro caso. Se trata de un menú que nos ofrece distintas posibilidades de manipulación de los datos.•das. tenemos el menú «Archivo... acMos Ba rra de estado Bans de henane. normalmente un visor de resultados.). Con este menú podemos cambiar a una vista de variables en la que observamos una descripción de las mismas. Eso sí. también común de todos los programas del entorno Windows es el menú «Edición. También podemos transponer nuestra base datos. Obsérvese que tenemos la posibilidad de prohibir que vuelva a aparecer ese cuadro de diálogo..Caoba 1 Presentación 5 Datos Trara*arma^ Arckwo Abn Edición Ver Nuevo Abri base de datos Lea datos de teto Guardar Guardar caro_.Z QdsP cams. Se trata de un menú clásico de todos los pro gramas del entorno Windows (Figura 1. En nuestro caso hemos marcado abrir una fuente de datos existente. Insertar venable Edición Ver Datos Transformar Insertar caro Anda Ira caso Ordenar Ves e' Mwóa i sfons anión de datos.F v Etiquetas de velos _. Igualmente podemos ordenar los casos. En él se nos ofrecen las distintas posibilidades de visión que da el programa. el menú «Ven. una base de datos. Además de reordenar o reestructurar los datos también nos permite fundir la base de datos actual con otra base de datos que tengamos («fundir archivos.4).5). El siguiente menú es el de «Ver.. Dicho menú es el primero verdaderamente propio de un programa de Estadística. En primer lugar. Además. Con él podemos insertar una variable. culta. copiar.. (Figura 1. Dabs usados recientemente Arduos usados recientemente Safi CM. Una vez cargados los datos con los que vamos a trabajar.... insertar un dato (caso). pegar y eliminar variables (Figura 1. Datos Transformar Ansia Defre fechas.. justo encima de la barra de herramientas y debajo del título del archivo.. Este menú nos ofrece la posibilidad de crear un nuevo archivo de datos o de resultados. especialmente interesantes son las de «segmentar archivo. tenemos activada la barra de estado. abrir un fichero de resultados... leer una base de datos en formato «texto. Imgtn.. si se observa la pestaña que tenemos en la parte inferior izquierda comprobamos que nos hallamos en la vista de datos. Apicar diccionario de datos. guardar archivos.. nos marca las barras que tenemos activadas. El segundo menú. Procedemos a la descripción del menú «Datos.X LtrI C Datos Transforma Analiz ar e Transpones_ Reesouctuar Red.6). Deshaces Modificar venables CtrI.. La primera de estas opciones nos permite dividir la base de datos en la . Opoones... además de otras funciones menos utilizadas normalmente.. abrir una base de datos existente (en el recuadro blanco inferior se nos informa de algunas posibilidades) o abrir otro tipo de archivo. Sip e' e Ud. la cuadrícula y las etiquetas de valor. de entre las posibilidades que nos ofrece este menú... observamos las opciones comunes de cortar. de forma que las variables pasen a ser filas y las observaciones o datos columnas.. Presentación mima Cambia servidor. observar una presentación preliminar o salir del programa. imprimir. Cb1. Diseño ortogonal Segmentar archiva S elecaonar _casos.

dispersión y el histograma serán contemplados a lo largo del curso. Es decir... si tenemos una base datos de las ventas que ha conseguido un conjunto de cantantes.spo» que va guardando todas las ejecuciones que realizamos. en ésta los que no cumplen un determinado criterio quedan eliminados. Sectores. Dicho visor de resultados es un archivo de extensión ».. mientras que las opciones »Correlaciones» y »Regresión» recogen la mayoría de los aspectos que serán tratados en el Capítulo 3. Histograma. El menú »Transformar» nos vuelve a brindar la posibilidad de manipular nuestros datos. de líneas.. categorizar variables.P 0. y las observaciones en blanco. De igual forma. en él encontramos todos los grá- Analizar Gráficos Utilidades Ven Informes Estadísticos descriptivos Tablas personalizadas Comparar medias Modelo lineal general Modelos mixtos Correlaciones Regresión Lpglineal Cla^ihcar Reducción de datos E scálas Pruebas no Gráficos Utilidades Venta Galería Interactivos Barras. El menú »Analizar» (Figura 1. Así. A_reas. Obsérvese que mientras en la opción anterior se crean dos archivos separados. podríamos decidir quedarnos únicamente con los individuos que no proceden de ninguna academia o serie de televisión. caja.. el menú »Ventana» (Figura 1.. En él se encuentra la mayoría de los cálculos que aprenderemos. En cuanto al submenú »seleccionar casos» nos permite quedamos únicamente con los datos que cumplan un determinado criterio. El programa presenta multitud de posibilidades gráficas. el menú »Gráficos» (Figura 1.7) será uno de los más recurrentes en el curso que les presentamos a continuación..6 Estarfishca aplicada al turismo cual estamos en varias bases de datos separadas según los valores de una variable. podemos dividir una base de datos en dos según los individuos sean mayores o menores de 18 años. siempre que tengamos una variable que nos lo especifique. Líneas.. Máximos y mínimos.9) no ofrece aspectos de tipo descriptivo. asignar rango a casos y recodificación automática).0 archivo Series temporales supervivencia Respuestas múltiples Análisis de valores perdidos UglKUr conlunroc User Conisntos E r er_utar proceso Editor fMifi I de menus li .. El menú »Utilidades» (Figura 1. En este menú aparece la posibilidad poner en práctica técnicas estadísticas más avanzadas de las que veremos en el presente libro.10) nos permite movernos de la base de datos al visor de resultados.. En cambio. También podemos crear series temporales y reemplazar los valores perdidos. Control Diagramas de caja. pudiendo cambiar una variable cuantitativa a discreta. Dispersión. Paleto. el submenú »series temporales» será fruto de estudio en el Capítulo 4.. Los diagramas de barras.. Los estadísticos descriptivos recogen la mayoría de aspectos del Capítulo 2... De este menú resaltamos las funciones que nos recodifican una variable. una variable numérica a variable de texto y sus contrarias (opciones recodifrcar. sectores. Así..8) también será recurrente durante el libro.. También se recurrirá a algún gráfico de series temporales. ► Ventana 2 ► ► ► ► ► ► Minimizar todas les ventanas o 1 Sin titulo • Ed it or de datos SPSS Resultados) Visor SPSS ► ► ► o r tdrdades Ventana 2 Va ri ab le s Intormamon del paramétricas o ► ► Barras de errgr_... por algún valor adecuado. Por último. P.

finalmente.i..Capítulo I Preseolacióa 7 ay. ^ Temas Tutorial Pagina principal de SPSS Asesor estadístico syntax Guide Acerca de. cinco en el departamento de administración y finanzas. nuestra agencia no deja de ofrecer otros productos como el turismo cultural.e<a 1__ . • • 1. 1 -1' ^ 'd. rym. Fl^ri Con el fin de adaptar al entorno turístico cada conocimiento estadístico que el lector irá adquiriendo a lo largo del presente libro.. En estos momentos. En la sede central tenemos un/a gerente. Por último. S.a Eaaea Y. cuatro personas en contacto directo con el público.. tenemos el tutorial o ayuda del programa que aparece en forma de interrogante subrayado. En algunos casos se presentará un pequeño informe que sintetice las principales conclusiones del estudio. S.-Me l J^+U e ÚS^. cuatro personas en el departamento de promoción. La agencia EN RLGÚN LUGRE. SPSS ¡New/adilt VuaSP55 J ^ <i © at ilA[< . entre ellas un/a gerente y un/a becario/a. es una agencia de viajes emisora-receptora. ^oI I I d-JJ_!^I=I^1J=J_I '1 1 1 . En cada oficina tenemos cinco personas en contacto directo. En la Figura 1. ecoturismo.. 1 -3. Con una sede central en Cataluña (16 trabajadores) y el resto de sedes repartidas por Europa (en concreto nueve oficinas con cinco trabajadores cada una). minorista-mayorista con 61 trabajadores.xe.R. Para verlos. I 7.^. como acerca del programa. En él tenemos tanto ayuda estadística. únicamente hay que pulsar en «Cuadro de diálogo» y «Visor SPSS.. además del usual buscador. turismo de nieve o turismo de sol y playa.1 I se observa el aspecto de dicho Visor.141 :I Sr tmb Edito de dato. Registro de productos. se presenta en esta sección una agencia ficticia que formulará un conjunto de preguntas a lo largo del libro y que serán respondidas por su gerencia o departamento estadístico utilizando sencillos cálculos estadísticos realizados a partir del programa SPSS. siempre acompañado de las implicaciones en cuanto a la toma de decisiones para el buen funcionamiento de la misma. se haya vacío.. 1 . siem- l lZ .n4n... Aunque orientada al turismo de negocios. dos personas en el departamento de marketing y.A.4. La empresa EN ALGÚN LUGAR.m á. =O 1e16 ticos y cálculos que le pidamos al SPSS que realice..". al no haber realizado ningún cálculo.

Los Secretos. tenemos datos estadísticos acerca de su edad. Tenemos varias bases de datos de la agencia que es necesario gestionar de la mejor manera posible con el objetivo de conocer su funcionamiento y tomar las decisiones acertadas. Respecto a la demanda. Respecto a la plantilla. Mikel Erentxun.sav tenemos el beneficio neto mensual de un producto que la sede central de la agencia ha ofrecido durante más de 20 años. nivel educativo y salario por hora. visitas o viajes combinados. años de experiencia. los destinos. tenemos un fichero que abarca dos años y contiene datos respecto al país de procedencia de la familia/individuo viajero (10 países y 38 regiones). Joaquín Sabina.xls. en un par de conciertos europeos.8 Estadística aplicada al turismo pre comercializando billetes de transporte. Por último. Lamentablemente. si ha sido realizado en condiciones de pensión completa o no. el número de estrellas del hotel en el que materializó su estancia y. la evaluación del producto realizada por esta familia una vez concluido el viaje. Estos datos están en el fichero salarios. el precio por noche de cada uno de los viajeros. La oreja de Van Gogh o Alex Ubago. también tenemos algunas deficiencias en dichas bases de datos que con la ayuda de nuestros conocimientos estadísticos solucionaremos sin problemas. la edad del viajero. entradas para museos y espectáculos. . en la base de datos Grandesexitos. si se trataba de un viaje organizado o no. Alejandro Sanz. finalmente. El beneficio neto del producto consiste en el pago que realiza la emisora de radio una vez descontados los costes que el mismo genera a la agencia. Estos datos se encuentran en el fichero enalgunlugarsav. Duncan Dhu. Se trata de un viaje sorteado por una famosa emisora de radio para acompañar un fin de semana a un grupo o solista de música español de moda del momento. si ha sido realizado en temporada alta o baja. Por este concurso han pasado: Joan Manuel Serrat. sexo. Los Rodríguez. la duración del mismo.

2.1. Reducción de datos IV: medidas de simetría. Tipos de muestreo 2. Reducción de datos III: medidas de dispersión 2. Reducción de datos I: medidas de tendencia central 2. Tipos 2.3. Ejemplo de resolución a partir de SPSS 2. Reducción de datos H: medidas de posición 2.2 Rnãlisis exploratorio de variables uniffimensionales CAPITULO Sumario 2. Tabulación: frecuencias 2.8.7.10. Variables estadísticas. Ejemplos de estudio 2.9. Representaciones gráficas 2 5.6.11.4. Ejercicios propuestos . apuntamiento y concentración 2. Población y muestra.

La muestra representa a esta población. resumirla y desmenuzarla. y a título de ejemplo. Otros conceptos son: — Muestra: subconjunto de elementos que forman parte de población. En la realidad. Existen diversas técnicas para elegir una muestra significativa.000. a continuación mediante cualquier sistema aleatorio se extraen al azar unos números que indicarán mediante la correspondencia estableci4Ja con la numeración de los elementos de la población. cómo agruparla.1. los elementos que corresponden a la muestra. Para evitar la influencia de factores externos al colectivo. individuos o entes sujetos a estudio y de los cuales queremos obtener un resultado. supongamos que queremos realizar un estudio turístico acerca de los hábitos de los ciudadanos españoles respecto al mismo. mostrarla. se tratará de generar informáticamente 10. Se entiende por población el conjunto de elementos. Tipos de muestreo Para introducirnos en el mundo de la Estadística descriptiva es necesario conocer un conjunto de conceptos previos que son necesarios tener presentes en todo momento.00(1 números aleatorios (entre I y 40. la selección de los elementos de la muestra en todas ellas se realiza mediante el azar. Se denota por a o N.(XK)) que seleccionen a los individuos a entrevistar en un estudio turístico a partir del censo de los aproximadamente 40 millones de población española. Durante el mismo se mostrará como recopilar entorno. r' • • 2. Se trata del método más sencillo y se puede ilustrar con la «mano inocente» que extrae de una urna con todos los elementos de una población. Población u muestra.dicha información. De entre estos métodos destacan los siguientes: a) Muestreo aleatorio simple: consiste en numerar todos los elementos que compo- nen la población. Para ello recoge una base de datos con los precios que ponen los hoteles similares de su E n el presente capítulo se expone el análisis de una característica conocida de interés para un individuo o colectivo. Es probable que ese hotel se haga preguntas como las siguientes: ¿cuál es el precio más habitual fijado por mi competencia? ¿Hay más precios mayores o menores a los míos? ¿Entre qué precios se mueve la competencia? ¿La mayoría de precios son muy parecidos? ¿Dónde se sitúa mi precio? El siguiente capítulo da respuesta a todas esas preguntas e incluso a muchas más. — Tamaño muestra!: número de elementos u observaciones que tomamos. . Como ejemplo de utilidad supongamos que un hotel de un determinado lugar y número de estrellas desea tomar una decisión acerca de su política de precios. la muestra a utilizar. Entonces.

etc. Siguiendo nuestro ejemplo se trataría de confeccionar una muestra con los individuos pertenecientes a una ciudad o pueblo español de 10. Ésta a su vez se subdivide en: • \ ariahle discreta': aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores: el número de hijos de una familia. número de hijos. Así.000. se selecciona al azar uno de estos g rupos o conglomerados ■ se estudia ala población en base a él por cuanto se supone lose conocer que es representativo de la población. • • 2.000). obviamente. tomar el elemento número .250: nuestra muestra estaría formada por: 1_250. — Variable cuantitativa: aquella que podemos expresar numéricamente: edad. el estado civil.000 hombres y 5. Variables estadísticas. si tenemos un colectivo de 40 millones y la muestra es de 10. la profesión de un individuo. sin que ello signifique. empezando no por el primero.000 mujeres. en primer lugar dividimos los 40.250. Es decir. Tipos De esa población que estamos conociendo es probable que ha■ a alguna característica que sea de nuestro interés. Entendemos por variable esta característica que estamos midiendo. duración de un viaje. utilizando muestreo aleatorio. Así. sino por uno al azar de entre los 4. siendo . etc. ' En ocasiones y con el objetivo de realizar algún tipo de análisis numérico con las variables cualitativas se las convierte de forma ficticia en cuantitativas. el tipo de transporte que elige en un viaje.2. Este sistema no debe utilizarse en caso de datos temporales de periodicidad.000 (10. los trabajadores en una a g encia. va que al utilizar un sistema que también es periódico produciría una muestra no representativa.000 habitantes. Supongamos que ese elemento fuese el 1. 5.000. etc. 5.000/10. di Muestreo por conglomerados: la población en estudio se divide en grupos o conglomerados. Existen dos categorías o tipo de variables: — Variable cualitativa: aquella que expresa un atributo o característica: el color del cabello.\' el cociente entre el número de elementos del colectivos el de la muestra. Consiste en ordenar mediante algún criterio el colectivo ■ después seleccionar elementos del mismo en función de su posición en la ordenación. continuando con nuestro ejemplo. Dentro de cada grupo se seleccionarán.. el número de estrellas de un hotel.. 9 250. el sexo. asignando un número a cada una de sus categorías.250. A continuación se aplica el muestreo aleatorio simple a cada una de las categorías. Entonces. que ser hombre sea una categoría superior a ser mujer. el número de alumnos de la universidad. precio. 13. imaginemos que interese que el número de mujeres y hombres de la muestra sea idéntico. a título ilustrativo.000. Por ejemplo.000 de población en dos grupos: hombres y mujeres. tomaríamos un elemento de cada 1.000 primeros. peso. el Muestreo aleatorio estratificado: en este método la población se divide en clases o categorías atendiendo a alguna característica homogénea de los elementos que la componen. . se puede convertir el sexo en una variable cuantitativa asi g nando un 1 a la categoría de hombre v un O a la mujer.\'.Doblo 2 Bnálisis etploralono de tanaDles unidimensmnales II \Juestreo aleatorio sistemático: en este caso los elementos que forman la muestra se eligen sistemáticamente de entre los que componen la población.

cada una de estas variables puede tomar distintos valores. y se suele expresar en tanto por uno. siendo su valor -iésimo. Son diferentes variables para distintos individuos durante un cierto número de intervalos regulares de tiempo.X4) Si la variable es cualitativa se denota por las primeras letras del abecedario y. precios. cosas. Dato: Cada uno de los individuos. Tabulación: frecuencias Una se. empresas. Con este tipo de datos trabajaremos en los tres primeros capítulos.. n La suma de todas las frecuencias relativas...X4 - . Datos de panel: se trata de una combinación de los dos anteriores. de nuevo. siempre debe ser igual a la unidad. aunque el grado de agregación dependerá del caso específico. ya que es razonable que el consumo de ocio que realiza la familia i en el año r muestre cierta dependencia del consumo de ocio que realizó la familia i en el año t — I. si tenemos datos acerca del consumo de ocio que realizan las familias. etc. Por ejemplo. cada valor observado de la variable.Xk. Los datos pueden clasificarse en: a) h) e) Datos de corte transversal: se trata de una o más variables para distintos individuos en un mismo momento del tiempo.. Este tipo de datos serán tratados en el Capítulo 4. Datos temporales: observaciones de una o mas variables a intervalos regulares de tiempo para un solo individuo.Xi. En este tipo de datos no hay problemas de interrelación. es razonable pensar que el consumo que realice la familia i es independiente del que realice la familia j. colocando un subíndice que indica el orden: X= (Xi. El dato se denota por las minúsculas de las letras finales del alfabeto castellano. Se representa por n. Suelen ser datos acerca de familias. Dicho de otra forma. En muchas ocasiones la diferencia es más teórica que práctica. el siguiente paso es organizar y tabular los datos. o entes abstractos que integran una población o universo determinado. . A su vez.. las distintas modalidades se representan utilizando las minúsculas correspondientes. edad. La variable cuantitativa se denota por las mayúsculas de letras finales del alfabeto castellano.3. ésta será la agregación de las ventas para todos los clientes. etc. — Frecuencia relativa: es la frecuencia absoluta dividida entre el número total de datos.. La información de una serie temporal es de carácter agregado. es decir. 11.12 Estadística aplicada al turismo • Variable continua: la que puede tomar los infinitos valores de un intervalo. ya que los aparatos de medida dificultan que puedan existir todos los valores del intervalo: peso.. tenemos la muestra confeccionada de forma adecuada. distancias. si la variable es la venta de productos de ocio.X. Se denominan series temporales. En este caso sí que aparecen problemas de interrelación. Para ello es necesario definir los siguientes conceptos: — Frecuencia absoluta: llamaremos así al número de repeticiones que presenta una observación. 2. Su análisis supera el objetivo de este libro.

formaremos intervalos donde: IL. La última frecuencia absoluta acumulada es igual al número de casos: N. N. y se representa por: a=L. y se la suele representar con la notación: F. F. como suma de los distintos valores de la frecuencia relativa. cuando nos encontramos con un conjunto de datos o distribución con un gran número de valores.+. Así. Para calcularla. • Recorrido: valor mayor. sería la longitud del mismo.) Se entiende por L _ . será: X.. cerramos el intervalo por la izquierda y abrimos por la derecha. X. N Snn5 N En cambio. tomando como referencia un individuo dado. • Amplitud del intervalo: división entre el recorrido y el número de intervalos que hayamos decidido._. podemos definirla como el promedio de los valores extremos del intervalo.+n• =n — Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia abso- luta acumulada entre el número total de datos. - L. La última frecuencia relativa acumulada es igual a la unidad.. Se puede redondear Re número de intervalos . ni Nz I. = n. el extremo inferior del intervalo y por L. como el número de intervalos. entendemos la raíz cuadrada del número de datos. una tabla de frecuencias agrupada? Procederemos siguiendo estos pasos: • Decidiremos el número de intervalos: aproximadamente. Por convenio. el punto medio de un intervalo.+n„_. a partir de los datos continuos. Pero. I.—L. ■ dividir entre 2.. el extremo superior. De igual forma. Para operar utilizaremos la marca de clase.r — . se suelen agrupar las variables en intervalos para facilitar la comprensión de los datos.[Mulo 2 Análisis etplorensionales 13 -- Frecuencia absoluta acumulada: es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. también se puede definir a partir de la frecuencia relativa. = n. redondeando.+ n_ N•= n.. Tabla de frecuencias para una variable discreta. ¿cómo obtener. La ordenación en la tabla. ésto es sumar los extremos. Esta práctica tiene un claro inconveniente: se pierde información sobre la propia distribución. menos valor menor de los datos. +n. Re = .r. La amplitud del intervalo.

0 4. es bueno agrupar la serie en intervalos. calculamos el recorrido Re = x ^ x. • 100 = 0.9 4.9 4.3.625 "t fl 15. Los datos obtenidos en miles de pesetas' fueron: 3.25.2 4.25 y 3.5 . por tanto.5 4.75.075 0. Como el recorrido es 2.25.4 3.7 .75? . SOLUCIÓN: u) La población objeto de estudio son los hoteles de una ciudad.4 5 >s 4.= 6.8 4.8 si lo dividimos entre el número de intervalos tendremos la amplitud de cada uno de ellos y así: 2.275 • 100 = 27.5.4.1 -3.3 4. Tabla 21 Importante La amplitud es de 0.3 4.32. La manera de hacerlo sería la siguiente: primero.1 4. tomaremos 6 intervalos.1 En 1999 un nuevo hotel abre sus puertas en cierta ciudad.25? * Recordar que I € = 166. xt '= f.5.46. d) El problema que plantea es que existen muchos valores diferentes dentro de esta variable y. vi .75. ('Liando no se nos dice nada el número de intervalos se obtiene calculando la raíz cuadrada del número de datos observado.6. c) El tipo de variable es continua.t tt 3.3 4.7 4. 14. !Lt-aLi) 13.3 4. ••us habitaciones.5 5. 15.3 6.386 pts.4 4.3 5.9 5.25) Ni Ni Fi Fi 3 8 14 3 I1 25 0.75? g) ¿Qué porcentaje de hoteles cuestan como mucho 4.5.6 4.75.46 por lo que además de no ser muy fácil operar.8.25) 14.Cuántos hoteles tienen un precio entre 3.14 Esladíshca aplicada al Mismo EÍemplo 2. puede que no cubra el rango de la variable.2 0. en este caso 0.35 0. el gerente investiga los precios por habitación y noche de 40 hoteles de la misma categoría de esa ciudad.75) 15. Lo podemos evitar tomando un valor superior.75) 13.7 6.7 3.o.y 5.25.751 14.1 3. b) La variable que estamos estudiando es el precio.8 4.3 = 2.075 0. Antes de decidir el precn .8/6 = 0.f) ¿Cuántos hoteles tienen un precio superior a 4.7 4. .1 6.4.0 5. Veremos que la raíz cuadrada de 40 es igual a 6. por tanto.8 Se pide: a) ¿Cuál es la población objeto de estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es? d) ¿Qué problema plantea la construcción de la tabla de frecuencias? e) ¿.2 4.25) 15.5.275 0.

de una variable discreta.4. acumuladas o no. se suele efectuar una representación gráfica para apreciar a golpe de vista la magnitud o posición de las variables. Represerficiones gráficas Dentro de e. la frecuencia. mediante la siguiente proporción: n a N 360 Como resulta que Ñ = f . sea absoluta o relativa.ta primera aproximación a los datos.2. 2. Diagrama de barras Se utiliza para frecuencias absolutas o relativas. En el eje de abcisas situaremos los diferentes valores de la variable. Elevaremos columnas unidas. . Diagrama de sectores El área de cada sector es proporcional a la frecuencia que se quiera representar.• Capítulo 2. Suelen utilizarse iconos que se identifiquen con la variable (un ejemplo sería un coche en un estudio de las marcas más utilizadas como coches de alquiler) y su tamaño suele guardar relación con la frecuencia 2. a altura igual a la frecuencia correspondiente (Figura 2.3. Histograma Igual que el anterior en cuanto al tipo de frecuencias que se pueden utilizar. Los sistemas de gráficos más usuales son los que se describen a continuación.4. tendremos que a = f • 360 (Figura 2.4.1.4. análisis exploratorio de variables umdimensionales 15 • • 2. La diferencia es que ésta es para variables continuas. Levantaremos barras o columnas separadas de altura correspondiente a la frecuencia adecuada. Para calcularlo podemos decir que el área depende del ángulo central.3). En el eje de ordenadas. 2. Este diagrama se utiliza para cualquier tipo de variable 2.4. Pictograms Se suele utilizar para expresar un atributo.4.1).

+ x ^ n Si el valor.1 5. se suelen utilizar más los diagramas de sectores o pictogramas. Se .4. Como f. su gráfico de tallo y hojas será el que aparece en la Figura 2. Para ello. Es la recta que une los extremos de las barras de las variables de una distribución o los puntos medios de los histogramas. y las más importantes son: media. si no piden nada concreto. veces.5 3 4 5 6 79 3579 016 Fi ota z. Todas estas medidas pretenden ofrecernos una idea de en torno a qué valor se mueven los datos.1 4.7 5. mediana y moda. En el primero utilizaremos. Z. si de la variable X se repite n .0 Arr 6. + .S. si tenemos el siguiente conjunto de números que pertenece a la primera fila del Ejemplo I. según se trate de variales continuas o discretas (Figura 2.. r o ^ 2.S. medidas de tendencia central En este apartado comenzaremos a resumir los datos.I.6. • • 2. Así.4.3 4.9 4. Oiagrama de fallo n hojas Es un método de tabulacion a la sez que un gráfico adecuado para variables continuas. Media X a) MEDIA ARITMÉTICA Es la suma de todos los valores de la variable dividida entre el número total de elementos. 5 Polígono de frecuencias Esladíshca aplicada dl lunsma De nuevo se trata de un _ratico adecuado para variables continuas. utilizaremos las medidas de localización o tendencia central. A modo de resumen. En el caso de la variable continua. = Ñ otra posible expresión será: x. y^ 3. podemos tener dos casos: variable discreta o variable continua.4). si la variable es cualitativa.16 2. X— i=I . Si la variable es cuantitativa.r2 x3 14 . el diagrama de barras tanto para la representación de la frecuencia absoluta como la relativa.6 4.7 3. X + X2 + x.5.r5 xl figula 24 trata de dividir cada uno de los datos en dos partes: el tallo y las hojas.f n n. optaremos por el histograma o polígono de frecuencias.5.i.9 5. Reducción de datas I._i n X= =I n que será la expresión que consideraremos definitiva de la media aritmética. aparece en la expresión de la media aritmética de la forma: —..

. En el fitntro considerarenws indistintamente . se asignan frecuencias a las marcas de clase y se procede como si la variable fuera discreta o continua no agrupada.. y 1w•. siendo x . la suma de todas las ponderaciones. la ponderación de la variable x. es independiente de la frecuencia absoluta que tenga.♦.. i.4. Para poder calcularla se tendrán que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable. /♦1 xj 54 59 ni 2 3 108 1 77 ♦••^ • ♦.. en un ifaje semanal. De esta forma. Tabla 2.Ciplula 2 Ilnilisis exploratorio de variables umdimensionales 17 Si tenernos la siguiente distribución del peso en kg del equipaje embarcado por dise -" 'unia. se pide hallar la media aritmética. b) MEDIA ARITMÉTICA PONDERADA En ocasiones. n.•.ei n 't 8 ♦♦ Nora 10 'lila variable está agrupada en intervalos (variable continua agrupada). Esta importancia que asignamos a cada valor. La media aritmética es denominada también la centro de gras edad de distribución. no todos los valores de la variable tienen el mismo peso. la media aritmética ponderada es la media aritmética que se utiliza cuando a cada valor de la variable (x. ) se le otorga una ponderación o peso distinto de la frecuencia o repetición. 63 4 641 10 t 264 601 .ci (marca de clase) = vi. ". n. . Se la suele representar como: Xw = 1 x.

si calculamos la media ponderada. La suma de las desviaciones de los valores de la variable con respecto a la media aritmética es 0.– Xnl // — n.18 ■ Esla gisota apli(ada al lunsmo Ejemplo Z4 t 'n estudiante realiza tres exámenes de Estadística de complejidad creciente. 5 8 1 1 1 W. n .–Xn)^ = (^xn. media. obteniend. n kn _ ^x n +k n n +— n n . por lo que se les atribu) e x.— ^—) — = 01 ■ n / n. tendremos que • N= 6 X .X ^n.67 Ahora bien. n +kn) I(x.–X) ^ = (x. Utilizando esta variable calculamos otra variable a partir de la anterior de la siguiente turma: y . Supongamos que tenemos una variable x de la que conocemos su media.n n 5+8+7 3 — 6. 1 2 3 16 21 42 1 Si calculamos la media aritmética. 2 } 3 respecusamente. 8 y 7. = 0 Propiedad 2.) n n n 1 x n. Propiedad 1. Si a todos los valores de la variable se Ic suma una misma cantidad. // ^ = _ ^x. 1 rl. Si ahora queremos calcular la media de esta segunda variable: yn.n.n. n. I El pnmer examen lo hizo en media hora. Veamos que esta propiedad resulta al operar la siguiente expresión: –X) Tendremos que: (x.n. obtendremos: (5 = I) +(8 x 2)+17x3) 5+16+21 I1+2 + 3) A continuación resaltaremos un conjunto de propiedades de la media aritmética que creemos son de utilidad.r + k. ^(x + k)n ^(x . + L kn Y x. una ponderación de 1..)ñ = – \\ x n .–^Xn. n. la media aritmética queda aumentada en dicha cantidad. n _ ^ k n. ^ x. Se pide calcular la nota media. siguientes resultados: 5.n. el segundo en una hora y el tercero en h. x n I `` I = r^x. n. = . +kn .

432 — 38.436.+ b. la media aritmética de la primera variable sigue la misma transformación lineal con respecto a la media aritmética de la segunda variable.432 38.438 — 38. La demostración se realizaría de manera análoga a la anterior.436 2 38.432 38.436 38. — n. 2 38. Si una variable es transformación lineal de otra variable (suma de un número y multiplicación por otro). es decir. donde a y b son números reales. Corolario La media aritmética se denomina también centro de gravedad de la distribución.43 =2y+ : 36 tones: A + 38.436Q2 22 + 38.222 'De estas dos propiedades se deduce que la resta y la división se realizarían de igual manera para la propiedad 2 y 3. a valores numéricos muy diferentes (tanto por grandes como por pequeños) al resto de la muestra.Análisis exploratorio de variables unidimensionales L X 19 n. it + bn) n a ^ . Si todos los valores de la variable se multiplican por una misma constante la media aritmética queda multiplicada por dicha constante. respectivamente.436 2 8 2 — .436 — 38.432 38.8): 3 8 38.436 38. que es lo que pretendíamos demos- Como trar.438 3 8 38. = a x.436 _ 1 Importante Hay que tener en cuenta que la media aritmética es muy sensible a los valores extremos. si sustituimos tendremos Y = X + k. n ^ (aT. + b)n . Si calculamos la transformación de la variable x. (ax. siendo y.432 — 38.438 4 8 4 tomando como nueva variable el valor más centrado (menos su media). Propiedad 3 2.440 38. .436 — o —8 o 3 16 2 38.440 — 38.T n n + bI n =aX +b Podemos utilizar esta metodolo g ía para calcular la media de la distribución de la Tabla 2. 38. tendremos (Tabla 2. Esto puede resultar un problema.436 38. _ — X.436 — 1 2 38. Hay formas de resolverlo como la eliminación un cierto porcentaje de observaciones extremas a la hora de su cálculo.436 = 38.432 38.7.

°x. 100 = 2 2. log x. . . será cons entente ampliar fa tabla con lo que nos quedará: 2.2 — 2.6 n. x. etc.632 d) MEDIA ARMÓNICA Se representa como H.097 20 10396 8.1 ^^. x3 . y responde a la siguiente expresión: H= n n a. como la raíz n -ésima del producto de todos los valores de la variable.146 45. Para dar solución a esta problemática utilizaremos las propiedades de los logaritmos.•)• Suele utilizarse cuando los valores de la variable siguen una progresión geométrica También para promediar porcentajes. log x.0555 = 113. n. En muchas ocasiones. siempre que nos tengan dados en porcentaje. También la podemos representar como: G= (G = x¡ x. . los calores de la distribución nos impiden poder efectuar los cálculos al exceder la capacidad de la calculadora.2 .3 .387 6.221 n .. Es la inversa de la media aritmética de las inversas de los valores de la variable.438 5 log 120 = log 125 = log 4 3 n = 22 140 = 2.221 45. Elemplo 2.11 wt 10 log log x n. n Por tanto.056 J = anti log 2.Ino x r = 2... tacas. xt y se la puede definir. número de índices.079 2.20 C) MEDIA GEOMETRICA Esraáishca aplicada al IIIhSInO Responde a la siguiente expresión: G = sx¡ x.

la mediana será justo el valor de orden central. la mediana coincide con un valor de la variable.042 600 0.1 1._ t <  N an Me = s .Gllilre 2. hiiss emPoralana áe variables witassietles 21 Se utiliza para promediar velocidades.111.r y la inversa de la frecuencia. inversa de . presenta varias ventajas como son: su sencillez de cálculo. rendimiento.520 140 3 1\140 N=22 I11. En cambio. aquél cuya frecuencia absoluta acumulada coincida con ^. (cuando influyen los valores pequeños).1 Calcule la media armónica de la siguiente tistnbución: 100 120 125 10 5 4 3 ^ 140 X ‘k Para poder hallarla. será el valor de la variable que ocupa el lugar central. etc. El lugar que ocupa se determina dividiendo el número de valores entre 2 Cuando hay un número impar de valores de la variable.S.195 500 420 2. por lo que ampliaremos la tabla con 2 columnas adicionales: ^ rr 100 120 125 10 10 I\120 1 \125 0. Su problema sume cuando algún valor de la variable es 0 o próximo a 0 no se puede calcular Ejemplo 2. que separa en dos partes iguales los valores de las variables. es necesario " que calculemos la. Mediana: he La mediana. . el hecho de incorporar todos los datos para el mismo y ser de eles ada utilización. la media. en particular la aritmética. .032 0. Por tanto.2.000 5 0. Por tanto. la media geométrica y la media armónica se da siempre la siguiente relación: H <_GsX Para concluir. 2. ordenadas de menor a mayor.. presenta el inconveniente ya mencionado de ser sensible a los calores extremos ■ válida para datos cualitativos. tiempos. Es decir. N.021 0. o valor mediano. es una cantidad que nos indica orden dentro de la ordenación.1 Entre la media aritmética.

etc.te en determinar el intervalo mediano [L .8 Sea la siguiente distribución (Tabla 2. _. 35. L. Moda: Ma =30 + 333.25 i100 (25. 100 250 450 630 671 200 180 41 V Me= L.22 Eslaáishca apl¢adc : . la obtención de la moda es inmediata._. 2 n.= 2.-o El problema surge cuando hay un número par de valores de la variable. Valor que presenta el decimoctavo dato (ordenados). el valor que tenga mayor fre- 5 _32. L. unnu N. cuencia absoluta._. En cambio.+ N— — N.3. y observar qué intervalo tiene una frecuencia absoluta acumulada que cumpla N. u L i udas.+x.55. <Z < N. se trata de una medida que no utiliza todos los datos para su cálculo (aunque sí su orden) y que depende del orden y no del valor de los datos. 3 4 ^/ 1 / /\ 1 2 at 3 3 4 7 9 10 1 5 ' I . el primer pa._. = 32 d Xi Ni.13). 91 1026 6 n=32 33 7 10 10 13 7 _ EM111111= n. 2 671 2 = 335. Me 2 Ejemplo 2.0 L u n. . a. t Me= L _ 52 7_ 6 =16= Se trata de la media aritmética entre el valor que ocupa la posición decimosexta decimoséptima. es decir. Me estará en el intervalo [30-35i. Pueden existir distribuciones con más de una moda: bimodales.. En distrihio t nc. a.14. Después de saberlo. -V'1 (40. Me = 7. El otro caso puede observarse en la distribución de la Tabla 2. por tanto.30 1150 130 .:.138.) el intervalo que contiene ala frecuencia acumulada de dicho intervalo. En este para obtener la mediana realizaremos el siguiente cálculo: x. se produce que: = n 2 2 = 17. ). realizamos el cálculo: Me = L.. [20.5. En las distribuciones sin agrupar. Por tanto. _. una vez que los datos han sido ordenados de menor a mayor.45[ = 671 Siendo [L. 2 250 Será el valor de la variable que más veces se repite. trimodales. La forma de hacerlo será calcular el valor de la mitad de n. < <Na 16<17. haremos el siguiente cálculo: N..* N' 2— n. lugar que ocupa +2 X.7 26 Me =x. ya = amplitud .. de menor a mayor.r.5 Como ventajas de la mediana se observa su utilidad en presencia de valores extremos que influencien a la media y su bondad para variables cuantitativas discretas. lugar qu.

. C„ C„ correspondientes a 25%.. 90%. Mo = Siendo: 2. Posteriormente.: extremo inferior del intervalo modal. menos representativa que la media o la mediana y que puede ser extrema: en cambio. Cuando hay una única moda. 2. . Su función es informar del valor de la variable que ocupará la posición (en tanto por ciento) que nos interese respecto de todo el conjunto de variables.CODlo 2 Análisis etplaralorio de variables unidimensionales 23 En el supuesto de que la distribución venga dada en intervalos. Las más importantes son: — Cuartiles: dividen la distribución en cuatro partes iguales (tres divisiones).. Cuando la distribución es simétrica (con I moda) se cumple que: 7 = Me = Mo. puede ser la única medida de centralización posible para las variables cualitativas. Podemos decir que los cuantiles son unas medidas de posición que dividen la distribución en un cierto número de partes iguales.. el decil o el percentil sobre el total de los mismos se encuentra entre dos determinadas frecuencias absolutas acumuladas exis- . ya era una medida de posición. primero hallaremos el lugar que ocupa.<(%)•n<N^Q =x . en primer lugar tendremos que encontrar el intervalo modal. C. Existe un valor en el que coinciden los cuartiles. Éste surge cuando son iguales a la mediana y así veremos: 2 _ 5 _ 50 4 10 100 Para su cálculo. y sin agrupar... distinguiremos entre distribuciones agrupadas. correspondientes a 10%. 50% y 75%. L..: densidades de frecuencia de los interLa gran desventaja de la moda radica en que es salos anterior y posterior al que contiene la moda. D. + n.. . que será aquel que tendrá mayor frecuencia absoluta lL. P..._. Se las denomina cuantiles (Q).. sea agrupada. si los intervalos tienen la misma amplitud. en este caso tenemos una distribución bimodal. si el porcentaje que representa el cuartil. Ejemplo 2. a : amplitud de dicho intervalo.Pm. De hecho.. L. En las distribuciones sin agrupar. 7 4 Nota 1._. + n..99%. 4 5 n.. de manera que en cada una de ellas haya el mismo porcentaje de valores de la variable... 4). entonces tendremos que : N._. la mediana.. Es decir. la mediana suele estar comprendida entre y Mo.D. 3 n. \luda (2. correspondientes a 1%.. ._. es decir. los deciles y los percentiles. .10 realizaremos el siguiente cálculo: n. • $ 2.8. Reducción de datos II: medidas de posición Son medidas de localización similares a las anteriores. como se podrá intuir más adelante.. — Percentiles: cuando dividen la distribución en cien partes (99 divisiones).. a. — Deciles: dividen la distribución en diez partes iguales (nueve divisiones)....

= Cuarto decil [0.5 2 l En el caso de distribuciones agrupadas. que coincide con un valor 11000 — de la frecuencia absoluta acumulada.<(r/)-n<N. Lugar que ocupa la mediana lugar2-1 Como es igual a un valor de la frecuencia absoluta acumulada. = 10 Lugar que ocupa en la distribución \4 / • 20 = 40 = 15. 3 < 5 < 10. _. Q 2 Ejemplo 2.20 = — = 8 Como N. ya que 3<8<10 por tanto D4 = 10 Nonagésimo percentil [P. .) y el 90 percentil 5 Mediana [Me] .. 10 15 20 25 .° devil (D. n =N.5 Primer cuartil (C. . decil o percentil de forma similar al caso anterior: Lugar: N. calcule la mediana (Me): el primer y tercer cuartil el 4. Por tanto. se toma como valor la media aritmética del valor que acumula dicho valor de la frecuencia absoluta acumulada y el siguiente valor. realizaremos el cálculo: t C. 2 10+15 2 — 12.) .5 2 2 15+20 Lugar que ocupa en la distribución ( 0 1 ) . realizaremos este cálculo: Me = 5 3 2 n= 15 I8 20 20 x. +x. es decir. 7 N. se toma como valor de ese cuartil. = tercer cuartil [C. .11 Distribuciones no agrupadas En la distribución de la Tabla 2. — 17. ] Lugar que ocupa en la distribución (1-) • 20 = 19 4. esto implicara que C.] ti +x r.. x.] x. que coincide con un valor de la frecuencia absoluta acumulada. el decil o el percentil sobre el total de los mismos es igual a una determinada frecuencia absoluta acumulada existente.24 Esta ísnca aplicada al turismo lentes.. < (%) n < N Intervalo (L._„ L.x.17.= 5 Como N. primero encontraremos el intervalo donde estará el cuantil.. + x. En cambio. Por tanto. realizaremos el cálculo: Lugar que ocupa en la distribución (l ) • 20 = x. < (25%) n < N. decil o percentil el valor que acumula la mayor de las frecuencias absolutas acumuladas anteriores.J A 18. si el porcentaje que representa el cuartil.Pw• 2 2 0 +25 — 22. 10 3 = 10.

A estas cantidades o coeficientes. -l rcl. 300) [300.500 = I 0ó 500 = 591._.800) ^•^^I t' . Llamaremos dispersión o variabilidad a la mayor o menor separación de los valores de la muestra respecto de las medidas de centralización que ha) amos calculado._.Capadla 2 Boiles exploratorio de rin g les unidimeosianales 25 tina vez localizado el intervalo se aplica: L_..\ –. Cuarto decdd [0. el cua rt o decd c el 90 percentil de distribución de la Tabla 2. 100) 3 1_0 w 4 90 230 380 500 Lugar que ocupa el primer cuartil: . 200) g{l00 – 200).^__ Nonagésimo percentil [PI ] ^. . .- do la expresión tendremos: 300 — 450 ^ t .Porfanto. les llamamos: medidas de dispersión. Las medidas de dispersión son un complemento necesario a las medidas de centralización por cuanto se complementa la información del valor alrededor del cual se mueven los datos con la información de si éstos oscilan siempre cerca de dicho valor o suelen estar en posiciones alejadas a este calor. respecto de esta media. I I .57 . Al calcular una medida de centralización como es la media aritmética.] Lugar que ocupa: Por tanto. resulta necesario acompañarla de otra medida que indique el grado de dispersión del resto de valores de la distribución..V Q= Ejemplo 2. C.] /j) [0 .67 ^ • • >< Reducción de datos III: medidas de dispeísidn Las medidas de dispersión nos sin en para cuantificar la separación de los valores de una distribución. tanto mayores como menores. D„estardtuado en el 4^^t Aplicando la expresión tendremos: 1 t 90 100 = 178.7. estará situado e direct-aa 90 140 150 120 n = 500 100.12 Distribuciones agrupadas Halle el primer cuartil. Aplicando la expresión te. ten '00.li. I S Primer cuartel [C.. Lugar que ocupa: 50W=450 \ jÓ0 Por t'-estarí situado en el finten alo [31 t` : 44 2.

una primera parte de la caja que va desde el cuartil primero a la mediana. El alumno I tiene tres 5 mientras que el alumno 2 un 10.51Q.– Q.) LS = Q. si una de estas partes es más ancha que otra es debido a que en esta parte los datos están más dispersos o menos concentrados.6.+ I. 100 EDA 200 300 J Un par de sencillos ejemplos aclarará esta cuestión. Otro caso bien distinto es el de dos hoteles de tres estrellas cada uno con tres habitaciones. Para construir un diagrama de caja o boxplot se han de seguir los siguientes pasos: a) Ordenar los datos de la muestra y obtener el valor mínimo.26 Estadística aplicada al turismo AMO Antes de continuar con el resto de las medidas de dispersión. según corresponda. En ambos casos su media y mediana es 5. en cambio. En el caso del hotel 1 todas las habitaciones cuestan 30 € por noche. el máximo y los tres cuartiles. Nuevamente sus medias y medianas son idénticas. cada uno con tres notas en sus exámenes de Estadística. Parece muy superior la dispersión de las notas del alumno 2 cuyas cualificaciones en muchos casos distan mucho de su valor central demostrando que ha realizado esfuerzos muy distintos en cada examen. Estos límites son: LI = Q. El gráfico se interpreta comparando cada una de sus cuatro partes. El gráfico también es muy útil para comparar una misma variable en distintas distribuciones o poblaciones (Figura 2.) d) Considerar como valores atípicos los situados fuera del intervalo (LI. e) Calcular unos límites superior e inferior admisibles que servirán para indicar los valores atípicos. aquellas observaciones que parecen alejadas del resto. h) Dibujar un rectángulo cuyos extremos son el primer y el tercer cuartil e indicar la posición de la mediana o segundo cuartil mediante una línea. Diagrama de caja de EDA KIIKx x xx X 0 Agurd 2. En cada una de estas cuatro partes hay un 2590 de los datos. El alumno I. Por tanto. ofreciendo seguramente varias tipologías de habitaciones mientras que el hotel I ofrece siempre el mismo tipo de habitación. El diagrama de caja es una representación gráfica de una distribución para mostrar sus características principales y señalar los posibles datos atípicos. un segundo bigote que va desde el cuartil tercero a LS. Un primer bigote que va desde LI al cuartil primero. 30 y 42 €. Supongamos dos alumnos. es decir. según se mire. no influenciables por algunos datos atípicos.– 1. e) Dibujar una línea que vaya desde cada extremo del rectángulo hasta LI o I. .S. un 5 y un 0. En el caso del hotel 2 sus precios son de 18. LS). mientras que el hotel 2 muestra una mayor dispersión que el I.6). una segunda parte de la caja que va desde la mediana al cuartil tercero y.S(Q.– Q. veamos un gráfico que nos introduce esa idea. Se utiliza la mediana y el rango intercuantílico como medias de centralización y dispersión porque son medidas que dependen del orden de los datos. por último. se muestra muy regular.

.

n + k). Si todos los valores de la variable se multiplican por una misma constante. o que la media de X representa mejor a su distribución que la media de Y a la suya. • k) — (X' + k)1 2 n. S 2 • k) — (X' N + k)n. el coeficiente de variación queda alterado.— N 1[k2(x. de ahí que en ocasiones se recurra a medidas de dispersión relativa. Si a todos los valores de la variable se les suma una misma constante. ]r — ^[k(x. — 17)1 2 n. — N X)1 2 n. significa que X es más representativa que Y. tendremos (sabiendo que X' = X + k): 1(x' — X ') 2 n. Si todos los valores de la variable se multiplican por una constante. Por convención. Es consecuencia inmediata de las propiedades de la media. la desviación típica no varía. le sumamos una constante x' = x. El coeficiente de variación de Pearson es una de las más significativas y lo podemos definir como el cociente entre la desviación típica y la media aritmética de una distribución. Si a x. si a todos los valores de la variable se les suma una misma constante. 2. la varianza queda multiplicada por el cuadrado de dicha constante. pues es posible que entre sí no tengan cantidades en las mismas unidades.3.28 Esladíshca apl¢a0a aI lunsmo Si a x. es que normalmente son un indicador que nos da problemas a la hora de comparar muestras de variables. nición. ' = x. — X')2 n. El problema de las medidas de dispersión absolutas.S2 PROPIEDADES DE LA DESVIACIÓN TIPICA A su vez. Sz= = 1(x. la desviación típica queda multiplicada por el valor absoluto de dicha constante. • k. por tanto Ves adimensional. + k. — X)]2 n. n I[(x. 3. I. Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades. . la desviación típica también tiene una serie de propiedades que se deducen fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada de la varianza). 4. La desviación típica es siempre un valor no negativo. — X)2 n. El coeficiente de variación no se ve influido si multiplicamos todos los valores de la variable por una constante: V _ IkIS IkXI _ IkIS IklIXI En cambio. k21[(x. es igual o menor que 0. tendremos (sabiendo que r' = r la siguiente ecuación: 1(x. Cuando S = O Es la medida de dispersión óptima por ser la más pequeña. — ^[(x. _ n — n = k2. (para todo i). se considera que la dispersión es óptima si V. V. n —S2 4. como son todas las anteriores. S será siempre ? O por defiX = x. = X I I Cuando V < V.

Cappulo 2 Bnálisis exploratorio de ranahles unidimensionales 29 Tipificación de una variable o Teorema de Tchebochev Antes de comentar las siguientes medidas de caracterización de una distribución. diremos que la distribución es asimétrica a derechas (o positiva). merece la pena citar en este punto un par de aspectos de interés obtenidos a partir de la información proporcionada por la media y la desviación típica. como mínimo. a izquierdas (o negativa). Estos porcentajes se amplían al 95 y 99% respectivamente en el caso de que la distribución de los datos sea normal.. pues. Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos Asimétrica o bloques: medidas de asimetría y medidas de curtosis (Figura 2. analizaremos las medidas de forma. una distribución presenta asimetría Simétrica por la derecha si la mayoría de sus datos están concentrados a la izquierda de la media y asimetría por la izquierda si la mayoría de sus datos están concentrados a la derecha de su media. Ello nos permite concluir a título ilustrativo que. equidistantes de dicha media dos a dos. es decir: .8. el 89% de las mismas. podemos calcular otra variable Z. pero parece evidente que necesitamos conocer más sobre el comportamiento de una distribución. Diremos.—)7)'n. • • 2. cuando a ambos lados de la media aritmética haya el mismo número de valores de la variable.7). y tales que cada par de valores equidistantes tiene la misma frecuencia absoluta. esta vertical se transforma en nuestro eje de simetría. dicha distribución será asimétrica o diremos que presenta asimetría. que es simétrica. qué información nos aporta según la forma que tenga la disposición de datos. En esta parte. apuntamiento u concentración Simétrica A Í a derecha I Asimetrica a izquierda Hasta ahora hemos estado analizando y estudiando la centralización y dispersión de una distribución. a derecha Si trazamos una línea vertical por el valor de la media en el diagrama de barras o histograma de una variable (según sea ésta discreta o continua). En particular. o simétrica. Las variables tipificadas son medidas abstractas pero de gran valor en la comparación de distribuciones. una posibilidad es utilizar el llamado coeficiente de FISHER que representaremos como g. La media aritmética de Z y su desviación estándar son iguales a 0 y I respectivamente. es decir. La información conjunta que proporcionan la media y la desviación típica puede precisarse de la siguiente forma: entre la media y ±( veces la desviación típica existe. Para calcular la asimetría. para cualquier distribución. ns' Según sea el valor de g. En caso contrario. A partir de una variable X con media X y desviación estándar S. el 100 (I — 1 . y responderá ala siguiente expresión matemática: Asimétrica Asimétrica a izquierda Si — 1 (x. mediante la siguiente transformación: Z X—X S Esta transformación recibe el nombre de tipificación de una variable. 1h11 ya sea por la derecha o por la izquierda. en el sentido de histograma o representación de datos. Reducción de datos IV: medidas de simetría. entre la media y dos veces la desviación estándar están el 75% de las observaciones y entre la media y tres veces la desviación estándar. )cí de las observaciones.

corresponde a fenómenos muy corrientes en la natu raleza y cuya representación gráfica es una campana de Gauss. e ^ k>= = s\ Esta distribución presenta unos puntos de inflexión X + S y X — S y el eje OX es un asíntota horizontal. siempre en función de esta distribució normal. indicadores del grado de distribución de la variable. yo responde a la siguiente expresión: — Si Ap > O la distribución será asimétrica positiva o a derechas (desplazada haci la derecha). la distribución será platicúrtica o menos apuntada que lo normal. > la distribución será asimétrica positiva o a derechas (desplazada haci la derecha).30 Esladislica aplicada al lirismo — Si g. Son. — Si g 1 < 0 la distribución será asimétrica negativa o a izquierdas (desplazada haci la izquierda). La distribución llamada normal. la distribución será mesocártica o normal. Ap = O Le leo normal Para la teoría que sigue se hace necesario conocer la distribución normal. siendo el área comprendida entre la f y el eje de las X igual a I Medidas de cirrosis o apuntamiento Para calcularlo utilizaremos la expresión: g2 = 1 (x. n.s' 3 Si g2 > Si g2 = Si g2 < O O O la distribución será leptocúrtica o apuntada. Medidas de concentración Las medidas de concentración tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de la variable. ya que tie ne gran importancia al querer estudiar el apuntamiento o curtosis. — Si Ap < O Si la distribución será asimétrica negativa o a izquierdas (desplazad la distribución será simétrica. Denominamos concentración a la mayor o menor equidad en el reparto de la suma total de los valores de la variable considerada (renta y salarios como variables más utilizadas). están concebidos los estudios sobre concentración. Para este fin. hacia la izquierda).^(x) ^ _ t= I271. Se dice que una distribución tiene un apuntamiento u otro. Las infinitas posibilidades que pueden adoptar los valores se encuentran entre los dos extremos siguientes: . — Si g. Esta campana responde una función matemática. es por medio del coeficiente de Pearson (Ap). = O la distribución será simétrica. Otra posibilidad de calcular la asimetría. de densidad de la distribución: ^ . —X)4n. por tanto.

n. podemos decir que' u. n. n. 3. = 4. . u_ P^ Pz 9 P – 91 9= N. – 9. 9. nos encontraremos ante un reparto no equitativo: x. u. n. = x. 92P_ – n. 2. y responderá a la siguiente notación: u.r. por tanto. En este caso diremos que estamos ante un reparto equitativo: x. por tanto. vendrá dada por la siguiente notación: N. = .+x„n„ Por tanto. n. La columna total de frecuencias acumuladas relativas. + x. . n 5. ^ u.. 9. ). = = x. P. será una representación en ejes de coordenadas.n. + x. u 100 Por tanto. x„ n.Capitula 2 Nihil is exploratorio de variables unidimensionales 31 I. n.r„ _ = x„ De las diferentes medidas de concentración que existen vamos a centrarnos en dos: a) Índice de Gini: se trata de un coeficiente. + . u. = . n. . Sea una distribución de rentas (x.n+. que expresaremos en tanto por ciento y que representaremos como R.+x. Los totales acumulados u que se calculan de la siguiente forma: u. + x. n. x. formaremos una tabla con las siguientes columnas: 1. Concentración mínima. que nos indicarán la renta total percibida por los n i rentistas de renta individual x. la cual representaremos como q. n.n. cuando uno solo percibe el total y los demás nada. Concentración máxima.n. Los productos x. u„=x. u_ =x n. N„ u„ P.n.r. b) Curva de Lorenz: se trata de un gráfico. cuando el conjunto total de valores de la variable está repartido por igual. n. N. . será un valor numérico. N. =x. n.+x.=0 y x„ 2. n .r.n.= = x„_. La renta total de todos los rentistas que será u„ y será dada en tanto por ciento. En este caso. = x. + x.+x. ya podemos confeccionar la tabla que será la siguiente: N.. Las frecuencias absolutas acumuladas N. =X. x. +x.

5s u. Marca Frecurm u r r. 5 ^ =u1. o más homogeneidad en la distribución.0) y (100._. el gráfico siempre será un cuadrado.. = y. menor concentración habrá. = O (concentración máxima). 90 . en % en el de las Y..25. y. N N ..00 I 0381 261) 113850 651.23 94. Cuanto más se acerque a los ejes por la parte inferior del cuadrado. 325 275 'A6 00 14 7 1511 175 1 40) 49) )511 'S 2 260 • 501 475 100. Elempla 212 ...: )11N1 MINI p . P. cuando q. aj indice de concentración de 6I1I Obsrnamos quc hay poca concentración por encontrarse cerca del O...85 16. Al ser un %. = q. (concentración mínima) y de = I. y la gráfica será una curva que se unirá al cuadrado. n. los valores p. '_00 - 250- I ^) V ' 4275 'iN). k -.15 89.L. cuando p. 100 011 I^ U il `1M1 h2 x 1141N) ' 1 60. por tanto. 100 - 250 . k- I (. n.100) y quedan siempre por debajo de la diagonal.38 25 78....32 Estadística aplicada al Nnsme Como pacemos ver la última columna es la diferencia entre las dos penúltimas. por los valores (0. Este índice tomará los valores de /o. Analíticamente calcularemos el índice de Gini.51) 5 575 lIN) I '> 17$ 225 575 I IS . en % en el eje de las X.— 4. su diferencia sería 0. mayor concentración. = 0. La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la diagonal. a.-y. ya que p.62 97. .15 Se pide • índice de cnnventrnción y curva de Lorena correspondiente.48 651.2a. que responde a la siguiente ecuación._.31 97.. Este diferencia sería O para la concentración mínima. La manera de representarlo será....300' 350 1111) .54 . Si esto lo representamos gráficamente obtendremos la curva de concentración o curve de Laten:. Esto lo veremos mejor en el Ejemplo 2.I _ 1... y los valores de q.) /4 = k _1 P. = (— r.15 k _ 1 1R1 cid P-1 ^ P..115 0• IIN1 597í 76. 8.12. ia^a 2. 2'64(X) s.12.

otro para datos cuantitativos a g rupados y un último para datos cuantitativos no agrupados. que indica que has poc cuncentracion tA q. Análisis exploratorio de variables unidimensionales 33 Ejemplo 2.tantito 2.1 Una consultoría turística ha realizado una pequeña encuesta acerca del medio de transporte preferido por un colectivo no individual de cien individuos.12 [continuación] bJ Curra tie Lorenz Obtenemos la curva cerca de la diagonal. % 100 90 — 80 — 70 — 60— 50 — 40 — 30 — 'Il _ IU O 10 20 30 40 50 60 70 80 90 100 ^ En esta sección ofreceremos tres ejemplos resumen del capítulo. Avión:30 B arco:42 Tren:16 .9. Uno para datos cualitativos. Sus respuestas han sido las siguientes: Autobús: I2 Se pide: Comente los resultados de la encuesta utilizando las herramientas que pueda para ilustrar su respuesta. Ejemplo de estudio 2.

Nuevamente. con lo que el único parámetro de centralización que merece ser tenido en cuenta es la moda. al igual que ocurre con las medidas de dispersión. por ejemplo. Análogamente. en segundo lugar. En cuanto a la figura.10. carece de sentido cualquier comentario acerca del apuntamiento o la distribución. porque si de forma intuitiva a partir de un histograma (gráfico que recordemos.S 20. y para calcular la media se debería asignar un valor a cada medio de transporte por el que multiplicar luego su frecuencia relativa. que el barco. no seria adecuado para este tipo de datos) deducidramos la simetría.3 15.9 -JO. Aduciremos dos razones: en primer lugar para todas ellas necesitábamos una media o desviación típica que no tenemos y. 360016 — 57.5 7. tampoco tiene sentido calcular unas medidas de simetría. Nuestros datos proceden de una distribución unimodal donde la moda es el barco. hemos visto que. las medias de posición vuelven a carecer de sentido al depender del orden. Ejemplo de estudio 2.2° 100 Alura 2.92 2. .21 aparece la tasa de incremento de este componente para un conjunto de países de la OCDE.3 5)1 Se pide: Realice una descripción lo más completa posible de la distribución de estos datos utilizando las herramientas oportunas. la mediana depende del orden. por ejemplo.7 2.3 /6. de sentido ya que no hay ninguna razón para sostener que el avión es un medio de transporte mejor o superior. Dicha asignación sería totalmente arbitraria y su interpretación posterior carecería de sentido. con lo que carece de sentido.6° En cuanto a las medidas de centralización. Para cada medio de transporte se ha realizado el siguiente el cálculo previo: Autobús = 360 •12 = 43.2° 100 360 0 Avión = = 108° Barco = Tren = 360 • 42 —151.1 t 7.34 ^ EJEMILIS Solución Estadística aplicada al Nnsmo IE ES1111I • EIEMILIS IE 1511111 • EJEMILIS IE ES10111 Con datos cualitativos. la tabulación y la mayoría de medidas que hemos desarrollado en este capítulo no son aplicables.4 5.6 1. cualquier aspecto o cálculo que requiere una ordenación carece. en principio.2 4.9. Evidentemente. por otra parte. Tabla 2. un pictograma o un diagrama de sectores pueden ser apropiados para el caso. Por tanto. En la Figura 2. observaríamos que nuestra conclusión cambia dependiendo del orden en el que tomáramos cada uno de los medios de transporte a la hora de construir el gráfico. En la Tabla 2.2 Uno de los componentes del IPC (Índice de Precios al Consumo) de los países son los servicios turísticos. preferido por el 42`4 de los encuestador.10 se presenta el diagrama de sectores.

[apilulo 2.

Análisis exploratorio de

variables uoidlmensmnales

35 EJEMILIS IE ESTIIII

EJEMILIS
Solución

IE

ES11111

EJEM/LIS

If

E51111I

Es posible agrupar los datos en cinco clases (aplicando la regla des

i ^htk:nicnll , .1,1

Intervalo Frecuencia
Frecuencia relativa

0-8 18
0,75

8-16 2 0,08

16-24

24-32
0

32-40

0.08

0

0.08

Esta agrupación resulta útil para la realización del histo g rama (Figura 2.11) y resulta muy asimétrica. Aun así. las medidas características para estos datos se calculan utilizando los datos originales.

lo
14 12 U

6

I

^-

Desv iación típica = 9.78 Media = 9.0 V = 24.00

0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0

Ruin. Medidas de centralización: = 32,7+...+7.4 —
24 8,98

Me-

5,5+53 - :.4 2

Mo = 3,2 Medidas de posición: (Posiciones 6 y 7) Q, = 3,2+ 3.4 =3.3 7.6+ 9.1

(Posiciones 18 y 19) Q,=
(Posición 3) P p = 2,9

— 8,35

(Posición 22) 1'90 = 20,1 La interpretación de los anteriores resultados es que un 25% de las tasas de crecimiento del índice de precios de los servicios turísticos es inferior 3.3%. de las que un 10% es inferior a un 2.9%. mientras que un 25% de dichas tasas de crecimiento es superior al 8.35% y de las que un 10% es superior al 20.1%.
/

36

Eslaáishcd aplicada al Iun slO

EIEMI LIS

IE

ES11111

EJEMPLOS

IE

EST1111

EJ

Medidas de dispersión: Recorrido: 40.5 — 2.2 = 38,3 Recorrido intercuartílico: 8.35 — 3,3 = 5,05 Varianza: + (7,4 — 8,98) 2 — (32.7 — 8,98)'- + 24 95,64

Desviación típica: s95,64 = 9,78 Coeficiente de variación: 8 . 98 = 1,09

8,98

Con lo que podemos concluir que la media es poco representativa de los datos. Calculando los límites admisibles podemos dibujar el diagrama de caja (Figura 2.12). LI = 3.3 — 1,5(8.35 — 3,3) = —4,275 LS = 3,3 + 1,5(8,35 — 3,3) = 15,92

a

Se advierte cómo las cuatro observaciones mayores de 15,92
se consideran atípicas y que los datos parecen mucho más dispersos en el tramo que va desde la mediana al límite superior. Concretamente el tramo más disperso va desde el cuartil tercero al límite

superior.
Medidas de simetría: Coeficiente de asimetría de Fischer: (32.7 — 8,98)' + ... + (7,4-8,98)') = 1,98
4111212

(24 9.78')
Con lo que la distribución se muestra como asimétrica por la derecha. Medidas de apuntamiento: Coeficiente de apuntamiento: (32.7 — 8.98)a + ... + (7,4- 8,98)'

(24 - 9,78')
Se trata por tanto, de una distribución leptocúrtica o apuntada.

3 =3.10

Resumen
La variable .1PC turístico. muestra una distribución asimétrica ya que la mayoría de los datos están a la izquierda de su media (8.98%). aunque dicha media es poco representativa de la variable. ya que se trata de una variable muy dispersa, sobre todo en lo que hace referencia a los valores mayores de su distribución. Finalmente, se trata de una distribución apuntada entorno al valor 5.

Dii111

Z

Bnálisis exploratorio de variables unidimensionales

37 EJEIIfLIS IE ESillll

E)EMfLIS

IE

(Sil

lll

EJEMfLIS

IE

ESiI111

Ejemplo de estudio 2.9.3

En la Tabla 2.23 aparece la información relativa a la distancia a la cual estan los principales hoteles de San Antonio y Santa Eulalia en Ibiza (en kilómetros). Se trata de realizar un análisis descriptivo completo de dicha variable. En primer lugar. ampliamos la tabulación presentada incorporando el resto de frecuencias (Tabla 224).

Er
^Inrenalo
(20:_5, (25:3(1

Frecuencia absoluta
6

4

(30:35)

1)r
(20:25) (25:30) (30:35)

6
4 5

0,4
0,26 0,33

6 10 15

0,4 0,66 1

Por lo que respecta a las medidas de centralización, cabe recordar que la media se calcula utilizando las marcas de clase de cada intervalo, que el intervalo mediano es aquél que contiene la mediana (en nuestro caso, el dato central sería el 7.5 que se encontraría en el intervalo segundo) y el intervalo modal es aquél con mayor frecuencia absoluta. es decir• el primer intervalo.
_27,16 t— (22,5•6+...+32,5•5) 15

15 _ 6 Me = 25+5

2
4

=25

4 =i5 'qo = 20+` t +4
Con respecto a )as medidas de posición, el cuartel p rimero se nallaría alrededor de una nipotetica observación 3.75 que se encuentra en el primer intervalo. l^ —0 20 + 5 Q, = 2

4

— 23,125 6

De idéntica forma, hallamos el cuartil tercero alrededor de una hipotética observación 11.25 15 ' 3, que encontramos en 4 el tercer intervalo. 15.3
Q,= 30+5

4
6

10

= 31,125

Utilizando las mismas etapas calculamos. igualmente. el percentil 10 y el 90. 15 • 10 Pm ,o 20 + 5
100 ;
15 • 90

0
= 21.25

P«,= 30+5

100

10

= 5

335

Por último.125 Medidas de simetría: Coeficiente de asimetría de Fischer: (22..26 Coeficiente de variación: 4..38 Eslaáisfca aplicada al Nnsmo EIEMILIS If ES111I1 • EJEMt LIS IE ESII111 • EJEMILIS If ES11111 Pasando a las medidas de dispersión: Recorrido: 35 — 20 = 15 Recorrido intercuartílico: 31.1568 con lo que podemos concluir que la media es muy representativa de los datos.5 — 27.16 = 0. nos encontramos ante una distribución con cieno apuntamiento originado por la mayor frecuencia absoluta del primer intervalo.125 — 23. Según el país del cual procede el dato. 2.125 — 23..426' 3— 1.60 1.16)'•6 +. Eso sí.125 — 1.125) = 35. — Región: de I a 38 regiones para cada uno de los países anteriores.sav tenemos datos acerca de la demanda de los productos de la agencia durante dos años. l .5 -_ 2 7. debido a que la mayoría de las distancias se concentran ala izquierda de la media 1 _ 2 7. Resumen De nues o nos encontramos ante una distribución asimétrica por la derecha.16) = 6 + .27.10.5 .5 (31.16P • 4 15.125 = 8 (22.22 = 4. Medidas de apuntamiento: Coeficiente de apuntamiento: (22.27. de una distribución leptocúrtica o apuntada.5 — 27.. + (22. + (32.27.125 LS = 23.. En dicho fichero aparecen las siguientes variables: — Año: I si el dato corresponde a 2001 c2 si corresponde a 2002. L! = 23.26 27.16)'•5 15 • 426' Con lo que la distribución se muestra como asimétrica por la derecha.+(32.5.16 km).5.125 + 1. Ejemplo de resolución a partir de SPSS En el fichero enalgunlugar.. Calculando los límites admisibles podríamos dibujar el diagrama de caja que dejamos para el lector. I6)' • 6 + .16) = • 5 =18. — País: de I a 10.18 Se trata• por tanto.22 Varianza: 15 Desviación típica: \ 18. en esta ocasión la media es una medida mu■ representativa de la distribución debido a la escasa dispersión de los datos.125) = 11.5 (31.125 — 23.

Qué problema presenta?¿Qué soluciones otorga SPSS? Recodifique las variables pensión. Los posibles destinos de los clientes. los clientes y los hoteles. la expresión EDA_l=\IEAN(EDA) aparece en el recuadro derecho y la flecha que hay entre ambos recuadros ha cambiado de dirección (Figura 2.Capítulo 2 Bnáhsis exploratorio Ill variables umlimensmnales 39 E)EI1L1 If meterle.. viaje organizado y temporada de tal forma que sean variables binarias 11.. -.Editor de datos SPSS Edioun a l g ldl edad J ^ ^. 1.14).media de la serie.edad»._^ J • saca *son T edad evat. Una vez aquí.. posteriormente. 300 200 300 30C 3S 30C 70C 70C 70C 7 CC 3 C 3CC Granos txk ^.N __ II Nan6re Y nrlodo • I . — Duración: número de días que dura el viaje. _x pa Asolar o ragosatams. después de comprobar que en la pestaña del método hemos seleccionado el método •. — Organizado: valor I si el viaje es organizado y 2 si no lo es. — Edad: edad del viajero.. pulsaremos sobre la variable EDA en el recuadro de la izquierda en el cual figuran todas las variables y.-r-. cuyo valor para las observaciones con dato es el mismo que EDA para los valores perdidos 37.. 2. _z - ver Datas l Trartdansa anaixa Gráficos Uüdades vav asa Senda de aaataaam. observaremos cómo se nos crea una nueva serie llamada EDA_I. Tenemos valores perdidos... — Hotel: número de estrellas del hotel donde se ha alojado el viajero. 1 CC ... Observe su variable <. nos vamos al menú perdidos (Figura 2. A la variable EDA le faltan observaciones. — Destino: de I a 7. — Edad: la edad del viajero. Valor 6 para los viajes con alojamiento en uno de los 10 mejores hoteles con quien mantiene relaciones la agencia. De I a 9 días.edad pe a _ CategaFa vaebMS. pero SPSS nos permite reemplazar estos valores mediante varios métodos.. De I a 5 estrellas.ao T agarra maroon 0 J c°.01. Contar aoarooes_. Transformar y valores 5.da enraye Metladn rota od cer de b me J r ^ ^n F/lt 111.. — Pensión: 1 si se trata de pensión completa y 2 en caso contrario.... PA0 evaMtan4 cegare t año ^ 32 _ 00 5 6 _ P' Rem ake. 3 0= ^^ = T aeamfcaoan ertaneta. Se pide: 1. Puntuación del viajero al viaje efectuado. 1 111111 IE S1SS • (MAUI et IESILILIÍI 1 lllllt IL SISS — Precio/noche: precio de la habitación del hotel.s 100 100 100 100 . 3 00 dentro de él al submenú Reemplazar 8 9 10 11 '00 200 lao 233 2 00 200 200 .. Si aceptamos este cuadro de diálogo tal y como está.:. 00 1 00• I00 100 1600 1500 1500 1200 1dm 300 200 300 300 300. que es la media de la serie. — Temporada: 1 si se trata de temporada alta y 2 en caso contrario. las regiones. Para ello. pero ahora en formato continuo. Nosotros vamos a escoger reemplazarlos por la media del resto de observaciones.38. Para ello.13).. Dividida también en 7 grupos. La agencia mantiene a nivel interno la información de los nombres de los países.1 tildo . . en la flecha que hay entre ambos recuadros blancos. seleccionamos en primer lugar la variable que nos interesa. Veremos cómo. — Evaluación: de I a 100. al realizar dicha operación. ti a . - Ceea 'sere torpor".

001 70. Veremos cómo. repetimos la misma operación con la finalidad de obtener la expresión 1-sl (Figura 2. 301 33 . Es:.15). 2) EGB ciclo superior o educación secundaria..0) nos trasladamos al menú «Transformar».. «En las mismas variables» (Figura 2. Recordemos que el fichero Salarios.7D evaluaei ( ego* 2 1 2 00 00 3 00 300 7 00 .. 00 14. la que hace referencia al valor nuevo.001 '5001 Recodf ar en las miserias variad*.001 81. Accedemos a un nuevo cuadro de diálogo donde. Observaremos cómo en las columnas que hacían referencia a las variables pensión. 3. mientras que las observaciones con valor I permanecen invariables._. I /does amgos y romos lad Restablece .. Remplaza /orees per 1C 1001 100 1W 100 Figura 2. 3) BUP..00 3..Editor de datos SPSS wchro Datos Transformar treha Ctdkos ^ da 2 UD 2 3 1 1 edad sordo m dedaaauor. ha aparecido la siguiente expresión: 2—s0.031 59.00 rn 12 W 2 W 3.. la que hace referencia al valor antiguo. «Recodificar». 1603 1500 1500 1210 14W 00 00 W W 00 300 3 00 3 00 200 303 3 00 3 00 300 3 00 7 00 72 W 92 00 7303 303 7610 wa. clicamos en la opción «Continuar». 4) COU o Bachillerato.01 59. IJ •® '.03 . organizado y temporada en variables binarias (1. see tempord.» y realizamos la siguiente operación. clicamos en la opción valor e introducimos un 2 en el recuadro blanco que hay a su derecha. W 59. 00 76.03 7 1p 7000 78 00 92 00 98 00 7300 70.. valores antiguos y nuevas . vele I (' Pacido pa e «.1W1 - 30 l 140.. en primer lugar.o r /dor I-- r Paddo por rstore r Pesado pa d mteme o uuao r r r Antiguo -> Nuevo Rengo Raigo Rango ---^ r Todos los danós vabre-..031 7W 70 -31 31 92 001 70.301 2. Posteriormente. entramos en la opción «Valores antiguos y nuevos. Para conv ertir las variables pensión. En la parte izquierda..40 EJEMPLO REMOCIÓN PIITII IE Eslaáishca aplicada al turismo OE R MI Educo '.Valor atan r..00 1 -^.001 . :I WI " 001 ' 001 '031 '.. Apanes rangos a casos. eme -vdarae.W1 2 J-1 1 12 13 1 701 00 001 1 00 1 14001 2. 0: mujer) — Edad — Años de experiencia — Nivel educativo: en orden ascendente: 0) EGB ciclo inicial..W 83.. Finalmente. 1W 1W' 1.. m Sim [irlo . Una vez realizado. nos aparecerá el menú anterior y aceptaremos sobre él. seleccionamos las tres variables que nos interesan tal y como hicimos en el ejercicio anterior (Figura 2. 00 1 . rae'ua ea ^ta ^ ^ '^ 02 2W^ 2 2. clicamos en la opción «Añadir.15.. /atables maniatar •0(4. — Salario por hora — Sexo o género (1: hombre. en la parte derecha.00 L00.aes.. 1) EGB ciclo medio o educación primaria.A. W I ° 4 031 Z. S.17). cata apa c. Una vez aquí. clicamos igualmente en la opción valor e introducimos un 0.xls contiene datos sobre las siguientes variables para el conjunto de individuos que pertenecen a la plantilla de nuestra agencia EN ALGÚN LUGAR.. en el recuadro blanco grande de la parte derecha. Categor¢e venables. Posteriormente..1 • Va EJEMfLI IE IESILILIÍI 1111111 If SISS 2.16).__ 7 03 3 00 3.. aecaderlaón atandtice. organizado q temporada se han reemplazado las observaciones con valor 2 por observaciones con valor 0.

xls.^^ a3W _.:alas Dar tleb . c) Realice la estadística descriptiva de cada una de las variables. s Tegas de canmgeoe. ¿A qué es debida la diferencia entre ambos valores? Solución a) Abrimos el fichero Salarios. 8) Universitarios en licenciaturas o ingenierías superiores. S. a. Se pide: a) Realice la tabla de frecuencias de cada una de las variables. es una empresa con plantilla joven o vieja? ¿Cuál es mayor.Coba 2 Análisis etploralan° de venables umd mensionales JI EIEMILI Of IESILIIIÍI 1 111TI1 If SISS • ElE111..'aloes penados 33 W 90: 7 1' 7R 3 7_ 99: 3W 5W 7W W 3 15 W 13 W 19 ro 56: 64 5W 6W 3W 5W e 5_' W 27 W 38 W 23 W 53 W 51 W 26 W 33W1 :1 23 ?A 9 5€ 11 1: 13 13 25 20 6W 11W 4 . 7) Universitarios en escuelas de diplomatura o ingeniería técnica._seas ro Cesh.. en él. II) Doctorado. el submenú «Estadísticos descriptivos y. d) Complete el análisis de dispersión para la variable Salario por hora con el diagrama de caja. 9) Master o Posgrado. bl Preste atención gráfica especial a las variables Educación y Salario por hora.donna Melp alal ^I^JJJJ^ :oda 6WYIIV 1^ Gdfims Ulddes Ventana ' 11 s Tas persor. clicamos en la opción «Frecuencias. e) Elabore un pequeño informe en el que se dé respuesta a las siguientes cuestiones: ¿Hay más hombres o mujeres en la agencia? ¿Cree que EN ALGÚN LUGAR.tesas s kt es 3W 9W 2W ti 40 5 aloa de .sY:adas Tebas edutop Carp• • ned ss 2 3 5v d' 53: A 58( 5- 5W 2W 3W Modelo leed 9e^esN rr Modelosodos Correaovses eem v ied astcer • Nxoen de datos .1 IE IESILI[111 1 11 1111 If SISS 5) FP de primer grado o ciclo formativo medio 6) FP de segundo grado o ciclo formativo superior. (Figura 2. Ratón- rat I ^ + v T .^ ^ rtr I- 5W 7W W 7 32655 4X 5 7?: 55: 12 13 15 67: 50: 5W 6W 3W 5W e e a -es tomase/es . .. F7n L fl'p 211. bdM Edodn V• Datos Tra. Para realizar la tabla de frecuencias desplegamos el menú «Analizara.vs cT s EQber.18).Edits de datos Sp55 sJslJJ. el salario de los hombres o el de las mujeres? ¿Cuál es más estable? Comente el valor medio y mediano de la variable Salario por hora.A. Ssn t o. La agencia mantiene en el anonimato los nombres de sus empleados.do . 10) Otros estudios. W ..

Clicamos " Continuar " en el submenú •.W 2303 58. La salida consta de cuatro recuadros..22 a 2. y dado que queremos la tabla de frecuencias para todas las variables. El primero nos informa del número de datos v de que no hemos perdido ninguna información.03 44.42 EJEIIILI if IESILIIIÍI I ISIf11 if SISS Estadistica aplicada al lunS1I1 • IJEIILI if ISSILILIÍI 1 1 11II1 II SISS Accederemos al si g uiente menú (Figura 2.W —__ 303 9. En este punto observamos los resultados de las Figuras 2.10). introducimos todas las variables en el recuadro blanco derecho. Ahora accederemos a la opción „Formato" p marcaremos que queremos la tabla ordenada según valores ascendentes de las ariables oriv :F•ecutanclea • amables 1 M osas labias de Inciensas Estallas :^ ^.25. A continuación. Para ello.Frecuencias: Formato " y " Aceptar " en el menú „Frecuencias.2W. 2 (Figura 2. Este tipo de instrucción suprime la tabla para las variables continuas corno es el Salario por hora o la Edad. a lo sumo. Los tres siguientes recuadros son las tablas de frecuencias para las variables que no tenían excesivas categorías. ginales y que suprima las tablas de frecuencias de variables con más de 20 categorías. r Oipsreat atestados y.t MiLple.21). venables r Came. 00 12860 2001 2000í 3.03 40001 5W1 5W' 300 7W1 - _ cv t ct: 1C( - _4. En ellas se muestra la frecuencia absoluta (frecuencias).00 .03 1 7151 7 W': SW a03 3. StamleWp tat lit vattam obro 12 13 14 15 16 55C 6 70 5031 9. La tabla de frecuencias de este tipo de variables sería mu y poco informativa porque la ma y oría de observaciones tendrían una frecuencia absoluta de 1 o. la frecuencia relativa Sin titulo .03 6200 27W 38.etebte. clicamos sobre cada una de ellas (se marcarán en azul)) posteriormente sobre la flecha que se halla en medio de los dos recuadros ( Figura 2.

m 5..5 31.3 16 16 1.enrama .3 24 6 29. '. -_ 'a e 52 5 '6 _ 3 4 6 7 8 9 10 11 Tota 6 14 2 14 5 5 3 2 1 3 61 98 210 33 23.26). [e^taje a -. (porcentajes) y la frecuencia relativa acumulada (porcentaje acumulado). Estadísticos descriptivos.renuie 410 590 Pc.24.0 78.6 541 557 623 65.wa •T•2..n.1 1000 12 13 15 16 18 20 22 23 25 28 29 32 35 40 Tota '.6 1.0 r. podemos seleccionar la variable Educación y realizar el gráfico de sectores de la misma (Figura 2..8 16 115 16 6.3 1.3 1.3 __: Porcentaje anln olann 82 96 14.0 852 902 934 95.6 3.6 672 70.taplulo 2 Análisis etploralono de v ariables unidimensioneles 43 IE S1SS EJE111L1 IE 1ESILItIÍI I 111111 • EJE11L1 IE IESILILIi1 Experienaa I 111111.3 6. :Trin 82 9. Frecuencias.1. bl Para realizar los gráficos tenemos dos opciones.96 700 ^ 00 44 00 62 m a 00 W 27 0 13 38 00 ._ eaa-_.6 8.111 3. Valrcos _ SEXO .6 3.6 16 82 3.0 Porcentaj e estilo 82 16 98 210 33 23.0 6 1 7 1 4 2 _ 4 1 1 5 2 1 1 1 2 61 98 16 115 16 66 3. :-_.11. La primera se halla igualmente dentro de «Analizar. si cucamos en la opción «Gráficos.3 16 33 6.9 13 16 49 100. IE SPEC Estadlsbms Sa áRIOS EDUCACION! E.7 803 88 5 91 8 934 95..w Ed4in 1b =JJ Buns Transformar Mala Vsdilc ♦a•anen ♦e• ♦ edad J 1 ar I ^^^ Ceerr Ayde A F Moca v •ea 00 del 4Nco FreOaoca r 00 t 12 13 14 15 16 500 9 716 78C 2. En ella.ann J41 0 410 590 100 0 t -_ _ Tota 61 100.7 426 459 68 9 77.0 52 82 49 33 16 49 1000 =.3 49 16 Porcentaje v5Mn 82 16 4.8 21.6 16 1.1 967 100.0 42.2 3.6 3.5 77.8 19.101.6 1.2 82 4.9 66 3.1 5 1 3 4 2 Pnrnentale 82 16 49 66 3.1 41.3 49 16 9.pe-=-:60 Vdltdos 3 1 2 3 4 5 7 8 9 10 .6 1.6 33 1000 va.0 8.

' Revnere0p•aVWS de50000 r Res'nann pne d0W a0 vseHs ValpeO ndvidudn de Is cmos I Deb. Posteriormente.44 ElEA1l1 Esladishca aplicada al luris- If IESIt1EIil 1 111111 If SPSS • E1E111L1 If IESILIEIiI I I11111 If S1SS Sn aula .31). Notamos que los niveles de educación 3 y 5 son los que están más representados. Observe que el dibujo sería idéntico si pidiéramos el % de casos (Figuras 2. En la opción .32. .55 a161140I54 10 =1J _J JJ J: rums e mininos.. I Flqu a 2. seleccionaríamos ■■Histograma» y marcaríamos la opción de curva normal en el gráfico (Figura 2.•Analizar.Sectores. 8( 3( 13' 13 25 L 70(D' 1 88 _ .28). y en el siguiente menú seleccionaríamos la variable Educación y le pediríamos que los sectores representen el número de casos.Definir» después de marcar la opción -resúmenes para todos los grupos de casos. El mismo resultado se habría obtenido en .27. estadísticos descriptivos.29.29 y 2. marcaríamos .Gráficos» . de daos 5.yvo ® 1=0 ® 11^ Mal fipli 2.30).. Para elaborar el histograma de la variable Salarios nuevamente tenemos dos posibilidades...i00^ 00 1 Pf) ^300`` 21 r m mI m .21 El resultado se puede observar en la Figura 2. ® 11^ © 11® . El resultado es el que aparece en la Figura 2. (Figura 2. frecuencias y gráficos. ü Fpura 5 10 7 20 5SD 5]0 5m 00 't5 7 90 3 75 9® D' ^ ^ =111170 38 W 23 00 5300 22 1 x ta datos 65 paco 00 n (.tato.

228 604 48 17 65 2200 26. 33 26. Una vez en este menú clicamos en los estadísticos que nos interesan.306 6.•oe P Mim e Dotüav Ñ Amad r ET. 4. únicamente hacer constar que el coeficiente de asimetría que nos ofrece SPSS es el coeficiente de Fischer.800 7200 9..00 2000 28 00 61 3 59 100 1 . v cucando «Añadir» para que aparezcan en el recuadro grande.34. el 50 y el 75. como sabemos.701 455 306 .306 -1.6 r Ds tp •a66 1bd. segundo y tercer cuartil.915 201 .00 1. En el caso de los percentiles. hemos añadido el 10 y el 90 (Figura 2..20 300 500 600 8 BO _ 13' 5 10-00 10 10.330 5.00 1. notar que aunque sólo hemos pedido los percentiles 10 y 90 nos ofrece también el 25. Guantes .306 -.081 604 11 0 11 1. } desde aquí entramos en la opción «Estadísticos>. Una vez allí.Frecuencias.ioo NOS.Taderoe cara r Ñ Meso P Matero Reo= x cane cae P Pacaxiea (- P Mofe r s. P Aarree P Cuba S ti Obtenemos de nuevo idéntico resultado a partir del menú «Gráficos. J . Sin detenernos a comentar toda la salida. tenemos que indicar los que nos interesan escribiendo el número en el recuadro pequeño. En nuestro caso. P Mf.604 40 0 40 120 4.9 4.775 7.00 52-00 57 00 a Existen vanas modas Se mostrara el menor de los valores fi^rt 134. y el submenú «Histo g ramas..mn F Den Cima P V6. 0 140 160 160 IDO 220 ND TO Lm vetos ao n.50 37. El output que nos ofrece SPSS es el de la Figura 2. Se observa con facilidad que la distribución de la variable Salario por hora se aleja de una distribución normal y se intuye que presentará asimetría por la derecha.8498 23 5203 2336 . justo a la derecha de la opción «Percentiles.750 13.ya que la mayoría de sus datos se concentran a la izquierda de la media. Estadísticos descriptivos.. ya que estos percentiles coinciden.00 61 3 38 43 37. c) Para realizar la estadística descriptiva de las variables volvemos al menú “ Analizar». seleccionaríamos la variable Salarios y marcaríamos la opción de curva normal.Caballo 2 análisis exploratorio de variables unidimensioneles 45 EJEIIILI tE IESILI[IÍl 1 IIITII If Histograma para la vanable Sa■anos MI • EJEIIILI IE IESIIItIÍI 1 111111 II SfSS Voltees perca-Mes P. Estadistrcos -sao EDAD N Meaja Mediana Moda auaos a eraiacs 85-`_ 7200 5.. una vez activados tras el clic. Por otra parte.570 _ 164 5.00 1.111 .396 604 23...50 10.•66 N•6100 •0 60 SO LA Rí05 .00 3' 2.00 23 13488 181.496 Desv tip Vananza Aemetna Er ro r tip de asrmetna Curtosis Error tip de curtosss Rango 246 -376 306 -1 923 604 1 0 1 00 Minimo Maximo Percentiles 10 25 50 75 90 .33).con el primer.443 109-050 776 .+* vedes 0e grzos Deae.

sede eda0 salan 37 W E 4 51 saecooree casos..36).46 EJErPLI 1E Eslaáistica aplicada al turismo 1E5111E111 I P11111 1 E SPSS • EJEIPLI 1 1E1111E111 3100 I 111111 1E SPSS adral Edddn Ve petos Trerv4amer Mahe . En el siguiente menú pulsaremos en opción «Simple» y en la función «Resúmenes para distintas variables» (Figuras 2. advertimos r J .. Para responder a esta pregunta necesitamos calcular estadísticos descriptivos separados para el colectivo masculino y femenino. Por el contrario. J . Pondera casos.see • Pa^ salmo A_ °• Pqa una dispersión muy elevada en el 25% de observaciones que oscilan entre el cuartil tercero y el extremo superior.^.. I 1 F. pee 71003 da casca Resúmenes neta d3n4aa venables r 48 00' 4300 21 00 Agora 2_36. tenemos información suficiente para todas. Diagrama de cajas». fades. 24 23 58 44 •F m_ 1W 1 00 : 100 W J ^ Defr. .aa J __ en el informe que se nos pide en este apartado.31.. d) Para realizar el diagrama de caja de la variable Salario por hora. Para ello. seleccionaremos la variable Salario por hora y aceptaremos (Figura 2.. ea. submenú Segmentar archivos» ( Figura 2. nos trasladamos al menú «Datos». En él vemos observaciones atípicas situadas aproximadamente entorno a los 26/27€ la hora. La salida de SPSS es la de la Figura 2.. _ _— Ceffas i a .39). Se trata del diagrama de caja usual presentado en posición vertical.sTi Srrele a9weda a... .áfvn Gr WdldK Ventana W 00! W 4200 2200 57 03 36 r. 28 00 33 00 r Los daos del atta. Además. inserta ve verte* ffi . que corresponderán con toda seguridad a los gerentes de cada agencia. Por último. Wdwo Edioón Ve ' patos Transformar Arare Gráficos tildadas Ventana '... excepto para la que nos pide si el salario es mayor para los hombres o para las mujeres y cuál de los dos es más estable. e) Por lo que respecta a las preguntas a las que hemos de dar respuesta 0 Espera m casos 'recia.38. .37). 5T Gafe...-- 100 1W WI 62 N^' ^ WI 00 00 1 00 1 00 100 W 5+. san Resúnen. entre el cuartil primero y la mediana. 1 pe°•r"1 Ira 2.35 y 2..' al p: J 59( 89t 4 4'. se sitúa el 25 c %c de observaciones más concentrado. entramos en el menú «Gráficos.

no crear grupos» (Figura 2.41. se detecta que la media y la mediana se sitúan en estudios de tipo medio como COU. aunque el colectivo de mujeres presenta salarios más estables a tenor de su menor desviación típica y coeficiente de .56.Capíiulo 2 8nálisls erploralorm de varia bles umdimensianales 17 IE I I 111111 StSS • EJEMtLI IE IESILI[III I t11í11 II StSS En él cucamos las opciones . se trata únicamente de algunas saciables extremas. será presentada para los grupos de-mujeres y hombres de forma separada (para desactivar esta función: «Datos. en nuestra empresa hay tanto personal que únicamente tiene el ciclo inicial de EGB.75) y el extremo superior de los datos. Respecto ala variable Educación. observamos que los hombres cobran. tenemos personal que cobra un salario por hora superiora los 26. Segmentar archivo y Analizar todos los casos. se trata de la variable más dispersa. la seleccionamos y si aceptamos observaremos como nuestro archivo se ha ordenado según ésta variable. en promedio. siempre que no desactivemos la opción anterior. tenemos una gran dispersión de edades. un 10% de la plantilla trabaja por salarios hora inferiores a 4. Nuestra variable de agrupación es Sexo. con lo que este dato no es muy ilustrativo.5 € la hora. El salario hora de la plantilla de nuestra agencia se sitúa entorno a 8.57 €. Sin embargo. nos podría hacer pensar que fiprE 211. cantidades superiores a las mujeres. cosa que no ocurre con el resto de variables. Las cate gorías más representadas son estudiantes con BUP y con FP o ciclos formativos de grado medio. Además. lo que representa un 59% de hombres a SEXO = 0 (media de la variable Sexo) y un 41% de mujeres. No obstante.43 años. ya que su coeficiente de variación es el mayor de todas las variables 10. para obtener la estadística descriptiva de cada grupo. s obtenemos la Estadisticos descripnvos' salida de SPSS de la Figura 2.40). Aunque ello. la dispersión más elevada. Una vez en este SALARIOS Miromn Maims punto va podemos realizar el informe.413 — 0.488 38. Por último. En particular. nos entretendremos al go más con la variable Salario por hora. Así.43 — 0. Respecto a la variable Experiencia. cualquier instrucción que realicemos a partir de este momento.s:a 36 edades comprendidas entre los 17 y 65 años. 98 25 SALARIOS Nválido (según lata 25 Nuestra plantilla consta de 25 mujeres y 36 hombres. tenemos primero las observaciones con valor O (mujeres) s después las observaciones con valor I (hombres). la encontramos entre el cuartil 3 (9. como personal estudiante de doctorado. A título ilustrativo hay un 10% (percentil 10) de la población con experiencia inferior a 12 años y otro 10% 13. ya que su media N Minim^ Maxim =iv I1A _ 5010 36 265 SALAR Cde edad es de 38. Bachillerato o FP de grado medio. ya que si calculamos el coeficiente de variación de la variable Edad 13. ya que el coeficiente de variación es de 0. Estadisncos descriptivos' Por otra parte. De todas formas. tenemos Nvándo se-_.Organizar los resultados por grupos)) y «Ordenar el archivo según las variables de agrupación». Descriptivos.. De hecho. y el hecho de tener la desviación típica mayor variable Edad. podemos considerar que nuestra plantilla es relativamente joven.5 € la hora.79. Así. la media de experiencia del personal de nuestra agencia es superiora los 13 años.18 (percentil 90) con experiencia superiora 28 años.3 € mientras que otro 10% de la plantilla lo hace por salarios superiores a 13.34 éste nos diría que estamos muy cerca de considerar a la media como representativa del conjunto de datos. Así. sólo tenemos que pulsar «Analizar. si observamos tanto la estadística descriptiva como su gráfico de sectores. Estadísticos descriptivos. Si diferenciamos entre sexos. La dispersión es relativamente elevada.

. El coeficiente de variación de ambas variables.500.000 y que las ventas de billetes de tren A B C D Costa de Alicante Costa Brava Costa del Sol Palma-Calviá Sur de Gran Canaria 60 50 50 57 70 Calcule: a) h) e) La Inedia de la ocupación prevista de estas zonas. Por último. el tercero 19 y la mediana 10.5 y moda = 107.000 con una desviación de 1. fueron los turistas de Alemania quienes realizaron mayor número de pernoctaciones con 35 millones.5.000 de tren. seguidos de los franceses con 20 millones y los procedentes del Reino Unido con 17 millones. el primer cuartil sea 5. al contrario que las distribuciones del resto de variables que son platicúricas. se analizó la demanda de los mismos. 2. El coeficiente de variación. Paralelamente. 2116 750 700 450 900 590 Tras realizar un estudio del número de personas que acuden los lunes al campo de golf de un hotel cercano al Montseny.4. De hecho.000 billetes de avión y 90.11. Dibuje un gráfico adecuado para estos datos. algo que podemos observar tanto en su histograma como en el valor positivo que muestra el coficiente de Fischer. ¿Cuál es el signo de la asimetría de la misma? ¿Cómo sería aproximadamente su representación gráfica? E F Determine: a) h) e) La media aritmética de los precios y la demanda. 12 26 20 13 30 17 504) muestran una media de 75. El grado de ocupación de las zonas turísticas con más número de turistas durante el año 2003 se prevé: 2111 Construya una lista de números tal que el valor mínimo sea 2. se obtuvieron los siguientes resultados: inedia = 100. Se sabe que la media aritmética de ventas de billetes de avión de las agencias en dicha población es de 45. 2111 Un estudio sobre el nivel ocupacional en los hoteles revela que 90 millones de pernoctaciones correspondieron a viajeros extranjeros y 50 millones a viajeros nacionales. Calcule en qué tipo de billetes se encuentra más aventajada dicha agencia respecto a su competencia. el máximo 20. todas las distribuciones a excepción de la del Sexo nos muestran este tipo de asimetría. Otras naciones se reparten el resto. Comente los resultados. Por países. Comente los resultados.48 PRR11 1RE SPSS • EJEMPLO RE RESOLUCIÓN R Esladíshca aplicada al MISMO EJEMPLO RE RESOLUCIÓN R PRRIIR RE SPSS variación. La distribución es asimétrica. Los datos resultantes son: 2. La interpretación de dicho coeficiente es que la mayoría de salarios se concentran a la izquierda de la media. Ejercicios propuestos Ejercicios pujos 2. en concreto muestra simetría por la derecha.116 Una agencia de viajes de Granada ha vendido durante un año 50. mediana = 95. a) b) Determine si es grande o pequeño el grado de asimetría de dicha distribución. se trata de una distribución leptocúrtica.11.000 con una varianza de 2. Indique ante qué tipo de variable nos encontramos. 2113 Durante el mes de abril del año 2003 se realizó un estudio sobre el coste del menú en seis restaurantes de la Costa Azul.

750. 1. 112)? c.000 €. 23. Se pide: a) Dibuje el gráfico que resulta más adecuado para este tipo de datos.100.100 -1. c) Encuentre la distribución de frecuencias relativas con clases iguales que le parezca adecuada. Entra una de 36. ¿Cuál es la nueva edad media? ¿Puede determinar la mediana de esas diez personas? 2. Compare las familias. 950. con desviación típica de 1. Desde la oficina de turismo de Salou se pretende incentivar al 25% de turistas que más gastaron en sus vacaciones. 570. 28.050. ¿Cuál de las dos personas ha recibido una mejor oferta en relación a su categoría? 211. 18. 850.000 € y a la segunda le han ofrecido 20. 890. el cuartil primero 75. ofreciéndoles un descuento de un 1O% en cualquier apack» que escojan en la temporada de 2004 (siempre que el destino sea Salou.28.000 €. 540. 580.2) a) ¿Qué porcentaje de las observaciones están por encima de 96? ¿Qué porcentaje es menor o igual a 84? b) ¿Qué porcentaje de datos caería dentro del intervalo (59.40. 550.400. calcule: e. 670. 1. 1. la distribución correspondiente al trabajo que han ofrecido a la segunda diplomada tiene una media de 21. a) Calcule el porcentaje de valores de gasto superiores a 700 y el porcentaje de valores de gasto que se sitúen entre 650 y 990. la mediana 84. represente el histo grama y en base al histograma.500 € y una desviación típica de 1. Calcule alguna medida de centralización y dispersión para ello..300. Los datos no cuentan lo que forma parte del . c. viaje. 600 -900. 65. 101. 65. b) ¿Cuál es la distancia media de los alojamientos? ¿Y la distancia mediana? Tabla 2. Son: 500. es decir.100. 980. naturalmente). la desviación típica 10.118 Dos personas diplomadas en Turismo con diferente grado de experiencia han recibido dos ofertas de trabajo. 640. 1.50.1 La media de edad de nuev e personas es de 40 años. 800.72. Escoja diferentes agrupaciones. b) Encuentre la distribución de frecuencias relativas con clases: 500 -600. 750. 23. 700. Por otro lado.020.27 reflejan el número de veces al año que tres familias diferentes han ido de viaje durante los últimos 24 años: a) b) c) Tabule los datos.65. 600.500 €.l) El porcentaje de valores de gasto superiores a 850.5 y el cuartil tercero 96. Sabemos que la distribución de sueldos correspondiente a la categoría de la primera persona tiene una media de 14.400 y represéntela en un histograma.Cap itu lo 2 Pnálisis exploratorio de taria0les unidimensionales 49 • E]EItItIOS PIOPUESTOS • E)EItItI1S PIIPUESTIS E)EItItI1S PIIPIESIIS 211.27.51 si aplicamos la regla de Chebychev? ¿Qué porcentaje caería dentro de ese intervalo si la distribución fuese normal? ¿Y dentro del intervalo (49. pecto al centro de la capital: 38. 21111 Los siguientes datos reflejan el gasto en € realizado por 26 turistas en Salou durante su estancia en 2003. ¿Cuál ha debido ser el gasto mínimo en 2003 realizado por las familias premiadas? 21112 Los siguientes datos reflejan la distancia en km que diverEjercicios tipo sos alojamientos de la provincia de Barcelona tienen res- 21110 Las series de datos de la Tabla 2. Todos estos alojamientos son los que presentan un precio más ajustado dentro de los que posee una agencia y son utilizados en las temporadas de otoño.5. 100.500 €.200. 900. invierno y primavera. A la primera le han ofrecido un sueldo de 13. 900. 1. Dibuje los diagramas de tallo y hojas para cada familia. alojamiento y media pensión.5.5. 1.1 Para un conjunto de datos la media es 80. 38 y 18. 18. 1.1.3) El porcentaje de valores de gasto entre 550 y 900.40. F1 F2 F3 6 2 12 3 20 13 I 3 7 5 0 6 5 13 2 10 6 10 8 6 6 9 10 4 5 6 2 1 6 9 3 4 5 6 10 7 3 1 1 24 6 68 5 3 2 4 5 4 3 6 3 7 3 5 8 7 1 11 1 .050. 38.900. 1.pack».

000. 56.8.000. 1.250) (2.28 muestra la distribución de la distancia en km que tuvieron que recorrer los espectadores que acudieron a la fase final de la Euroliga de Baloncesto celebrada en Barcelona en 2003.250. a) Agrupe los datos en clases o intervalos. 2. 1.000) [ 15. Compare los valores obtenidos con el [0. 2. 3.250) ( 1. Escriba una frase interpretando los valores obtenidos.0. 750) (750. 63.000. 6.000.50 ElE1tItIIS IIIIIESTIS • EJEItItI15 IIIIIESTIS • Eslalishca aplicada al lulisma EJEItItIIS IIIIIESIIS c) Calcule los percentiles 10 y 90. 1.000) ( 1. 55.1. 65.3.000.2.000) (3.750) (1.2.1111 La Tabla 2.7. f) Comente qué tipo de asimetría y apuntamiento presentan. de los espectadores que siguieron la gira en todo el mundo . los datos. 62. 59. e) ¿Considera que la anterior media es representativa del conjunto de datos? f) ¿Puede considerarse la distribución de datos simétrica? ¿Qué tipo de apuntamiento presenta? g) Resuma en unas pocas líneas la información obtenida a partir de los cálculos.Ziggy Stardust. al 759 y al 90'k? ¿Cómo se llaman estos valores? f) Determine el valor del percentil 10.8. 58.3. en S. 125. b) Confeccione una tabla con las clases.4. Explique su significado. 72. 66.000.8. 211.4.0.250.3.000) [50.3. e) Realice un histograma. una de las más exitosas de todos los tiempos. las marcas de clase y las frecuencias. en 1972. 60.000. 55. 2.000) [2.000) [7.2. del año 2003 y poner el precio a los paquetes turísticos promocionales.7. 70. d) Calcule los tres cuartiles y dibuje el diagrama de caja correspondiente a la distribución de los datos. Comente los resultados..000) [6. 25. Con el objetivo de conocer hasta qué punto aumenta el ruido en su ciudad en temporada alta. 7. h) Utilice alguna medida de dispersión adicional para mejorar su análisis de la misma. 1250. de Bruce Springsteen. 2. 250) 30 5 10 10 10 10 5 5 número de datos que se encuentran realmente en dichos intervalos. 2. calcule la media y la mediana de los datos. b) Calcule los percentiles 10 y 90.000) [ 10. d) Añada al diagrama anterior el polígono de frecuencias.000) 12. Coméntelo.000.6.000) [5. Escriba una frase interpretando el valor obtenido. de David Bowie.000) Porcenrajell 2 3 4 5 5 5 15 26 26 8 2 .000) [25. 61.3. el ayuntamiento (1.000. 67. dada la tipología de datos? e) Calcule una medida de dispersión que considere adecuada. en decibelios. 500) [500. g) Utilice la regla de Chebychev para determinar qué porcentaje de medidas se tendrían que encontrar entre x 2s_ 3s. e) Tomando como marca de clase el punto medio de cada intervalo. e) ¿Cuál sería el valor que dejaría por debajo al 50'k de la población.000. 10.000. 54. 69. sirve a las principales agencias mundiales como referencia para conocer el tipo de público que asiste a estos grandes acontecimientos como el tour ' The rising>. 5. de Marbella ha recogido un conjunto de medidas del nivel de ruido del transporte.9.29 muestra la distribución de la renta. 21111 La Tabla 2. 64. 60. 15. 67. 50.750. d) ¿Qué medida de centralización encuentra más adecuada.5001 10 I0 a) Dibuje el histograma de frecuencias y comente su forma.500) [ 1.2. 1.500. en un importante cruce de su ciudad: 55. Dicha gira. 4.000. a su juicio. 76.000) [4.14.000.

¿en cuánto aumenta la media? ¿Y la varianza? d) Si se aumenta el sueldo del trabajador que más cobra en 500 €. dl Calcule el coeficiente de variación y comente si la media es una medida representativa.2r10 1.. a) Calcule la media y la desviación típica. Comente los resultados.30. Se pide: a) Realice la tabla de frecuencias de las nuevas variables Edad y Hotel así como de la variable Destinaciones.30 muestra los sueldos en € de los empleados de una agencia turística: Tabla 2. Ejercicios con SPSS . 21111.450 800 800 1100 1. Constate dicha impresión con los cálculos del coeficiente de asimetría y curtosis. b) Calcule el percentil 10 y 90.200 1350 1. ¿cómo aumenta la media? ¿Y si se hace esto mismo con el trabajador que menos cobra? .Qué medida de centralización considera más adecuada? Justifique su respuesta. 21116 La Tabla 2. Escriba una frase que comente el sentido de dichos valores. g) Utilice el diagrama . ¿en cuánto aumenta la media? ¿Y la varianza? c) Si se decide un aumento del sueldo de un 15%. ci Calcule la media y la desviación estándar. A partir de la base de datos enalgunlugar. el Dibuje la curva de Lo re nz y calcule alguna medida de concentración. f) Calcule alguna medida de concentración y comenta los resultados.Capítulo 2 Análisis exploratorio de varia0les umdlmenslonales EJEIfI[IIS PIIPIESTIS • (HICIMOS PIIPIESTIS e) • (HICIMOS PIOPIESTIS grama de frecuencias y comente su fora) Dibuje el histo ma. e) ¿Qué variable presenta mayor dispersión? d) Se halla la edad media en el intervalo de mayor frecuencia? e) ¿Cuál es el país más representado en la muestra? fi Califique el número de estrellas de los hoteles de su muestra.500 ¿Qué pasaría si hubiera hecho la tabla de fre- cuencias de la variable Edad tal y como la tenía al principio? ¿O si lo hubiera hecho de la variable Precio nor-lie? ¿Qué debería hacer para solucionar dicho problema? 1350 1.sav.bozplot» para comentar la dispersión de alguna variable. 1. Comente la dispersión de la variable. Dibuje el diagrama de caja. lo Si se decide un aumento lineal para todos los trabajadores.200 b) Realice las estadísticas descriptivas de las variables más interesantes..

1. Introducción a la inferencia estadística 3. Diagramas y tabulaciones bivariantes 3. Medidas de calidad del ajuste 3.7.3.8.11. Hipótesis del modelo lineal. Ejemplos de resolución a partir de SPSS 3. Ejemplos de estudio 3. Estadística de atributos.9. Cosarianza y correlación 3. Independencia y asociación 3.6. Cálculo de coeficientes e interpretación 3. Dependencia funcional y estadística. Ejercicios propuestos .12.2. Introducción a la regresión lineal simple 3. La regresión lineal simple 3. Consecuencias 3.5.4.10.CflPÍ1UL0 3 Análisis exploratorio de ^► variables bidimensionales 3.

. n 12 nos indica la frecuencia conjunta de . . sin estar ligadas entre sí por una relación matemática.r. n.. . podemos obtener las distribuciones marginales de la Tabla 3. que podemos representar tal y como se muestra en la Tabla 3.. el gasto en publicidad y la demanda de servicios turísticos. con y2. si una variable X y una variable Y se estudian sobre una misma población y se miden por las mismas unidades estadísticas. la longitud y la latitud). se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener.1.). es decir. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia. se obtienen series estadísticas de las variables X e Y. • .e.. Dada la distribución hidimensional (x. el precio y el • • 3. dada la distribución bidimen- remos genéricamente como (x. . n„ . etc. De forma general. — Y.número de estrellas de un mismo hotel.2.... I rl . sí presentan una cierta dependencia estadística. n.1. se suele decir que estamos ante una variable estadística bidimensional. Considerando simultáneamente las dos series. de forma que en cada una de ellas no se tenga en cuenta la otra. Estas características.). n„ nos indica el número de veces que aparece . E n el presente capítulo estudiaremos dos características de un mismo elemento de la población (el número de quejas y la valoración que recibe un hotel. donde x. En este caso. n. y. .. que representala frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y. y.3. Tablas de doble entrada o de contingencia- Sea una población estudiada simultáneamente según dos caracteres X e Y. son dos valores cualesquiera y n „ es )o — Y.. sional de la Tabla 3. conjuntamente con y. Oidgrdmds u IdbuldclafleS biVdrÍdllCeS La información bidimensional se suele presentar en tablas de contingencia y el gráfico más común es el diagrama de dispersión o nube de puntos. e y. n . n„ n.

Se dice que dos variables casos. en el estudio conjunto de dos variables. Gráficamente.Ceplulo 3 Análisis exploratorio de variables bidimensionales 55 Por tanto: 90 N 80 i =r = — . . si la relación fuese funcional. para todo i. o bien indicamos entre paréntesis el número n . Para indicar el número de coincidencias. Esto se ve gráficamente en el diagrama de dispersión. una de las dos variables en el eje X. tenemos las distribuciones condicionadas. se dice que hay dependencia estadística. la distribución condicionada de y para x = x.E Dependencia funcional d estadística. n n n. . veríamos que las observaciones del diagrama de dispersión trazan una recta. =— —.. lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas. Según la forma de esta figura podemos encontrar relaciones lineales positivas. . Independencia estadística Si ponemos una restricción o condición a una de las dos variables. como la distribución de la característica y para los elementos de la población que tienen como característica x el valor x. YIX. y la otra en el eje Y. o bien ponemos símbolos diferentes. indica que el valor de X viene condicionado por Y. es decir: n. negativas. por ejemplo. indica que el valor de Y viene condicionado por X.=n =n Diagrama de dispersión o nube de puntos 60 50 150 I 160 I 170 Precio I 180 1 190 Representamos las variables en ejes de coordenadas. En general se puede interpretar.1 muestra una relación lineal positiva entre las variables Valor y Precio. Couarianza u correlación El aspecto mas interesante de estudiar conjuntamente el comportamiento de un par de \ ariables de una población es el de captar las posibles relaciones que se pueden dar entre ambas. Se las suele representar como: X/Y . una curva o cualquier otra forma funcional de manera exacta. •• 32. Medidas de dependencia lineal: covarianaa u coeficiente de correlación Como ya hemos comentado. relaciones no lineales y ausencia de relación. j n n X e Y son independientes estadísticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los Si esto no se cumple para todos los valores. La dependencia estadística se contrapone a la funcional en tanto en cuanto no expone una relación matemática que se cumple con exactitud para todos los casos. A título ilustrativo la Figura 3. y se diferencia de la distribución marginal de y en que ésta última tiene en cuenta la distribución de y en todos los elementos con independencia del valor de x que tengan. o hacemos los puntos del tamaño de su frecuencia absoluta.

r „ > O y próximo a I.r. — Si hay relación lineal es negativa.. Gráficamente. Ello hace que no sea una medida acotada y que. y r = cy + d. y por tanto r „ _ O. siendo S. es decir. no podemos decir que son independientes. Es decir. las desviaciones típicas de x e r. CORRELACIÓN Y CAUSALIDAD Un coeficiente de correlación elevado entre dos variables indica que dichas variables toman valores relacionados entre sí en los elementos observados. como medida de asociación es su dependencia de las unidades. S. no hay relación lineal. — Si hay relación lineal es positiva. Sabemos que linealmente no tienen relación. no nos indique la fuerza de la correlación en caso de existir ésta. . a grandes valores de . Propiedades de la couariafZd I. cov arianza. Si S„ < O hay dependencia inversa o negativa. si se realizan transformaciones lineales de las variables de la forma z = ar + b. Si S „ = O las variables están incorrelacionadas. la covarianza indicaría que los datos se ajustan' a una recta con pendiente positiva si .. rt„ Si S „ > O hay dependencia directa y positiva. pero no describiría a la relación de forma exacta. k y a todos los valores de la variable y les sumamos una constante k'. — Si no hay relación lineal. pero no permite concluirla exis- ' Entendemos por ajustar que una recta describiría razonablemente bien la relación entre los datos. v nv n Será la que utilizaremos en XY la práctica al ser su cálculo más rápido. y con la covarianza S. pero podrían tener otro tipo de relación y no ser independientes. les sumamos una constante 2. Si dos variables tienen covarianza O.r. es decir.Y) lv. es decir. por tanto. r„ será próximo a O. 4..Só ^sh ca ap6cacr Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta retad n I. S„ = O. eso seria dependencia funcional. a grandes valores de x corresponden grandes valores de y. No podemos asegurar lo mismo en sentido contrario.S „ > O. la covarianza no varía. Si a todos los valores de la variable . habrá que definir una nueva medida que no esté afectada por los cambios en las unidades de medida.r corresponden grandes valores de y. ^ Nota Cuando las variables x e y son independientes. El inconveniente de la covarianza. Su expresión es: . Esta medida será el coefrcien o' de correlación lineal r con la siguiente expresión: r = S„ S. . Si a todos los valores de una variable x se les multiplica por una constante k y a todos los valores de la variable y por una constante k'. la nueva covarianza se relaciona con la anterior de la forma: S„ = acS„ Otra forma de calcular la covarianza seria: 3. o se ajustan a una recta con pendiente negativa si S„ < O. su covarianza queda multiplicada por el producto de las constantes. si dos variables son independientes su covarianza vale O y su diagrama de dispersión tendrá forma de circunferencia. Así pues. r„ < O y próximo a – I. Este coeficiente es adimensional y siempre estará entre – l y I. y S. A partir de las anteriores: si tenemos dos variables a.

De las dos variables a estudiar. La regresión lineal simple Como se ha dejado patente anteriormente.6 67.. Un ejemplo ilustrativo es el siguiente: supongamos que tenemos los datos de temperatura y el número de matrimonios. Por ejemplo.8282 que nos indica que las variables están relacionadas de forma positiva. Es es 'denle que las altas temperaturas no causan matrimonios y el elevado valor del coeficiente de correlación es muy probable que sea debido a que los matrimonios tienden a producirse en verano debido a la disponibilidad de tiempo libre. 8. exógena o explicativa. se puede suponer que la variable Precio influye sobre la variable Valor en el sentido de que precios elevados vienen explicados por valoraciones elevadas (en general).2139 = 67. vamos a calcular la covarianza y el coeficiente de correlación: Precio Valor 175 180 162 157 180 173 171 168 165 165 SO 82 57 63 78 65 66 67 62 58 Lo s cálculos que necesitamos son: x = 169. endógena o explicada..Capado 3 Análisis exploratorio de variables bidimensionales 57 tencia de ninguna relación de causalidad de una variable respecto a otra.3. El objetivo principal de la regresión es descubrir el modo en que se relacionan.1. se puede considerar que una de ellas influye sobre la otra de alguna manera.7567 — 0. A partir de los siguientes datos que hacen referencia al precio del billete de ida y s uel- ta y la valoración del vuelo que han realizado un conjunto de pasajeros que tomaron el vuelo Barcelona-Madrid un mismo día. .32 Ahora se puede calcular el coeficiente de correlación lineal r. Y. que vamos a denotar con X e Y.: 52. cuando se estudian dos características de una muestra simultáneamente.32 7. Este tipo de correlaciones se denominan espurias y su origen se tiene que buscaren otra variable (como por ejemplo las vacaciones de verano) que presenta una relación de dependencia con las variables observadas.2139 . la llamaremos variable dependiente.8 s = 8. l • • 3. Es muy probable que si calculamos el coeficiente de correlación entre estas dos variables obtengamos un valor muy elevado.4). y a la otra.7567 175• 80 +180 82± 16257+.8 = 52. Ejemplo 3. con los datos del ejemplo anterior (Tabla 3.. vamos a llamar a la X variable independiente. 10 169.6 s. = 7.

está claro que e »gasto en publicidad» explica la «demanda turística» y no al contrario. y una demanda alta nos indicará que tal vez la comunidad se ha gastado mucho Sin embargo. Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre variables no es exacta (basta con que un dato de X tenga dos datos distintos de Y asociados. y es difícil sabe qué variable influye sobre la otra. la recta de regresión de Y sobre X es aquella que minimiza un cierto error. un pequeño gasto en publicidad tenderá a obtener una deman da más baja. como en el ejemplo de los precios y valoraciones de la Tabla 3. en la ecuación de la recta. En este caso. de la tabla tenemos emparejado un dato de Y llamado y„ pero también tenemos el valor de sustituir la x. hacer un análisis de regresión lineal sólo estaría justificado en el ejemplo de la izquierda. Sea y = a + bx una recta arbitraria. para cada dato de X. es decir. En los diagramas de arriba se puede observar cómo en el de la izquierda. Por ejemplo. es decir: Y = a + bX Y • 0 o donde la relación anterior es la ecuación de una recta y donde a y b son números. mientras que en el otro.4. • • • 3. para cada x. En el ejemplo anterior.2). ya que existen infinidad de funciones de formas distintas.4 (donde al precio de 180 X E le correspondía una valoración de 82 y otra de 78).58 Estanca Wittlailixismo En la mayoría de los casos la relación entre las variables es mutua. Cálculo de coeficientes e interpretación Como se puede ver en ambos diagramas. El caso más sencillo de relación entre dos variables es la relación LINEAL. al que llamaremos y. Es decir se puede admitir que cada variable influye sobre la otra de forma natural y por igual. una línea recta inclinada puede aproximarse a casi todos los puntos.2.. Así pues. pues la comunida realiza primero un gasto en publicidad y luego obtiene una demanda turística que ya no deci de arbitrariamente. a la hora de determinar qué variable explica a la otra. De todas las rectas posibles. el gasto en publici dad que hace cada comunidad autónoma en promoción turística y la demanda turística qu finalmente tiene. . U ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde s: sabe cuál es la variable Causa y cuál la variable Efecto. Este es ^O O 00 O 0 el caso al que nos vamos a limitar. considerando a X como variable explicativa o independiente y a Y como la explicada o dependiente. Y • 0 0 0 0 0 0 O Recta de regresión O O O O O Un dibujo de la nube de puntos o diagrama de dispersión de la distribución nos puede indicar si es razonable pensar que puede haber una buena correlación lineal entre las dos variables (Figura 3. ninguna recta es capaz de pasar por todos los puntos y seguir siendo recta. Por tanto: X = Gasto en publicidad (variable explicativa o independiente) Y = Demanda turística (variable explicada o dependiente) El problema de encontrar una relación funcional entre dos variables es muy complejo. a un viaje poco valorado le supon dremos menor precio y a uno de mayor precio le supondremos un valor más bajo. Ftqlua 3. cualquier recta deja a muchos puntos alejados de ella.

= y. . — Esos errores pueden ser positivos o negativos. y vale: e. Cuando se toma el dato x. xl l y recolocando los términos se puede escribir de la forma: y—Y=—•(x— x) Si se hubiese tomado Y como variable independiente o explicativa. Se denota con e.. Usando técnicas de optimización se llega a que. Así pues. sustituyendo en y = a + bx. el signo de las pendientes será el mismo que el de la covarianza. s s= Dado que las varianzas son positivas por definición. y lo que se hace es escoger la recta que minimice la suma de los cuadrados de todos esos errores.y la de X sobre Yes —. del que se parte sea cual sea el valor de x. debido a la sencillez de su derivación. Existen otras metodologías de obtención de a y b que también evitan dicha problemática como estimación por mínimos errores absolutos. =y.. aquella que minimiza el error elegido al cuadrado es aquella que cumple: sn a=v—s. pero la presentada en este libro es la de mayor generalización. dependiendo de si la covarianza es positiva o negativa. Se llama recta de regresión de X sobre Y y se calcula fácilmente permutando los puestos de x e tt obteniéndose': x —s = —• (y —v) s. el error que vamos a considerar es el que se comete al elegir y. respectivamente (ver Apartado anterior).Capítulo 3 )nDIisis exploratorio de va ri ables bidlmensionales w x a+ bx. la recta de regresión que se necesita es la que minimiza errores de la X. y así las rectas serán ambas crecientes o decrecientes. s sn La pendiente de la recta de regresión de Y sobre X es . en lugar del verdadero v. de todas las rectas y = a + bx. y luego despejando la x. que es la misma que la que minimiza la varianza de los errores=. La recta de regresión de X sobre Y no se calcula a partir de la recta de regresión de Y sobre X. Se toman los errores al cuadrado para evitar obtener como óptimas rectas o estimaciones de a y b en donde la suma de los errores es O pero debido a las compensaciones de estos errores.• x b= s. sn Interpretación de los coeficientes La ordenada a se puede interpretar como un valor mínimo o inicial de la variable y. con a y b números arbitrarios. la ecuación de la recta de regresión de Y sobre X es: y = (v — 5. y X como dependiente o explicada.

de una parte. es decir: R' = sñ s. que resulta ser "s2 x 100. elevado al cuadrado y multiplicado por 100. pero sí por la de Y. La varianza de Y está generada. lo ajustada que está la nube de puntos a la recta de regresión). por . Propiedades de la regresión A) b X b' = rt: es decir. El coeficiente de determinación va a ser el % de varianza de Y que se puede explicar por X. la variable explicativa no explica (valga la redundancia) al 100% los resultados que se observan en la variable explicada. b.5.77. cada valor de X nos da el valor exacto de Y. Es fácil notar que este coeficiente está acotado entre O y I. _ }' + e. por su varianza). El único caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una recta. •s2 x 100 Por ejemplo. Por ello.. se puede interpretar como el aumento o disminución. Otro ejemplo. . es decir. Normalmente. r = —0. Medidas de calidad del ajuste Una nube de puntos que se agrupa en tomo a una recta imaginaria justifica el estudio de la' regresión lineal entre las variables. ya sabemos que la recta de regresión es decreciente (por el signo negativo de r). si conocemos el coeficiente de correlación lineal. y se le suele llamar bondad del ajuste.a.60 Estalfislica aplicada al turismo En cambio. al estar influenciada por la otra variable. podemos decir que la calidad del ajuste es bastante alta. el producto de las pendientes de las rectas de regresión de Y sobre X y X sobre Y es igual al coeficiente de correlación al cuadrado. que sufrirá la variable y al aumentar la variable x en una unidad. segó el signo. Pero ese no es el caso general y estaríamos hablando de dependencia funcional y no estadística. r. 100 = 59. BI La recta de regresión siempre pasa por el punto (y • • 3. En ese caso.ar y por tanto. y calculando R 2 = r 22. No nos vamos a interesar por la varianza de X (independiente). la pendiente. desarrollando la expresión de la varianza de Y se puede concluir que: s?= 2 + s . pero tampoco se puede calificar de buena). aunque no sabemos si la recta de regresión es creciente o decreciente. porque valora lo cerca que está la nube de puntos de la recta de regresión (o dicho de otro modo.29% tenemos una calidad de ajuste media (no es muy pobre. al coeficiente de determinación se le llama 12 2 . entre dos variables X e Y. Como v. Los datos de ambas variables tienen una varianza. el coeficiente de correlación lineal. y de otra parte por causas desconocidas. el % de varianza de Y explicada por X es: s-' — X 100 s. si R 2 = 86% para unas variables X e Y. definido en el s 2• capítulo anterior. Vamos a cuantificar la calidad de la explicación de Y por X mediante el coeficiente de determinación o bondad del ajuste. por los datos de X (es decir.

se va a aprovechar el modelo de regresión para introducir el contraste de hipótesis como una breve aproximación a la inferencia estadística.= Donde: a) b) SCE: suma de cuadrados explicada.Capitulo 3. un modelo perfecto es un modelo sin errores (e = O). . o próximo a 100`I. Es la parte de la variación de y que podemos explicar con x • SCE = SCT: suma de cuadrados total. la fiabilidad de una predicción obtenida mediante la recta de regresión se puede medir con el coeficiente de determinación R1. SCT = SCNE. De cara ala interpretación. En el momento de hacer predicciones hay que tener ciertas precauciones. ésta se puede usar para obtener valores de la variable explicada. para predecir..2109. Introducción a la inferencia estadística e. ción de y que no podemos explicar con x._am. Se puede concluir. Un ejemplo podría se • obtener una demanda de servicios turísticos negativa (imposible en este ejemplo). El coeficiente de correlación (o el de determinación) lineal es el dato que. si se comprueba una buena correlación lineal entre las variables X = Gasto en publicidad e Y = Demanda turística.c_ +t:4e.qué demanda puede obtener (según los datos) una comunidad autónoma que se gasta 10 millones de € en publicidad? La respuesta es tan sencilla como calcular y. por tanto. Esta es la suma de errores al cuadrado. con lo que el coeficiente de determinación sería igual a la unidad. si es grande (próximo al o-1 si es la r.9+ SCE – I SCNE SCT SCT e) SCNE: suma de cuadrados no explicada o suma residual.6. o sea.r se puede plantear la siguiente pregunta: ¡ . con una recta de regresión (de Y sobre X) igual a: v=0. Así pues. . )' _ ^e=. Aunque ya ha quedado delimitado el objeto de nuestro libro hacia la Estadística descriptiva. Por ejemplo. lo cual es lógico pues R' indicaba la calidad del ajuste de la nube de puntos a la recta. Una vez se constata. pues es posible que se obtengan resultados absurdos.. La limitación de la predicción estriba en que sólo se puede realizar para valores de X que estén situados entre los valores de X de la tabla de datos inicial.9. Es toda la variación de y • SCT = 7(5' – i). que hay una relación lineal entre dos variables y se calcula la recta de regresión apropiada. es decir. Análisis exploratorio de variables hidimeosiaoales 61 Análogamente. sustituyendo en la ecuación de la recta x = 10.édiFFEM. El primer objetivo de la regresión era poner de manifiesto una relación existente entre dos variables estadísticas. • 3. a partir de valores de la variable explicativa. Es la parte de la varia- 0. En este modelo la variable explicativa no tiene ningún poder explicativo sobre la explicada.6. que las predicciones serán mejores cuanto mayor sea el coeficiente de determinación y el número de datos del cual se dispone.si es R'). nos indica que la predicción obtenida es fiable. SCNE = ( y – i. se puede definir el coeficiente de determinación de la siguiente forma: R. y la recta de regresión tenderá a ser horizontal. con nuestra recta. y un modelo desastroso sería uno donde los errores lo explican todo. por ejemplo. resultando y = 6.

que h m (I:' Empecemos por la primera hipótesis. de acuerdo con lo comentado para el estadístico t. es decir. tal y como lo hemos presentado. Hipótesis del modelo lineal. obviamente.96'. • • 3. la varianza del estimador. Consecuencias c. El objetivo es conocer si b es estadísticamente igual a I. que aunque el estimador calculado y promediado para muchas muestras concretas acierte. . Pongamos que con una muestra de datos obtenemos una estimación de h con valor 1. Observe igualmente la similitud del cociente inherente al contraste con la expresión mostrada en el Apartado 2. La hipótesis a comprobar hipótesis nula) será que h es igual a un determinado valor h . su varianza y. A modo de convención. para conocerlo utilizamos el siguiente contraste y estadístico que no demostraremos.05. A la luz de lo visto en los apartados anteriores. es decir.rt1■111 El modelo de regresión lineal. ¿Hasta qué punto podemos concluir que nuestra hipótesis era falsa? ¿Podemos afirmar. como mínimo.1 está muy cerca o muy lejos. . uno de los objetivos del modelo de regresión es la predicción. Evidentemente. En nomenclatura: H:h=h Se trata de ver si la diferencia entre la estimación de h (h) y el valor de nuestra hipótesis h. Su interpretación. En general. se supone que ese cociente es suficientemente grande cuando excede 1. por tanto. en caso contrario se acepta`.: ^e= Ss = ( donde n la varianza residual s' •X' ) n- 2 La interpretación de la desviación estándar del estimador es sencilla. debidamente relativizado por la desviación estándar del estimador.. a título ilustrativo. b).96 se rechaza H„ . y también aumentaría en una unidad.7 del capítulo anterior que hacía referencia a la tipificación de una variable. x e V. en una muestra individual puede alejarse de su verdadero valor: el de la relación entre xev. En ocasiones se presenta en las salidas de los programas informáticos de estadística como el SPSS junto ala columna del estadístico t otra columna que se suele denominar p-value o prob. Cuanto mayores son los errores mayor es su dispersión. que h = I. recoge la probabilidad de aceptación de la hipótesis nula (normalmente la hipótesis es que dicho coeficiente estimado es igual a 0). La base de esa relación estadística es la presencia tan- Esta convención es lo que el lector que conoce Estadística inferencia) entiende como para un nivel de significación del 959. Imaginemos ahora que teníamos una idea previa de la influencia de la variable x en y. con uno del estadístico t superior a 1. que creíamos que al aumentar en una unidad x. nos queda conocer cómo calcular s1. Así: Ib sh bI Si t > 1. es suficientemente )estadísticamente) grande como para rechazar dicha hipótesis.7. Dicha columna. Este valor se corresponderá. dicha predicción se basa en las estimaciones de a y h lá. Evidentemente.11.96. es que únicamente se rechazará la hipótesis nula si dicho estadístico es inferior a 0. Pongamos. que x influye en y. Si el coeficiente estimado hubiera sido 1. no hubiera habido duda. Ahora se trata de saber si 1. esto no es casual.62 Estadistica aplicada al turismo Como se ha comentado con anterioridad. Una varianza del estimador elevada implica una reducida eficiencia del estimador.1 (h = 1. se sustenta en una relación estadística entre dos variables. pero que mostraremos su intuición. es decir.

los supuestos sobre el término de perturbación poblacional son los mismos y el método de obtención de las estimaciones también es el de minimizar el cuadrado de los errores. responde a: b= (x' x)-'•x' v donde (x' x)-' es la inversa del producto de la matriz n ' k correspondiente a las k variables explicativas y las n observaciones. Variables que aunque conocemos son difíciles de cuantificar: los gustos individuales. correspondiente a las observaciones de la variable a explicar..8. — La correlación entre los errores de dos observaciones distintas es nula. sino de dos o más variables. Es decir. Es decir. La regresión múltiple se fundamenta sobre la misma base que la regresión simple. En general. • 3. que aunque en términos muestrales hemos llamado e pero. Ese error. Estos son: — La media de estos errores es igual a O.CapBWo 3 Bnálisis exploralorio de Variables bidimensionales 63 to de una parte sistemática. — La varianza de estos errores es constante. . podemos decir que no se puede prever Y con exactitud porque para cada valor de X hay una distribución de Y. se hayan tenido que establecer algunos supuestos implícitos sobre este término de error poblacional. procede de diversas fuentes: a) b) c) d) e) f) Variables que desconocemos e influencian también a y. Errores de medida. volviendo al ejemplo. A título ilustrativo. Introducción d id 1egresión lineal múltiple Cuando una variable estadística debe ser explicada por la acción simultánea no de una. como de una parte no sistemática que hemos llamado error. poblacionalmente llamaremos u. se trata de que los errores que cometamos no sean mayores para las comunidades autónomas que más gastos realicen en publicidad. Ello hace que para que podamos estimar el modelo y presentarlo tal y como hemos hecho. En términos del ejemplo intuitivo de los gastos en publicidad y la demanda de servicios turísticos en las comunidades autónomas que hemos ido citando a lo largo del capítulo. y que es la causante de que la relación no sea funcional. A este supuesto se le conoce como homocedasticidad. y no se compensan entre ellos. el hecho de que en Cataluña se corneta un error positivo no implica que este error ten g a que ser igualmente positivo para las islas Baleares (este supuesto sería de difícil cumplimiento en datos temporales). transpuesta por ella misma sin transponer y . donde x' y corresponde al producto de la matriz n • k correspondiente a las k variables explicativas y las n observaciones. la estimación de b para cuyo cálculo es preciso un pequeño repaso al álgebra matricial. porque ello indicaría que hay algún aspecto importante que no estamos teniendo en cuenta. nos encontramos ante un problema de regresión múltiple. Es decir. El modelo carecería de lógica si conociéramos que existen errores en nuestras estimaciones y que éstos van sistemáticamente en una dirección. la dispersión de estos errores que cometemos no depende de la variable x. A este supuesto se le conoce como no autocorrelación. transpuesta por el vector n • I. Comportamientos personales imprevisibles. Especificaciones incorrectas: la relación entre x e y no tiene por qué ser lineal. Variables esporádicas: guerras..

La estadística de dos atributos es el resultado de observar conjuntamente dos caracteres cualitativos. VE- N El análisis pormenorizado de la regresión múltiple excede los objetivos del libro. de nieve o de factores culturales como si ese año han declarado a una ciudad de esa CCAA capital cultural europea. La frecuencia relativa se simboliza como!. El número de veces que se repite el valor de un atributo se denomina frecuencia Independencia o asociación Cuando estudiamos dos caracteres cualitativos.. hay diversas propiedades del modelo de regresión simple que no se cumplen en el modelo de regresión múltiple. en la que se pueden establecer las frecuencias marginales. como es lógico pensar. tal y como se verá más adelante. n irn:. se debe emplearla siguiente expresión: ^=1 (VE—VO)' VE donde VO son las frecuencias observadas o empíricas y VE los valores esperados o frecuencias teóricas para cada celda. puesto que los atributos no admiten ordenación cuantitativa. sobre todo. pero se ha creído conveniente su análisis intuitivo y. Seguramente estos factores también influencian la demanda de servicios turísticos y no sólo resulta interesante conocer cuál es su influencia sobre ésta. etc. si se va a realizar un fórum importante o una exposición. al igual que ocurría con las variables cuantitativas como la presentada en el Apartado 3. nos encontramos con la posibilidad de que exista una «asociación„ entre estos atributos o una «independencia» entre los mismos. En ella cada b. Independencia q asociación Antes de acabar el capítulo merece la pena detenerse en aquellos caracteres cualitativos o no susceptibles de medida de una población. Evidentemente. una vez descontado el efecto de las otras variables explicativas'. su cálculo sencillo a través del programa SPSS. Por último. aunque la base teórica es muy similar. no tiene sentido hablar de frecuencias acumuladas. La suma total de frecuencias absolutas será el número total de elementos que componen la muestra. suponga mos.n. Estadística de atributos.1. Los datos se vuelven a disponer en una tabla de doble entrada. Sirva a título ilustrativo la siguiente: en el modelo de regresión múltiple el coeficiente de determinación no se corresponde con el coeficiente de correlación al cuadrado. Esto es lo que 3. se obtienen multiplicando las frecuencias marginales absolutas y dividiendo entre el total de observaciones: n. Recordemos que estos caracteres son deno- minados atributos o variables cualitativas y se representan con las primeras letras del abeabsoluta y se simboliza mediante n .aivo que nos acompaña durante el capítulo. sino también de otras variables como la renta per capita de sus habitantes. la situación económica del país o zona que atrae al turista y otros factores como el clima para las CCAA basadas en turismo de sol y playa. sino también la influencia obtenemos con la regresión múltiple. cedario. . Para conocer la posible relación entre dos atributos.9. que la demanda de servicios turísticos que obtiene un CCA no sólo depende del gasto publicitario que hace. .64 Estadishca aplicada al tulismo ^iguiend m el ejempli. se interpreta como el aumento en la variable a explicar al subir en una unidad la variable explicativa. de los gastos publicitarios una vez descontado el efecto de estos factores.

al ^ ^ ^ 1 61 6 =0. Al ser el valor del estadístico mayor que el valor en tablas se acepta la hipótesis de asociación. Por último. correspondientes a julio de 2003.07.y 2 no está acotado y es directamente proporcional al número de casos. 13 16 116 íst i c. en caso contrario no se podrá rechazar dicha hipótesis y se supondrá independencia. En tablas. La interpretación de sus valores es idéntica al caso anterior. a menos que se indique lo contrario. tomando el valor 0 cuando no existe relación y I cuando se establece entre las variables una relación perfecta.a.Caplolo 3 Análisis exploratorio de variables bidimensianales 65 Una vez realizada esta operación.37 Al no tratarse de una tabla 2 X 2 Ia l no es directamente interpretable y sólo nos sirve para calcular la V de Cramer. Se rechazará la hipótesis de independencia si el valor del estadístico supera al valor de tablas. ^ = Los grados de libertad: (6 — I I • (2 — I) = 5.7 V =^ O . Su expresión: C yl X + N Su valor mínimo es O mientras que el máximo depende del tamaño de la tabla (por ejemplo. es necesario comparar su resultado con el valor de la distribución x de Pearson en tablas. Sin comparar con el valor en tablas. a pesar de que aceptamos la presencia de una cierta asociación entre el sexo y la marca de coche escogida para alquiler. Una empresa de coches de alquiler de La Coruña pretende estudiarla asociación entre el sexo y la marca de coches que se alquilan con los datos de la Tabla 3. l . por el número de columnas menos uno. para una tabla 2 X 2 su valor máximo es de 0. N ^ El coeficiente do está acotado entre 0 y I. Como conclusión. siempre que tengan la misma dimensión (número de filas = número de columnas) se puede utilizar el coeficiente de contingencia C.5. al 5% de significación el valor es de 11. El nivel de significación suele ser del 5%.I4 = 0. Para tablas más extensas. Los grados de libertadad vienen dados por el producto del número de filas menos uno. también para tablas extensas y teniendo en cuenta el número de filas (r) y de columnas (e) es la V de Cramer. mín { (r — 1). el estadístico .707).:. Ejemplo 32. dicha asociación no parece ser muy elevada. Un estadístico acotado adecuado para tablas 2 x 2 es el coeficiente d. 20 10 3 4 61 Total Re-¡+. que es la medida adecuada para la tabla de que disponemos. (e — 1 ) } La V de Cramer vuelve a estar acotada entre O y 1 con la interpretación usual. Estadístico x2 : Hombre Fiat Total Peugeot Ford Mercedes BMW Volvo 9 6 Is 26 18 li I.

2139 s.10.2139 .59%..8 s = 7. se dice que la predicción tiene una fiabilidad del 68. y no está claramente definido cuál de ellas influye sobre la otra. en virtud de la recta de regresión. 150 160 170 180 190 Pasamos al cálculo de los estadísticos necesarios: Precio Tabla 3. decidimos estudiar cómo el precio del viaje de los individuos influye sobre la valoración del mismo.3. 90 Comenzamos con la nube de puntos. 80 Se observa que los puntos siguen una tendencia.32 Ahora se puede calcular el coeficiente de correlación lineal r y el de determinación lineal R2: r = 52. el (157.177. calculado con anterioridad.1 Vamos a realizar un estudio completo del ejemplo que se describe al comienzo del capítulo a partir de la Tabla 3.7567 y R2 = (0. 52. s = 169.59 que nos indica que la variable independiente Precio explica el 68. aunque uno de ellos. 66 Estadíshca aplicada al turismo 3.005x Así. ¿qué valoración le debería corresponder a un viaje de precio 178 €? La respuesta viene de la recta de regresión de Valor sobre Precio.8 = 52. El coeficiente de determinación.04 . Es decir. 175 = 17 80 + 180 • 82 + 162 57 + . una valoración y = 76. Este mismo coeficiente de determinación se toma como índice de fiabilidad ala hora de hacer predicciones de la variable Valor a partir de datos de la variable Precio. En mues70 tras numerosas un dato atípico no afecta demasiado al resultado. 80 82 57 63 78 65 66 67 62 58 Valor Aunque en este caso tenemos dos variables muy relacionadas. Así pues. que reproducimos a con175 180 162 157 180 173 171 168 165 165 Precio tinuación.59% de la varianza de las valoraciones. Ejemplos de estudio Ejemplo de estudio 3.6 67.8282) 2 • 100 = 68.32 (x — 169. Entonces tomamos X = Precio como variable explicativa e Y = Valor como variable explicada. para que nos informe si vale la pena iniciar el estudio de la regresión lineal o no hay motivos para ello (Figura 3. = 8.8 = quedando: y = —102. un viaje de 178 € (correspondiente a x = 178) tiene. A este dato se le llama dato atípico.. el 60 dibujo revela cierta tendencia de los puntos a agruparse en torno a una recta imaginaria. que es el índice numérico que evalua50 rá esa tendencia.8282 7. según la tabla de datos. aunque no lo haremos en este caso. que se obtiene sustituyendo el valor de x. La calculamos con los datos que ya tenemos: y — 67.6.63) se aleja de dicha tendencia.3).10. Se toma como fiabilidad de la predicción el índice R'-.7567 Fgura 3. e incluso en ocasiones se elimina de la tabla. Por ejemplo.32 — 0. 0 169.8.6 = 67.6) 52. nos constatará que hay una buena relación lineal.71 + 1.6.

S6 = +0.95 puntos. . Valor 86 90 91 93 94 95 Se pide: a) Los estadísticos individuales necesarios. contraste que b = 0.37 e.383 • 36 = 85.+ 60-) -6. ti pre cio ces notes es muy expucauvo ae w punwacsuu. = 0.22 e6 = 0.74..383.. e) La varianza residual. = 86 — 85.5= -51): v=71.95+ 0.48 e.73 = 0.27 e2 donde ^^ ^ = 71.1506 f 0.1506 0204 0.89 _ 0. s.5)2 + . b) La covarianza y el coeficiente de correlación. —99 0...33 e. d ) e.. Es decir.512 — SCT= (86-91.. = 2.+(90-91. = 0.5) 2 = 52.5 ts ue csr. c) La recta de regresión de y sobre s.95 + 0.07 ) 5 = (0. a mayor precio. mayor es la consideración del hotel..99 53.5. I v -91. = 91. = 7.2 Supongamos que tenemos la Tabla 3. g) El coeficiente de determinación.74232. parece redundar en un aumento en la puntuación que éste recibe de 0. Capiulo I dn)lisis exploratorio de variables bidimensionales 67 EJEMPLOS bE ES11010 • EJEMPLOS 1E ES11110 EJEMPLOS 0E ES11010 • Ejemplo de estudio 3.5 = 23 r. f) La desviación estándar del estimador.7 que reproduce el precio por noche de una habitación individual y la puntuación recibida por seis hoteles de Granada durante la celePrecio 36 48 51 54 57 60 bración de un congreso en 2003..383X 60 Es decir.5)2=53. b ) S = 36 86 60 • 95 51 ^ 91.14.73 = —0. = —0.5)2+. on lo que e mación del precio del hotel podemos ajustar de forma muy precisa el valor de la puntuación del mismo.072)= 0. Solución 1 -t = 51. = 7.272+.93 — 91. h) La predicción de la puntuación para un hotel cuyo precio de una habitación individual por noche es de 42 €. d) Los errores cometidos con cada observación. s. (3 62 +. cada € adicional en el precio por noche de una abituación individual del hotel.5 SCE = (85. es ajust e pare ce ser muy oue no. partiendo de un mínimo de puntuación en tomo a 71.. i) Contraste la hipótesis de que el precio por noche no influencia a la puntuación que recibe el hotel.98 +fi .89 R2 = 52. O sea. + (94.98 De lo que podemos concluir la existencia de un elevada correlación positiva..73 — 91.

1.00 . iUJ 3.383 • 42 = O sea. r EtaSstxos desgarros Tablee mundanas Camparen pedas taodeto traed general Modelos martes Correlaciones Redes& tootied Il¡al Frecuentas Erpbn.03 900 2 00 3 00 5.00 40 001 5 00 3 00 4 00 15 00 1300 8 03 00 1 00 1 00 .00 00 5.1 azor. el submenú «Estadísticos descriptivos» y la opción «Tablas de contingencia» (Figura 3.00 00 00 .75 9 80 580 695 213 6 00 3. r Descreemos •=3:1=1. De cara a realizarla tabla de contingencia de las variables Sexo y Nivel educativo. Ejemplo de resolución a partir de SPSS Ejemplo SPSS 3. ya que parece que el precio de la habitación redunda en la puntuación que recibe el hotel. Realice la tabla de contingencia de las variables Sexo con y Nivel educativo.0204 18..00 2100 53 03 5100 213 . Reducoon Escales Pruebes no permetncas seres temporales 5upereirenoe Pe-norestes 28W mentes datos r 56UU Antros de valores perddos.00 700 00 5..20 5 'fi d 15 16 7 18 19 5.03 • EJEMPLOS OE ES11111 • EJEMPLOS IE E511111 hl 5‘. el análisis de correlaciones y la regresión lineal entre las variables Salario por hora y Años de experiencia.00 ..95 + 0.03. 00 3.77 Evidentemente se rechaza dicha hipótesis.00 27.00 3. un hotel con precio por noche de 42 € recibiría una puntuación de 88. Resolució n : 1. Comente los resultados. 2.4)..00 5.00 7.11. entramos en el mentí «Analizara.03 38.00 I r de aastea. los resultados. A partir de la base de datos Salarios.00 44. „-. Realice el gráfico de dispersión.00 62. ar tar tar tar tar 2 3 4 5 6 7 e 9 10 2 3 5 90 8 93 445 5 30 580 325 655 4 30 5 10 7.383-0 = i) 0. Comente.03 6.xls: I.00 20.00 5. J 3.11.00 2 00 3.68 Estadística aplicada al turismo EJEMPLOS lE 1511011 88.71. asimismo. —0.

7).aficcs ^ J vo I I aedales secta. Clicamos en ambas opciones (Figura 3. en este momento.5). 8 9 10 11 'oai 25 410% 1000% 36 590% 1000% Fi ora 3.7% 111% 8 571% 222% 3 5 6 7 6 429% 167% 2 400% 56% 4 80. únicamente.2% 5 1000% 82% 3 100 0% 49% 2 100 0% 33% 1 1000% 16% 3 100 0% 4 9% 61 1000% 1000% 2 4 66. seleccionamos el tipo de frecuencias. aceptamos nuestras selecciones en los cuadros de diálogo «Tablas de contingencia: mostrar en las casillas y en Tablas de contingencia>. nos confirma que no se ha perdido ningún caso fruto de alguna ausencia de información en cualquiera de las dos variables (Figura 3. i.0N %deSEXO Recuento % de EDUCACIÓN %de SEXO Recomo %de EDUCACIÓN %deSEXO 2 __2% 80% 3 600% 83% 5 100. Fomuto-_ Residual ñ Fla r No tyñcados t7 1 19 r Caserna Toar r Toreados r Tprcadscmagdos 580® --- 5100 Tapa oe mnngerUa EDUCACIoN' SEXO SEXO Trd . y obtenemos la salida de resultados (Figura 3. ____A-ON 0 Rearmo % de EDl1CACOn %de SEXO Recuerdo %Oe EDUCACIÓN %de SEXO Recuerdo % de EDUCACION %de SEXO Recuento %de EDUCACION - %da SEXO Recuento % de EDX)CACION %de SEXO Recuento %de EDUCACIÓN %deSEXO Recuento % de EDUCACIÓN %de SEXO %ase no % de EDl1CAC10N %de SEXO Recuento % 08 EDUCACIÓN %de SExO Recuerdo % de EDUCACIOI %de5E80 Remeto %de EDUCAC.0% 56% 1 100. La salida también nos ofrece el siguiente cuadro que.) sabe meren edad I = eeac Calmas 5 6 7 sem A Frecuencsas --Cagare Cartre Ayuda a Cepel del 10 11 12 r F Observadas Esperadas 13 1 15 r r -Paced*: Mosby la gokos de breas agolpadas Sopare tablas Exactas Estadisecos Cascas. mIEI tI®1 var - Tablas de rente-venda 2 3 4 s.0% 82% 1 1 100 0% 40% 2 33 3% 80% 6 429% 240% 2 100 0% 80% B 57 1% 320% 3 600% 120% 1 200% 40% 1 100.0% 16% 6 100 0% 98% 14 1000% 230% 2 100 0% 33% 14 100 0% 230% 5 100.Cabildo 3 Ooálisis explorelono de variables bidimensiooales 69 EJEMPLO IE IEStIICIÍI I 111T11 IT SPSS • E]EMfLI IE IESILILIÍI I 111T11 IE S1SS _ .1% 3 100 0% 83% 2 100. las frecuencias observadas y las frecuencias relativas marginales cuyo cálculo nos ofrece SPSS bajo el nombre de porcentajes fila y porcentajes columna.6). • e .1 .0% 11. En ella.0% 28% 3 100 0% 83% Una vez aquí seleccionamos las variables correspondientes ■ entramos en la opción «Casillas». Una vez aquí. A nosotros nos interesa.0% 8. En la tabla podemos contemplar el número de casos para cada par posible de la combinación entre la variable Sexo y Nivel educativo.3os 'rawer .

tgte Ee ^r ^ J4zpra Pega IJ ÍD • a 2.12). el Dispersion 30 ^^ Eei Establece ne•cc v Eeparar Reaeekce r ^v I ^..80 3.. Teases pesonahedss coopera made: Modelo kd general Modelos monos pepeetln toyed Gestas Renacido de daos Escales aneases no pa•nensas saes temporales 1.. athoo Edmn ve Dias Trasformar ala e J p edac salarlo 1 JJJJ^ edut eso frM0os uidede5 Vetan 1 Dtomes Eoaeovos desapwos • • U'. Correlaciones. ^ ICJ Planas . Con respecto al cálculo del coeficiente de correlación entre ambas variables. seleccionamos la variable Salario por hora para el eje de ordenadas y la variable Experiencia para el eje de abcisas (Figura 3..8).&-v Votan 2 3 5 6 7 8 9 10 11 12 13 14 15 16 7.00 espe renca 21 flglli 3. aunque de carácter débil (Figura 3.00 670 : Di.9).m a-rapessin s.. 70 EJEMILI IE IESILILIÍI -.10). (Figura 3.75 980 580 695 965 mítpes :+ralas de valores pedalos. Bivariadas» (Figura 3. Para obtener el gráfico de dispersión entre las variables Salario por hora y Nivel educativo. El resultado parece mostramos una relación positiva entre ambas variables.orama de edicaceo > tam •. .00 13. (Figura 3. edad 2. S 51 1 73 5 5_ 6 70 500 900 715 7. m UJ 1W 5t1 LeJ 10 `ris 3100 4000 500 3. Por último. SPSS nos lo ofrece en el menú «Analizar.usa les nceeneamns gar de toe cams reó•te.. acudimos la menú «Graficos>. seleccionamos las variables para las que queremos el coeficiente de correlación y le pedi mos que nos calcule el coeficiente de correlación de Pe arson.00 3800 23 00 5300 5100 28 00 33 W figaa S ll .11). Posteriormente. En el cuadro de diálogo resultante.00 00 1 00 119 44 00 62 00 2700 o á -^o o 10 20 30 a0 50 400 1500 1300 8.^ Sal tibio . r3Ge ^JJ^ =^ Pe^^= ^ 0k9. submenú «Dispersión. aceptamos la opción «Simple. Telta.ttrneme = repuestas vat 590 2 salarios experiencia 3 890 4 45 MEREN • • • • • 20 4 5 6 7 8 9 10 11 12 13 14 15 16 7 18 19 533 5 80 33 6g 4.11..._ 041dtrea. 00 00 00 00 00 1 .Editor de datos 91•5S Mdsvc Edam va Datos T•arctoma Miza 1 Es lalfishca aplica da al luns mo 111i11 IE SISS • EJEMILI IE IESILILIÍI 1 t11 1 11 l E SISSI vacos 1.

Residen Erxedas de caso r r DuenWasm Dxporacos pa caso Greecor Guarda. Loteara mimad... que muestra una relación positiva.16).. Bnálisis eJploralorio de variables bidimensiooales 71 EJEMPLO lE IESILI[111 O PIITII OE SPSS • EJEMPLO IE IES1L1[111 I Pililo SE SPSS _ oto I salario I educ exoerien I sexo I edad I ear xj j_ — SALARIOS Correlaciones .. ya que lo razonable es explicar el salario que cobra una persona a partir del número de años de experiencia que posee la misma.. Root.01 (bilateral 390*" 002 61 1 51 -c<behvyirs= " Bialea arca r r Sean. re paranetrxas Sanes temporales 5sperabrenoa = •c. se nos pide el análisis de regresión lineal para t • ear J Traldormer Arxiza Grecos Utidatles Ventana =1 ^ Informes Estadmcosdesaptr. seleccionamos el método de pasos sucesivos y dentro del submenú «Regresión lineal: estadísticos» le pedimos las estimaciones y el coeficiente de bondad de ajuste del modelo o coeficiente de determinación (Figura 3.15).Caplulo 3. • t LogistMa Marx. c 44 CO Escalamient . Regresión.Coehcwes rx de rolecrsrs F de repetrmde mfi. adecuado siempre que hay al menos una variable cuantitatisa (Figura 3.• s de vaarssp>ádos. seleccionamos la variable Salario por hora como variable dependiente.Figura JN. Me Meet.. La variable Experiencia es. edad I • U 0 Acepa Pega Aeesra i _ ee I SALARIOS Correlación Experiencia AWa Coefiurxes de cmdeoón Pearson Taub de Kendal J Expenencia de Pearson Sig (b il atera l) N Correlación de Pearson Sig (bilateral) N 1 61 ...iejJ n -_ +ratter Getm tx•de d es J Dederdeeie • Acepa Pega R^^edardec__e I of sabe Blope 1 del Sip ssae IndepmámleL ^♦arpeass J Hieda el A da I _LI .. *eras las variables Salario por hora y Nivel educativo..m las combase. adrados en dos rata.os _ Tabas persmaizadas exp Compasar ar medras Modelo Mear genera Modelos romos Conelaocces Loglleal Ciasta Redoren de datos Escalas Pruebas EZTI • Estrenen cdrvrnea. Además. por tanto. Por último..aaa r I- EsMnacves lleves Mao¢ de covarxrue r Corto r r tl r APme dar modelo m R atadedo < Cm e eua I Descipevx Cpn eaones parad ^ y semparad Aseda I Diepisa pm de wMeadad u MCP» Estadísticos . La correlación es significativa al nivel r uriaaa egrik ee.39. • • a arana. La salida de SPSS es la de la Figura 3.. Para ello.14. Eslxeeden po dereda.. Lineal» (Figura 3. Vanehbp .muae nieves .. la variable independiente. Opciones r ..13). Donde se observa un coeficiente de correlación de 0..390^ 002 61 0. entramos en el menú «Analizar. ese a se.. Dentro del menú. aunque no muy fuerte.

un año más de experiencia hace aumentar el salario por hora de un individuo en 0. se rechazan claramente ambas hipótesis nulas. Cree siete variables binarias (1.entes evamaraa. Se observa que dichas probabilidades son claramente inferiores a 0. Ejemplo SPSS 3. Así. Ello se puede apreciar en la cuarta y quinta columna. son nulas. en la primera columna tenemos las sumas de cuadrados.wr Rela 390 CoeM1oentes no arN^ A 6188 181 FI[ fin 933 056 1 6631 3253 So 00G 002 a varare aeOenaente SAURIOS Flura 317.0) tal y como hicimos en el capítulo anterior. Este mismo hecho se puede comprobar con la última columna que nos indica la probabilidad de aceptación de las hipótesis nulas.188 E.72 EJEMPLO OE RESOLUCIÓN R PIR11R 1E SPSS • EJEMPLO II IESOLUCIÓN R Esladishca dpl¢ddd dl lunsm0 PRRIIR 1E SPIS La salida de SPSS nos muestra los cuadros de la Figura 3. ¿Qué ocurre con el coeficiente de bondad de ajuste a medida que añadimos variables? Pista: para responder a esta pregunta vaya añadiendo las variables una a una comenzando por una regresión simple. Evaluación y Organizado como variables independientes. incorporará seis variables que hacen referencia al destino.emanada. Recordemos que en un modelo de regresión simple el coeficiente de determinación o bondad de ajuste del modelo coincide con el cuadrado del coeficiente de correlación.I Re9re. El programa realiza esta función de forma automática si utiliza el método •pasos sucesivos» dentro del submenú •Regresión lineaba.17.dn Residual iota! Modelo feonan Vendares mtroduc. El último de los cuadros nos ofrece información acerca de los coeficientes estimados.15). las estimaciones de la constante y la Modero t (Constarle) ee8e0e602 MMr. solatadas MroducAas p Vanade 0eperdiente SAURIOS Resumen del modelo R wa0. MMMn Introducir a Todas las variare.sav se pide estimar una regresión lineal múltiple que tiene el Precio por noche como variable dependiente y las variables Temporada. Así. Ambos estadísticos t resultan muy superiores a 1.96 y. Destino. eepenenoa ANOVA° Sumaae r m AnIns 214 656 1196 560 1411218 Seda rr .181€. Los primeros dos cuadros nos confirman las variables introducidas en el modelo (salario por hora y experiencia) y nos ofrece un resumen del ajuste del mismo. Se puede comprobar fácilmente cómo el coeficiente de determinación es igual ala suma de cuadrados explicada dividida entre la suma de cuadrados total. ^ . Se pide: a) b) c) Realice un análisis de independencia de atributos para el caso de la pensión y la temporada. Ahora el coeficiente de las nuevas variables Destino se interpreta en relación a la categoría omitida. Pensión. partiendo de un nivel salarial de 6. dejando siempre una por incorporar de cada una de ellas. Recordemos que la aceptación de la hipótesis nula de que la pendiente sea O nos conduciría a determinar que no hay ningún tipo de relación entre el salario por hora y la experiencia del individuo. O sea. d) Se trata de un ejercicio de ampliación. por tanto. en la segunda fila la suma de cuadrados residual y en la tercera la suma de cuadrados total.anraan 152 a dar ardes pedict0rás Ieomtarlel . eepenencn b varetee aepenaletne SALARIOS ccetiaentes• Coesc.0) para la variable Destino que tomen el valor I si el individuo ha viajado a ese destino y O en caso contrario. Hotel. Recuerde que las variables Temporada. pendiente del modelo resultan significativas.05. En la primera fila (regresión) la suma de cuadrados explicada. Pensión y Organizado deben especificarse como variables binarias (1. Además. Ahora cambie la variable original por estas variables binarias en la regresión múltiple.112 Con los datos del fichero enalgunlugar. observamos que. Nos indica el coeficiente de correlación entre ambas variables (0. Comente la regresión. respectivamente.daNel.mmaaas° ^ad^ e+penen0a• Vanades .aa ra6 ra 214 658 20 281 N 1 59 60 F 10 584 Sn 002' a varares peeddoras !Constante). País. como era de esperar.aao mrreaYla 138 Errd 6p le a ea(manlnn elia 390• R n. Días. En la cuarta columna se nos ofrece el estadístico t para el caso en el que la hipótesis nula es que el valor de la constante y la pendiente. El siguiente cuadro nos desglosa el coeficiente de determinación en sus componentes. Vuelva a estimarla regresión múltiple.39) y el coeficiente de determinación (0.

0 7W 700 7.13. r r . cuando figuran con valor O. es aconsejable marcar las frecuencias observadas v esperadas. ^ ^ 6 ^J _L J J JJ J 1aip EL NWEI I avaluad I osgandz I durap lon I Itilar Ancora Pega reasiem Caril elas AYA 2 3 4 5 Q S S '[ ^ 3C ' 70 hotel I 3 7C eda :. cuando figuran con el valor 1. pensmon 00 t=. la Phi y la V de Cramer.drs bles independientes.00 200 2W 2W 2W 2W 200 2W 2W 20 2. En el cuadro de diálogo «Tablas de contingencia: Mostrar en las casillas.0 1 . Por todo ello. en realidad la información inherente a ambas es de tipo cualitativo.0 5.20).Ed itor de datos SPSS ticas LAiiox. Red.- S 2_ r Eta r Resgc greco: de barras agngadoe S remato Malear Supinas tablas r Ertaditr.821 6660! 86. 2 0 2. • oar pas{ se! mos ante un viaje en pensión completa y en temporada alta.00 W 20.aadado Roana r mrbrpmoa eonelacv.00 70: spevncrga 10 2 00 700 81 contingencia..01 7 W 7.0 70. 7.38 -_ 2W J .Caplulo 3 Análisis exploratorio de variables bidirnensianales 73 IE SPSS • EJEMILI lE 1E5111C1 I Solución I 111111 EJEMILI IE IESILILIiI I 111E11 IE SPSS a) Aunque en el archivo las sanables Pensión y Temporada Datos Tra sfe ea Ara s . nos 1 0 Correlaciones 1 0 Regresan hallamos ante viajes en pensión no completa y en temporada 2 00 30 92 tpgineal 10 2m 3 00 97 baja. Estadísticos desRespuestas inlwas 1 90 290 700 Mla$25 de valores palde» criptivos» y «tablas de contingencia» (Figura 3.os.38 2. pulsando el botón «Estadísticos» nos introVi 3. En él seleccionamos que nos calcule el coeficiente de contingencia.38 i 81.711 70..01 7532' 75.c 03 6 7 8 9 10 11 2 13 4 15 7 18 19 31 21 22 23 24 25 26 27 28 29 u r I- OMnal de r Gams r ddeSomers ^ Coefrbie Lambda Coeficiente =J AY^da (3 PI. 10 3 00 97 : 60 Redxodn de datas atributos para estas variables. El objetivo es constatar si existe 1 C 3 00 97 : 600 Escala 1 00 2 00 3133.00 _u 2130 3C Una vez aquí.. resulta apropiado realizar una estadística de Ciaste.eevab — ^ M em•sd ^ .00 30 Fyn 3. Así. resModelo rosal gene s 1 0 o: Modelos matos RaTm pectivamente.zadc Carlean y de Marsdllaeatzd .i Tablas de contngencix Estadísticos P r J_ ^c=". Eie alq.19). 20 7 70:. W ^..00 2.I 1 0 O. 200 200 2W 1.s. 73 algún tipo de asociación entre ambos atributos ose trata de variaPm oras ro pararbicas 1 00 2 00 7 00 70 Sanes tertp.38¡ 70. 4. ducimos en el cuadro de diálogo «Tablas de contingencia: estadísticos».NUgar .01 2.27 70. En caso contrario. que recordemos son los componentes del estadístico chi (Figura 3..ataos de•aobras Tablas CYwptr. r.pora.18). Y Vde Ciare.0 1.a s ercav figuren como variables numéricas. z 02 ^ Enastas Estadianws 'eS. indican que nos hallaComp.0 1.00 E 5. cualquiera de las medidas es adecuada (Figura 3. realizaremos la tabla de 10 2 00 7.b de Kendal TaucdeKendall Kappa 913 03 p a.00 7582 1 2. .l Mostm ors de icabdwbe r r I- r Ta.00 1 W 30C =- 70.001 70.11. En primer lu gar. binarias. Para ello acudimos a «Analizar.. Al tratarse de una tabla de contingencia cuadrada y 2 x 2. ambas variables ^ .00 1W 1W 111.

..rus..3W 4o-ció 40Ó curvabas. COe1 40>0 d• contingencia N da 049 049. las probabilidades de aceptación de la hipótesis nula de independencia resultan siempre muy reducidas.1110t ~llenen una. que al ser menor de 0. 100 0f ea Mi N Tal.21. mientras que como variables independientes seleccionamos ahora Temporada. En la tercera tabla. Destino. par nominal de Creme. con lo que se rechaza la hipótesis nula de independencia. tanto por su valor'. tv40erN1 mnm 0 a po Ie IOAI 11 402 Fiaren d.00 e l0paed 2W 1W' Clasificar 2W 1W ReducCtln de dalos 2W 1W Ludas s 2. el valor en tablas del contraste chi cuadrado: 11.96 . como por la significación de los mismos. dos fases- 7^ 7W. el error•. 70 00 92W 2W 2W BW 3W 2W 3W 7100 WW EeI i V . Es decir. Hotel.nperede mrenor e 5 Le Oecuenc4minim°•aperada es 28894 Sp Volar Nomina. 4659 oprimirme. que existe una cierta asociación entre el hecho de realizar un viaje en temporada alta y en pensión completa.). Nuevamente. En la primera tabla se confirma el número de observaciones para las que se han realizado los cálculos 4.001 00...1 2369 14009 3104 19040 00 Tos 1783 1)830 2816 28760 4659 46590 :689 507 4661 I ck es de 6. Aunque el valor no parezca excesivamente alto debido al gran número de datos.. Todos ratifican el resultado del contraste Chi. 001 001 001 b) Para estimar una regresión lineal múltiple. O Empleen.214.0() 1 W' 2W EIME:1 22 W a1 200 3W 1=1:3•11111:1 2W ~El 1W'^ 22W 2W evaluacigani2a T duracionT ho-Te -Ter oda ho 7W 70 00 203 300 WW 78 107 100 --. No anead.. e casos validos 000 u 71 1 4659 I 001 Calculada 101a pare una labia de 2 • 2 b 06. País.659.001 .l 11 21410 1 1 1 001 .635). ateo d• F esocucwn ane a. V de Cramer y coeficiente de contingencia. (Figura 3. nula adwd Edacn Var Datos irans7ornl ar aletre. nos muestra que la probabilidad de aceptar la hipótesis nula es pequeña.05. adlcos JJ J Lxidedes Vertalse Ui 1 edad sao pals Ter edad 'CC) 2170 1 00 'ea. En el segundo cuadro se muestra la tabla de contingencia para estas variables cualitativas con las frecuencias observadas y esperadas correspondientes... Días. SW 300 pmaion tempolad 1W I uu 2W 1W 100 1 00 1 Estenacldrl W Leaenca timarla. 2W 3 00 4W 4W 3W 3W 57 W 57 n ^ W Raba. LO O Stce Inlfrm8d ...des 2W fi SwervNencla 2W Respuestas magias la 200 Anilles da velases pnddos. aroma Cuadrados en EscaMMNtO 41NO... Vedes TEMPORADA 4659 v. «Analizar... Regresión.74 E]EM1L1 1 1111111 Estadistica aplicada al turismo 1E IESILILIÍI SE S 1SS • EJEMPLO IE RESOLUCIÓN 1 111111 IE SPSS Los resultados son los que se muestran en la Figura 3. procesamiento de los casos CS.. verosimilitud edlwoo.. seleccionamos la variable Precio como variable dependiente. Todos ellos coinciden en valor absoluto debido a que se trata de una tabla 2 x 2. Este resultado viene ratificado por la significación. pmlme. Lineal. Este valor resulta mayor al valor en tablas (que al PENSION 00 100 ola! Recuerdo esperada nD• 900uem0 PiatuanCia PENSION Resumen da. por tanto.22). I Parcenale 100 4661 0Y Tabla 0• contingencia PENSION' TEMPORADA lEMP0RA0A 100 248 1536 1. Veloi uChacuadiada• Palalian ar itidalerag SIñaalera. 3W 3W 65W 65W 1W 1W Estmeddn ponderada.. acudimos a la (nos vados misma opción que en el caso de la regresión lineal simple. . Hipa 331. fur 200 ^ 17w . Concluimos. 2 00 1 W 2. titulada «Pruebas chi cuadrado» se muestra en su primera fila.p co 11asinl000a basado en la repele.aa... En la última tabla se muestran los estadísticos Phi. a Recuento e 1p e áe ° d• 755 7550 Chltal•drada SI *sin.00 e RI Desrlo pberlNrkes 2W Serles tene.

Figura 3. Los destinos a los que hemos asignado códigos numéricos superiores aparecen como los más caros. Los coeficientes en una regresión múltiple se interpretan como el aumento en la variable dependiente.05. La primera tabla únicamente nos confirma las variables introducidas.24). Es fácil observar cómo ha ido añadiendo variables de forma consecutiva. La salida que nos ofrece SPSS es muy similar a las anteriores. De todas las variables.0) para la variable Destino nos trasladamos ala opción »Transformar.2 €..1 CD•SCI. Lineal» y realizamos exactamente los mismos pasos que en el caso a) a excepción del método.1 Venablo procederes ■ConslaM•I ORGAMZA PENSION HOTEL.Capítula 3 Bnálisis exploratorio de variables bidimensionales 75 OE EJEMPLO I 1ES0L1CIbl 0 PRRIII SPSS • EJEMPLO IE IESILItIiil I P11lIR If SPSS a1 vaunNes btroduckles ORGANIZA PENSION HOTEL TEMPORADA OURACION PATS DESTINO.3. Por ejemplo.26). resulta de interés determinar cuánto afecta cada destino concreto al precio del viaje. Es interesante matizar ahora la interpretación de los coeficientes. residual y total. con pensión completa y en temporada alta aumenta el precio del viaje en 4. E VALUAC IeI caaslM. al con- 000 000 093 . manteniendo el resto de variables indepenI arme. La salida de SPSS nos ofrece el output de la Figura 323.248 2203 .ndee. De esta forma podremos observar la evolución del coeficiente de bondad del ajuste (Figura 3. 202 -5627 9 493 19069 4 004 ne el resto de variables independientes incorporadas como constantes. trario de lo que sucede con los países.17 y 6. mientras que un punto más en su evaluación lo hace en 0. únicamente la duración del viaje no aparece como significativa. Normadas Merar Inlroducu del modelo cuadrado E rr or Pu d c •elmacten a R cuadrado 511 510 2121729 7151. fruto de un aumento en la variable independiente de una unidad. Como método seleccionamos ahora introducir y pedimos estimaciones y ajuste del modelo en el cuadro de diálogo «Regresión lineal: estadísticos» .753 -1679 7. Evaluación Ore<utizado. al presentar un contraste t inferior a 2 y una probabilidad de aceptar la hipótesis nula de no significación. un aumento en el número de estrellas de un hotel aumenta el viaje en 2. Calcular» (Figura 3.687 171 1208 4 308 variadle dependNnl• PRECIO ¡Gens-tenle.000 000 000 000 ce. El mecanismo para elegirla variable a introducir ha sido seleccionar aquélla variable que más hace aumentarla bondad del ajuste. DURACION pPAIS. DESTINO EVALUAC e venable dependa. Para crear las variables binarias (1. Observe únicamente que nos va ofreciendo para cada tabla los resultados de cada una de las regresiones que ha realizado. Dicho método nos irá añadiendo una a una las variables independientes.27. Con el método introducir le pedimos que nos introduzca todas las variables a la vez. TEMPORAD DESAMO OURACION HOTEL PATS PENSIO EVALUAC ORGANIZA 4 148 103 122 755 011 1 076 585 . De igual forma.PRECIO . Escogemos ahora el método »pasos sucesivos».9e^a w.018 079 . dientes constantes. Éste es el objetivo de este apartado. En el submenú que nos aparece a continuación podemos crear una variable llamada Destino! que será una variable binaria con valor I para el caso en que la variable original cuyo nombre es Destino tome valor I. titulada »ANOVA(b)» nos ofrece la descomposición de dicha bondad del ajuste en suma de cuadrados de la regresión (explicada). y con valor O para cuando la varia\ . Resumen Pensión. aad e Vanaaa dpend»m. mientras que la tercera tabla.2 € respectivamente. La tabla «Resumen del modelo» nos proporciona el valor de la bondad del ajuste un 51%.e l. Co.. En la última tabla observamos los coeficientes de las variables independientes.061 105 218 .2 €: si se mantie000 B -36113 009 211 577 . TEMPORADA OURACION PATS DESTINO Ev ALUAC Mod elo ANO VA 1e1 Suma de Regr•spon loba cuadrados gl Mama Spg 000A" 608111 2622519192 0 327814 974 2506547 765 4650 539 043 5129067 557 4658 a ICondarau ORGANIZA PENSION HOTEL TEMPORADA. superior al 0. siempre que sea significativa. Observamos cómo al ser un viaje organizado. sq. Una vez aquí.dna Error llp 2 472 935 402 Mod el. A partir de la observación del cuadro »Resumen del modelo» concluimos que el coeficiente de determinación o bondad del ajuste aumenta del 43% al 51% a medida que vamos incorporando variables a la regresión. ya que la regresión simple entre el precio por noche y esta variable tiene un coeficiente de determinación o bondad del ajuste del 43% (Figura 3.la•a m M. Regresión. 7. siempre teniendo en cuenta que mantenemos constantes el resto de variables independientes. Debido a ello veremos que la variable Duración no ha sido incorporada a ninguna regresión. la variable Destino ha sido seleccionada en primer lugar. dl En los Apartados a) y b) hemos constatado la importancia del destino a la hora de determinar el precio del viaje. c) Nos adentramos de nuevo en el menú »Analizar. así como el contraste t y la significación de cada uno de ellos.lkmnles Iele6a•mados _ Bel.042 14 619 6639 53.25). PRECIO eoenalem.

pE516O EVAWAo 5se0995e3058 Cn9ne).41 25560'3145 4654 519610 Tdai 5129067 557 4656 5 0404.1060. aqtlar60 ICna.1•0 .1a4071 e. EVKUAC.1erAedps p .1• ewer •.15aN9660 Nmned DESTINO Px re. 050. HOTEL • 2. HOTEL ade4 54902461 ICmanlel 0ES7010.. Recodetdaón automaticsCrea sere Kanpard. 64060e8 2093033453 2 1246543 726 004e) 2201 801 P49 W s 566 141 2635931 101 4656 Tda 5129367 557 4e55 . figura 33. 050 R d dF p. Tda $129m155T 4658 4 0406016? 4 643455 303 1171970 00403 2573834412 06010.00 V&01941e umemrldulwrmladu N/ . Nara TEMFOPADA PAS C40A3912w AAOVA90 A1o0eo 1 F craves Ntlaeu S• a 0e741. pee as• a. 050 Pr. Rob deF p. dF 1M) EVKUAC Iasea7ce de Fpea 400. EVALUAC . 0E571410.OES1010EVALUAD PENSION Vaedas pr6dtl24as ICn.. DESTINO EVKUAC.1 e. 5ed<ivas ICmfanbl.s ICn. EVALUAC 0EH9O6 HOT&. 0 HOT Harr" TEMWpADA PA V.. 089909.. I ce""^ Ayuda .) a?a1 4 5431M 2530910 314 4853 5129057 557 46•í 8 040406 2 612010997 6 435131163 664582 00W) 2617055 580 4652 541070 6129047 551 4658 7 04099040 7 37443661 2621003287 694 347 00901 R var 2186088 790 4651 539 263 Tad 5129a61551 4656 40 a2460 ICnYa-te/ 0E571110 eda pne0olaa 1Cnanle) DESTINO EVAI WC 2sa6npwtld.1e M 1007 P9 pasos worn Rob at Rai 9. de IatenD Pr G p.1nel.1 955 975 2593027_243 5 519805 a49 0001.1 Roo d F 9.aAap 3•309- Indeper664et r--.DESTINO vemr 60 p . DESTINO EVAL UAD 0999(61 NOTE T9ASO040A PAS p 2.1= 100' P6 pesas hilen Rob ce 050 Erro ppda GI naPm mead R 9ursrr3 l 24 93324 55aN 43 433 26 79365 39701 3 2158119 496 495 70414/ 23•3161 502 501 708(4) 5 537 506 2331832 71214/ 6 509 509 21. 1001 P6 peer lal.01.I J CaefiaM4f de moray* . gg0aa ICmsv ? ai. PENSION HOTEL .93 524915 2910=7 971 M ST s Tda 5129^7557 4606 .1ntel. I „IarOOlad ^ Mlloda IPa .1ed60prtltlorn ICn9suel. I3 Erbnecarr.s ICnf9eal DESTINO ...1a . 040e929 .1 1ned0 .1nnl. . 1 15508 r.l3 Ape. 0E51110 EVALUAD PENSION HOTEL 7134R617406 o Vnn(spredtlpraa (0:09211.09399(64 V..1.28091 140/ . In46rvdmde cArllaae Mara de rpvenaea - dd Inodeb Cosroxla Ay de r r r Crab.1edeapatleb PPEDO TEMPORADA PIES 1 (620019I24 a V. Reenviara Vraves paridos.DESTINO EvKIAO PENSION. 3001e1 22188f9586 2218839`.76 Esladshca aplicada al turismo EJEM/L1 Ed•• II OESOIIIIÍI I I11TI1 IE SPSS • EJENILI IE IESILIIIiI I II1111 IE SfSs . Carper aparoone3.0 Roo dF we 64.. 050 Rod ae G we mara' Pee pesos laten Proa d 099906 HOTS F p. Asola recipes a casos. . en R cuabedo r r DeraWvot C6reiapOrer pa0d y lmgari5l Diayóroca de rArnleewad • • • °a • • ..4913.1 9.) 091 024 peas also Ras d 050 5 0 0 4 l. ems 4= 0.111_11‘ J O enelgunlugar -Edit.t54W 511 510 2222183 1ed60 a4am7ra Cm9ad!). de dews 5055 A Er al^leiJ ^ • • °>"^ • x. Figura 3.8 421 3 848312 907 1526134 000191 64129 136 4855 555 130 0449.5 p. la99er?Hn e. aec0dlrrer (16800360851425.1ad60 d4acl9r.red Darns Tr arb'H Matee kiJ±l_d Dependerla ol d CC ^ araluac3 7pfd organez 00 I duraaon 7 hotel I 3 7J eda PfJ CID penslonj IJ I ajSKG Bbaue 1 de 1 5 4• Pegar Reaaldeca 31 Regresión lineal: EStadístrcos • • • -....sa1M 1^ Traafer4Aa aata 6ded3 Ut►dedes Salde ass d60948trecon .00' 74 00 6 00 2.25. TEMPORAL 2n4660 pr4a91nras ICnanlelB DTINO EVALUAC P999.1d P9F_00 050 Rd 6.1..+-paada r 71 Reads 11MCP» 6CO 19 2 00 1 10 1. DESTINO EVAEUAD 09990N.1401 0 .. TEMPORADA PAS OR0N11Z4 V.

omitiremos destino I (Figura 3.Editor de datos SPSS = 55 lol^l t J ^J J _ca Gorr.t^u -'-BERNOUWIcn'. en el recuadro blanco con nombre «variable destino» escribimos tinolr. A continuación repetiremos el proceso con el objetivo de crear las seis variables binarias restantes.intervalos de asean.W ID . J Coacervar de regeson F Arate di modas _J AyAa Ñ Estromnes (.3t 7 ^J _f < I > 1 J<=I>=I ju s 6. . Observaremos cómo nos ha creado una nueva variable con nombre Destinol..27)..W 1W W .. /Leal 11 J J_J /f 6 I J ' 1 153ic¢a_rvr. r r r Castos en R o. 6..W 9W 6W.28). I 6raae_ I Oonortx. Análisis explarabno le variables bidimensianeles 77 EIEIIILI IE IES1L1[1Í1 1 111111 IE SIS y .W 6W u u n . r • EJEM' J IE IESILItIÍ1 1 111111 IE SPSS Emaór nercnca.Capdulo 3.. J rn.W 6. Para ello.W. W . y en el recuadro «expresión numérica.r. A continuación volvemos a realizar la regresión del Apartado a) sustituyendo la variable Destino original por seis de las siete variables binarias creadas..^n. • • _ryasfo ^ 3m 58 69 W 61 62 63 64 J a) m Acepta ^^ 300 600 ^^ ^J 6 00 9m 8W l 900 ==T 3x 3000 3200 00 1 00 1W 1 1 1 1 300 600 W W W W 1 00 W W W.... 9.I 21 31 ANY¡e bivabn..ble destino original tome cualquier otro valor.W Eegetas de casa Estadistcm I GráMos. JaJJ = 1 r2 q MI i aoer^r & eut ^ desfieu2 ^ des^eu3 ^ destnut^ 3 destew5 ^ destitea6 ^ des7ia7 :Regresión irreal -8laüe lde1 - Pap 00 100 s S x W 00 i .W 25. 8W 3W 9W ^^.unes ^ ar I .....teeperávia >e:tro3 • Meeodo VarMEI e de I -r-_. asar.aeedo D .Canebmnes parad r :enpaaca r.vabr__I ARSINIaqr_nmI 4RTANIemr na+nl SFNORMIvatra 1111 Ef. En nuestro caso.Dragroso_ros de cdnedoza Q selsms 0 63 64 65 6s 67 OD OD . escribimos «destino=l» (Figura 3.W 3W 75.w 4 d I Mato de rovevaa r. 0I.. a ax oe astro wYe0yea o aWades Sentar. : II 3W 3.

HOTEL. DAIS DESTINOS. los destinos 2 y 3 disminuyen el precio del viaje siempre respecto al «destino 1» en 27 y 12€. TEMPORADA. 0001a1 a.189 -. EVALUAC.soles prediCc. DESTINOS. EVALUAC. DESTINO?. :RGANIZA. PAlS AVALUAC I ORGANIZA.181 .145 001 273 411 333 -3244 17 219 4 765 . E VALUAC DESTIN04 AN OVA (b) Medra cuadratica 13 4645 4658 235246076 445 827 ..364 173 4666 . DESTINO2..DESTINO2. respectivamente.78 EJEM/L1 IE IESILIIIfI I Estadística aplicada al turismo 111111 If S1SS • EJEMPLI If IESILIEIÍI I P11111 If SPSS Variables introducidas eliminadas 151 Hanes I'uduodaa DESTINO?. TEMPORADA. Dicho destino aumenta en 151 € el precio de un viaje con respecto a lo que costaría un viaje con destino a 1. . DESTINOS.d°.d=r I c eficientes no estandar¢ados Coeficremes es/enderezados t S B on sta.127 009 2 097 7 541 13. DESTIN04(a) a Todas las variables solroladas miro duodas In Venable dependiente PRECIO Resumen del modelo /enables eliminadas Model Método Introduce ' lodeS R 772 .125 1 80 8 823 4723 -27371 -11928 094 22 203 80 952 151 368 Error op 10726 112 010 979 135 276 695 952 10647 10 588 10574 10590 10 735 11 398 Beta 4 493 -. DURACION. A la luz de los resultados. ORGANIZA. a_ :-stante).046 -009 065 129 052 -. PR S.929 6554 12 696 5542 -2571 -1. observamos que el destino que más hace aumentar el precio es el «destino leo. < P cuadrado 5% / c F cuadrado corregida 595 Error tío de la estimación 21 11463 es redidorac HOTEL = DESTINO?. DUPACION. DESTINOS.29.-c Fegres■on P `" %^• Sarna de cuadrados 30581%992 2070858565 5129067 557 g^ F 527 662 =. DURACION HOTEL PB49ON TEMPORADA. HOTEL. DESTINO3. DESTIN O/3. DESTINO2 DESTINO3 DESTINO4 DESTINOS DESTINO& DESTINO? a Variable dependiente PRECIO 48 196 .. Sin embargo.292 23 301 000 000 353 000 000 000 010 260 993 036 000 0170 La salida que nos muestra SPSS la de la Figura 3.032 . PENSON. DESTINO4 b Variable dependiente PRECIO coerciemeslal ^. PEN90N.

a priori. entre el número de banderas rojas de una playa durante la temporada de baño y el número de visitantes de la misma'? 3. El 70% de la población de La Habana durante verano son hombres y el 30% de la población total tiene más de 35 años. d) «El signo del coeficiente de determinación depende del signo de la varianza de los residuos.123. J 3114 ¿Qué signo presentará el coeficiente de correlación entre la edad de un coche de segunda mano y su alquiler diario? 312.287. ¿qué porcentaje son becarios? ¿Y comerciales? e) De los que están a favor.1. 'x2 = 66. el aire acondicionado y el hilo musical de su lugar de trabajo.A.» b) «Los coeficientes b y b no tienen por qué presentar Jóvenes el mismo signo.9.S.qué porcentaje son jóvenes y prefieren utilizar la bicicleta? c) Calcule las distribuciones marginales. ¿qué porcentaje está a favor" ¿Y entre el P.059.8 Ejercicios tipo El gestor de una agencia de viajes realiza un sondeo para conocer la actitud de sus comerciales. b) Del total de individuos encuestados.3 Supongamos que todos los turistas que van a las estaciones de esquí de los Pirineos por Semana Santa se gastan un 25% de su sueldo mensual durante su estancia. . ¿cuántos son comerciales? ¿Y P.1 = 59. ¿qué porcentaje se muestra indiferente? c) Entre los comerciales.207. Análisis exploratorio de variables bidimensionales 79 RIV Ejercicios previos 312.» e) «Un coeficiente de correlación de entre 1 o —1 indica una dependencia funcional. 312. Becarios En contra 13 13 10 4 5 10 4 8 15 a) Complete la Tabla 3.S? fi E stu di e la asociación o independencia de ambos atributos. . ¿Cuál será el coeficiente de correlación entre las variables X (sueldo mensual) e Y (gasto en turismo de esquí) durante Semana Santa en los Pirineos? Comercial P. Indiferente 312. tendrá forma de 0.262 Calcule el coeficiente de correlación lineal de Pearson. la recta pasa por el origen de ordenadas. b) Del total de becarios. ¿Cuál es el porcentaje de la población de hombres mayores de 35 años? mejora de la calefacción. Yxy = 62.12. personal administrativo y becarios en referencia a una reducción proporcional de sus sueldos que se utilizaría para la 3.« 10 a) Calcule el porcentaje de individuos que son adultos sobre el total que va en autobús. Tenemos los siguientes datos: n = 26. Vy = 1.A.Capiulo 3.S? d) De los que están a favor.S.6.» 12 20 12 5 15 16 8 13 3111 En la Tabla 3. Determine las distribuciones marginales. V = 1.8 se observan los resultados de una encuesta que cruza grupos de edad con sus preferencias en cuanto al medio de transporte a utilizar durante sus vacaciones: Autobús Coche Moto Bicicleta 20 15 17 c) «La nube de puntos entre dos variables cuyo coeficiente de correlación es nulo.A.83. ¿Qué tipo de dependencia existe. Comente las siguientes frases: a) «Si la ordenada de una regresión es 0.

c) Calcule la recta de regresión. de que la temperatura no influencia los litros de agua comprados. d) Haga una previsión sobre el aumento de las ventas en el caso de que la publicidad se aumente un 15%. sobre un nuevo producto turístico que relaciona el tiempo libre con la salud y que le ha sido encargado por un gran complejo hotelero.050 900 a) Dibuje el diagrama de dispersión y calcule el coeficiente de correlación. Realice los contrastes de significación para la pendiente y la constante de su modelo. e) ¿Cuánto vale el coeficiente de determinación? Justifique su respuesta.950 1.12. 3. %Aumento en publicidad %Aumento en rentas O 11 9 8 6 7 5 10 II 2 8 7 9 3 a) Dibuje la nube de puntos y coméntela.550 2.13.12. c) ¿Puede planificar el supermercado del camping la cantidad de litros de agua a encargar a sus proveedores en función de la temperatura esperada? Realice los cálculos necesarios para ello. En particular.12.000 1. Interprete su resultado.11.750 1. La Tabla 3. Malo Niños Jóvenes Adultos Total 30 90 20 Normal Bueno 75 40 100 V Total 80 45 90 .10 muestra la tasa de paro del sector turísti- co en España en función de su edad para el año 2000. b) ¿Tiene sentido el coeficiente de correlación lineal? Justifique su respuesta. Tbsa 3. te la temporada de verano la temperatura media de cada semana y los litros de agua que los clientes han comprado en el supermercado. según su edad. El director de un camping de Loredo ha observado duran- 22 27 32 37 42 47 52 57 62 67 20% 15% 10% 8% 7% 6% 9% 10% 8% 3% 22 de agua 1. Tabla 3.800 1. ¿Cuál sería según su recta la tasa de paro que correspondería al grupo de edad de 40 años? Calcule el coeficiente de bondad del ajuste y comenta su resultado. 80 EJERCICIOS PROPUESTOS • EJERCICIOS PROPUESTOS • ESladlstMco aplicada al tunsmo EJERCICIOS PROPUESTOS 3123 La Tabla 3.000 31 30 28 25 26 30 20 18 1. Una consultora turística pretende realizar un estudio de mercado. b) Calcule el coeficiente de correlación y coméntelo.11 muestra los resultados recogidos para los últimos años: Tabla 3. Comente las ventajas que tiene la utilización del coeficiente de correlación en relación a la covarianza.600 1. Contente los resultados. f) Realice el contraste de la hipótesis de no significación de la pendiente de la regresión. h) c) d) e) 31210 Una importante agencia de viajes quiere realizar un estudio entre el aumento en sus gastos en publicidad y el incremento en sus ventas. d) ¿Qué cantidad de agua se necesitaría si se espera una temperatura de 32 grados? e) ¿Cómo puede calificar el ajuste que ha realizado? Ayúdese del coeficiente de determinación. le interesan las opiniones de un grupo de control. Calcule la recta de regresión entre la tasa de paro y la edad. Comente los resultados. a) Dibuje la nube de puntos.11. es decir.

como variables independientes. de que el número de estrellas del hotel no influencia el precio diario de una habitación. b) Calcule el coeficiente de correlación y coméntelo.Capítulo 3 Bnálisis exploratorio de variables bidimensionales 81 E3EItItHS a) IIIIIES1oS • E]EItItI1S 11111ES11S • E]EItIt11S IIIIIESTIS • Qué porcentaje de niños encuentran el nuevo producto bueno? ¿Qué porcentaje de la muestra son jóvenes y encuentran el producto malo? b) ¿Qué porcentaje de las personas que encuentran el producto bueno son niños o adultos? cl Estudie la independencia o asociación de estos atributos. A partir del fichero Salarios. Comente los mismos resultados que en c).12. c) Calcule la recta de regresión entre el precio y el número de estrellas del hotel. 3.11. Tabla 3. Ejercicio con SPSS 3.xls: Y= Recio %=Número estrellas /20 90 4 40 20 a) Dibuje la nube de puntos. c) Comente los siguientes resultados: la pendiente. e) Compare la regresión del Apartado b) con la regresión del Apartado c). Coméntela.14. a) Realice el diagrama de dispersión entre la variable Salario hora y Nivel de educación. b) Calcule el coeficiente de correlación y la recta de regresión entre el salario hora y el nivel de educación.1213 Los siguientes datos reflejan la relación entre el precio de la habitación diario y el número de estrellas de varios hoteles de Calella en verano. jl Realice el contraste de la hipótesis de no significación de la pendiente de la regresión. d) Realice la regresión entre el Salario hora como variable dependiente y las variables Años de experiencia. Nivel de educación y Sexo. el coeficiente de determinación y sus componentes y el contraste de significación. es decir. . d) ¿Cuál sería el precio diario esperado por parte si se quiere alojar en un hotel de tres estrellas? e) ¿Cómo puede calificar el ajuste que ha realizado? Ayúdese del coeficiente de determinación.

Autocorrelación 4.2. Componentes de una serie temporal 4.5. Ejercicios propuestos . Ejemplos de estudio 4. Ejemplos de resolución a partir de SPSS 4. Series temporales. Desagregación de los componentes de una serie temporal 4.4.3.6.CAPITULO 4 análisis de 4.1.

presentes en cualquier serie con componente económico. Se trata de fenómenos aislados. Los valores de las variables se ven influenciados por las estaciones del año. desconectados entre sí y que producen variaciones imprevisibles. C uando un fenómeno es dinámico. Conocimos este tipo de datos como series temporales o cronologías y son el objeto de estudio del siguiente capítulo. — Irregular: variaciones aleatorias que no están sujetas a nada alrededor del resto de componentes (I. es necesario estudiarlo periódicamente si queremos analizarlo con profundidad. Las series pueden ser deterministas. cuando clasificábamos los datos. . sociales o turísticas presentan aspectos deterministas y aleatorios. — Estacional: oscilaciones fijas dentro de un mismo año (S. 1. Componentes de une serie temporal Las series temporales son un conjunto de datos de un individuo en el tiempo.). Sea cual sea el patrón que genera la serie económica X. En general. como por ejemplo. l En el Capítulo 1. ya que su análisis en un período • 4. Otra forma de entender el capítulo es que seguimos estudiando series estadísticas de dos variables con la peculiaridad de que ahora vamos a considerar el tiempo como variable independiente de la serie estadística. como el número que ha salido premiado en la lotería de Navidad durante los últimos treinta años. no serán exactamente iguales ni tendrán un crecimiento lineal exacto debido a la presencia de factores aleatorios. la hora a la cual ha salido el sol el 4 de agosto en Tenerife durante los últimos treinta años o aleatorias. económicos o socio-religiosos. — Ciclo: oscilaciones lentas de forma más o menos senoidal para períodos superiores al año y no fijas (C. La mayoría de series económicas. Se trata de un movimiento suave de la serie a largo plazo y de la dirección predominante en un espacio de tiempo suficientemente amplio. la demanda de viajes a Roma en octubre durante los últimos treinta años presenta componentes deterministas y aleatorios.determinado del tiempo no nos proporcionaría toda la información posible acerca del mismo y no limitaría su predicción. Aunque para la mayoría de años hablemos de demandas muy similares.). Series temporales. contiene como mínimo cuatro componentes no observables: — Tendencia: variación a largo plazo (T. veíamos que algunos consistían en un conjunto de observaciones sobre una o más variables en períodos regulares de tiempo y para un único individuo. sociales.1. Por ejemplo.) Suelen subyacer detrás motivos climáticos.

en particular el componente estacional.S. resulta difícil distinguir entre el componente tendencia y el componente ciclo. ¡cómo sabemos si ese comportamiento es debido a una tendencia a crecer que presenta dicha serie o a que los años para los cuales tenemos información correspondían años de ciclo expansivo' Es decir. dinámico. suele ser la tendencia (que nos proporciona dicha evolución subyacente) el componente de mayor interés. podemos predecir siempre que el coeficiente de determinación indique que el ajuste reali- b) zado es representativo. --s Períodos que se corresponden a los ciclos económicos. La determinación de la tendencia Existen tres métodos para la obtención de este componente: a) La tendencia determinista: en este método se toma el tiempo como variable explicativa y se realiza un análisis de regresión mediante el ajuste mínimo cuadrático que ya vimos. que va cambiando a medida que lo hace la serie y en función de la misma. Puede ser que los 5 años siguientes decrezca y sería ciclo. es simplemente la media aritmética de los valores de este período y los cercanos a él. Así que no me puedo pronunciar. yo sólo observo 5 años.+ C. — Multiplicativa : X. dependiendo de la estación del año. La forma multiplicativa se puede transformar en aditiva de forma rápida mediante una transformación logarítmica. Pero no lo observo.Ventas de coches de alquiler mensuales en Mallorca durante treinta años»: T. Demanda estacional. o que siga creciendo y sería tendencia. Si observamos un crecimiento de cinco años en una serie para la cual sólo observamos esos cinco años. = T. No obstante. Estos componentes pueden estar combinados de la siguiente forma: — Aditiva: X. Supongamos la si g uiente serie . para un período concreto.2. La tendencia evolutiva: se calcula utilizando el procedimiento de las medias móviles. Durante el resto del capítulo nos centraremos en el componente estacional y en la tendencia. Se considera este método mucho más realista que el de la tendencia determinista al no creer que se pueda predecir la tendencia de forma exacta mediante una recta sino que ésta es algo aleatorio.. Por tanto. cualquier otra señal o componente puede ser de interés. El seguimiento de un fenómeno a través de la evolución observada puede generar grandes incertidumbres y parece aconsejable realizar dicho seguimiento a partir de la evolución subyacente. Se trata de calcular la recta de la tendencia en la regresión v = a + b t. • • 4.+ S. El método de las medias móviles. si la serie no es excesivamente larga. .C.. S.Capítulo 4 Introducción al análisis de series temporales 85 Veamos un ejemplo. Desagregación de las componentes de una serle temporal La no obsenabilidad de los componentes anteriores conduce a su extraccion. Si se utiliza esta metodología es aconsejable que la serie esté desestacionalizada (sin el componente estacional) y que se intuya a partir del diagrama de dispersión una tendencia lineal. C.. = T.- /.+ /. Casos puntuales que normalmente no se pueden controlar. Lo que han crecido o decrecido durante los treinta años. -s -s En ocasiones. Una vez realizado el cálculo.

.. calcular la serie deduciéndole dicho efecto estacional... desestacionalizar la serie. Si = 1 n[(yli—Mcy. podemos esperar un cierto efecto estacional. Al realizar el cálculo. se promedia: Mc''. donde el primer subíndice de y y M hace referencia al año (n en total) y el segundo al mes de referencia. mayor será ésta pérdida de información. Se calcula la media aritmética de los valores obtenidos en 2 referidos a cada momento de repetición anual. + yt+yt + 1 + . etc. que se tomará como coeficiente de estacionalidad del esquema aditivo. se pueden eliminar ambos componentes restando los valores originales menos los valores de la tendencia calculados en 1. etc. trimestrales.—x. Se calcula: y. mediante una media móvil.+Yr+ 5) Dado que la media móvil realmente no se puede centrar al ser de orden par. + 2. Los valores desestacionalizados de la serie original serán: yti' = (vii — s i) • 100 .=x. 2. cuatrimestrales.. Es decir.5+. se calcula la media de dichos factores para todos los meses de enero. de manera que en el instante t la tendencia debe de ser similar a la del instante r-l... son: Cálculo de una tendencia (que puede recoger en parte el componente cíclico). (yt—Mc 12)• 100 3. . Cuanto mayor sea el orden de la media móvil.._.= 2[M'' + M"(+ 1 )] 1 )2( 2 yt.. En este apartado vamos a determinar dicha variación estacional. Con datos mensuales la media móvil sería del tipo: M" = 1 12(yr-6+ yt -5+.6 + yt. o sea. Variación estacional Cuando se observan datos mensuales. c) Diferenciación de la serie: se supone que la serie evoluciona lentamente en el tiempo.. Yr +5+ 2 yt+ 6) Considerando que la variación cíclica está incluida dentro de la tendencia. Se trata de aislar este efecto mediante el cálculo de coeficientes estacionales para. El paso siguiente es eliminar el componente irregular.86 Se Estadistica aplicada al turismo trata de diluir la imponan..)• 100+. siempre quedarán algunas medias móviles sin determinar al principio y al final de la serie.. Los pasos a seguir para el cálculo de este componente en el supuesto de una serie aditiva y datos mesuales..+ vt+vt+l +.+ (yni—Mc")• 100] para i = I. n. eliminando la influencia de las restantes fuerzas.. a continuación. febrero.iu individual de una observación calculando la media aritmética simple de dicho valor y los de su alrededor.

2 0. ahora.611 0.419 1. /VEN S.381 1.093 -0.178 1.574 3. 1. Tabla 4.13 0318 -0.4.955 3.807 2.26 1.093 J .1. X.658 -0.498 4.129 3.606 2.1 nos muestra el procedimiento XII para unos datos cuatrimestrales sobre las reservas realizadas en un hotel andorrano. La correlación entre los diferentes valores de una serie será de gran valor para lo que se conoce como identificar la serie.069 -0.649 -0. o entre los valores del mismo mes de años distintos cuando la serie es mensual.284 1.578 1.859 2.611 -0. 1. con las nuevas series se pueden realizar predicciones.3. extraemos la tendencia y el componente estacional al tiempo que podemos obtener la serie desestacionalizada. Autoco«elación En muchas ocasiones.704 -0. Datos cuatrimestrales X.191 0.836 2.367 3. Eso sí.89 2.611 0. Se denomina autocorrelación. 4. a la correlación de los pares de valores de una serie a una misma distancia (por ejemplo. la dependencia lineal que una serie tiene con ella misma con un retardo en el tiempo.662 0.108 -0.631 -0.029 3. En las anteriores líneas hemos descrito el proceso de descomposición más universal: el XII.704 -0.704 -0.296 1.652 -0.042 -0.2 entre.).871 1.034 2. • • 4.544 2. dos series: la serie original y la serie original retardada h períodos. Evidentemente. .607 2.Caplulo 4 Introducción al análisis de series temporales 87 En caso de esquema multiplicativo. Se observa cómo.1. Su forma de cálculo es calculando el coeficiente de correlación que vimos en el Apartado 3. etc. La existencia de autocorrelación en una serie temporal indica.77 4 6 7 8 9 10 1 12 13 14 15 2.667 1.155 1.611 -0. entre un valor y su inmediato anterior.611 -0.799 0.579 n.704 -0.928 3.093 -0. 0.S.49 0. en mayor o menor medida.169 -0. así como para descubrir la existencia de estacionalidad.368 2. . ya que no sabemos si en un futuro lejano se van a introducir fenómenos nuevos que afecten a la variable estudiada. únicamente a partir de los datos que proporciona la propia serie y realizando medias móviles. los valores de una serie dependen linealmente de los valores observados en un tiempo anterior. La Tabla 4.616 +/.093 0. las predicciones se deben limitar a un futuro próximo.093 -0.76 2.593 1. las diferencias de las fórmulas anteriores se cam- bian por cocientes.231 2.704 0.

88

f9iüstica aplicada al (ulism0

EJEMPLOS

1E

ES11011

EJE M►LOS
Tendencia

DE

ESi1010

EJEMPLOS

0E

ES1U011

El primer paso consistía en obtener el componente primeros cuatrimestres para los que es posible: =

construyendo las medias móviles adecuadas. Así. para los dos

1,579 + 1.191 + 0.77

1,191 + 037 296 + 2, , 1,178

— 1,419

El resto aparecen en la tercera columna de la tabla anterior. A continuación se extrae dicho componente de la serie original. Esto se observa en la cuarta columna de la tabla anterior X,— MM =S,+I,

Se calcula el índice de variación estacional bruto (IVEB). Se trata de la media para cada uno de los cuatrimestres. La suma de estas medias debería ser nula por definición (ya que, en buena lógica, se trata de una medida relativa y, por tanto, si un cuatrimestre es bueno para las reservas hoteleras respecto a otros, los otros deberían compensar esa bondad). En nuestro caso esto no es así, pero sólo por un residuo de 0.17. Como vemos, de cara a obtener el índice de variación estacional neto, se fuerza a que la suma de estas medias sea nula repartiendo el citado residuo entre los cuatrimestres. El resultado se presenta en la quinta columna.

+ 0,799 + 0,662) — Media QI = (0.719 + 0,658 4
0,017 Media QII =

0,709

[0013 +( 0619) +( — 0108) +( 0188) + ( - 0,042)] = 0,087

Media QII =

4 =

—0,605

IVEN

—o

IVEN = IVEB

IIVE B
S

IVEN = IVEB — IVS B = Repartimos el 0,017

Q1 IVEN = 0.709 —

0,017 = 0,7114 3

QIl

IVEN = —0,087 —

0.17 —

0,093

QII

IVEN = —0,605 —

0.017 —

—0.605
r,^^e^ie eaienlar lo ^P.,P ^iece^r^^:,,o^t;oo,io ,ta,t

Una vez tenemos calculado el índice de variación estacfnnnl neu va ce

tiendo de la serie original el índice de variación estacional neto. La observamos en la sexta columna.

J

Caplulo 4

Inhoduooido el análisis de seres temporales

89

4.5. Ejemplo de resolución a partir de SPSS
4 1..1.

A partir de los datos del fichero Grandesexitos.sav trate de:

a

Realice la descomposición estacional de la serie abenef» v trate de conocer los meses donde normalmente ha tenido más fuerza el producto de la agencia. h 1 Cree la serie de la primera diferencia granasen/tos - Calma de datos SPSS de la variable Benef y el primer retara erro Ea^ Ver p atos rrardama P.atta Grtfims tnt,daees ventana do de la serie original. a1^1^IJ _ Ddsaaoaedadesde.alalis. 21 2 1E1 '44I Cosa aeoedades m datos... c Compruebe si la serie abenef» presenta autocorrelación. Leta tarada
Den Solución 160.r 16 11 c., Inserta caso Ir a casoOrdenar cum... Reescraoses Fular arder. osarlo ortogonal Seo netas adoro... Sawa.. casos... Pondera casos...

I .a• I

a) Para realizarla descomposición estacional, el primer paso consiste en que el programa reconozca la variable como una serie temporal. Para ello, tenemos que decir de qué fecha a qué fecha tenemos observaciones para la variable Benef. Para ello. accedemos al menú ,/Datos. definir fechas» (Figura 4.1). Una vez aquí, le indicarnos la tipología de los casos que componen nuestro archivo. En nuestro caso indicamos que los casos son años, meses y le indicamos a qué momento temporal corresponde nuestra primera observación. Para nuestro caso, la primera observación corresponde a enero de 1978. O sea, el primer caso es: año=1978 y mes =1 (Figura 4.2). Observamos que SPSS nos ha creado tres nuevas variables que contienen el año, mes y fecha de cada observación. respectivamente. Una vez aquí. ya podemos realizar la descomposición estacional de la variable Benef. SPSS nos ofrece directamente el índice de variación estacional neto. Para ello acudimos al menú «Analizar. Series temporales. Descomposición estacional. (Figura 4.3). Nos aparece el siguiente submenú en el que marcamos la opción ,/aditivo... Con el la indicamos el esquema que creemos SI gue la serie. Recordemos que el esquema aditivo es recomendable, porque aunque el esquema sea multiplicativo, con una sencilla transformación sobre la serie se puede convertir en aditivo.

5 6
7 9 10 11 12

Ewa...

J
Los casaat ti-«tes
G7r.

- El pond caw es Paodridad rend noena
Ahor

44evaI Rwatk a cancaa 13

tre=-e: Tesc

I

D mvntt Das

Mee

12

sm. _ Sem.

d^as wbora^: chas

keonaóesE.

Haces D. horas

Dias hae bp4 r 464j8 1 Fechas ee,gles

J

Mole 'e

--^-'

.1A

yArriano Erices

os- flor

de datos SSS

Date

Transformar

Rnas:a Grafc. Uidades Vats Infames

1 ya,. nene( .--;_^ 3 4 S 6 7 8 9 10 12 18 66 16 67 1 7 00 1724 1746 year •3'8 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 no.

Badea. desertaos Tablar Cana,/ sedas Modela mear cerera
Modem riot. Correbaaes Reaesen toglren Oa,da Resano Se sacos Escara Probas ns • •

L41 .3.

I

paramera. mates
venidos-.

Soasado e>yonerdtl.

Sta,,. -an ca Pes pastas
Miss ce

a.ñaregesco -.

sabes

,==1

9(1

Estadística aplicada

al tunsmo

EJEMfLI

OE

MIL 11111 I

►1111

11OE

SISO

EJEMPLO

IE IESILItI

I

I

111111 IE IPSO

I.I output de SPSS es el que aparece en la Figura 4.4. Como se puede observar con facilidad a partir del índice estacional (seasonal índex) los seis primeros meses de cada año tienen un efecto positivo en la variable, es decir. durante los seis primeros meses se obtienen los mayores beneficios netos de este producto. Parece ser que el producto suele tener su momento cumbre en primavera. La segunda parte del año. en mayor o menor grado según el mes, presenta un efecto estacional negativo. Seguramente en la segunda parte del año los artistas están más preocupados de su gira española. que tradicionalmente suele ser en verano. así como de la promoción de sus discos para el momento de mayor ventas, la Navidad. Observamos cómo la salida nos indica. igualmente. que el programa nos ha calculado cuatro series nuevas. El término irregular (err_1 ), la serie desestacionalizada sas_l 1. el
índice

estacional (saf_1) y el componen-

Resulte of SEASON procedure for variable BENEF Additive Model. Equal weighted MA method. Period = 12. Seasonal index Period .063 1 2 .183 .213 3 .262 4 .171 5 .050 -.053 -.187 -.158 -.129 10 11 -.151 -.263 12 The following new variables are being created: Name Label ERR_1 Error for BENEF from SEASON, MOD_4 ADD EQU 12 SAS_1 Seas adj ser for BENEF from SEASON, MOD_4 ADD BOU 12 SA0_1 Seas factors for BENEF from SEASON, M00_4 ADD EQU 12 STC_1 Trend-cycle f.- R E NEF from SEASON, MOD_4 ADD EQU 12
Fillri44.

te tendencia-ciclo(stc_l). Dichas cuatro series se muestran en la imagen de la vista de datos (Figura 4.51.

_ 9r andesetatos - Editor de datos '5S ArdNo Edoon

1

ea_

J JJ J JJ
I year_ 1976 1978 1978 1978 1976 1978 1978 19781 19781 -1 19 78 1978 1976 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1980 1980 1980 1980 1980 19130 1980 Volada variab le! 1670 16
19

er

Datos

trasforma

aneto

Grifeos .F1E1

Utilidades

E11^ IEI '4141 I
err 1 09462 - 05761 - 07402 - 07957 00822 03504 04913 - 02766 - 137% 11158 02182 02613 - 03988 - 08434 02220 .01889 - 05833 02282 -.03854 00298 -.02197 11393 14813 - 08455 - 11534 09722 02100 sas 1 16 91 16001_ 161:. 16 412-1682(.17 169 17.512)17 7384. 185651 • 18.811" 19.127:19.340'. 19 6264_ 20.10560 20 50109 20 82948 21 33791 21 71831 22 22542 22 70357 23 15081 23.70589 24.06427 24.07918 18252 2t340 26191 17052 05009 -.05331 -.18742 - 12881 - 15089 -26327 06282 18252 .21340 26191 17052 0500.9 -05331; - 18742 - 15757 -12881 - 1508.9 - 1b1í/ 06282 20 48220 2088782 21 31509 21 75685 22 22253 22 69760 23 17278 23 59195 2391614 24 16372 24 44682 24 80707 25 22987 25 97591 =_ 716E, 05009 26 00109 =6 35562 18 79106 19 09914 17 46318 16 81726 16 •z1.J 16 24062 Saf 1

benef

morad_ I
1

date_ JAN 1978

2 F E 8 1978 3 MAR 1978 4 APR 1978 5 MAY 1978 6.JUN 1978 7 JUL1978 8'AUG 1978 ' 9 SEP 1978 10'0CT 1978 I 111NOV 1978 ' 12 DEC 1978 I 1'JAN 1979 2rFEB 1979 3 MAR 1979 ! 41APR 1979 5IMAY 1979 61JUN 1979 7 JUL 1979 8 AUG 1979 9 I SEP 1979 1010CT 1979
11

3 4 5 6 7 e 9 10 12 3 14 15 16 17 18 19 20 21 22 3 24 25 26 27 28 29 30 31

16 38 16 67 1700 17 24 17 46 1755 1779 1844 1866 1886 19 41 1981 2032 20 76 21 00 21.39 21 67 22 04 2254 2302 2356 23 80 24 14 24 51 2495 25 59 25 82 26 03 26 32

17 9496 -- 15757

'

NOV1979
-

12 GEC 1979 980 2 r:: ,9W
1

599

02518 01966

\vota de dalos

j

7

5055 0 procesador esta preparado

I tl

^

09914 19. I 16 08 79462 1601318 06282 15 91856 a estor. .. 1980 .71831 .41'' 1975 .15487 1746 . ne patudo MONTH.. "1 23 24 25 26 27 28 1 29 30 =Vista FilIt14.82948 17052 20 88782 21 391 1979 6'JUN 1979 02282 21 33791 .7. Contar acabases_ RecoBca a 1 2 3 4 5 6 7 8 9 10 11 12 13 4 15 16 17 18 19 20 21 2.94957 -15757' 18 08693 18 -441 197E ' 0 OCT 1978 11158 18 56581 .04 1979 AUG 1979 00289 2222542 .81289 . 19. A continuación.45423 18.. entrarnos en el menú «Transformar.222531 2254 1979 00298 22 .26327 ^._ = 1979 .aae =abes oerñdvs.9)..12881 .. 24 5' 24.15089 23 59195 ' 1979 112 DEC 1979 23 8C 14813' 24 06427 . ya que el primer valor no perdido es la observación 2 (Figura 4.5 1976 .06847' 24 73860 21340 24 80707 4 _-g 7980 ^ 2559 1980'.67I 7%7 16 411161 26191 16 48976 17.. En el visor de datos observamos la nueva variable creada (Benef I) (Fi gura 4.38 7402 16 16660 21340 16 24062 -. 24 44682 24 98-1 1980" 3 !'4 R 1980 .03854 21.8).18742 17 76608 17. b) Para obtener la serie primera diferencia de la serie Bene(.E Nombres.■ 1960 02100 25.'.65148 17052 25 62048 = . 16 19 )5761 16 00348 18252 16 06109 .02Z^0 20 10560 21340 20 08340 1979 4 APR 1979 20.62848 19 71282 20. 2407918 06282 24 16372.55 El entesadkr esta preparado Crear sese temporal Se puede comprobar fácilmente que la serie original se obtiene sumando el componente tendencia-ciclo.03504 171899 05009 1. .13736 17.. rer.24 .a.02197 23.12881 I 18.a Crea_ing First :. 23 91614 24. Peroárided actual 12 porab> (Figura 4.09722' 25 32709 26 191 25 22987 1980 25 67 8 .0251E 25. seleccionamos la serie Benef en el recuadro de nuevas variables..15757 697601 23..15081 23 172781 1979 i 11 23 5E NOV 1979 11 393 .79 197E .34518 06282' 19 38806 19.ecaNcaoa+aumnábta. se obtiene la serie desestacionalizada como la serie original menos el índice estacional.14 1900' 1 JAN 1980 ..039 8 19. -. 001 20822 17052 16 82548 16 81726 17. así como la función diferencia y el orden I. . . lunes Fvet n J I_raenoa oda. 16.02766 17 73842 ..05331 21 75685 22. 23 70569 -.'. 26 0= 1980 -._-_ "` _ 04913 1751231 -05331 1746318 1755 1970 E .33148 1900'i 2 FEB 1980 ''.81 j 1979 .... p ecop..761 01889 20 50109 26191 20 48220 21 001 1979 5 MAY 1979 .05833 20.05009 21 31509 21.. 16. .g os a casps.86 -.art Values Replaced Non-Miss Non-Miss Cases Function 2 288. peed 12 in Erra le BENEF Iron S Seas a4 sale BENEI T Seas lades le BESE ? redoyde lo.15089 18 79106 197E ..11534 I 18252 .Capítulo 4 Introducción al análisis de series temporales 91 • EJEMPLO 1E IESILIIIÍI 1 f11í11 1E SPSS EJEMPLO 1E IESILILIÍI 1 P11E11 1E SPSS Frdvrp Edcm re Datos Trardama Nate Crañms tRidades Ventana ^I 61 I a ._ 1978 02813 18 12727 18.32 ¡ 1979 .70007 9 SEP 1979 .02182 18. BEI.26327 . El cuadro de diálogo se representa en la Figura 4.08434 18252 19.g I QJ -yee_ JJ Renga de alea[a¢apút.6)..08455.97591 05009 26 00109 26 E: 0176 1960 26 3'53 1 '6331 Y 85t_ de datos A Veta de venables lai I oar I va ' I ya' I ^ Gee see tempor al 5. el componente irregular y el componente estacional. crear serie tem- � tenet e> •^ Nueras venables YEAR.66 i 197E ' " ':1V 1976 .-5 1979 . 31 bond I sic-1 sas_7 sat_1 I YE categoraervarvnes. FINO ti ssistg Result Variable amor_1 .67 ! 7 JUL 1979 1979 .02' 1979 10 OCT 1979 .6. De igual manera. . La salida de SPSS nos indica que hemos perdido un dato (la primera obser vación).1 8742: 22.=EP 1978 ..

18742 -.05833 02282 -03854 . Para ello.26191 17052 05009 -.06282 . Crear series temporales»).12881 -.91614 24 16372 24 44682 2480707 25 22987 25.26327 .79 18 44 18. _ ce 24 64 22 20 54 40 51 44 24 39 28 37 50 48 53 25 34 37 44 64 23 20 30 -T i ny en.56581 18 8/289 19.15089 -.34518 19.02182 02813 .^ Seas lades le BENE s^ Tiendcyck Ice BESO •^ DIFRBENEF.05761 . li ^ .08434 02220 .15089 -. se selecciona nuevamente la variable original Benef.71282 20.02 2356 23.11 c) Para conocer la autocorrelación de la serie Benef sim- plemente se calcula la correlación entre la serie original Benef y el primer retardo Ibenef I calculado en el apartado anterior.39 21 67 2204 2254 23.73842 17.18742 -.12727 19.05009 -.791% 19.81726 17.05331 stc_1 15 91856 16 06109 16. pero en función se selecciona la función retardos de orden 1.00298 -02197 11393 . dedatos Mate 1980 de mandes i .10. Se nos indica de nuevo que hemos perdido una observación (Figura 4.51231 17.62848 20.Picotee r lu.63348 26 00109 26 35562 benef 1 11 .95 25 59 25.05331 .18252 21340 26191 17052 .07918 24.11534 -.66 18 86 19 41 19. 1 JAN 1979 2 FEB 1979 3 MAR 1979 4 APR 1979 5 MAY 1979 6 JUN 1979 7 JUL 1979 8 AUG 1979 9 SEP 1979 10 OCT 1979 11 NOV1979 12 DEC 1979 1 JAN 1980 2 FEB 1980 3 MAR 1980 4 APR 1980 5 MAY 1980 6 JUN 19E0 7 JUL 1980 .18991 17. CO 21. MIME Pegas Resta b lecer ^ .039138 -.06847 09722 . 1600348' 16.70057 23 15%1 23 70589 24 C6427 24.12).14 24.02100 • 02518 _ r. .08340 20 48220 2088782 21 31509 21. por ejemplo.16660 16. 1 O procesados esta peparado i 6er/el r> YEAR.10560 20 50109 20.24062 16 48976 16.03 26 32 year_ 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1980 1980 19E0 1950 1980 1980 month_ date _ I en_1 09462 .00 17. A la nueva serie la llamaremos..15757 .14813 • 08455 -. «Analizar. Ibenef I (Figura 4.12881 -. En él.69760 23.1 ) rbenN.01889 -.24 1746 1755 17.94957 18.10).-' SP55 . - ayude Furm I Raa ^ Orden 17-- ^ Penodddadadual 12 Results of SEASON procedure for variable BENEF Missing Result Values First Last Valid Creating Variable Replaced Non-Miss Non-Miss Cases Function _ LBENEF_1 288 287 LAGSIBENEF. Bivariadas» (Figura 4.^ F luía 1.22542 22.13736 11158 .33791 21 71831 22.19 29 32 24 22 I 1 JAN 1978 2 FEB 1978 3 MAR 1978 4 APR 1978 5 MAY 1978 6 JUN 1978 7 JUL 1978 1 8 AUG 1978 I 9 SEP 1978 I 10 OCT 1978 T 11 NOV 1978 12 DEC 1978.11).02766 . La nueva variable Ibenef I la podemos observar en el visor de datos (Figura 4.17278 2359195 23.65148 25 97591 _ 04913 -. nd perodc s^ MONTH percd 12 s^ Ene la BENEF bota S Seas ad ser le BENEI .45423 18.13).41009 16 8254E1 17.00289 .. En el recuadro donde tenemos que introducir el nombre de la nueva variable creada cambiamos el nombre para que no nos borre la variable anterior.81 20 32 20 76 21. Correlaciones.82 26.38506 19.07402 -. Si aceptamos.05331 -.738ú0 25 32709 25.92 IESILIEIÍI 1 PIITII IE SPSS • EStadstica aplicada al turismo EJEMPLI OE EJEMPLO 1E IESOLIEIÍI 1 P11111 OE SPS bevel 1 2 3 4 5 6 7 8 9 lO 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 1608 16 19 1638 16 67 17.82948 21.80 24.15757 .75685 2222253 22.07%7 00822 03504 sas_1 16 01310 I sal 1 OE: -18252 21340 26191 17052 65009 -.09914 19. i J Nueves eeiabler Para crear la función retardos de la variable original se accede al mismo menú («Transformar. obtendremos una salida en el visor de resultados muy similar a la obtenida al crear la variable Benef I.15487 17 46318 17 76608 18 00693 18.26327 06282 18252 21340 .33148 24.51 24. : Nam6re I : -.

1 09462 05761 • 07402 ^ . 16 41009I 16 82548 7.62848 20 10560 20 50109 20 82948 21 33791 21 71831 I 05009 .1874.. I _1 OE? Eaaew.-. .03851 2 FEB1979 155 20 32 1979 MAR 1979 APR 1979 MAY 1979 JUN 1979 JUL 1979 J .67 1700 17 24 17 46 1755 17 79 1844 18..4ledts vet-ewe aI^IsIJ . u2811 19/0 1979 .05009 . I_J r= I m Jr date 1 3 4 5 6 r' ^Ir1^1 2'^ sae 1 16 01318 16 00348 16 16660'. 18 79' 19 031.03988 08434 02220 01889 .09833 02282 .fapifulo 4 Introducción al análisis de series temporales 93 p EJEMPLI If IESILIfIÍI 1 P11111 c SPSS • EJEMPLI 1E IESILIfIÍI 1 flllll IE SPSS Ardv:o EdrtM Ver (Wow I Trens/nm. Modelo leed pener d Models.66 18 % 19. (iehcos V.18742 -.05833 net JAN 1978 1978 1978 1– 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1979 1980 1983 1980 1980 1980 1983 2FEB 1638 1667 1700 17 24 17 46 1755 17 79 18. 20 08:4 20 48220 20 887821 19.41 1981 20 76 21 00 21 39 21 67 year 1976 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 1979 1979 1979 1979 1979 1979 Retaso topined aas4ce Reducodn de datos (scares p ruebes no pee sndtrices Sra ten opte$ Supernuenoe Respuest as Restyles ¡ mon Tabas Ccerpwat matt.ros eeeoar-oe 1 S nel_1 beset 16 GB 1619 16.03946 -.05331 17 11 UtL 1 JAN 3 4 5 6 7 Aram de vetoes perdidos. '7 4E: 177F: 18 03i 18 454.' 19 3c= 1971.12881 26327 06282 18252 21340 26191 17052 '6 81-.39 2167 2204 22 54 2302 2356 23. 21 31509 21 75685 18252 21340 26191 19 71282 20 08340 20 48220 40 51 1941 19 81 2032 3376 21 00 21 39 sal_1 06282 18252 21340 26191 17052 .18991 17 512311 17 73842 17 94957' 18 565811 19 12727 19 34518 19 628481 20 10%13 20 501091 20 829481 2134_ 26191 1705.15757 .44 1866 1886 1941 19. 0500'= 0533 .51 24% 25.08434 02220 01889 . 1981 20 32 20 76 21 00 21 39 21 67 22 04 16 % I s Ina p^^— banal 1608 2 3 4 16 19 year_ 1978 month_ err. de dra pe AVMs devesle 7 JUL 1980 26 37531 ll a l Ovss iEi d«esadr ese wneedo 01968 1No me a11alaI N I .7 15-.. 16 19 1638 1667 1700 1724 174€ 1757 1779 - 7 7 JUL 1978 8 AUG 1978 9 SEP 1978 10 OCT 1978 11 NOV 1978 12 DEC 1978 8 9 10 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 18 81289 115089 JAN 3 4 5 1979 2 FEB 1979 MAR 1979 APR 1979 MAY 1979 JUN 1979 JUL 1979 AUG 1979 SEP 1979 OCT 1979 NOV 1979 DEC 1979 JAN 1980 2 54 23 02 2356 23 80 24 14 24 51 24 95 2559 25 82 FEB MAR APR 1980 1980 1980 31 26 32 1980 =ma.e lvtln. '.59 25 82 26 03 5 6 MAR 1978 APR 1978 MAY 1978 JUN 1978 '624.07%7 00822 03504 04913 • 027661 13736: 11158 02182 02813 .38 16.81289 19 1272 19 34518 19.80 24 14 24. • 16 82548 17 18991 17 738421 • • 17 94957 18 56581 18..0533.15757 stc_1 15 91856 16 06109 16 24062' 16 48976 16 81726 17 15487 17 46318 17 76608 18 08693 I I 1 I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 17 18 19 17512317.81 20 32 20 76 2100 21. mitos t l band 1 mend 1 1608 19 29 32 1619 va sas_1 16 01318 pacaks.

6.3 Se pide: Se pide: Encuentre los valores predichos de la serie para el primer año de celebración de los juegos.7 19.6. introducimos las series Benef y lbenef I (Figura 4.5 27. Observamos una autocorrelación muy elevada. teniendo en cuen- a) Descomponga dicha serie temporal en sus componentes no observados.2 29.14).3 + 6. 4.1.4 30. Se conoce el precio de las comidas servidas en diversos restaurantes de León durante las siguientes estaciones y años (en euros): 46.4 27. La tendencia viene dada por la siguiente recta de regresión: T = 342. Primavera Verano 18 18.5 23.6 18.1) 1 0001") ^ ^ .4 21.9 1.r Uridad 000 287 287 17 Maca es ayLCatrcas las co rr ela cion Fqarra 4 1. Calcule la tendencia por los dos métodos que ya conoce (determinista y evolutivo).7 21 17. de su pasado anterior más inmediato.1. l .2.1 18.94 EJEMPLO lE IESILILIÍI I P1 Esladíshca aplicada dl rl)nsmO 1111 IE SPSS • EJEMPLO OE RESOLItIÓI Correlaciones I P11111 DE SPSS VaieMec . La salida que nos muestra SPSS es la de la Figu- ra 4. Ejercicios propuestos w Ejercicios hpo ta la tendencia y la variación estacional. Calcule igualmente la predicción para los juegos del año 2004 que se celebrarán en Mataró..3 18.MDIIiH Va+r. Seguramente el componente que determina de forma más relevante el beneficio neto que la agencia extrae por dicho producto es el contrato que tiene con la emisora de radio. La serie depende en gran medida de sí misma.2. Los coeficientes de variación estacional vienen dados en la Tabla 4. A continuación.Eaeeoaves de condensan-- Ñ Pesan r Taub de r Bieldar Cendal r 288 1 0000 000 287 1 LAGS (BENEF.8 19.5 22.d 7 '2J slESEIau' i: acwa Pegar Erra la BE IIEF ho f Seo.15.7t (donde res el número de trimestre desde I a 20).1) Soeannen - Prueba deegJr. de orden unitario y totalmente significativa.7 • Otoño Invierno 3 4 0.01 Ibrlaterall 1 LAGS IBENEF. Se ha analizado la serie temporal correspondiente a los empleos netos creados por los juegos europeos del deporte y la salud en los últimos cinco años a partir de los datos trimestrales de los distintos países donde se han celebrado.ecíón . 4. por tanto. Dichos contratos se suelen ir renovando condiciones muy similares a las del último contrato firmado. La variable Benef depende._. eg ea la BE i Seas lactas la BE Trerácyck fa BEr a j DIFFIBEHEE 1] [te BENEF BENEF Correlation de Pearson Sig (bilateral) N Correlaclon de Pearson Sig (bilateral) N La correlación es significativa al nivel 0.

5 6.5 4.4 6. b) La serie desestacionalizada. al b) La gráfica de la serie.7 a.6 4.esl tiene un link a todas ellas.ine.6 4. e) Desestacionalice la serie temporal. di 1998 1999 2000 2001 Pnmacera \ tirano Otoño Invierno 10. h 11 6. Se pide: 463Una agencia de viajes de Madrid declara los ingresos que obtiene según la estación del año. Calcule la tendencia por el método de las medias móviles. Bájese alguna de las series que hacen referencia al sector turístico. d) Comente la existencia de autocorrelación en la serie.4 4. La descomposición temporal de la serie que haya escogido. 4.idescates).3 a sa 10.Capítulo 4 Introducción al análisis de series temporales 95 EJEI[IEIIS IIIIIESTIS • EJEItIEI1S IIIIIESTIS Ejercicio con SPSS • EJEItI[I1S IIIIIESTIS b) Obtenga el índice de variación estacional.8 ' En la Web del Instituto Nacional de Estadística (www. Calcule: e) La serie desestacionalizada y comprueba si la serie presenta autocorrelación. a) Los componentes de dicha serie temporal. durante el período 1998-2001 en millones de euros (Tabla 4. . e) Represente gráficamente el índice de variación y la serie desestacionalizada. La gráfica de la serie desestacionalizada y del índice de variación estacional.41. Calcule la tendencia por los dos métodos que ya conoce (determinista y evolutiva).64 Entre en la \\eb del Instituto de Estadística de su comunidad autónoma' (por ejemplo la web para Cataluña es www.9 u.v 6.

2001. Thomson-P araninfo. y UÑA JUÁREZ. Alianza editorial. SPSS Gráficos interactivos 10.0. Estadística: modelos y métodos. Prentice Hall. TOMEO PERUCHA. 1995. PÉREZ. 2001. Lecciones de Estadística descriptiva: curso teóricopráctico. Manual de Estadística descriptiva aplicada al sector turís- tico. Editorial Síntesis. D. Técnicas de investigación aplicadas al sector turístico. IGLESIAS. 1991. Alianza editorial. I. SPSS Base 11.Bibliogra is K FERNÁNDEZ AGUADO. C. A. Edito ri al Síntesis. 2001. PEÑA. — Estadística para ciencias sociales.0: Manual del usuario. . J. 2003. Carmen. V. Técnicas estadísticas con SPSS.

37 . 24 Medidas de apuntamiento. 87. 70 Covarianza. 55 Cuarto decil (D. 29 de Pe arson. 56 y correlación. 26 de dispersión o nube de puntos. 13 relativa. Índice oaIftico Atributos.). 12 acumulada. 56 de determinación o bondad del ajuste. 31 estacional. 55 de sectores. 13 C Coeficiente de contingencia C. 12 Diagrama de barras. 16 Mediana: Me. 30 Correlaciones. 60 de Fisher. 21. 15 de caja. 29. 15 de tallo y hojas. 92 Frecuencia absoluta. 65 de correlación lineal r. 35. 24. 64 Autocorrelación. 12 de corte transversal. 31. 30 L Datos. 12 temporales. 12 acumulada. 12 de panel. 25 Curva de concentración o curva de Lorenz. 32 Histograma. 90 D Ley normal. 36. 38 de centralización. 64 o variables cualitativas. 15 Índice de Gini.

exógena o explicativa. 36. 25. 24. 54 Tendencia-ciclo. 11 dependiente. 29 Tercer cuartil (C3). 84. 16 aritmética ponderada. 58. 25 V .P Pictograma. 84. 57 Estadística aplicada al turismo S Series temporales. 22 Muestra. 57 independiente. 15 Polígono de frecuencias. 61 T Tablas de doble entrada o de contingencia. 27 intercuartílico. 27 recorrido. 57 Variación estacional. 23 deciles. 10 Muestreo aleatorio estratificado. 38 desviación media respecto de la mediana. 91 irregular. 91 Suma de cuadrados explicada. 29. 29. 20 Moda: Mo. 11 cuantitativa. 65 Variable cualitativa. II continua. 38 de tendencia central. 11 Regresión lineal. 24 Tipificación de una variable. I I simple. 11 por aglomeración. 63 simple. 27 típica. 91 Teorema de Tchebychev. 10 sistemático. 23 percentiles. 89 ciclo. 84. 16 Pri mer cuartil (C 1 ). 35. 30 de dispersión. 23 de simetría. 65 . 30 de curtosis o apuntamiento. 23. 17 geométrica. 37 cuartiles. 29 N Nonagésimo percentil (P90).100 de concentración. 36. 84. 66 de Y sobre X. 71 múltiple. 25 V de Cramer. 91 tendencia. 91 estacional. 12 discreta. 24. endógena o explicada. 27 de posición. 27 varianza. 84. 59 x2 de Pearson. 61 total. 61 no explicada o suma residual. 16 media aritmética. 86 R K Recta de regresión.

C .

el texto se orienta al sector turístico por varias razones: Resulta especialmente motivadora la escasa presencia de textos de índole cuantitativa realmente orientados al A sector. y relacionado con los puntos anteriores. • En segundo lugar. en particular. la estadística descriptiva. el paquete estadístico de mayor generalización.pearsoneducacion. ¿por qué no para los profesionales del sector turístico? El presente libro trata a nivel intermedio los tópicos que la mayoría de textos de dicha temática suelen presentar: • En primer lugar. tratando de forma directa la utilidad que confieren los instrumentos estadísticos a la gestión hotelera. Así. Por último. presenta como objetivo esencial la ayuda a la hora de tomar decisiones. evidentemente. Y si la estadística descriptiva resulta tremendamente útil para científicos. el texto se acompaña de la implementación y solución de diversos problemas a partir de. de forma que el lector aprenda a utilizar el paquete en dicho entorno. a las consultoras turísticas entre otros profesionales del sector. de tomar decisiones. intenta ofrecer una exposición clara y sencilla de los principales conceptos estadísticos sin menoscabar el rigor matemático propio de la materia.TUR ISM O Y HOS TELER Í Estadística Aplicada al Turismo José María Raya Con toda seguridad la mayoría del conocimiento que adquirimos. PEARSON Educación www. a interpretar sus salidas y sea capaz. Esta finalidad es especialmente evidente cuando tomamos en consideración cualquier técnica cuantitativa. cada capítulo viene acompañado de una sección en la que se practica la obtención de todas las tablas. en la académica como en la empresarial: el programa SPSS. utilizado tanto en la esfera pública como en la privada.co . tanto de índole teórica como práctica. Este hecho se mitiga durante el texto incluso en forma de casuística real debidamente disfrazada. probablemente. por tanto. gráficos y estadísticos vistos en el mismo a partir de una base de datos con evidente orientación turística. ingenieros o economistas. a las agencias de viajes o.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->