Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2008
Gua didctica de Estadstica Descriptiva para las Ciencias Sociales Rafael Dez Garca, Vicente Coll Serrano y Olga M Blasco Blasco
Diseo de cubierta: Rafael Dez Garca Vicente Coll Serrano Olga M Blasco Blasco Reservados los derechos para todos los pases. De conformidad con lo dispuesto en el artculo 270 del Cdigo penal vigente, podrn ser castigados con multas y privacin de libertad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artstica o cientfica fijada en cualquier tipo de soporte sin la preceptiva autorizacin. Ninguna parte de esta publicacin, incluido el diseo de la cubierta, puede ser reproducida, almacenada o transmitida de ninguna forma, ni por ningn medio, sea ste electrnico, qumico, mecnico, electro-ptico, grabacin, fotocopia o cualquier otro, sin la previa autorizacin escrita por parte de los autores.
ISBN: Depsito Legal: Maquetacin: Rafael Dez Garca Vicente Coll Serrano Olga M Blasco Blasco
ndice
ndice analtico.
Pgina
TEMA 1. INTRODUCCIN.
Ficha del tema 1. Objetivos de aprendizaje. Bibliografa bsica para complementar el tema. Programacin de la gua didctica: 1.1. Estadstica: concepto, contenido y relaciones con el rea econmica y empresarial. 1.2. La investigacin estadstica. Anlisis descriptivo, modelizacin e inferencia. 1.3. Datos estadsticos: naturaleza, descripcin numrica y representacin grfica. Conceptos clave. Ejemplos. 16 17 18 19 28 32 43 44
7 Pgina
Bibliografa bsica para complementar el tema. Programacin de la gua didctica: 2.1. Principales medidas de posicin, dispersin y de forma o perfil. 2.2. Transformaciones lineales y tipificacin de variables. 2.2.1. Transformaciones lineales. 2.2.2. Tipificacin de variables. 2.2.3. Regla de Tchebysheff. 2.3. Otras medidas de posicin: moda y cuantiles (mediana). Conceptos clave. Ejemplos.
55 56 76 76 83 86 88 95 96
ndice analtico.
Pgina
9 Pgina
10
ndice analtico.
Pgina
Programacin de la gua didctica: 6.1. Introduccin. 6.2. Tasas de variacin. 6.3. Nmeros ndices: clasificacin y propiedades. 6.3.1. Definicin y clasificacin. 6.3.2. ndices simples. 6.3.3. ndices complejos. 6.3.4. Propiedades. 6.4. ndices de precios y cantidades ms importantes. 6.4.1. ndice de precios complejo ponderado. 6.4.2. ndice de cantidad complejo ponderado. 6.4.3. ndice complejo de valor. 6.5. Cambio de base, renovacin y enlace. 6.6. Deflactacin de series estadsticas. Conceptos clave. Ejemplos.
227 229 230 230 231 233 236 237 239 240 241 242 244 248 249
11 Pgina
Objetivos de aprendizaje. Bibliografa bsica para complementar el tema. Programacin de la gua didctica: 7.1. Introduccin. 7.2. Componentes de una serie. Descomposicin. 7.3. Anlisis de la tendencia. 7.3.1. Tendencia anual. 7.3.2. Tendencia k-esimal. 7.4. Anlisis de la variacin estacional. Desestacionalizacin. 7.4.1. Obtencin de los IVE. 7.4.2. Desestacionalizacin. 7.5. Prediccin. Correccin por estacionalidad. 7.5.1. Prediccin de la tendencia. 7.5.2. Correccin por estacionalidad. Conceptos clave. Ejemplos.
257 258
259 260 262 265 267 270 272 275 276 276 277 278 279
12
PRLOGO
El texto de Estadstica que se presenta con el nombre de Gua Didctica de Estadstica Descriptiva para las Ciencias Sociales, tiene una estructura que lo sita entre un conjunto de fichas resumen de los contenidos de una materia y un libro de texto. Es mucho ms amplio que un mero resumen de conceptos y frmulas, pero no supone un desarrollo exhaustivo de los epgrafes de una programacin; tampoco contiene demostraciones salvo alguna conveniente excepcin. No por ello deja de ser un texto riguroso y sistemtico, ajustado a una programacin. Hemos diseado esta Gua didctica de forma que su contenido sirva de refuerzo a la clase presencial de un curso de introduccin de Estadstica. La Gua Didctica pretende ser un texto que acompae y encamine a los estudiantes en el estudio de la materia, aportndoles informacin concreta y precisa sobre los conceptos clave y tcnicas de la Estadstica Descriptiva. Cada uno de estos conceptos viene acompaado por ejemplos ilustrativos que ayudarn al estudiante a asimilarlos.
13
Se encuentra tambin disponible, como material complementario de esta Gua Didctica, las Fichas Tcnicas de Estadstica Descriptiva para las Ciencias Sociales. Cmo utilizar la Gua Didctica de Estadstica Descriptiva para las Ciencias Sociales. La Gua Didctica se compone de un total de 7 temas. En cada tema se facilita una ficha que presenta su estructura-organizacin: Objetivos de aprendizaje. Bibliografa bsica para complementar el tema. Programacin del tema. Conceptos clave. Ejemplos. Los apartados de la ficha estn hipervinculados. Tambin estn vinculados los ejemplos propuestos que aparecen en el desarrollo de los epgrafes de cada tema. Observar que el puntero de ratn cambia de forma. Al hacer clic sobre el texto vinculado se acceder a la parte del documento donde se desarrolla el contenido.
14
Esperamos que los contenidos tratados en la Gua Didctica de Estadstica Descriptiva para las Ciencias Sociales resulten de utilidad al lector.
Contacto con los autores: Rafael Dez Garca: Rafael.Dez@uv.es Vicente Coll Serrano: Vicente.Coll@uv.es Olga Blasco Blasco: Olga.Blasco@uv.es
TEMA 1
INTRODUCCIN
16
Introduccin.
17
OBJETIVOS DE APRENDIZAJE. Conocer y distinguir las dos ramas bsicas de la estadstica, la estadstica descriptiva y la inferencia estadstica, intuyendo como interacciona entre ambas la teora matemtica de la probabilidad creando modelos. Distinguir entre datos de tipo cualitativo y cuantitativo, discreto y continuo, aprendiendo a ordenarlos en distribuciones de frecuencias agrupadas y sin agrupar. Construir histogramas y polgonos acumulativos partir de una distribucin de frecuencias agrupada en intervalos.
18
Introduccin.
BIBLIOGRAFA BSICA (teora y problemas) ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005. Tema 1. (Con ejercicios, cuestiones de autoevaluacin y problemas resueltos y propuestos). MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997. Captulos 1 y 2.
19
1.1. ESTADSTICA: CONCEPTO, CONTENIDO Y RELACIONES CON EL REA ECONMICA Y EMPRESARIAL. Ejemplo introductorio. Se ha contabilizado el nmero de das de baja, durante un trimestre, de los trabajadores de dos empresas obtenindose los siguientes resultados: DATOS empresa A 0 2 1 1 3 2 0 1 5 2 2 3 3 2 1 4 2 2 1 3 DATOS empresa B 0 1 1 2 9 1 0 0 1 1 0 0 1 1 0 1 1 1 9 9 9 0 0 1 0 0 1 1 9 0 Compara el nmero de das de baja en las dos empresas: Distribucin frecuencias. Media aritmtica Varianza
20
Introduccin.
La ESTADSTICA, como ciencia, compara series de datos y ayuda a tomar decisiones ante lo incierto, es decir, a resolver casos de incertidumbre. La informacin estadstica se utiliza muy a menudo para validar o avalar que las decisiones que pretendemos tomar son las ms verosmiles o probables.
21
Frecuencia
2 5 7 4 1 1 20
7 5
Porcentaje
10 25 35 20 5 5 100
Porcentaje acumulado
10 35 70 90 95 100
4 2 1 1
n das de baja A
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
22
Introduccin.
Frecuencia 11 13 1 5 30
13
n das de baja B
23
24
Introduccin.
DATOS EMPRESA A Media 2,00 Varianza 1,5 Desviacin tpica 1,22 DATOS EMPRESA B Media 2,00 Varianza 10,0667 Desviacin tpica 3,17
25
La Estadstica tiene aplicaciones importantes en el mbito de la economa y la empresa: ECONOMA: el anlisis de datos generados por variables como la productividad econmica, inflacin, tipos de inters, empleo desempleo.... James Hechman y Daniel McFadden compartieron el premio Nobel de Economa en el ao 2000 por desarrollar mtodos de anlisis de datos estadsticos, utilizados actualmente para estudiar comportamientos individuales en economa. Se utilizan mtodos estadsticos para construir ndices como el IPC, para medir y predecir la inflacin. Asimismo, la estadstica es una herramienta indispensable para la econometra y el anlisis de series temporales (estudio de variaciones estacionales y cclicas de magnitudes econmicas). El premio Nobel de Economa de 2003 lo ganaron Robert Engle, por desarrollar mtodos de anlisis de series temporales con volatilidad variante en el tiempo (ARCH) Y Clive Granger por sus trabajos en el anlisis de series temporales con tendencias comunes (cointegracin).
26
Introduccin.
DIRECCIN DE EMPRESAS: se utilizan mtodos de control de calidad estadsticos para dirigir y perfeccionar constantemente el proceso de produccin y por consiguiente el rendimiento de la compaa. En 1986 W. Edwards Deming y otros abogaron por una filosofa total de la calidad con un perfeccionamiento continuo de la misma. CONTABILIDAD, AUDITORA: toma de decisiones en cuanto al estado de las cuentas, liquidez de las empresas, inventario... etc., basndose en el anlisis estadstico, donde los datos a analizar son las tasas de variacin de las finanzas (cuentas de la empresa). Los anlisis estadsticos pueden demostrar si las tasas de variacin de las finanzas en algunas empresas difieren significativamente de las que son tpicas o usuales en el grupo industrial de empresas determinado. Los directivos de las empresas, los inversionistas y los empleados deben estar interesados en conocer este tipo de resultados ya que las compaas con unos ndices de variacin en sus finanzas atpicos suelen ir a la quiebra.
27
GESTIN Y RECURSOS HUMANOS: evaluar y comparar la capacidad de colectivos de trabajadores para realizar tareas (reparto de tareas), utilizar resultados de un test de aptitud para complementar la informacin subjetiva de los candidatos a un empleo. MARKETING: los fabricantes de productos de consumo dirigen la investigacin en marketing a recoger y analizar datos relacionados con las tcnicas de venta y distribucin de bienes y servicios. La investigacin en marketing a menudo incluye el mercado potencial y estudios de la cuota de mercado, investigacin acerca del producto, de la promocin y distribucin. Utiliza cuestionarios y encuestas por correo, telfono o entrevista personal para obtener informacin que ayude a las empresas a decidir si deberan y cmo deberan poner un producto en el mercado.
28
Introduccin.
1.2. LA INVESTIGACIN ESTADSTICA. ANLISIS DESCRIPTIVO, MODELIZACIN E INFERENCIA. Podemos distinguir tres fases implicadas cuando se aplica el mtodo estadstico: 1. MUESTREO: LA RECOPILACIN DE LOS DATOS SIN ELABORAR.
MUESTRA
ALEATORIA
DE
TAMAO ADECUADO.
29
2. ESTADSTICA DESCRIPTIVA: presentacin en informe. El objetivo de la Estadstica Descriptiva es describir un conjunto de datos: ORDENAR LOS DATOS RECOPILARLOS EN TABLAS ESTADSTICAS: DISTRIBUCIONES DE FRECUENCIAS. GRFICOS DE LA DISTRIBUCIN DE FRECUENCIAS. CLCULO DE ESTADSTICOS: RESUMEN DE DATOS. INTERPRETAR RESULTADOS: PRESENTACIN INFORME. El organizar los datos de forma tal que se puedan ver las tendencias y normas, se pueda dibujar grficos, calcular estadsticos y redactar informes se llama ESTADSTICA DESCRIPTIVA.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
30
Introduccin.
Estadstico: una medida que se pueda calcular a partir de los datos reales generados por una variable y que resuma y d una propiedad de ese conjunto de datos.
31
3. INFERENCIA ESTADSTICA: exposicin de predicciones y toma de decisiones. El objetivo de la Inferencia Estadstica es hacer afirmaciones sobre la POBLACIN basadas en la informacin disponible en la MUESTRA. PREDICCIN. PROBABILIDAD. ESTIMACIN DE PARMETROS. Parmetro: propiedad de la poblacin. TOMA DE DECISIONES. Al no haber absoluta certeza de la veracidad de tales afirmaciones sobre la poblacin, se ha de utilizar el trmino PROBABILIDAD como una medida de la incertidumbre de esas conclusiones: el propsito de la estadstica es ayudar al que toma la decisin a tener razn ms veces que lo contrario. Darle una idea sobre el peligro que hay de que no tenga razn cuando toma una decisin particular.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
32
Introduccin.
CARCTER: el aspecto, fenmeno, propiedad que se desea estudiar de la poblacin. MODALIDAD: diferentes formas de manifestarse el carcter. VARIABLE ESTADSTICA
DATOS
xi
33
1.3.1. Clasificacin de los DATOS (VARIABLES) por su NATURALEZA. CUALITATIVOS: MODALEDADES no numricas, CATEGORAS VARIABLES CUALITATIVAS: ORDINALES NOMINALES o ATRIBUTOS CUANTITATIVOS: MODALIDADES numricas, VALORES VARIABLES CUANTITATIVAS: DISCRETAS CONTINUAS Ejemplo 1.1. Ejemplo 1.2. Ejemplo 1.3.
34
Introduccin.
VARIABLE
( xi )iN=1
x1 , x2 ,L , x N
( xi )
k i =1
DISTRIBUCIN DE FRECUENCIAS
35
SIN AGRUPAR:
36
Introduccin.
ni Ni
(frecuencia absoluta)
Ni = n j
j =1
= 1, 2,, k)
FRECUENCIAS RELATIVAS:
fi Fi
ni fi = N
i
(frecuencia relativa)
fi 100
porcentaje
Ni Fi = f j ; Fi = j =1 N
Fi 100
porcentaje
acumulado
37
VARIABLE X : ( xi , n
k i i =1
Tabla estadstica: valores diferentes ordenados de menor a mayor y frecuencia. Ejemplo 1.4.
38
Introduccin.
Distribucin de frecuencias AGRUPADA EN INTERVALOS. Cmo agrupar en intervalos muchos datos diferentes: Observar valor mnimo xm y valor mximo xM. Recorrido de la variable (amplitud total):
Re = x M x m
Re a= k
39
a i = Li Li 1 .
Ejemplo 1.5.
40
Introduccin.
DATOS AGRUPADOS:
41
HISTOGRAMA (grfico de REA) Rectngulos yuxtapuestos. Un rectngulo para cada intervalo. rea de rectngulo representa la frecuencia del intervalo. Altura de rectngulo i - simo:
ni densidad de frecuencia d i = ai
fi di = ai
Si la amplitud de todos lo intervalos es la misma (a constante), la altura de cada rectngulo puede ser la frecuencia del intervalo.
Ejemplo 1.6.
Rafael Dez, Vicente Coll y Olga Blasco
Ejemplo 1.7.
ndice
Ficha
42
Introduccin.
ni di = ai
densidad frecuencia
HISTOGRAMA
rea ni
ai Li 1 Li
Intervalos
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
43
Conceptos clave. Datos de naturaleza continua. Datos de naturaleza discreta. Densidad de frecuencia. Distribucin de frecuencias agrupada. Distribucin de frecuencias sin agrupar. Estadstica Descriptiva. Frecuencia absoluta acumulada. Frecuencia absoluta. Frecuencia relativa (porcentaje). Frecuencia relativa acumulada. Histograma. Inferencia Estadstica. Intervalo. Marca de clase. Polgono acumulativo. Variables cualitativas. Variables cuantitativas.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
44
Introduccin.
EJEMPLOS.
Ejemplo 1.1. Clasifica las siguientes variables en cualitativas o cuantitativas, identificando posibles valores de esas variables y elementos de la poblacin o muestra sobre la que observaramos o mediramos la variable: a) Edad b) Forma de pago al realizar una compra c) Estado civil d) Nmero de habitaciones por casa e) Salario mensual percibido por los supervisores de ventas de una consultora. f) Medio de transporte utilizado para ir a clase por los estudiantes del campus de Tarongers
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha Texto
45
g) Grado de riesgo de los fondos de inversin de una entidad financiera (1 = riesgo menor, 5 = riesgo mayor) h) Dimetro de las tuercas que produce una mquina. (Las tuercas deberan tener todas 6 mm de dimetro) i) Nmero de defectos encontrados en n ordenadores porttiles fabricados durante un mes.
46
Introduccin.
Ejemplo 1.2. Indicar de las variables siguientes cuales generaran datos discretos y cuales datos continuos: a) Nmero de acciones vendidas cada da en un mercado de valores. b) Temperaturas registradas cada media hora en un observatorio. c) Censos anuales del colegio de profesores. d) Longitud de 1.000 cerrojos producidos en una fbrica. e) 30 analistas financieros dan una prediccin de las ganancias por accin (en euros) de cierta empresa para el ao prximo.
47
Ejemplo 1.3. Preguntadas 300 personas acerca de su estado civil, 145 contestaron estar solteras, 100 casadas, 30 divorciadas y 25 viudas. a) Identifica la variable estadstica (V.E.) y clasifcala, modalidades del carcter. b) Clasifica la V.E. en una tabla estadstica o distribucin de frecuencias: obtener frecuencias absolutas, relativas y acumuladas. Solucin: a) X: Estado Civil. Variable cualitativa con cuatro modalidades: Soltera, Casada, Divorciada, Viuda.
48
Introduccin.
Ejemplo 1.4. El departamento de prevencin de riesgos laborales de una gran empresa de la construccin ha recogido informacin sobre el nmero de accidentes laborales diarios con baja laboral que se han producido durante los 44 das siguientes a la aplicacin de nuevas normas de seguridad, obteniendo los siguientes resultados: Nmero de accidentes diarios 44 das) 2 1 0 3 3 4 4 3 7 4 4 1 0 4 2 4 0 2 2 4 3 2 0 3 0 3 5 1 5 0 0 3 0 7 5 4 5 3 9 3 10 3 0 9 Obtener: a) La tabla estadstica o distribucin de frecuencias. b) Diagramas de barras (con frecuencias absolutas y relativas). c) Diagrama en escalera o acumulativo.
49
Ejemplo 1.5. El departamento de personal de una empresa aplica un test de habilidad mental a sus empleados con el objetivo de seleccionar a un nmero determinado de ellos para la realizacin de ciertas tareas. Las puntuaciones obtenidas han sido las siguientes: 43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51 48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30 40 39 42 30 35 40 38 36 46 45 68 50 69 69 a) Forma una distribucin de frecuencias con 7 intervalos. b) Histograma.
50
Introduccin.
Ejemplo 1.6. Dada una distribucin con 128 valores: a) Determnese, mediante la frmula de Sturges, el nmero de intervalos en que puede agruparse. b) Si el recorrido de la distribucin es de 48 unidades, cul ser la amplitud de cada intervalo?. Solucin: a) K= 8 ; b) 6
51
Ejemplo 1.7. Al representar mediante un histograma la siguiente distribucin de frecuencias: Intervalos 0-10 10-50 ni 100 200
El intervalo de 0 a 10 se representa por un rectngulo de 18 cm. de altura Cul debe ser la altura del intervalo de 10 a 50? vas.
TEMA 2
ANLISIS DE DATOS UNIDIMENSIONALES
53
54
OBJETIVOS DE APRENDIZAJE. Aprender a calcular e interpretar los estadsticos descriptivos ms importantes. Conceptos de dispersin absoluta y dispersin relativa. Comparar dispersin y datos tipificados entre dos o ms variables. Informacin que aportan la media y la varianza en cuanto a la distribucin de los datos de una variable alrededor de la media (Regla de Tchebysheff). Estudiar cmo se ven afectados los estadsticos y coeficientes al transformar linealmente los datos de una variable.
55
BIBLIOGRAFA BSICA (teora y problemas) ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005. Tema 2. (Con ejercicios, cuestiones de autoevaluacin y problemas resueltos y propuestos). MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997. Captulos 3 y 4.
56
2.1. Principales medidas de posicin, dispersin y de forma o perfil. 2.1.1. Principales medidas de posicin y dispersin. POSICIN: LA MEDIA ARITMTICA. Variable estadstica con N datos en total
X : (x
N i i =1
1 N x = xi N i =1
Distribucin de frecuencias
X : ( xi , n
Tambin:
k i i =1
1 k x = x i ni N i =1
x = xi f i
i =1 k
x i m.d .c.
Rafael Dez, Vicente Coll y Olga Blasco
ndice
Ficha
57
N 1 , N 2 ,L ,N p
con
Nj = N
j =1
y medias
x1 , x2 ,L , x p ,
la me-
1 p xT = x j N j N j =1
ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2006.
58
CONSIDERACIONES SOBRE LA MEDIA. 1. La media es un resumen de los N datos de la variable (PROMEDIO). Datos homogneos (cercanos a la media), media representativa. Datos heterogneos (alejados de la media, extremos), media no representativa. 2. La media es un ESTADSTICO de tipo ABSOLUTO que tiene la misma unidad de medida que la variable. Adems su valor estar dentro del recorrido de la variable:
Re : x m a x M
59
X : (x
N i i =1 ,
amplitud, diseminacin o VARIABILIDAD de los DATOS, en su conjunto. Miden la posicin que ocupan los datos respecto a un punto de inters que tomamos como referencia. La referencia ms apropiada, ptima para la varianza, es la media aritmtica, por ser el centro de gravedad de la distribucin.
60
VARIANZA
s2:
X : (x
2
media de los cuadrados de las desviaciones de los datos a su media. Variable estadstica con N datos en total:
N i i =1
1 N 2 s = ( xi x ) N i =1
Distribucin de frecuencias:
X : ( x i , n i )i = 1
k
1 k 2 s = ( x i x ) ni N i =1
2
Tambin:
s = ( xi x ) f i
2 2 i =1
61
s:
2. Se demuestra que:
o bien
1 k 2 s = x i ni x 2 . Esta N i =1
2
expresin resulta til para el clculo de la varianza sobre una distribucin de frecuencias. Ejemplo 2.1.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
62
s2
s,
estadstica sobre la VARIABILIDAD de los DATOS en relacin a su media. Nos dar informacin acerca de la homogeneidad o heterogeneidad de los datos en relacin al valor medio de los mismos.
homogneos.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
63
64
: ( x i )i =1 ,
N
su media
x 0
y su desviacin tpica
s,
se
g0 =
s |x|
Habr mayor dispersin relativa donde g0 sea mayor. Ejemplo 2.2. Ejemplo 2.3. Ejemplo 2.4.
65
2.1.2. Momentos. Dada una variable estadstica se definen: MOMENTOS ORDINARIOS DE ORDEN p
X : (x
N i i =1 ,
X : ( xi , n
k i i =1
con su media
x,
1 N p a p = xi N i =1
1 k p a p = x i ni N i =1
con p entero p 0
1 N p = 1 a1 = xi = x N i =1 1 N 2 p = 2 a2 = xi N i =1
Rafael Dez, Vicente Coll y Olga Blasco
(media)
ndice
Ficha
66
1 N p m p = ( xi x ) N i =1
1 k p m p = ( x i x ) ni N i =1
1 N = ( xi x ) = 0 N i =1 1 N 2 = ( xi x ) = s 2 N i =1 1 N 3 = ( xi x ) N i =1 1 N 4 = ( xi x ) N i =1
con p entero p 0
p = 1 m1 p = 2 m2 p = 3 m3 p = 4 m4
( varianza)
67
LA VARIANZA EN FUNCIN DE LOS MOMENTOS. En funcin de la segunda propiedad dada para la varianza y de las definiciones de los momentos ordinarios y centrales se tiene que:
1 N 1 N 2 2 s = m2 = ( xi x ) = xi x 2 = a 2 a12 N i =1 N i =1
2
68
2.1.3. Medidas de forma o perfil. ASIMETRA: perfil horizontal de la distribucin. La media es el c.d.g. de la distribucin (de la variable, de la serie de datos ordenada) y se desplazar hacia donde haya mayor densidad de datos. Se estudia la simetraasimetra de la distribucin tomando como referencia el c.d.g.
Si hay mayor densidad de datos al principio de la distribucin (datos menores), la media se desplaza hacia la izquierda, dejando una cola de datos a su derecha: ASIMETRA A LA DERECHA DE LA MEDIA. Si hay mayor densidad de datos al final de la distribucin (datos mayores), la media se desplaza hacia la derecha, dejando una cola de datos a su izquierda: ASIMETRA A LA IZQUIERDA DE LA MEDIA. Si la distribucin de datos es igual a izquierda y derecha de la media: SIMETRA
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
69
ASIMETRA A LA IZQUIERDA
ASIMETRA A LA DERECHA
media
media
SIMETRA
media
70
COEFICIENTE DE ASIMETRA DE FISHER. A partir del momento central de orden impar el coeficiente de asimetra de FISHER:
1 N 3 m 3 = ( xi x ) N i =1
se define
m3 g1 = 3 s
Si m3 > 0 g 1 > 0 ASIMETRA A LA DERECHA SIMETRA m3 = 0 g 1 = 0 (observar grfico) Si m3 < 0 g 1 < 0 ASIMETRA A LA IZQUIERDA
71
APUNTAMIENTO O CURTOSIS: perfil vertical de la distribucin. Las medidas de apuntamiento proporcionan informacin estadstica de la distribucin, relativa a la densidad de datos que hay en las proximidades de la media (c.d.g.). Si la densidad de datos alrededor de la media es muy dominante: distribucin MUY APUNTADA, rectngulos del histograma centrales con mucha altura. Si la densidad de datos alrededor de la media no es dominante: distribucin POCO APUNTADA, rectngulos del histograma centrales con poca altura.
72
COEFICIENTE DE APUNTAMIENTO O CURTOSIS DE FISHER. A partir del momento central de orden cuatro ne el coeficiente de apuntamiento de FISHER:
1 N 4 m 4 = ( xi x ) N i =1
se defi-
m4 g2 = 4 s
Para medir con este coeficiente el grado de apuntamiento de una distribucin se utilizarn dos MODELOS de distribucin de REFERENCIA: MODELO NORMAL: distribucin campaniforme con un apuntamiento de
g 2 = 3.
MODELO UNIFORME: distribucin horizontal con un apuntamiento de
g 2 = 1,8 .
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
73
74
De esta forma se seguirn los siguientes criterios para medir el apuntamiento de una distribucin:
Si g 2 > 3 ms apuntada que el modelo NORMAL (leptocrtica) Si g 2 = 3 mismo apuntamiento que el modelo NORMAL (mesocrtica) Si g 2 < 3 menos apuntada que el modelo NORMAL (platicrtica)
Apuntamiento >3
Apuntamiento<3 y >1,8
75
Si g 2 = 1,8 mismo apuntamiento que modelo UNIFORME (horizontal). Si g 2 < 1,8 forma de " U" (ms densidad de datos en los extremos) .
Ejemplo 2.5. Ejemplo 2.6.
Apuntamiento <1,8
76
X : ( x i )i = 1
N
1. 2. 3.
N X : ( xi )i =1 X ( xi = xi + c )
X : (x
N i i =1 N
) X ( xi = kxi )
X : ( xi )i =1 X ( xi = kxi + c )
(cambio de origen) (cambio de escala)
77
1. x ' = x + c
MEDIA
2. x ' = kx 3. x = kx + c
2 2 1. s X = s X
VARIANZA
2 2 2. s X = k 2 s X 2 2 3. s X = k 2 s X
78
1. s X = s X
DESVIACIN TPICA
2. s X = k s X
2 3. s X = k s X
1. m p ( X ) = m p ( X )
MOMENTOS
( cambio de origen)
79
1. X' = X + c
(cambio de origen)
sX sX 1. g 0 ( X ) = = g0 ( X ) | x | | x + c |
2. X' = kX
(cambio de escala)
sX | k | sX sX 2. g 0 ( X ) = = = = g0 ( X ) | x | | k || x | | x |
80
1. X' = X + c
(cambio de origen)
m3 ( X ) m3 ( X ) 1. g 1 ( X ) = = = g1( X ) 3 3 sX sX
2. X' = kX
(cambio de escala)
81
3. X' = kX + c
82
1. X' = X + c
(cambio de origen)
m4 ( X ) m4 ( X ) 1. g 2 ( X ) = = = g2( X ) 4 4 sX sX
2. X' = kX
(cambio de escala)
m4 ( X ) k 4 m4 ( X ) 2. g 2 ( X ) = = = g2( X ) 4 4 4 sX k sX
3. X' = kX + c
m4 ( X ) k 4 m3 ( X ) 3. g 2 ( X ) = = = g2( X ) 4 4 4 sX k sX
El coeficiente de apuntamiento es invariante por transformacin lineal.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
83
x , s2
zi =
zi
xi x s
xi
a la media x , en
zi zi
xi xi
84
Si se tipifican los N valores de una V.E., se obtendrn N puntuaciones tipificadas que constituyen otra variable que se denominar: VARIABLE ESTADSTICA TIPIFICADA
Z : ( z i )i =1
N
z =0
2 sZ = 1
Por tanto cualquier variable que tipifiquemos se transforma en otra de media cero y desviacin tpica uno:
85
X (x ) x sX
N i i =1
VARIABLE TIPIFICADA
Z (z i )
N i =1
z = 0 sZ = 1
Y ( y i )i =1 y sY
N
LOS VALORES TIPIFICADOS se utilizarn para: Comparar valores de diferentes variables, independientemente de la unidad de medida de las mismas y del valor de sus medias y desviaciones tpicas. Para medir la dispersin relativa de un valor concreto de una variable. Ejemplo 2.9.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
Ejemplo 2.10.
Ejemplo 2.11.
86
media
1; al menos un porcentaje
1 de 1 2 k
x ks ,
87
UTILIDAD DE LA REGLA DE TCHEBYSHEFF Si de una V.E. X no se tiene informacin de sus valores concretos, ni de su distribucin de frecuencias, pero se conoce el valor de su media x y la desviacin tpica s se puede obtener informacin sobre el recorrido de los datos de la variable dando intervalos de valores alrededor de la media x ks .
As por ejemplo: Para k=2
Para
1 = 0 ,75 ms del 75% de los datos de una V.E. estar 2 k en el intervalo x 2 s . 1 k = 2,5 1 2 = 0 ,84 ms del 84% de los datos de una V.E. estar k en el intervalo x 2 ,5 s 1
1 1 k
2
Para
k=3
x 3s .
ndice Ficha
88
2.3. Otras medidas de posicin: moda, cuantiles (mediana). MODA (Mo): La moda es una medida de posicin que identifica en la distribucin de una V.E. el valor o la zona de valores ms frecuente o de mayor densidad de frecuencia (zona modal). En una misma distribucin puede haber ms de una moda o zonas modales. DETERMINACIN DE LA MODA: En una distribucin con pocos datos diferentes, y por tanto, SIN AGRUPAR, la MODA es el valor (o valores) de la distribucin con mayor frecuencia. En distribuciones con muchos datos diferentes y, por tanto, AGRUPADA en intervalos, se determinar el INTERVALO, ZONA o CLASE MODAL
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
89
d i (o
[Li 1, Li [ de densidad d i
a i se dar el siguiente:
d i +1 ai Mo = Li 1 + d i 1 + d i + 1
Ejemplo 2.13.
90
X : ( x i )i = 1
N
( 100 )
x.
(( 1 ) 100 )
x.
NOTACIN:
Q = x
(cuantil de orden
91
X : ( xi )i =1
N
X : ( xi , ni , N i , Fi )i =1
k
su dis-
tribucin de frecuencias con los datos ordenados de menor a mayor. REGLA GENERAL: se tomar como cuantil de orden , lor
xi
Fi
( Fi 100 )
( 100 ),
Ni
superior a
N ).
92
xi
Fi
( Fi = ),
93
Si la distribucin contiene muchos datos diferentes, AGRUPADOS EN INTERVALOS y se pretende determinar los cuantiles manualmente sobre la distribucin agrupada, se proceder como sigue: se determinar el intervalo o clase del cuantil
[Li 1 , Li [
Fi
como el superior
primer intervalo con una frecuencia relativa acumulada al orden del cuantil
aproximacin al cuantil:
Fi 1 Q = Li 1 + ai fi
N N i 1 Q = Li 1 + ai ni
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
94
= 0 ,5
Me = Q0 ,5
Es decir, la MEDIANA es un valor que divide por la MITAD la distribucin (MEDIDA DE POSICIN CENTRAL). CUARTILES (Ci): los cuartiles son tres cuantiles que dividen la distribucin en cuartos. Son los cuantiles de rdenes
C1 = Q0 ,25 C 2 = Q0 ,50
cin.
C 3 = Q0 ,75
Ejemplo 2.15.
Rafael Dez, Vicente Coll y Olga Blasco
95
Conceptos clave.
Apuntamiento o curtosis (coeficientes de Fisher). Asimetra. Coeficiente de variacin. Cuantil. Desviacin tpica. Dispersin absoluta. Dispersin relativa. Media (aritmtica). Mediana. Moda. Puntuacin tipificada. Transformacin lineal. Varianza.
96
EJEMPLOS.
Ejemplo 2.1. 2.1.A. Calclese la media y la varianza de las siguientes series de valores:
X: 1 Y: 6 Z: -19 W: 2
Solucin:
2 7 4 2
3 8 7 3
4 9 12 2
5 10 21 6
2 x = 3 sX = 2 2 z = 5 s Z = 177 ,2
2 y = 8 sY = 2 2 w = 4 sW = 4 ,2857
97
2.1.B. Calclese la media y la varianza de la siguiente distribucin de frecuencias agrupada: Intervalos 23 34 45 Frecuencia 10 40 10
Solucin:
x = 3 ,5
1 s = = 0 ,33 3
2
98
2.1.C. Calcula la media de la siguiente distribucin de frecuencias agrupada: Intervalos 0 15 15 25 25 30 Solucin: Frecuencia 6 12 12
x 20 ,5
2.1.D. Calclese la media y la varianza de la siguiente distribucin: xi fi 2 0,2 5 0,4 7 0,3 9 0,1
frecuencia relativa
99
Ejemplo 2.2. 2.2.A. Las dos muestras siguientes tienen la misma dispersin absoluta (desviacin tpica y varianza) pero diferente dispersin relativa (coeficiente variacin): a) 1 b) 1321 2 1322 3 1323 4 1324 5 1325 6 1326 7 1327
Sin realizar ningn clculo: razona cul de ellas tendr menor dispersin relativa, es decir, qu conjunto de datos es ms homogneo. Tiene algo que ver con la distancia de los datos al origen y el valor de las medias respectivas? Por qu tienen la misma dispersin absoluta? (distancia de los datos a la media). En un cambio de origen, la dispersin absoluta (S) no cambia pero la disper-
comprueba lo anterior.
100
2.2.B. Las dos muestras siguientes tienen diferente dispersin absoluta pero la misma dispersin relativa: a) 1 b) 5 soluta. Por qu tienen la misma dispersin relativa? Guardan alguna proporcin los datos de a) con los datos de b)? Tiene esto algo que ver con un cambio de escala? En un cambio de escala, la dispersin absoluta s cambia pero la relativa no cambia. Calcula la media y varianza de las dos series de datos y comprueba lo anterior.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha Texto
2 10
3 15
4 20
5 25
6 30
7 35
Sin realizar ningn clculo: razona cul de ellas tendr menor dispersin ab-
101
Ejemplo 2.3. Un fabricante de detergentes quiere comprar una mquina empaquetadora que realice la operacin de llenar bolsas de 250 gramos. La casa A le ofrece una mquina con la cual realiza unas pruebas y obtiene los siguientes resultados: 250, 252, 248, 253, 247.La casa B le ofrece otra y, realizando pruebas, obtiene los siguientes resultados: 258, 252, 247, 248, 245. Qu mquina le interesa ms comprar? (Calcular media y varianza y comparar dispersin). Solucin:
Como las medias son iguales y tienen la misma unidad de medida, las desviaciones tpicas son comparables directamente: la de A es menor que la de B.
102
Ejemplo 2.4. En dos empresas se ha observado al colectivo de trabajadores que causa baja laboral por motivos de enfermedad. El nmero medio de horas perdidas por este motivo en la empresa A ha sido de 130h y en la empresa B de 40h. As mismo, las desviaciones tpicas respectivas han sido de 60h y 45h. En qu empresa hay mayor dispersin relativa en el nmero de horas perdidas? Dnde es ms representativa la media?
103
Ejemplo 2.5. Calcula los coeficientes de asimetra y curtosis de Fisher de los valores: a) 1 2 3 4 5 b) 1 c) 1 1 3 1 3 5 3 7 5
104
Ejemplo 2.6. Explica cul de las siguientes variables estadsticas tiene una curva de frecuencias ms aproximada al modelo normal, comentando en cada caso la forma de la curva de frecuencias correspondiente (asimetra y apuntamiento):
105
Ejemplo 2.7. Dada la variable estadstica X de media 15 y varianza 4, calcular la media y la varianza de las siguientes variables: a) Z = X + 3
b) Y = 4 X c) Y = -4X d) W = 6 X 1
Solucin:
a) b) c) d)
z = 18 y = 60 y = 60 w = 89
2 sZ = 4 2 sY = 64 2 sY = 64 2 sW = 144 )
106
Ejemplo 2.8. Analizadas las ventas (en miles de u.m.) en 1999 de 100 empresas de un determinado sector se ha obtenido una media de 500 u.m. y una desviacin tpica de 3,5 u.m. Calcular la media y la varianza para el ao 2000 en los siguientes supuestos:
a) Las ventas sufren un aumento del 20% en todas las empresas. b) Las ventas se incrementan en todas las empresas en 100 miles de u.m.
Solucin: a) b)
107
Ejemplo 2.9. Tipifica los valores obtenidos en el ejemplo 2.3 para la casa B y comprueba que la media de las puntuaciones tipificadas es 0 y la desviacin tpica 1.
108
Ejemplo 2.10. Los estudiantes de un grupo determinado de primer curso de la licenciatura en ECO han realizado dos pruebas, A y B. La calificacin media en la primera de ellas es de 6,5 puntos con una desviacin tpica de 2,36, mientras que en la segunda prueba, la media y la desviacin tpica han sido respectivamente de 5 y 1,32 puntos. Un estudiante ha obtenido una calificacin de 7,5 en la prueba A y de 7 en la prueba B. En qu examen ha obtenido una nota relativa ms alta?
109
Ejemplo 2.11. Cristina y Ral, dos compaeros de un grupo de Estadstica, mantienen la siguiente conversacin: Cristina: creo que como estudiante universitaria soy ms alta que t, Ral. Ral: lo dudo, cunto mides? 1,70 m. contest Cristina- y t? 1,76 m., replic Ral mientras diriga su mirada hacia los zapatos de Cristina- las apariencias engaan. S, puede ser que las apariencias engaen, pero la Estadstica no argument Cristina-. He ledo un estudio sobre la estatura de los estudiantes de la Universidad de Valencia y da como resultado que la altura media de las chicas es de 168 cm. con una desviacin tpica de de 5 cm., mientras que las de los chicos son de 174 y 10 centmetros respectivamente. y? pregunt Ral-. Contestar a Ral (con instrumentos estadsticos).
110
Ejemplo 2.12. Se lleva a cabo un estudio para determinar el tiempo necesario para realizar una operacin especfica en una empresa. El tiempo necesario (en minutos) para realizar la operacin se midi para N = 40 trabajadores (entre los que ests incluido t) y los resultados fueron los siguientes:
x = 13,8
Pearson y los intervalos
s = 1,7
x ks (regla de Tchebysheff).
Si t has tardado en realizar ese trabajo 10 minutos solamente, Consideras que tu tiempo est muy por debajo de la media, o por el contrario crees que est dentro de unos lmites normalmente razonables?
111
NOTA: REGLA DE TCHEBYSHEFF: Dada una variable estadstica cualquiera X(xi) con N observaciones, de media
1 mero real positivo k mayor que 1; al menos un porcentaje de 1 2 x100 k de las observaciones se encuentra dentro del intervalo de valores x ks , es
decir, entre k desviaciones tpicas alrededor de la media aritmtica.
112
X : 2, 2, 3, 2, 6, 7, 6
Intervalos 0,0 1,5 1,5 2,5 2,5 3,0 Frecuencia 6 12 12 Intervalos 0,2 0,3 0,3 0,4 0,4 0,5 Frecuencia 10 40 8
Solucin:
a ) Mo = 2
b ) Mo = 2 ,5 Mo = 0 ,35 o 0 ,344
113
Ejemplo 2.14. Se les pide a doce economistas que den una prediccin sobre el incremento del IPC para el ao 2003. Dichas predicciones fueron:
4,0 3,5
3,9 3,4
3,2 3,7
3,5 3,6
3,8 3,4
3,3 3,2
114
Ejemplo 2.15. Calclese la moda y los cuantiles de orden 0,25, 0,50 (mediana) y 0,75 (cuartiles) en los ejemplos 4 y 5 del tema 1.
TEMA 3
MEDIDAS DE CONCENTRACIN
116
Medidas de concentracin.
117
OBJETIVOS DE APRENDIZAJE. Estudiar como se reparte o distribuye la masa o volumen total de la variable, x n , entre los N elementos de la muestra o poblacin tanto grfica
i i i =1 N
118
Medidas de concentracin.
BIBLIOGRAFA BSICA (teora y problemas) ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005. Tema 2 (2.6, pgina 55). (Con ejercicios, cuestiones de autoevaluacin y problemas resueltos y propuestos). MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997. Captulo 4 (4.5, pgina 102).
119
3.1. INTRODUCCIN. CONCEPTO. INSTRUMENTOS. CONCENTRACIN MNIMA Y MXIMA. Concepto: dada una variable estadstica X (x ) y su distribucin de frecuencias (x , n ) , con los datos ordenados de menor a mayor, estudiar la concentracin de la V.E. consiste en medir cmo est repartida (distribuida) la masa o volumen total de la variable entre los N elementos de la poblacin.
N i i =1
i k i i =1
Instrumentos para medir la concentracin: la concentracin se medir comparando dos indicadores que se obtendrn a partir de la distribucin de frecuencias de los valores de la variable: Uno relativo a los N elementos de la poblacin y que se obtiene a partir de las frecuencias acumuladas:
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
120
Medidas de concentracin.
N i = n j pi =
j =1
Ni x100 N
(i = 1, 2,, k)
pk=100 siempre. pi representa el porcentaje acumulado de elementos de la poblacin hasta el lugar i-simo (Fi x 100). El otro relativo a la masa o volumen de variable y que se obtiene a partir de la cantidad de variable (xi ni) que van acumulando los elementos de la poblacin:
vi = x j n j qi =
j =1 i
vi x100 vk
(i = 1, 2,, k)
qk=100 siempre. qi representa el porcentaje acumulado de volumen de variable hasta el lugar i-simo. vi es la cantidad de variable acumulada hasta el lugar i-simo de la distribucin (ordenada de menor a mayor).
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
121
Concentracin mnima y mxima: Mnima: cuando el volumen total vk est equidistribuido entre los N elementos de la poblacin. En este caso cada elemento acumulara el misxn v mo volumen de variable: = =x
k k i =1 i i
Entonces: pi = qi (i = 1, 2,, (k-1)). (pK = qk siempre). Mxima: en este caso el volumen vk total lo acumulara un solo elemento y los (N-1) restantes nada. Como los valores de la distribucin estn ordenados de menor a mayor, este elemento aparecera al final de la distribucin y entonces: Para cada pi , qi = 0 (i = 1, 2,, (k-1)).
122
Medidas de concentracin.
3.2. CURVA DE LORENZ... La curva de Lorenz es la representacin grfica de la concentracin: se obtiene al representar en unos ejes de coordenadas los valores (pi , qi).
La concentracin mnima vendra representada por la bisectriz pi = qi (i = 1, 2,, (k-1)) La concentracin mxima dara lugar a una curva pegada al eje de abscisas. Ejemplo 3.1.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
123
3.3. ndice de Gini. El ndice de Gini es el cociente entre el rea que encierra la curva de Lorenz con la bisectriz y el rea del tringulo OPQ. Una aproximacin del ndice de Gini es: (p
i =1 k 1 i
IG =
qi )
i
p
i =1
k 1
Ejemplo 3.2.
124
Medidas de concentracin.
125
EJEMPLOS.
Ejemplo 3.1. Observa las curvas de Lorenz representadas a continuacin: q A q B
126
Medidas de concentracin.
Ejemplo 3.2. Los salarios (en euros) de los obreros de cierta empresa se distribuyen como sigue: n obre- Masa ros salarial 540 660 4 2280 660 780 6 4200 780 900 5 4320 Salarios Obtener la curva de concentracin y el ndice de Gini. Solucin. Ig=0,131
TEMA 4
ANLISIS DE DATOS MULTIDIMENSIONALES
128
129
OBJETIVOS DE APRENDIZAJE. Manejo de tablas de correlacin o distribuciones de frecuencias conjuntas para dos variables numricas. Obtencin de las distribuciones marginales y condicionadas a partir de la conjunta. Clculo e interpretacin de los estadsticos de la variable bidimensional, especialmente de la covarianza y del coeficiente de correlacin lineal. Aspecto y propiedades de la matriz de varianzas covarianzas. Clculo de los estadsticos de una variable combinacin lineal de otras dos. Cmo observar la independencia entre dos variables o atributos a partir de la distribucin conjunta. Estudio del grado de asociacin entre dos atributos a partir de la tabla de contingencia, calculando el estadstico ji cuadrado y el coeficiente de contingencia de Pearson.
130
BIBLIOGRAFA BSICA (teora y problemas) ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2006 (segunda impresin). Tema 3 para tema 4. (Con ejercicios, cuestiones de autoevaluacin y problemas resueltos y propuestos). MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997. Captulo 5 para tema 4. MARTN PLIEGO, F.J.: Introduccin a la Estadstica Econmica y Empresarial, Ed. Thomson. Madrid 2004 (3 edicin). Captulo 14 (pgina 564, tablas de contingencia) para epgrafe 5. Asociacin.
131
4.1. Representacin de datos bidimensionales: matriz de datos, tablas de correlacin y contingencia, grfico de dispersin. VARIABLE ESTADSTICA BIDIMENSIONAL (V.E.B.): Si se observan y miden simultneamente dos caractersticas o propiedades sobre los mismos elementos de una poblacin se obtiene una V.E.B. (X, Y) que generar una serie de N datos de aspecto bidimensional
( xi , yi )iN=1
V.E.B. (X, Y)
(x , y )
i i
( x1 , y1 ),( x 2 , y 2 ),L ,( x N , y N )
132
MATRIZ DE DATOS
TABLA DE CORRELACIN
X x1 x2 M xi M xN
Y y1 y2 M yi M yN
X x1 x2 M xi M xk
y1 n11 n 21 M ni 1 M nk 1
y2 n12 n 22 ni 2 nk 2
yj
ym
L n1 j L n2 j L nij
L n1 m L n2 m M L nim M L n km
m ij
( xi , y j ) nij
i = 1 ,2 , L , k j = 1 ,2 , L , m
nij
veces
L n kj
k
n = N
i =1 j =1
133
Ejemplo 4.1.
134
4.2. Distribuciones conjuntas, marginales y condicionadas. Independencia estadstica. DISTRIBUCIN CONJUNTA: la distribucin conjunta de una V.E.B. (X, Y) puede venir representada tanto por la matriz de datos como por la tabla de correlacin, con las parejas de valores y sus frecuencias.
( X ,Y ) :
(( x , y
i
Ejemplo 4.1.
135
X \Y x1 x2
y1 n11 n21
y2 n12 n22
yj n1j n2j
ym
ni
n1m n1 n2m n2
xi ni
por filas
ni = suma ni = nij
j =1 m
(n )
ij
xi
ni1
ni2
nij
nim
ni
xk nj
nk1 n1
nk2 n2
nkj nj
nkm nk nm N
ni f i = N
frec. relativa
136
X \Y x1 x2
y1 n11 n21
y2 n12 n22
yj n1j n2j
ym
ni
MARGINAL DE Y:
yj n j
por columnas
n j = suma n j = nij
i =1 k
(n )
ij
xi
ni1
ni2
nij
nim
ni
xk nj
nk1
nk2
nkj nj
nkm nm
nk N
f j =
n j N
frec. relativa
n1 n2
137
DISTRIBUCIONES CONDICIONADAS Y X x1 x2 VARIABLE X CONDICIONAy1 n11 n21 y2 n12 n22 yj n1j n2j ym ni DA A UN VALOR DE Y. X/yj (j fijo):
valores frecuencia : columna j - sima nij
n1m n1 n2m n2
xi ni / j
xi
ni1
ni2
nij
nim
ni
( i = 1,2 ,L , k )
fi / j
xk nj nk1 n1 nk2 n2 nkj nj nkm nm nk N
nij = n j f ij = f j
fi / j
138
Y X
VARIABLE Y CONDICIONADA A
y1
y2
yj
ym
ni
UN VALOR DE X.
x1 x2
n11 n21
n12 n22
n1j n2j
n1m n1 n2m n2
yj
xi
ni1
ni2
nij
nim
ni
nj / i ( j = 1,2 ,L , m )
f j/i
xk nj nk1 n1 nk2 n2 nkj nj nkm nm nk N
nij = ni f ij = f i
f j/i
Ejemplo 4.2.
ndice Ficha
Ejemplo 4.3.
Rafael Dez, Vicente Coll y Olga Blasco
139
( X ,Y ) :
y1 n11 n21 y2 n12 n22 yj n1j n2j ym ni
si:
(( x , y
i
); nij )i =1 j =1
k m
X e Y son INDEPENDIENTES
x1 x2
n1m n1 n2m n2
f ij = f i f j i , j
es decir:
xi
ni1
ni2
nij
nim
ni
nij ni n j = i , j N N N
Equivalente a:
xk nj
nk1 n1
nk2 n2
nkj
nj
nkm nm
nk
N
nij =
ni n j N
ndice Ficha
140
PROPIEDAD. Si dos variables X e Y son independientes, la frecuencias relativas condicionadas coinciden con las respectivas marginales.
X e Y independientes entonces:
(f ) (f )
i/ j j/i
i= m j =1
= ( f i )i =1
k
(para cada
X / yj )
i
= ( f j ) j =1
m
(para cada Y / x )
Es decir: las columnas de frecuencias relativas condicionadas coinciden entre s y, a su vez, con las frecuencias relativas de la marginal X. las filas de frecuencias relativas condicionadas coinciden entre s y, a su vez, con las frecuencias relativas de la marginal Y.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
141
CONSIDERACIONES SOBRE LA INDEPENDENCIA. En general, una variable bidimensional (X, Y) (su distribucin conjunta) se obtiene al medir simultneamente las dos variables sobre los mismos elementos de una poblacin. Si se miden (estudian) por separado las variables X e Y y se obtienen las distribuciones unidimensionales de X e Y (marginales), a partir de ellas no se puede construir la distribucin conjunta de (X, Y). Pero si las variables X e Y son independientes, la caracterizacin de la independencia indica que lo conjunto se descompone en producto de lo marginal
f ij = f i f j i , j , por tanto: f i f j = f ij i , j
ndice Ficha
Si las variables X e Y son independientes, se puede obtener fcilmente la distribucin conjunta a partir de las marginales:
Rafael Dez, Vicente Coll y Olga Blasco
142
EJEMPLO DE VARIABLES INDEPENDIENTES: Sea la siguiente distribucin conjunta de dos variables (X, Y): Y X 1 2 3 Solucin: Obsrvese que las columnas de frecuencias conjuntas son claramente proporcionales, al igual que las filas de frecuencias conjuntas. 1 2 2 4 2 1 1 2 Comprubese que son independientes a partir de la caracterizacin de la independencia y de la propiedad que relaciona las distribuciones condicionadas con las marginales.
143
nij =
ni
3 3 6 12
ni n j N
Por ejemplo:
nj
n 2 n 1 n21 = N 38 2= 12
6 8 4= 12
(Basta comprobarlo para (k-1)x(m-1) celdas nij). En este caso: 2x1. Por tanto las variables son independientes.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
144
POR LA PROPIEDAD QUE RELACIONA LAS CONDICIONADAS CON LAS MARGINALES: Distribuciones condicionadas X/y y marginal X (frecuencias relativas): Y X 1 2 3 1 2/8 2/8 4/8 8 2 1/4 1/4 2/4 4
fi
3/12 3/12 6/12 12
ni f i = N nij fi / j = n j
frec. relativa
nj
2 1 3 = = 8 4 12
145
Distribuciones condicionadas Y/x y marginal Y (frecuencias relativas): Y X 1 2 3 1 2/3 2/3 4/6 8/12 2 1/3 1/3 2/6 4/12
ni
3 3 6 12
f j =
f j/i
n j
N nij = ni
frec. relativa
fj
2 2 4 8 = = = 3 3 6 12
146
4.3.MOMENTOS. VECTOR DE VALORES MEDIOS Y MATRIZ DE VARIANZAS COVARIANZAS. MOMENTOS DE UNA V.E.B. (X, Y). Dada una V.E.B. Definimos: MOMENTOS ORDINARIOS DE ORDEN (p + q)
( X ,Y ) :
( xi , y i )
N i =1
(( x , y
i
); nij )i =1 j =1
k m
N parejas
( k m) parejas diferentes
1 N p q a pq = xi y i N i =1
1 k m p q a pq = xi y j nij N i =1 j =1
con p y q enteros
p,q 0
147
148
1 N m pq = ( xi x ) p ( y i y ) q N i =1
1 N 2 m20 = ( xi x ) 2 = s X N i =1 1 N m11 = ( xi x )( y i y ) N i =1
1 N m02 = ( y i y ) 2 = sY2 N i =1
COVARIANZA sXY
ndice
Ficha
149
s XY
La covarianza es un estadstico conjunto que mide la covariacin (variabilidad conjunta) lineal de las variables X e Y. La covarianza puede ser positiva o negativa. Su signo marca la direccin de la covariacin.
1 N = m11 = ( xi x )( y i y ) N i =1
s XY > 0 , covariacin positiva: si la variable X crece, entonces la tendencia de la variable Y es a crecer tambin.
s XY < 0 ,
150
grfico dispersin
covarianza positiva 6 5 4 y3 2 1 0 0 1 2 3 4 x 5 6 7 8
grfico dispersin
2,71
6 5 4 y3 2 1 0 0 1
covarianza negativa
-2,71
4 x
151
s XY = 0 ,
y
2 1 0
4; 2
medias c.d.g.
1 0
0 1 2 3 4 x 5 6 7 8
3 x
PROPIEDAD: si las variables X e Y son independientes estadsticamente, la covarianza es cero. El recproco no es necesariamente cierto.
X e Y independientes
Rafael Dez, Vicente Coll y Olga Blasco
s XY = 0
ndice Ficha
152
PROPIEDADES DE LA COVARIANZA. 1. Clculo de la covarianza: se demuestra fcilmente que la covarianza se puede determinar como:
s XY
o en forma de momentos: 2. Transformacin lineal:
s XY
siendo
k 1 , k 2 , c1 , c 2
nmeros reales
Por tanto la covarianza es sensible al cambio de escala y su valor depende de las unidades de medida de las variables X e Y. Es un estadstico de tipo absoluto. 3. Obviamente
ndice Ficha
s XY = sYX .
Rafael Dez, Vicente Coll y Olga Blasco
153
r x m= y
MATRIZ DE VARIANZAS COVARIANZAS
sX S = s XY
2
s XY 2 sY
Ejemplo 4.4.
Rafael Dez, Vicente Coll y Olga Blasco
Ejemplo 4.6.
ndice
Ficha
154
r x m= y
sX S = s XY
2
s XY 2 sY
su vector de me-
Z = k 1 X + k 2Y + c
z = k1 x + k 2 y + c 2 2 s Z = k 12 s X + k 22 sY2 + 2k 1 k 2 s XY
Solo si la covarianza es cero
2 2 s Z = k12 s X + k 22 sY2 .
As, si X e Y independientes
s XY = 0
y entonces:
2 2 s Z = k12 s X + k 22 sY2 .
Ejemplo 4.8.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
155
4.4. EL COEFICIENTE DE CORRELACIN LINEAL. MATRIZ DE CORRELACIN. EL COEFICIENTE DE CORRELACIN LINEAL SIMPLE. Dada (X, Y) una V.E.B. y
sX S = s XY
2
s XY 2 sY
s XY rXY = s X sY
r es un estadstico de tipo relativo, es decir, independiente de las unidades de medida de las variables X e Y.
156
Mide la intensidad de la variabilidad conjunta lineal entre X e Y es decir la correlacin lineal. PROPIEDADES DEL COEFICIENTE DE CORRELACIN. 1. El coeficiente de correlacin lineal est acotado:
1 r 1.
r=1
r = -1
157
2. Transformacin lineal:
Donde k1 , k2 y c
son nmeros reales, con k1 y k2 del mismo signo. Es decir, que el coeficiente es invariante por transformacin lineal (salvo en el signo). MATRIZ DE CORRELACIN. Dada (X, Y) una V.E.B. y el coeficiente de correlacin lineal define:
s XY , se rXY = s X sY
rXX R= rYX
MATRIZ DE CORRELACIN
rXY 1
2 det( R ) = 1 rXY 0
ndice
Ficha
158
b1 n11 n21
b2 n12 n22
bj n1j n2j
bm
ni
(A, B): (ai, bj); nij con k y m categoras respectivamente, organizados en una tabla de contingencia (distribucin conjunta). Se estudiar la asociacin entre A y B utilizando el criterio de independencia estadstica.
a1 a2
n1m n1 n2m n2
ai
ni1
ni2
nij
nim
ni
ak nj
nk1 n1
nk2 n2
nkj nj
nkm nm
nk N
Rafael Dez, Vicente Coll y Olga Blasco
ndice
Ficha
159
A\B
b1 n11 n21
b2 n12 n22
bj n1j n2j
bm
ni
A y B independientes si
a1 a2
n1m n1 n2m n2
nij =
ni n j N
i , j .
ESTADSTICO
ai
ni1
ni2
nij
nim
ni
ak nj
nk1 n1
nk2 n2
nkj
nj
nkm nm
nk
N
160
Se denominar:
nij
ni n j Eij = N
tendra en caso de independencia. El estadstico 2 compara las frecuencias reales con las tericas:
2 =
I =1 j =1
2 0
161
CP =
2 N + 2
El coeficiente de contingencia de Pearson mide la intensidad de la asociacin entre dos atributos. Est acotado:
VALOR MXIMO DEL COEFICIENTE CP. El valor mximo del coeficiente de contingencia de Pearson CP depende del tamao de la tabla de contingencia filas y columnas ms se acerca a 1.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
162
(kk )
su valor
C MAX
k 1 = . k
Ejemplo 4.11.
163
Conceptos clave.
Coeficiente de contingencia de Pearson. Coeficiente de correlacin lineal. Combinacin lineal de variables. Covarianza. Distribucin conjunta. Distribuciones condicionadas. Distribuciones marginales. Estadstico . Independencia estadstica. Matriz de correlacin. Matriz de varianzas-covarianzas. Tabla de contingencia. Tabla de correlacin. Transformacin lineal.
2
164
EJEMPLOS
Ejemplo 4.1. Ordenar la siguiente serie de datos bidimensionales en una distribucin conjunta o distribucin de frecuencias bidimensional (tabla de correlacin): X Y Solucin:
X 1 2 3
1 1
Y 1 2 3 1
1 2
2 1 1 2
2 1
2 2
3 1
3 2
1 1
2 1
3 2
2 1
165
Ejemplo 4.2. a) Obtener las distribuciones de frecuencias marginales de X e Y a partir de la distribucin conjunta del ejemplo 4.1. b) Obtener las siguientes distribuciones condicionadas a partir de la conjunta del ejemplo 4.1.: X / y = 1 e Y / x = 2
166
Ejemplo 4.3. Hemos observado la retribucin mensual de los 40 trabajadores de una empresa segn su antigedad en la misma obteniendo la siguiente tabla de correlacin o distribucin de frecuencias bidimensional: Y: retribucin mensual (en euros.) X: antigedad en la empresa (en aos) a) Qu porcentaje de emY 420-600 600-780 780-960 960-1200 pleados tiene una antigeX mdc 510 690 870 1080 dad entre 2 y 4 aos y una retribucin entre 600 y 780 02 7 3 1 0 mdc 1 euros? (conjunta) b)Cuntos empleados tienen una antigedad entre 4 y 6 aos? (marginal) 0 2 3 6 c) Observa la retribucin de los empleados con una antigedad entre 0 y 2 aos y comprala con la retribucin de los que tienen una antigedad entre 4 y 6 aos (condicionada). 1 9 6 2 24 3 46 5
167
Ejemplo 4.4. Determina el vector de medias y la matriz de varianzas covarianzas de la siguiente distribucin conjunta obtenida en el ejemplo 4.1. Y X 1 2 3 1 2 3 1 2 1 1 2
r 2 Solucin: m = 1,4
0 ,6 S = 0 ,1
0 ,24
0 ,1
168
Ejemplo 4.5. Son independientes las variables del Ejemplo 4.3? Calcula la media de las retribuciones de los empleados con menor antigedad y comprala con la media marginal de las retribuciones de todos los trabajadores. Cmo habran sido las medias anteriores en caso de independencia?
169
Ejemplo 4.6. Es posible que la siguiente matriz: zas-covarianzas? Razona la respuesta. Solucin: No.
16 24
24
sea 25
de varian-
170
171
172
Ejemplo 4.9. Calcula el coeficiente de correlacin lineal en el ejemplo 4.4. e interpreta el resultado. Obtener la matriz de correlaciones. Solucin: 0,265
173
Ejemplo 4.10. A partir de la siguiente matriz de datos para las variables X1, X2, X3, obtener: a) Las distribuciones marginales b) Algunas de las distribuciones condicionadas c) El vector de medias y la matriz de varianzas-covarianzas d) La matriz de correlaciones
Observacin 1 2 3 4 5 6 7 8 9 10
X1 1 0 0 2 1 0 0 1 1 2
X2 2 2 2 3 3 2 1 3 1 1
X3 -1 -1 -1 0 1 0 -1 -1 0 1
0 ,8 0 ,56 0 ,10 0 ,34 1 0 ,17 0 ,58 r 0 d) = 0 ,17 1 0 Solucin: c) m = 2 S = 0 ,10 0 ,60 0 ,3 0 ,34 0 ,58 0 0 ,61 0 1
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha Texto
174
Ejemplo 4.11. Un fabricante de herramientas compra una serie de piezas a tres proveedores diferentes. Cada pieza es analizada para detectar si presenta alguno de los tres tipos de defectos ms usuales, antes de ser introducida en la cadena de produccin. Durante un mes se han recogido datos relativos al tipo de defecto encontrado en las piezas compradas a cada uno de los tres proveedores obtenindose la siguiente tabla de contingencia: Proveedor
Tipo de Defecto
I II III
A 19 25 12
B 30 45 15
C 20 33 20
Analizar si existe alguna relacin entre el tipo de defecto y el proveedor. Si la asociacin fuese mxima qu aspecto tendra la tabla de contingencia? Solucin: Cp = 0,117 para un mximo de 0,8165
TEMA 5
ANLISIS DE REGRESIN
176
Anlisis de Regresin.
177
OBJETIVOS DE APRENDIZAJE. Estudio exhaustivo de la regresin lineal simple (dos variables X, Y): clculo de los parmetros a, b, a, b de las rectas de regresin Y* = a + bX y X* = a + bY a partir del principio de mnimos cuadrados. Expresin de esos parmetros en funcin de los estadsticos de la variable bidimensional (X, Y). Interpretacin de los coeficientes de regresin b y b. Obtencin de una medida de la bondad del ajuste efectuado a partir de la relacin existente entre la varianza total y las varianzas residual y de la regresin: coeficiente de determinacin R2 (capacidad explicativa de una ecuacin de regresin). Relacin entre el coeficiente de determinacin y los coeficientes de regresin b y b. Introduccin a la regresin no lineal: casos potencial y exponencial.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
178
Anlisis de Regresin.
BIBLIOGRAFA BSICA (teora y problemas) ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005. Tema 4 para tema 5. (Con ejercicios, cuestiones de autoevaluacin y problemas resueltos y propuestos). MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997. Captulo 6. MARTN PLIEGO, F.J.: Introduccin a la Estadstica Econmica y Empresarial, Ed. Thomson. Madrid 2004 (3 edicin). Captulo 10 para punto 4 (pgina 273).
179
5.1. INTRODUCCIN.
El estudio conjunto de dos variables (X, Y) tiene como objetivo fundamental determinar si estn relacionadas esas variables y, si hay alguna relacin, cuantificar esa relacin. Cmo primer paso se puede observar el grfico de dispersin: la nube de puntos nos puede ayudar a buscar un modelo de relacin adecuado.
grfico de dispersin
correlacin lineal
y
datos no correlacionados
y
180
Anlisis de Regresin.
relacin no lineal
relacin no lineal
relacin parablica y
relacin potencial
relacin exponencial
181
Para CUANTIFICAR la relacin entre X e Y se utilizarn dos teoras fundamentales: Teora de la CORRELACIN: clculo de estadsticos conjuntos y coeficientes que midan la intensidad o el grado de relacin entre X e Y (como el coeficiente de correlacin lineal definido en el tema 4). Teora de la REGRESIN: una vez elegido el modelo de relacin que se desea estudiar y cuantificar entre X e Y (lineal, exponencial), con la teora de la REGRESIN se obtendr la ecuacin de la funcin, del tipo elegido, que mejor relacione a las variables X e Y. Este tipo de ecuaciones se denominan ECUACIONES DE REGRESIN. Estas ecuaciones cuantifican la RELACIN ESTADSTICA entre X e Y.
182
Anlisis de Regresin.
RELACIN ESTADSTICA RELACIN FUNCIONAL. Antes de estudiar cmo se obtienen las ecuaciones de regresin, conviene distinguir entre una relacin estadstica y una, ms conocida, relacin funcional entre dos variables: Una relacin funcional entre X e Y
y = f ( x ) es una corresponden-
cia exacta, tal que cada valor de X est asociado con un nico valor de Y. Una relacin estadstica entre dos variables X e Y es una correspondencia no necesariamente exacta, tal que cada valor de X
y.
y = f ( x )
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
183
Relacin funcional
120 100 80 60 40 20 0 0 5 10 15 20 25 30 35 40 45 50
y
y = 2x + 7
184
Anlisis de Regresin.
Relacin estadstica
y
y* = f(x)
y* = f ( x ) cuantifica la relacin estadstica entre X e Y. En este contexto: X es la variable independiente (variable control) Y es la variable dependiente (variable respuesta). Cada valor de X tendr asociado:
(x,y) y e=y - y* y*
185
y* = f ( x )
se utilizan mtodos
matemticos de ajuste: hallar la ecuacin de un tipo de funcin que mejor ajuste a la nube de puntos del grfico de dispersin. MTODO DE AJUSTE: PRINCIPIO DE MNIMOS CUADRADOS (P.M.C.) Dada una serie de datos bidimensionales po de funcin que queremos ajustar
( X ,Y ) : ( xi , y i )iN1 =
y elegido el ti-
y* = f ( x ),
ajusta a la nube de puntos es la que minimiza la suma de los cuadrados de los residuos.
186
Anlisis de Regresin.
RESDUOS e=y - y* y
y* = f(x)
e = ( y i y i )2
i =1 2 i i =1
MNIMA
y = f ( x )
la
llamare-
y*
187
5.2. REGRESIN MNIMO CUADRTICA: CASO LINEAL. Dada una serie de datos bivariantes elegida
y* = f ( x )
y = a + bx y = a + bx
N
a ,b nmeros
reales .
Aplicando el P.M.C. como mtodo de ajuste: la ecuacin de la recta que mejor ajustar a la nube de puntos
( xi , y i )iN1 =
2
del grfico
e = ( yi y ) = ( yi ( a + bxi ))
i =1 2 i N i =1 i 2 i =1
MNIMA
188
Anlisis de Regresin.
Regresin lineal
y* = a + bx
yi
yi*
e = ( y y ) = ( y ( a + bx ))
N i =1 2 i N i =1 i i 2 i =1 i i
ndice Ficha
MNIMA
189
H ( a ,b ) = ( y i ( a + bxi ))
i =1
a y b parmetros.
sern los que anulen
que minimicen
H(a, b)
190
Anlisis de Regresin.
La resolucin del sistema de ecuaciones anterior da los siguientes valores para los parmetros
a y b:
s XY b= 2 sX
a = y b x
(Cf.: ESTEBAN, J.; y otros.: Estadstica Descriptiva y
nociones de Probabilidad, Ed. Thomson, 2005, 2006 segunda impresin, pginas 156-157).
Por tanto la recta de regresin de Y sobre X que mejor ajusta a la nube N de puntos ( xi , y i )i =1 es:
y = a + bx
s XY b = 2 sX a = y bx
Rafael Dez, Vicente Coll y Olga Blasco
191
a y b: y = a + bx
a = y b x
s XY b= 2 sX
la variable Y para un incremento unitario de X. Por cada incremento unitario de la variable X, la variable Y cambia su valor b unidades (de promedio).
(Tambin es la pendiente de la recta). Ejemplo 5.1. (a partir de los datos del problema 4.1.)
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
192
Anlisis de Regresin.
OTRAS EXPRESIONES PARA LA RECTA DE REGRESIN de Y sobre X: Sustituyendo los valores obtenidos de
a y b en y = a + bx
queda:
s XY y = a + bx = y bx + bx = y + 2 ( x x ) sX sY s XY rXY = y = y + rXY ( x x ) s X sY sX
PREDICCIN. Con la recta de regresin de Y sobre X, lores de prediccin de Y,
193
EJEMPLO DE RECTA DE REGRESIN DE Y SOBRE X. PRCTICA. Obtngase la recta de regresin mnimo cuadrtica ajustada a los tres datos bivariantes que aparecen en el siguiente grfico:
Regresin de Y sobre X
6 5 4 Y3 2 1 0 0 1 2 3
1; 2
y* = 1+0,5x R2 = 0,75
7; 5
4; 2
4 X
194
Anlisis de Regresin.
a partir de valores de
x = a + by .
Para obtener esta recta se permutaran los papeles de las variables X e Y. Ahora Y sera la variable independiente (control) y X la variable dependiente (respuesta). En este caso la suma de los cuadrados de los residuos sera:
e = ( xi x ) = ( xi ( a + byi )) = i =1 i =1
N 2 i N i 2
i 1
MNIMA
195
a y b:
s XY b = 2 x = a + by sY a = x by
s = XY b sY2
COEFICIENTE DE REGRESIN de X sobre Y: representa la va-
196
Anlisis de Regresin.
OTRAS EXPRESIONES PARA LA RECTA DE REGRESIN de X sobre Y: Sustituyendo los valores obtenidos de
a y b en x = a + by
queda:
x = a + by = x by + by = x +
s XY (y y) 2 sY
s XY sX rXY = x = x + rXY ( y y ) sY s X sY
197
s XY b= 2 sX rXY = b b s = XY b sY2 Teniendo en cuenta que el signo de rXY sera el mismo que el de b y b.
PROPIEDADES DE LAS RECTAS.
sY y = y + rXY ( x x ) sX
sX x = x + rXY ( y y ) sY
Se cruzan en el punto
rXY = 1.
ndice Ficha
198
Anlisis de Regresin.
EJEMPLO DE LAS DOS RECTAS DE REGRESIN. PRCTICA. Determnese la recta de regresin mnimo cuadrtica de X/Y ajustada a los tres datos bivariantes del siguiente grfico. (Es el mismo que el de Y/X de la pag. 180).
Dos rectas de regresin
6 5 4
medias; (4; 3)
x* = -0,5+1,5y
7; 5
Y3
2 1 0 0
y* = 1+0,5x
4; 2
1; 2
199
Y : ( y i ),
200
Anlisis de Regresin.
Y : ( yi )
se pueden descomponer en
y i = y i + ei
y la medida de la bon-
Y : ( yi ) Y : ( y i ) E : (ei = y i y i ).
Para ello se estudiar el aspecto de sus medias y varianzas, que dependern del tipo de ecuacin de regresin que ajustemos.
201
VARIABLE Valores
Y
Media
yi
Varianza
1 N s = ( yi y )2 N i =1
2 Y
Y*
E = Y-Y*
y i = f ( x )
Media
ei = y i y i
Media
Varianza de la regresin
Varianza residual
1 N s = ( yi y )2 N i =1
2 Y*
Rafael Dez, Vicente Coll y Olga Blasco
1 N s = ( ei e ) 2 N i =1
2 E
ndice Ficha
202
Anlisis de Regresin.
CASO LINEAL: BONDAD DEL AJUSTE. En el caso lineal, la recta de regresin de Y sobre X es:
y = a + bx
siendo
2 sE
s XY b= 2 sX
a = y b x
La media
y la varianza
de la variable residual
E = Y Y
tienen el si-
E = Y Y = Y ( a + bX ) = Y bX a , es decir, es
X e Y, por tanto:
combinacin lineal de
203
Es decir:
e =0
2 s XY 2 2 s E = sY 2 sX
y la varianza
sY2*
de la variable de la regresin
y = a + bx = y bx + bx = y 2 2 s XY 2 s XY 2 sY2* = b 2 s X = 2 2 s X = 2 ( sX ) sX
es decir:
y = y 2 s XY 2 sY * = 2 sX
ndice Ficha
204
Anlisis de Regresin.
Por tanto en la regresin lineal de Y sobre X, las medias y varianzas de las variables implicadas en el estudio quedan:
VARIABLE
VARIABLE de la regresin
VARIABLE residual
e =0 1 N s = ( y i y i ) 2 N i =1 2 s XY 2 s E = sY2 2 sX
2 E
varianza residual
s =s s s =s +s
2 E 2 Y 2 Y* 2 Y 2 Y
ndice Ficha
2 E
205
Esta relacin nos permite descomponer la variabilidad total de los valores reales de partir de residuos
E : (ei = y i y i ).
2 sE
mejor ser el
2 s E = sY2
ajuste ser psimo. El peso de estas varianzas en la relacin anterior se medir mejor con un indicador de tipo relativo.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
206
Anlisis de Regresin.
EL COEFICIENTE DE DETERMINACIN R2. Expresamos en trminos relativos la relacin entre las tres varianzas:
2 2 sY2 s E sY2 sY2 s E 2 2 2 sY = sY + s E 2 = 2 + 2 1 = 2 + 2 sY sY sY sY sY
El primer cociente
sY2 sY2
s s
2 E 2 Y
parte de la variabilidad de
ndice
Ficha
207
ciones:
PROPIEDADES DE COEFICIENTE. En general, en los tipos de regresiones donde se cumpla la relacin entre varianzas de esta forma:
2 sY2 = sY2 + s E , se define el coeficiente de determinacin
2 sE R2 = 1 2 . sY
R2
208
Anlisis de Regresin.
psimo
R 2 100
diente
Y : ( yi )
Y : ( y i = a + bx i ).
Dicho de
otra forma: en qu medida la informacin de la variable independiente) determina los valores de travs de la ecuacin de regresin
X (variable
Y (variable dependiente) a
y = f ( x ).
una medida de la ca-
En este sentido se
209
y el coeficiente de correlacin
s XY rXY = s X sY
2 sY2 s XY 2 R 2 = 2 = 2 2 = rXY sY s X sY
Es decir, en la regresin lineal el coeficiente de determinacin coincide con el de correlacin lineal al cuadrado. Adems las varianzas de la regresin y residual se pueden determinar tambin en funcin de
2 rXY :
2 Y*
= r s
2 XY
2 Y
s = (1 r ) s
2 E 2 XY
2 Y
210
Anlisis de Regresin.
diente
2 ( 1 rXY ) 100
rXY
ndice
Ficha
211
5.4. Regresin no lineal: potencial y exponencial. Dada una serie de datos bivariantes elegida
Ajuste potencial
y = a x b a y b parmetros. y = a b x a y b parmetros.
Ajuste exponencial
212
Anlisis de Regresin.
y = a xb
Para determinar los parmetros La expresin
y = a xb
ln y * = ln a + b ln x .
Sobre la expresin anterior se opera un ajuste lineal:
llamando
u = ln x v = ln y v = A + b u , v = ln y A = ln a
V sobre U.
es decir, se obtiene la
recta de regresin de
213
Se obtienen riable
( U ,V ) (ln X ,ln Y ):
sUV b= 2 sU A = v bu .
a:
A = ln a a = anti ln A a = e A .
Ejemplo 5.4.
214
Anlisis de Regresin.
y = a bx
Para determinar los parmetros La expresin
y = a bx
ln y * = ln a + x ln b .
Sobre la expresin anterior se opera un ajuste lineal:
llamando
v = ln y v = ln y v = A + Bx , A = ln a B = ln b
V sobre X.
es decir, se obtiene la
recta de regresin de
215
Se obtienen variable
( X ,V ) ( X ,ln Y ):
s XV B= 2 sX A = v B x.
a y b:
A = ln a a = anti ln A a = e A . B B = ln b b = anti ln B b = e
Ejemplo 5.5.
216
Anlisis de Regresin.
Conceptos clave.
Ajuste Bondad de ajuste coeficiente de determinacin. Coeficiente de regresin. Correlacin Error cuadrtico medio (ECM). Principio mnimos cuadrados. Recta de regresin mnimo-cuadrtica Regresin Regresin no lineal Residuo Varianza de la regresin Varianza residual
217
EJEMPLOS
Ejemplo 5.1. Se ha estudiado las calificaciones de 100 alumnos en dos asignaturas: Estadstica (variable X) y Matemticas Financieras (variable Y), obtenindose los siguientes datos:
x =110
y = 2,5
SX =10
Adems se sabe que el coeficiente de correlacin entre ambas es Obtener la recta de regresin de Y/X.
218
Anlisis de Regresin.
Ejemplo 5.2. Analizar la bondad de los ajustes efectuados en el ejemplo anterior calculando la varianza residual, la varianza de la regresin y el coeficiente de determinacin. (Capacidad explicativa de la recta de regresin).
219
Ejemplo 5.3. En la estimacin de los parmetros de un modelo de regresin lineal se han obtenido los siguientes valores:
x=5
y=8
s XY = 15
s = 20 r = 0 ,9
2 Y 2
A partir de los datos anteriores determnese: 1. La varianza de X 2. La recta de regresin X/Y 3. La recta de regresin Y/X. Solucin: 1) 12,5 2) a=-1, b=0,75 3) a =2, b =1,2
220
Anlisis de Regresin.
33 260 840
yi* = a x ib
Solucin:
yi* = 4 x i3
221
X Y Se pide:
1 2
2 4
3 8
4 16
y* = a b x
Solucin:
a)y = 2
*
b ) ECM = 0
222
Anlisis de Regresin.
Ejemplo 5.6. A partir de los siguientes datos de las variables X1, X2 y X3, obtener: X1 1 2 3 4 X2 3 0 1 -1 X3 1 2 -1 -1
a) El plano de regresin de X1/X2,X3 y la bondad del ajuste efectuado. b) La matriz de correlacin. c) El coeficiente de correlacin parcial entre X1 y X2. Solucin: a) X1* = 3 - 0,5 X2 0,5 X3
2 RX
=1
1
c) r12.3= -1
TEMA 6
TASAS DE VARIACIN Y NMEROS NDICES
224
225
OBJETIVOS DE APRENDIZAJE. Definir el concepto de nmero ndice y tasa de variacin. Estudiar los tipos de nmeros ndices complejos ms relevantes tipo Laspeyres y Paasche, haciendo especial hincapi en los ndices de precios. Acercar el perodo de referencia o la base de una serie de ndices al perodo actual, operando cambios de base. Enlace de series de ndices utilizando el cambio de base. Deflactacin de magnitudes econmicas expresadas en u.m. corrientes, utilizando ndices de precios.
226
BIBLIOGRAFA BSICA (teora y problemas) ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005. Tema 5 para tema 6. (Con ejercicios, cuestiones de autoevaluacin y problemas resueltos y propuestos). MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997. Captulo 7.
227
6.1. INTRODUCCIN. Los instrumentos que se van a definir, servirn para medir la evolucin del valor de una variable en el tiempo o en el espacio. Normalmente se tratar de variables de tipo socioeconmico. Una variable de esta naturaleza se denominar magnitud. Se comparar el valor de una magnitud en dos situaciones (habitualmente temporales): Situacin inicial: perodo de referencia o BASE, se denotar por 0 Situacin final: perodo actual que se pretende comparar con el base, se denotar por t
228
(Y ,Y ,...,Y ,...,Y )
1 2 i n
valores :
perodo perodo
229
Tasa de variacin de
(t 1) t
TV
t t 1
y t y t 1 yt =Yt = = 1 y t 1 y t 1
Tasa de variacin de
0t
y t y0 y t TV = = 1 y0 y0
t 0
230
6.3. NMEROS NDICES. CLASIFICACIN Y PROPIEDADES. 6.3.1 Definicin y clasificacin. NMERO NDICE: medida estadstica de tipo relativo (en tanto por uno o porcentaje) que sirve para comparar el valor de una magnitud (variable) en dos situaciones, una de las cuales se considera de referencia (base). Los nmeros ndices se escriben en PORCENTAJE, tomando como referencia el 100.
NMEROS
) i
231
6.3.2. ndices simples Sea Y una magnitud simple y sean rodo BASE y el perodo ACTUAL. Se denotar el NDICE SIMPLE del perodo 0 al perodo t por:
y0 e y t
yt I = y0
t 0
I 0t 100
(en porcentaje).
yt y0 yt TV = = 1 = I 0t 1 y0 y0
t 0
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
232
NOTA: las series de ndices se suelen expresar de dos formas fundamentalmente: INDICES CON BASE FIJA 0: NDICES EN CADENA: rior).
I 0t
(con base el ao inmediatamente ante-
I tt1
Ejemplo 6.1.
233
234
Si se denota por
y it Ii = I ( i ) = yi 0
t 0
ble i sima (i = 1, 2,, n), las formas de definir ndices complejos SIN PONDERAR y PONDERADOS quedan como siguen: INDICES COMPLEJOS SIN PONDERAR. 1. MEDIA ARITMTICA de ndices simples:
1 n 1 n y it I = Ii = n i =1 n i =1 y i 0 IA =
y y
i =1 i =1 n
it
2. MEDIA AGREGATIVA:
io
235
NDICES COMPLEJOS PONDERADOS. Se denotar por i la ponderacin de la variable i sima de la magnitud compleja. 1. MEDIA ARITMTICA ponderada:
I =
i i
IA
y = y
i i i0
it
236
6.3.4. Propiedades. 1. EXISTENCIA: el valor de un ndice ha de ser finito y distinto de cero. 2. IDENTIDAD: cuando 3. INVERSIN: Dado
0t
t 0
I 00 = I tt = 1
1 I I = t I0
y t y t' = y t + kyt = ( 1 + k ) y t I 0t' = ( 1 + k )I 0t
4. PROPORCIONALIDAD:
I 0h I ht = I 0t .
237
6.4. NDICES DE PRECIOS Y CANTIDADES. Se van a definir ndices complejos ponderados para magnitudes tipo PRECIO Y CANTIDAD utilizando la siguiente notacin: Magnitud PRECIO:
Pi ( i = 1,2 ,...,n ) con ndice SIMPLE Qi ( i = 1,2 ,...,n ) con ndice SIMPLE
p it I (i ) = pi0
t 0
Magnitud CANTIDAD:
qit I (i ) = qi 0
t 0
Se destacarn los dos tipos de ndices complejos ponderados ms importantes para precio y cantidad: TIPO LASPEYRES y TIPO PAASCHE, que sern medias aritmticas ponderadas de ndices simples.
238
Se definir el ndice complejo de valor como una media agregativa sin ponderar.
239
6.4.1. ndices de PRECIOS complejos ponderados. PONDERACIN TIPO LASPEYRES: ponderacin fija PONDERACIN TIPO PAASCHE: ponderacin variable
NDICE DE LASPEYRES DE PRECIOS
i = pi 0 qi 0 i = pi 0 qit
p it p it p i 0 q it pi 0 qi 0 t t I 0 ( i )i = p i 0 I 0 ( i )i = pi 0 t t P0 ( P ) = L0 ( P ) = i p i 0 q it i pi 0 qi 0
p q L (P)= p q
t 0 it i0
i0 i0
p q P (P)= p q
t 0 it i0
it it
240
6.4.2. ndices de CANTIDAD complejos ponderados. PONDERACIN TIPO LASPEYRES: ponderacin fija PONDERACIN TIPO PAASCHE: ponderacin variable
NDICE DE LASPEYRES DE CANTIDAD
i = q i 0 p i 0 i = q i 0 p it
q it q it q i 0 p it qi 0 pi 0 t t I 0 ( i )i = q i 0 I 0 ( i )i = qi 0 t t P0 ( Q ) = L0 ( Q ) = i qi 0 pi 0 i q i 0 p it
q p L (Q ) = q p
t 0 it i0
i0 i0
q p P (Q )= q p
t 0 it i0
it it
Ejemplo 6.2.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
241
6.4.3. ndice complejo de valor. Se define el ndice complejo de valor como una media agregativa: cociente entre el valor de la magnitud compleja en el perodo t (actual) y el valor de la magnitud compleja en el perodo 0 (referencia). NDICE DE VALOR
v = p q IV = v p q
t 0 it it i0 i0
it i0
Concretamente es fcil comprobar que se cumple la siguiente relacin entre los ndices de Laspeyres y Paasche:
242
I 0t
I 00 = 100 .
Si se quiere cambiar la base de la serie de ndices del perodo 0 a un perodo h posterior (h>0) se proceder como sigue: Teniendo en cuenta la propiedad cclica para los perodos 0, h y t se tiene la siguiente relacin:
I 0h I ht = I 0t .
I 0t 0 h I ht = h I0
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
243
I 0h .
h 0 I 0h I ht = I 0t
Los cambios de base se utilizan para RENOVAR la base (acercarla a un perodo ms actual) o para ENLAZAR O EMPALMAR series de ndices que aparecen en distintas bases y expresarlos en una NICA base.
Ejemplo 6.3.
PROBLEMA 6.2
244
6.6. DEFLACTACIN. Concepto: transformar el valor de una magnitud en precios corrientes del perodo t (valor nominal) a un valor en precios constantes de un perodo fijo 0 (valor real). De esta forma se puede comparar de una manera ms homognea y realista como va evolucionando el valor de una magnitud en diferentes perodos de tiempo. Esto se consigue dividiendo el valor a precios corrientes por un ndice de precios adecuado que denominaremos DEFLACTOR.
valor a precios corrientes(t) deflactor ( ndice de precios base perodo 0) = valor a precios constantes (0)
245
vt = pt q t
v ot = p0 q t
pt I = p0
t 0
0t
se tiene que:
vt v ot
vt pt qt = = p 0 q t = v ot . t pt I0 p0
ndice Ficha
246
Vt = p it q it
i =1
V0 t = p i 0 q it
I =1
Vt p it q it = p q = V = i 0 it 0 t t P0 ( P ) p it q it p i 0 q it
ES UN DEFLACTOR EXPLCITO Se obtiene el valor de la magnitud a precios constantes del perodo 0.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha
247
Se puede comprobar fcilmente que si se deflacta con el ndice de precios de LASPEYRES el resultado no es tan explcito pero se utiliza igualmente. Ejemplo 6.5.
248
Conceptos clave:
Cambio de base. Deflactacin. ndice de Laspeyres. ndice de Paasche. ndice simple y complejo. ndices de precios. ndices en cadena. Nmero ndice. Perodo base. Serie de ndices con base fija. Tasa de variacin.
249
EJEMPLOS.
Ejemplo 6.1. Los salarios anuales (en euros) de los oficiales administrativos en una empresa han evolucionado durante el perodo 2001-2005 de la forma siguiente: Aos 2001 2002 2003 2004 2005 Salarios Anuales 15.350,00 15.887,25 16.363,87 17.018,42 17.648,10
a) Construye una tabla de ndices simples salariales
con base el ao 2001. b) Construye otra serie de ndices con base el ao inmediatamente anterior. c) Por ltimo construye otra tabla que indique la tasa de variacin del salario anual respecto al ao inmediatamente anterior.
250
Ejemplo 6.2. Una empresa fabrica tres tipos de artculos: A, B y C. La siguiente estadstica nos proporciona los precios y las cantidades producidas de dichos artculos durante los aos 1990-1992. Aos Artculo A B C 1990 1991 1992
pi0
2 5 3
qi0
10 12 5
pit
2 6 6
qit
15 10 8
pit
4 8 9
qit
20 5 10
251
Ejemplo 6.3. Los siguientes ndices salariales reflejan la evolucin de los salarios en un determinado sector durante 7 aos, consecuencia de las negociaciones entre los sindicatos y los empresarios del sector:
ndice Base 95
aos
a) Expresa la serie de ndices 1998 b) Expresa los ndices con base mente anterior c) Qu porcentaje aumentaron al 96? d) Qu porcentaje aumentaron al 98? e) Y del 2000 al 2001?
Solucin: c) el 5%
d) el 13,02%
e) el 2,5%
252
Ejemplo 6.4. El valor de un bien en 1992 es un 20% superior al que tena en 1986 y un 9% superior a su valor en 1990. Cul era el valor relativo de ese bien en 1990 respecto a 1986?
90 Solucin: un 10% superior, I 86 = 1,10
253
Ejemplo 6.5. El salario mnimo interprofesional, en euros corrientes, ha sufrido las siguientes variaciones durante el perodo 2001 2006: Aos 2001 2002 2003 2004 2005 2006
Salario mnimo 433,45 442,20 451,20 460,50 513,00 540,90 Si el I.P.C. durante esos mismos aos fue: Aos I.P.C. 2001 2002 2003 2004 2005 2006
(Fuente: Boletn de Estadsticas Laborales. Ministerio de Trabajo y Asuntos Sociales. Contacto: www.ine.es)
Estdiese la evolucin del salario mnimo en trminos reales y nominales durante el perodo 01 06. (En valor absoluto y en porcentaje). Obtngase la tasa de variacin interanual del salario (real y nominal). Solucin: El salario mnimo pasa de 433,45 a 459,87 constantes del 01, lo que, en trminos relativos, equivale a un aumento del 6,1%.
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha Texto
254
Ejemplo 6.6. Las pensiones se revalorizan anualmente segn la expectativa de crecimiento del IPC nacional. Si una pensin es de 540 euros/mes en el ao actual y la inflacin esperada para el ao que viene es del 3,2%, cul deber ser el importe de dicha pensin el ao prximo? Solucin: 557,28
TEMA 7
ANLISIS CLSICO DE SERIES TEMPORALES
256
257
OBJETIVOS DE APRENDIZAJE. Descomposicin de una serie temporal en cuatro componentes siguiendo un esquema multiplicativo. Obtencin de la ecuacin de tendencia anual aplicando el principio de mnimos cuadrados a la serie temporal (t, Y). Obtencin de la ecuacin de tendencia k esimal a partir de la anual. Cambios de origen en las ecuaciones de tendencia. Utilidad de las ecuaciones de tendencia para hacer predicciones. Los ndices de variacin estacional (IVE) como indicadores de la componente estacional de una serie, bajo hiptesis de estacionalidad estable. Utilidad de los IVE para corregir por estacionalidad las predicciones de la tendencia.
258
BIBLIOGRAFA BSICA (teora y problemas) ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005. Tema 6 para tema 7. (Con ejercicios, cuestiones de autoevaluacin y problemas resueltos y propuestos). MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997. Captulo 8 para tema 7.
259
7.1. INTRODUCCIN. Una SERIE TEMPORAL se puede definir como una sucesin de valores ordenados en el tiempo y generados por una variable cuya referencia es una unidad temporal. A la variable objeto de estudio se la denomina VARIABLE DE INTERS: A la variable tiempo se la representar por: t. Se considerar al par un valor de
Y.
260
7.2. COMPONENTES DE UNA SERIE TEMPORAL. El anlisis clsico de series temporales distingue cuatro componentes para el estudio descriptivo de la misma.
1. TENDENCIA
Tt :
decir, si crece, decrece o permanece estable en largos perodos de tiempo y sin oscilaciones. 2. CCLICA
Ct :
261
3. ESTACIONALIDAD S t : movimientos oscilatorios de la variable de inters Y en perodos inferiores al ao. (Variaciones estacionales). Cuando son repetitivos cada ao se habla de la regularidad de la componente estacional (estacionalidad estable). 4. IRREGULAR
It
variable de inters que no explican el resto de componentes (deficiencias del modelo). DESCOMPOSICIN DE UNA SERIE TEMPORAL. MODELO ADITIVO:
Yt = Tt + Ct + S t + I t
MODELO MULTIPLICATIVO:
Yt = Tt Ct S t I t .
262
Tt
Mtodo que se va a utilizar para determinar la tendencia de la serie: MTODO ANALTICO. Otros mtodos: medias mviles y alisado exponencial. El MTODO ANALTICO consiste en la obtencin de la ecuacin de una funcin que ponga la variable de inters
y t* = f ( t )
Esta funcin se obtendr por medio de un ajuste lineal mnimo cuadrtico:
y t* = a + bt
Recta de regresin de
Y sobre t
Rafael Dez, Vicente Coll y Olga Blasco
ndice
Ficha
263
La TENDENCIA de la serie
Tt
Y: y t
Tt = y t*
Tt = a + bt
ecuacin de tendencia (recta de tendencia) proporciona la tendencia lineal de la serie a largo plazo.
264
t.
Se analizar la TENDENCIA desde una doble perspectiva: ANUAL: tiempo t en aos. K ESIMAL: tiempo
SEMESTRES k = 2 tendencia semestral. CUATRIMESTRES k = 3, tendencia cuatrimestral. TRIMESTRES k = 4 tendencia trimestral. BIMESTRES k = 6 tendencia bimensual. MESES k = 12 tendencia mensual.
265
7.3.1. Tendencia anual. La ecuacin de tendencia anual se obtendr por una ajuste lineal mnimo cuadrtico en la variable PASOS A SEGUIR: 1. El tiempo vendr en aos y los datos sern anuales. Si los valores de la serie res
(t ,Y ).
yt
yt
t0
t' = t t 0 ,
266
Tt' = a + bt'
t en aos, origen t = 0, t = t0 (parte central del ao t0.) CAMBIO DE ORIGEN EN LA ECUACIN DE TENDENCIA ANUAL. Si
Tt = a + bt
267
7.3.2. Tendencia Kesimal. Tendencia de la serie a largo plazo, pero el tiempo vendr en k simos (trimestres, meses...). La ECUACIN DE TENDENCIA K ESIMAL se obtendr a partir de la anual como sigue: 1. Sea
Tt = a + bt
t = 0.
a b b Tt = + t , k k k
t a k simos
268
(k) t'
a b = + 2 t' k k
El tiempo ORIGEN:
t viene en k simos.
anual)
269
TRASLADO DEL ORIGEN DE LA ECUACIN DE TENDENCIA K ESIMAL AL CENTRO DEL PRIMER K SIMO. Sobre la ecuacin anterior se operar el siguiente cambio de origen:
tonces los 3x4 = 12 trimestres de los tres aos quedan: Ejemplo 7.3.
Rafael Dez, Vicente Coll y Olga Blasco
ndice
Ficha
270
St .
St
Para simplificar el anlisis de la componente estacional se supondr un comportamiento estacional repetitivo cada ao en la serie temporal (ESTACIONALIDAD ESTABLE). Adems, se asumir, en un esquema MULTIPLICATIVO, que con el anlisis de la tendencia realizado se ha obtenido una componente conjunta de TENDENCIA CICLO
Tt C t .
271
As, se partir, para el anlisis de las variaciones estacionales, de una situacin inicial:
yt = Tt S t I t
(Tt representa a la tendencia y el ciclo) Los indicadores de la COMPONENTE ESTACIONAL
St
que se denominan NDICES DE VARIACIN ESTACIONAL (IVE). Se obtendrn aislando la componente estacional en la relacin anterior.
272
7.4.1. Obtencin de los IVE. MTODO DE LA RAZN A LA TENDENCIA. Pasos a seguir: 1. A partir de la ecuacin de tendencia k esimal
Tt
(k)
a b k 1 = + 2 t k k 2
Tt
susti-
y t Tt S t I t = = St I t Tt Tt
Rafael Dez, Vicente Coll y Olga Blasco
ndice
Ficha
273
St I t
k MOVIMIENTOS ESTACIONALES,
IVE( i ) =
k 100 ME( i )
k i =1
ME( i )
Ejemplo 7.4.
274
ASPECTO DE LOS IVE. Los IVE son nmeros ndices, y por tanto vendrn en porcentaje o tanto por uno. La referencia es el 100.
IVE(i) = 100, significa que en el k simo (i) los valores que toma la
serie no tienen un comportamiento estacional que difiera de la tendencia usual de la serie.
IVE(i) > 100 (< 100), significa que en el k simo (i) los valores que
toma la serie son usualmente mayores (menores), a los que tendra en un comportamiento sin efecto estacional. NOTA: como el ao est subdividido en k partes, habr un
IVE( i ) = k
i =1
o ( kx100 )
Rafael Dez, Vicente Coll y Olga Blasco
ndice
Ficha
275
yt
desestacionalizado ser:
yt Dt = IVE( i )
Datos que supuestamente hubisemos observado de no haber existido influencia estacional. Ejemplo 7.5.
(Ver ejercicio 6.6 del libro ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005. pgina 226).
276
7.5. PREDICCIN Y CORRECCIN POR ESTACIONALIDAD. 7.5.1. Prediccin de la tendencia. A partir de las ecuaciones de tendencia:
( 1 ) Tt = a + bt
(2)T
(k) t'
t = 0 en el ao t0. t = 0 en el pri-
a b k 1 = + 2 t' k k 2
mer k simo del ao t0. Se pueden obtener PREDICCIONES de la tendencia: (1) predicciones anuales de la tendencia para un ao t = 0 ,1,2 ,...,( N 1 ) .
t determinado t determi-
(2) Predicciones k esimales de la tendencia para un k simo nado t' = 0 ,1,2 ,...,( kN 1 )
277
Tt '( k ) ( i )
res de la serie en ese k simo, la prediccin CORREGIDA POR ESTACIONALIDAD se obtendr multiplicando la prediccin de tendencia por el IVE respectivo:
Tt '( k ) ( i ) xIVE ( i ) .
Ejemplo 7.6.
278
Conceptos clave. Componente estacional. Dato desestacionalizado. Ecuacin de tendencia. ndice de variacin estacional (IVE). Prediccin corregida por estacionalidad. Prediccin de la tendencia. Serie temporal. Tendencia anual. Tendencia k-esimal. Tendencia.
279
EJEMPLOS.
Los ejemplos de este tema dedicado a las series temporales estn basados en los datos del Ejemplo 7.1 y siguen el desarrollo terico del tema. Ejemplo 7.1. Vamos a analizar la siguiente serie temporal Yt: volumen de ventas trimestrales de una pequea empresa (en miles de euros), calculando la TENDENCIA, aislando la COMPONENTE ESTACIONAL (IVE) y desestacionalizando la serie. Supondremos un esquema multiplicativo y estacionalidad estable. DATOS: ventas trimestrales durante el perodo 2000 a 2002.
2001 15 25 8 30 78
2002 17 29 9 33 88
280
SERIE TEMPORAL
35 30 25 ventas 20 15 10 5 0
1 2 3 4 1 2 3 4 1 2 3 4 2000 2001 2002
trimestres
281
Ejemplo 7.2. A partir de las ventas trimestrales de una empresa en el periodo 2000-02 (datos facilitados en el Ejemplo 7.1), calcular la ecuacin de tendencia anual con origen en el ao 2000. Solucin: Para calcular la ecuacin lineal de tendencia anual con origen el ao 2000, en primer lugar tomamos como valores de la serie los totales anuales de la variable Yt. Para hallar la lnea de tendencia utilizamos un mtodo analtico: ajustamos una recta por el mtodo mnimos cuadrados.
282
Clculos previos
Ao t 2000 2001 2002 Totales t'=t-2000 0 1 2 3 a01 1,00 75,33 Yt 60 78 88 226 a02 5809,33 (Yt)2 3600 6084 7744 17428 a20 1,67 (t')2 0 1 4 5 a11 84,67 t'Yt 0 78 176 254
2 m02 = S2Y m11 = St'Y Momentos m20 = S t' centrales 0,67 134,22 9,33
Parmetros b 14,00
a 61,33
r2 0,974
r 0,987
283
t = 0, 1, 2....aos. Ecuacin de tendencia anual. Origen: t0 = 2000, ao 0. Unidad: un ao. La bondad del ajuste es
284
Ejemplo 7.3. A partir de la ecuacin de tendencia anual obtenida en el Ejemplo 7.2 (Tt' 2000. Solucin: Ecuacin de la tendencia trimestral (k = 4).
= 61,33 + 14t'
285
t = 4t (t en trimestres). En general t = kt (t en k-simos); K = 2 semestres, k = 12 meses... En nuestro caso transformamos la variable t (tiempo medio en aos) en otra t medida en trimestres, haciendo el cambio t = 4t:
61.33 14 t' ' 61.33 14 t' ' (4) t' = Tt' ' = + = + 2 t' ' 4 4 4 4 4 4
Por tanto, la ecuacin de tendencia trimestral quedar:
(t en trimestres)
286
Cambiamos el origen de la ecuacin de tendencia trimestral al primer trimestre de 2000: el origen lo situamos en la parte central del trimestre, nos trasladamos un trimestre y medio hacia la izquierda:
287
Tt'(' 4 ) = 15 ,33 + 0 ,875( t' ' 1,5 ) = 15 ,33 + 0 ,875( 1,5 ) + 0 ,875t' ' = = 14 ,0175 + 0 ,875t' '
Con lo cual,
288
Con la ecuacin anterior, evaluamos la tendencia para cada uno de los 12 trimestres de la serie (3 aos por 4 trimestres). Dando valores a t = 0, 1, 2, ...,11, obtenemos la siguiente tabla:
Tt'' 1r Trimestre 2 Trimestre 3r Trimestre 4 Trimestre 2000 14,0175 14,8925 15,7675 16,6425 2001 17,5175 18,3925 19,2675 20,1425 2002 21,0175 21,8925 22,7675 23,6425
TABLA 2 Tendencia para cada trimestre: forma una serie aritmtica de razn 0,875 = b/42. En general b/k2.
289
SERIE TEMPORAL
VENTAS
35 30 25 ventas 20 15 10 5 0
1 2 2000 3 4 1 2 3 2001 4 1 2 2002 3 4
tendencia
trimestres
290
Ejemplo 7.4. A partir de las ventas trimestrales (datos originales, TABLA 1) y la tendencia trimestral (resultados del Ejemplo 7.3, TABLA 2), calcular los ndices de variacin estacional (IVE), interpretar su significado y representar grficamente la componente estacional. Solucin: Eliminamos la tendencia y el ciclo (dividimos los datos originales por su correspondiente tendencia trimestral, supuesto un esquema multiplicativo): TABLA 1/TABLA 2 = TABLA 3.
291
2001 15 25 8 30
2002 17 29 9 33
TABLA1 TABLA3
1r Trimestre 2 Trimestre 3r Trimestre 4 Trimestre 2000 0,7134 1,4101 0,2537 1,5022 2001 0,8563 1,3592 0,4152 1,4894 2002 0,8088 1,3247 0,3953 1,3958 Suma 2,3785 4,0940 1,0642 4,3874
TABLA2
ME(i)
0,7928 1,3647 0,3547 1,4625 3,9747
IVE%
79,79 137,34 35,70 147,18 400,00
Eliminamos las variaciones irregulares promediando los valores obtenidos sin tendencia en cada trimestre para todos los aos, es decir, calculando lo que llamaremos MOVIMIENTOS ESTACIONALES (ME): medias aritmticas de los valores sin tendencia para cada trimestre. (ver TABLA 3):
Rafael Dez, Vicente Coll y Olga Blasco ndice Ficha Texto
292
ME(i) i = 1, 2,..., k Calculamos los ndices de Variacin Estacional (IVE): Teniendo en cuenta que un ndice representa un cambio porcentual sobre una base de referencia del 100%, en este caso los cuatro ME deberan sumar 4 (o 400 en porcentaje) para que representaran de una forma consistente la componente estacional por trimestre. Pero suman 3,9747, por lo que procede un ligero ajuste tcnico para que sumen 4. De esta forma obtenemos los ME ajustados o NDICES DE VARIACIN ESTACIONAL (IVE):
IVE( i ) =
En este caso k = 4 (trimestres).
ME( i )
ME( i )
i =1
k 100
293
160 140 120 100 IVE 80 60 40 20 0 1 2 3 4 1 2 3 4 1 2 3 4 2000 2001 trimestres 2002 35,70 35,70 35,70 79,79 79,79 79,79 137,34 147,18 137,34 147,18 137,34 147,18
294
Significado de los IVE: los IVE representan el efecto estacional para cada trimestre. Al suponer estacionalidad estable, son los mismos para todos los aos de la serie, as: 4 trimestre: IVE (4) = 147,18. Las ventas de la empresa son un 47.18% superiores (147,18 - 100) al nivel medio de referencia que sera 100. 3 trimestre: IVE (3) = 35,70. Las ventas de la empresa son un 64,30 inferiores (35,70 - 100) al nivel medio de referencia.
295
Ejemplo 7.5. Desestacionalizar la serie de ventas trimestrales (datos originales, TABLA 1). Solucin: Eliminamos la estacionalidad de la serie dividiendo los datos originales (Tabla 1) por los IVE de cada trimestre expresados en tantos por uno. Tabla 1 / IVE = Tabla 4
1r Trimestre 2 Trimestre 3r Trimestre 4 Trimestre Totales Yt 2000 10 21 4 25 60 2001 15 25 8 30 78 2002 17 29 9 33 88 IVE 0,7979 1,3734 0,3570 1,4718 4,0000 2000 12,5329 15,2905 11,2045 16,9860 2001 18,7993 18,2030 22,4090 20,3832 2002 21,3059 21,1155 25,2101 22,4215
TABLA 1
296
La serie desestacionalizada contiene los valores que supuestamente hubiramos observado de no haber existido ninguna influencia estacional. Vemos que hay una diferencia significativa con los datos originales, sobre todo en el tercer trimestre.
Datos desestacionalizados
Dt ventas desestacionalizadas
30 25 20 15 10 5 0
1 2 3 4 1 2 3 4 1 2 3 4 2000 2001 2002
trimestres
297
Ejemplo 7.6. A partir de la ecuacin de tendencia trimestral con origen el trimestre central del ao 2000
298
Anlogamente lo podemos hacer a partir de la ecuacin con origen el primer trimestre del 00: